#DOJO
特斯拉放棄Dojo超級電腦 自研ASIC晶片宣告失敗
特斯拉似乎已經放棄了定製的Dojo超級電腦項目,轉而更多依賴輝達和AMD的AI計算需求。這一戰略轉變出現在特斯拉解散Dojo團隊並停止開發定製的晶圓級處理器的報導之後。據《Tom's Hardware》和AInvest的報導,情況如下:Dojo的終結特斯拉一直在開發其Dojo超級電腦,旨在為AI訓練,特別是自動駕駛,提供定製解決方案。然而,報告表明該項目已經大幅縮減或放棄,團隊已被解散。焦點轉移根據AInvest的消息,特斯拉現在優先考慮面向推理的AI晶片(AI5/AI6),預計將用於2026年及以後的消費者產品。這一轉變表明,特斯拉正從定製的ASIC開發轉向利用現有的商用硬體。外部晶片戰略特斯拉據報導正在與三星電子和英特爾建立新的合作關係,滿足其AI計算需求,標誌著其AI基礎設施戰略的重大變化。這包括將輝達晶片用於訓練和推理任務。轉變原因這種轉變可能有幾個原因:定製ASIC開發的挑戰:開發定製ASIC是一個複雜且資源密集的過程,特斯拉可能在實現Dojo所需的性能和成本效益方面遇到了困難。推理重點:特斯拉的AI戰略已經發生變化,現在更加注重推理(運行AI模型),而不僅僅是訓練。這可能導致它們優先使用現成的、高性能的推理晶片,如輝達的產品。資源分配:開發和部署Dojo需要大量資源,特斯拉可能決定將更多資源投入到其他領域,如改進現有的自動駕駛技術和擴展消費者產品線,這樣可能是更高效的資源利用方式。Wedbush分析師表示,“我們認為這條新聞提醒我們,開發定製ASIC並不容易,儘管亞馬遜和Google在內部矽片項目上顯然取得了成功,但這些產品只有在經過長期時間後才成熟並帶來收益。”馬斯克的解釋儘管最初的報告建議完全放棄Dojo,但埃隆·馬斯克後來在X上澄清,特斯拉仍在使用輝達晶片,並且Dojo項目目前處於暫停狀態。他還提到,公司將擴大輝達H100晶片的部署,用於訓練自動駕駛技術。影響這一轉變可能對特斯拉的自動駕駛計畫產生重大影響,可能會影響完全自動駕駛能力的實現時間表。然而,它也讓特斯拉能夠利用成熟晶片製造商的專業技術和資源,可能加速其在其他領域的進展。 (超算百科)
又一顆晶片,被輝達打敗
近日特斯拉解散Dojo團隊、負責人離職的消息甚囂塵上,也讓觀眾唏噓不已。近幾年來,對於一眾攤開身子去做訓練晶片的大公司也好,初創企業也好,都是血淋淋的教訓:Graphcore一度號稱“IPU對抗GPU”,最終被軟銀收購,結束獨立衝鋒;英特爾/Habana(Gaudi)路線多、生態分裂,近來逐步併入GPU/Falcon Shores體系,淡化獨立加速器路線;Cerebras堅持晶圓級(WSE)差異化,產品與訂單在增長,但商業化和生態仍遠未與CUDA 可比——這是“特種裝備”而非“通用平台”。自研訓練晶片這條道路,對絕大多數公司並不可行,能成的是極少數例外,不是可複製的範式。輝達又贏了。Dojo的“高開低走”Dojo 是特斯拉為「現實世界場景」模型訓練而自研的資料中心級訓練系統。 2019 年4 月,馬斯克在「Autonomy 投資者日」首次拋出Dojo 概念;2020 年8 月,他稱受限於供電與散熱,系統「還需大約一年」才能就緒。 2021 年8 月的AI Day 上,特斯拉正式發表D1 與Training Tile,並同步公開CFloat8/16 白皮書,給外界描繪了一條「自研算力+自研數值格式」的硬派路線。在2022 年的AI Day上,特斯拉給出Dojo 的系統化擴展路徑:從自研D1 晶片→ Training Tile(5×5)→ System Tray → Cabinet → ExaPOD,目標是實現「超1 ExaFLOP 級」的ML 運算能力。D1:台積電7nm,約500 億晶體管,645 mm²,354 個計算核心;單芯BF16/CFP8 ≈ 362 TFLOPS。Training Tile:25 顆D1 組成一塊水冷Tile,BF16 ≈ 9 PFLOPS,以高頻寬片間互聯為賣點。市場對Dojo 的預期曾被推到高點——2023 年,摩根士丹利曾估算Dojo 可能為特斯拉帶來約5,000 億美元的增量價值。直到2025 年Q2 財報會上,馬斯克仍表示Dojo 2 的目標是對標約10 萬台H100 等價物。但現實層面,專案最終叫停。期間多位核心技術負責人相繼離開:2018 年,最初受聘領導特斯拉晶片工作的Jim Keller 離職;隨後Ganesh Venkataramanan 接棒,2023 年離開並創立DensityAI;近年來持續主導晶片專案的Peter Bannon 亦已離職,Dojo 專案隨之收尾。更指向性的證據來自於並行路線的推進。早在2024 年Q4,特斯拉在奧斯汀上線「Cortex」 訓練叢集(對外口徑約5 萬張H100),並在Q2'25 股東信裡揭露新增1.6 萬H200,使整體規模約等於6.7 萬張H100。這說明Dojo 未能成為主力產線,特斯拉則更多轉向「購買成熟GPU平台」。事實也證明,買卡比造卡更快:除特斯拉外,馬斯克體系的xAI/“Colossus” 同樣大規模採用輝達GPU,並配套Spectrum-X 以太網做超大規模組網——連網絡棧都被輝達打包交付。亡羊補牢,為時未晚如今,特斯拉及時扭轉局勢。訓練側:外採為主。特斯拉把主力訓練轉向可即時部署、可線性擴容、生態成熟的輝達(並補充部分AMD),把「模型訓練周轉率(Time-to-Train)」拉回商業節奏。推理側:自研為主。與三星敲定165 億美元長期代工協議(AI6),將車載/機器人/邊緣推理算力自控在手,貼近產品、風險更低、迭代更快。組織面:約20 位原訓練團隊成員加入DensityAI,其餘併入公司資料中心/算力工程,避免在尚未收斂的訓練晶片路線繼續「燒時間」。這套組合拳很務實:訓練端“買成熟產線”,推理端“做自己最懂的場景”,既把Time-to-Train 和Time-to-Market 拉回到商業節奏內,也避免在生態戰裡被迫充當“軟體平台提供者”。Dojo專案的倒閉可能對特斯拉來說並不是一個很大的損失。 8月8日,馬斯克在社交平台X上回應amit網友稱: “沒有必要同時擴展兩條截然不同的訓練晶片路線;Tesla AI5、AI6 以及後續晶片在推理方面將非常出色,至少在訓練方面也相當不錯。所有精力都集中在這上面。”他還進一步補充道,“在超算叢集中,無論是用於推理還是訓練,將許多AI5/AI6 晶片放在一塊板上是合乎情理的,這僅僅是為了將網絡佈線的複雜性和成本降低幾個數量級。我想,這可以稱之為Dojo 3。”“AI4 和AI5 之間在實際性能上的差異,遠超我所知的所有版本”。為什麼「自研訓練晶片」這麼難?1)生態與軟體壁壘訓練晶片不是單晶片競賽,框架適配、編譯器、核心庫、平行策略、調優工具鏈才是吞時間的黑洞。輝達把CUDA/cuDNN/各類平行庫打磨了十幾年,後來者很難追平這個「隱形工程量」。業界多家廠商在軟體成熟度上“掉鍊子”,訓練端難以穩定釋放算力密度。2)系統工程與供應鏈先進封裝(CoWoS/SoIC)、HBM 供給、機櫃/供電/散熱、互聯拓樸、群集調度、可靠性工程,任何一環不夠強,TCO 就會被市售GPU 平台反殺。尤其是先進封裝和HBM這兩塊,2025年NVIDIA至少鎖定台積電CoWoS-L 七成產能的報導頻出,HBM市場由SK hynix/三星/美光三強主導,且HBM3E→HBM4 的節奏被各家緊緊盯住。沒有這些供給保障,自研方案即便流片成功,也會在封裝與記憶體上「卡脖子」。3)需求與現金流節奏自研要靠穩定、可預期且超大規模的自用訓練需求攤薄巨額前期投入。除Google(TPU)和AWS(Trainium)這類雲端巨頭,鮮有人能把「晶片—叢集—雲端服務」連結成正循環。Meta訓練芯也在逐步嘗試,今年3月根據路透社的報導,Meta正在測試首款AI 訓練晶片,消息人士稱,測試部署是在Meta完成晶片的首次「流片」後開始的。這款晶片是該公司元訓練和推理加速器(MTIA) 系列的最新產品。不過該專案多年來發展一直不太順利,甚至一度在類似的開發階段放棄一款晶片。目前Meta的MITA晶片仍以推理為主,用於確定那些內容出現在Facebook 和Instagram 新聞推送中的推薦系統。Meta 高層表示,他們希望在2026 年開始使用自己的晶片進行訓練,或進行運算密集型流程,為AI 系統提供大量資料以「教導」它如何執行。與推理晶片一樣,訓練晶片的目標是從推薦系統開始,然後用於聊天機器人Meta AI 等生成式人工智慧產品。4)機會成本AI時代下,輝達和AMD兩大AI晶片玩家都已代際升級以季度為單位推進,自研晶片的代次跨度很容易一上板就過時,落地即落後。現在AMD也補上了“可用的第二供應商”,6月份,AMD發布了其首次提交MLPerf訓練的結果,AMD的訓練成績也已經很能打(MLPerf 上與輝達可比/部分領先的負載出現了)。在AMD MLPerf Training v5.0 測試中,Instinct MI325X平台在微調Llama 2-70B-LoRA(一種廣泛用於客製化大型語言模型的工作負載)時,效能比NVIDIA H200 平台高出高達8%。在這種情況下,再走一條第三條自研路,邊際價值更小、失敗成本更高。Dojo 的叫停不等於「自研訓練晶片永無出路」。雲端巨頭例外依然成立:Google TPU、AWS Trainium 能跑通,是因為它們擁有超大、穩定的自用訓練需求+ 雲端服務生態+ 演算法/框架協同,能把「芯-機-雲-軟體」串成正循環。但對車企/應用公司而言,缺乏生態+ 缺供給鏈+ 節奏跟不上,機會成本才是終極殺手。輝達贏在那裡?輝達的勝利是系統性勝利。不只是GPU 領先,而是從矽到機架到網路到軟體的全端交付能力:硬體層:GPU + NVLink/NVSwitch + 高頻寬記憶體+ 機架級整機;網路層:InfiniBand 與Spectrum-X 乙太網路兩套方案,涵蓋不同客戶偏好與成本模型;軟體層:CUDA 體系與全端程式庫/工具,保障「可用算力/周」;交付層:從整櫃到整機房的“交鑰匙工程”,縮短客戶的Time-to-Train。一個典型的案例:GB200 NVL72——72 張Blackwell GPU + 36 顆Grace CPU 的液冷整櫃,一個機櫃內構成72-GPU 的NVLink 統一域,對外就像一塊超大加速器;第五代NVLink/ NVSwitch 還能把多個機櫃無阻塞到576 GPU。這不是“堆卡”,而是把互聯、內存、軟體、上電與運維做成可交付的“AI 工廠”對於去自研AI訓練晶片的廠商而言,很多時候,他們並不是技術不可行,而是時間、資金與生態的綜合算術不合。當你在流血做“芯—板—機—叢集—軟體—網絡”的全棧整合時,輝達已經把GPU+ NVLink/NVSwitch/Spectrum-X + CUDA/cuDNN + DGX/GB 系統一整套“AI 工廠”賣給了你的對手與合作夥伴,“買輝達= 立刻可用的AI 工廠”輝達在機架級產品(如GB 系列)與網路(Spectrum-X/InfiniBand 以外的乙太網路解法)上持續前移,將「可用算力/周」最大化。 2024年10月28日,NVIDIA利用NVIDIA Spectrum-X乙太網路平台,實現了100,000個NVIDIA Hopper GPU相連,這就是位於田納西州孟菲斯的xAI Colossus 超級電腦叢集,其主要用於訓練馬斯克的Grok大模型。 xAI和NVIDIA僅用122天就建成了配套設施和最先進的超級計算機,而這種規模的系統通常需要數月甚至數年的時間。從第一個機架滾到地面到訓練開始,整個過程只花了19 天。輝達的「系統+ 軟體+ 生態+ 交付能力」的複合護城河,正在把每一個「自研訓練晶片」的商業試驗拖回現實。對於輝達而言,如今最大的變數和對手是AMD,AMD在性價比、特定工作負載(如微調)上持續追近,會壓縮自研路線的“理論窗口期”,但短期難撼動輝達的系統與軟體領先。接下來很長一段時間,「訓練自研,推理解耦」將成為非雲端巨頭的主流策略:訓練上公版平台,推理做自家SoC/ASIC,把能沉澱差異化的算力放在端側/產品內。結語特斯拉關掉Dojo,不是輸給了一塊更強的晶片,而是輸給了一個更強的「產業系統」。 自研訓練晶片這條路,對絕大多數公司而言不具可複製性;而在「買卡+ 更快上線+ 產品側自控推理」的組合裡,輝達再次贏下了時間、生態與現金流的三重賽點。輝達的再次勝利,是對整個產業的一次提醒:在AI 基建時代,速度與生態,就是一切。參考連結【1】https://en.wikipedia.org/wiki/Tesla_Dojo?utm_source=chatgpt.com【2】https://www.reuters.com/technology/artificial-intelligence/meta-begins-testing-its-first-in-house-ai-training-chip-2025-03-11/?utm_source=chatgpt.com【3】https://www.bloomberg.com/news/articles/2025-08-07/tesla-disbands-dojo-supercomputer-team-in-blow-to-ai-effort【4】https://www.reuters.com/business/autos-transportation/tesla-shuts-down-dojo-supercomputer-team-reassigns-workers-amid-strategic-ai-2025-08-07/【5】https://www.amd.com/en/blogs/2025/amd-drives-ai-gains-with-mlperf-training-results.html?utm_source=chatgpt.com (半導體產業觀察)
老黃一夜被偷家!特斯拉Dojo 2晶片量產倒計時,算力直逼輝達最強B200
老黃人在北京侃侃而談,沒想到轉眼老家被“偷”,客戶變對手。特斯拉的最新消息,Dojo二代晶片量產進入倒計時,效能比第一代提高10倍,算力直逼輝達Blackwell B200晶片。這很可能會讓特斯拉FSD實現“自產自訓”,從此擺脫輝達的束縛,甚至能向外部提供算力。更關鍵的是,特斯拉表示,Dojo 2超算能讓資料訓練速度激增一個數量級,也意味著FSD的最佳化能再上一個台階。不過在馬斯克這兒,還不夠。算力更強、效能巔峰的Dojo第三代晶片,時間表也定了,明年就推出。特斯拉Dojo 2量產倒計時據外媒平台Not a Tesla App稱,特斯拉新一代Dojo 2晶片,已和全球最大的半導體製造商——台積電達成合作,年底前進入量產階段。台積電方面也透露過,第二代Dojo的訓練模組已投入生產,且採用了台積電最新的封裝技術。特斯拉多次表示,Dojo 2晶片已經接近輝達Blackwell B200水平——這是輝達最新一代的AI晶片,性能也最強。在馬斯克的另一家公司X平台上,也有人分享了這個消息:不少「特粉」表示,足夠令人振奮。因為這意味著,特斯拉實現了從感測器到超算的垂直AI能力,即將擺脫輝達的束縛:甚至,特斯拉未來可以向外提供算力,成為輝達的對手。而自研晶片最利多的就是成本,特斯拉將有能力以前所未有的速度擴大規模:還有網友已經「預見」到未來的驚天巨變,認為Dojo 2很有可能會改變汽車和AI產業的遊戲規則:也有人對真實性存疑,畢竟,馬斯克定下的ddl總是設定在年末,但真正兌現的情況並不多見:不過,馬斯克倒是在評論區現身說法,回應很簡潔:“Dojo 2是一台很好的電腦”,算是暗戳戳地肯定了量產時間屬實。緊接著他又講了個經典的電腦硬體性能笑話——Dojo 2可以以每秒十億幀的速度玩《孤島危機》。提醒一下不知道的朋友,《孤島危機》是2007年發行的一款遊戲,起初對配置要求極高,不知道燒壞了多少顯示卡,被玩家一致調侃為「顯示卡危機」。後來是輝達向遊戲官方提供了技術支援,輝達曾多次用“可以玩《孤島危機》”,證明其配置硬核。現在,這個玩笑也被馬斯克也拿出來證明Dojo二代晶片的性能,算是裡奇外外都和輝達對標了。那麼Dojo到底有多厲害,能和全球第一的AI公司槓上?馬斯克佈局6年的關鍵基建所謂Dojo,就是馬斯克親自推動、為了訓練FSD神經網路而自研的AI超級計算平台。關於「Dojo」的概念,最早是在2019年特斯拉的自動駕駛日上,被馬斯克和AI團隊首次提及。馬斯克多次強調,視覺是實現FSD的關鍵,強大的神經網路需要大量視訊資料訓練。特斯拉的純視覺方案,每天會產生1,600億幀的視訊資料。這些影片需要逐一進行分析、標記和處理,幫助FSD不斷學習新的邊緣場景(即不可預測的罕見情況),這對於堅持不用雷射雷達的特斯拉而言至關重要。而當時,即便強如輝達,其算力也很難滿足特斯拉對大規模視訊訓練的需求,並且缺乏針對視訊訓練的專用指令集。這讓特斯拉產生了自研晶片、打造高效能視訊訓練超算的念頭。因為一旦成功,特斯拉的FSD訓練效率將從根本上改變。在這種背景下,第一代Dojo及其自研晶片D1,首次亮相於2021年的特斯拉AI Day上,不過當時還只是Demo。D1晶片是Dojo的核心,由台積電7nm工藝製造,有500億個電晶體,晶片面積為645mm²,小於輝達的A100(826 mm²)和AMD的Arcturus(750 mm²)。每個晶片有354個訓練處理節點,以及440MB的靜態隨機儲存器,BF16精度下算力高達362TFLOPs,一塊晶片功耗只有400W。D1晶片測試完成後,會被封裝到Dojo訓練瓦片(Tile)上,每個瓦片容納25顆D1,這就是最終的Dojo。當時的Dojo有超過50萬個訓練節點,每個模組算力為9 petaflops,每秒36 TB的區塊外頻寬。而120個Dojo組合在一起,就是當時超算的頂級配置-Dojo ExaPOD,集結3000塊D1晶片,擁有超1百萬個訓練節點,算力達到1.1EFLOP。不過,特斯拉也表示,當時的D1晶片還無法完全為Dojo提供運算支援,需要和輝達的GPU一起工作,之後會逐步擴大D1和Dojo使用的佔比。隔年9月,特斯拉展示了首個Dojo機櫃,進行了2.2兆瓦的負載測試,還展示了運行Stable Diffusion模型生成「火星Cybertruck」圖像的能力,以證明其AI訓練通用性。直到2024年1月,特斯拉投資5億美元(約36億元),在紐約工廠打造了Dojo叢集,承擔起特斯拉5%~10%的智慧輔助駕駛訓練資料量。只不過,特斯拉這時候仍是「自研+合作」雙路徑運行,沒有擺脫對輝達的依賴。但這一切,可能都會隨著今年Dojo 2晶片的量產而改變。據特斯拉透露,新一代Dojo晶片仍由台積電代工,解決了上一代Dojo的靜默資料損耗(SDC)和功耗問題,效能將比上一代提升10倍。靜默資料損壞,就是超算有缺陷的節點,可能導致耗時數周的AI模型訓練產生錯誤結果,或使收斂速度顯著放緩,而這種缺陷很難被第一時間檢測。而Dojo 2實現效能大漲,原因來自多方面,包括最佳化了D1的核心架構,採用更密集的mesh網路互聯架構擴展頻寬,模組化規模更大、整合度更高等等。其中最值得一提的是台積電的最新封裝技術—InFO-SoW。這是一種晶圓級系統整合技術,就是把整個晶圓當作一個整體,把多顆晶片、電源模組、散熱結構等直接整合在晶圓上,而不再是傳統方式中先切割晶圓,再單獨封裝晶片的方法。Dojo將直接在整片晶圓上整合25個計算晶片,在645平方毫米的晶片上放置500億個電晶體,單晶粒提供362 TFlops的運算能力。也就是說,一個晶圓就相當於一個超算模組,單一Dojo就擁有9 Petaflops(每秒千兆次)的算力。同時,新的封裝技術取消傳統封裝中的基板(PCB)和中介層,晶片之間透過超高密度金屬布線直接進行高頻寬連接,資料傳輸速度翻倍增長。散熱模組則直接整合在晶圓背面,熱量透過金屬板快速匯出,顯著改善了散熱問題。據特斯拉介紹,Dojo 2已經能夠達到接近、甚至部分超越輝達B200的水平。例如其單訓練瓦片算力可達1000 TOPS,高於B200單晶片的900 TOPS;Dojo 2的瓦片模組間頻寬達36TB/s,也是B200的NVLink 5(10TB/s)的3.6倍。也就是說,特斯拉或許很快就能脫離外部GPU的依賴,實現「計算自由」。而且,Dojo雖然是為FSD而生,卻也適用於其他應用領域,例如同樣需要「視覺」的特斯拉機器人柯博文。此外,Dojo 2還不是特斯拉超算實力的終點。馬斯克曾表示,Dojo實現起來“可能不抱希望”,並且應當是“三代出巔峰”。 Dojo 3將是特斯拉超算的最強水平,性能還會是Dojo 2的40倍。而Dojo 3的推出時間已經不遠,預計2026年就會問世。馬斯克不愧是馬斯克。從公開首次提出概念,到二代產品即將追平世界頂尖水平,不過六年時間。其實透過特斯拉的例子看中國汽車業,同樣大有啟發。AI基礎設施,中國車企的新戰場馬斯克之前,中國車圈沒有類似的先例。現在,雖然能完全獨立的超算晶片還沒真正看到落地,但他的做法已經給了中國車圈啟發。自動駕駛發展,有三大核心要素:算力、資料、演算法,它們也統稱為AI基礎設施。現在,車圈已經有不少玩家和特斯拉類似,在這些AI基礎設施上佈局。演算法方面,不用多說,這是各家車企最先爭奪的智慧化戰場。資料方面,比亞迪在深圳建構了超級資料閉環平台,資料每日回傳規模達PB等級,蔚來在上海與合肥建立了雙資料中心,與部分外部雲平台(阿里、AWS)一起協同工作。算力方面,有蔚來自研的神璣NX9031晶片,小鵬自研的圖靈晶片。也有比亞迪成立先進技術研發中心,自建AI超算平台,吉利、長城、蔚小理等也都打造了自己的智算中心。透過這些車企動作,可以得出一個汽車產業更遠的趨勢是:車企智慧化戰場,已經從單純的智慧化功能疊加,轉向更持久的AI基礎建設能力。 (智慧車參考)