近日特斯拉解散Dojo團隊、負責人離職的消息甚囂塵上,也讓觀眾唏噓不已。近幾年來,對於一眾攤開身子去做訓練晶片的大公司也好,初創企業也好,都是血淋淋的教訓:Graphcore一度號稱“IPU對抗GPU”,最終被軟銀收購,結束獨立衝鋒;英特爾/Habana(Gaudi)路線多、生態分裂,近來逐步併入GPU/Falcon Shores體系,淡化獨立加速器路線;Cerebras堅持晶圓級(WSE)差異化,產品與訂單在增長,但商業化和生態仍遠未與CUDA 可比——這是“特種裝備”而非“通用平台”。自研訓練晶片這條道路,對絕大多數公司並不可行,能成的是極少數例外,不是可複製的範式。輝達又贏了。Dojo的“高開低走”Dojo 是特斯拉為「現實世界場景」模型訓練而自研的資料中心級訓練系統。 2019 年4 月,馬斯克在「Autonomy 投資者日」首次拋出Dojo 概念;2020 年8 月,他稱受限於供電與散熱,系統「還需大約一年」才能就緒。 2021 年8 月的AI Day 上,特斯拉正式發表D1 與Training Tile,並同步公開CFloat8/16 白皮書,給外界描繪了一條「自研算力+自研數值格式」的硬派路線。在2022 年的AI Day上,特斯拉給出Dojo 的系統化擴展路徑:從自研D1 晶片→ Training Tile(5×5)→ System Tray → Cabinet → ExaPOD,目標是實現「超1 ExaFLOP 級」的ML 運算能力。D1:台積電7nm,約500 億晶體管,645 mm²,354 個計算核心;單芯BF16/CFP8 ≈ 362 TFLOPS。Training Tile:25 顆D1 組成一塊水冷Tile,BF16 ≈ 9 PFLOPS,以高頻寬片間互聯為賣點。市場對Dojo 的預期曾被推到高點——2023 年,摩根士丹利曾估算Dojo 可能為特斯拉帶來約5,000 億美元的增量價值。直到2025 年Q2 財報會上,馬斯克仍表示Dojo 2 的目標是對標約10 萬台H100 等價物。但現實層面,專案最終叫停。期間多位核心技術負責人相繼離開:2018 年,最初受聘領導特斯拉晶片工作的Jim Keller 離職;隨後Ganesh Venkataramanan 接棒,2023 年離開並創立DensityAI;近年來持續主導晶片專案的Peter Bannon 亦已離職,Dojo 專案隨之收尾。更指向性的證據來自於並行路線的推進。早在2024 年Q4,特斯拉在奧斯汀上線「Cortex」 訓練叢集(對外口徑約5 萬張H100),並在Q2'25 股東信裡揭露新增1.6 萬H200,使整體規模約等於6.7 萬張H100。這說明Dojo 未能成為主力產線,特斯拉則更多轉向「購買成熟GPU平台」。事實也證明,買卡比造卡更快:除特斯拉外,馬斯克體系的xAI/“Colossus” 同樣大規模採用輝達GPU,並配套Spectrum-X 以太網做超大規模組網——連網絡棧都被輝達打包交付。亡羊補牢,為時未晚如今,特斯拉及時扭轉局勢。訓練側:外採為主。特斯拉把主力訓練轉向可即時部署、可線性擴容、生態成熟的輝達(並補充部分AMD),把「模型訓練周轉率(Time-to-Train)」拉回商業節奏。推理側:自研為主。與三星敲定165 億美元長期代工協議(AI6),將車載/機器人/邊緣推理算力自控在手,貼近產品、風險更低、迭代更快。組織面:約20 位原訓練團隊成員加入DensityAI,其餘併入公司資料中心/算力工程,避免在尚未收斂的訓練晶片路線繼續「燒時間」。這套組合拳很務實:訓練端“買成熟產線”,推理端“做自己最懂的場景”,既把Time-to-Train 和Time-to-Market 拉回到商業節奏內,也避免在生態戰裡被迫充當“軟體平台提供者”。Dojo專案的倒閉可能對特斯拉來說並不是一個很大的損失。 8月8日,馬斯克在社交平台X上回應amit網友稱: “沒有必要同時擴展兩條截然不同的訓練晶片路線;Tesla AI5、AI6 以及後續晶片在推理方面將非常出色,至少在訓練方面也相當不錯。所有精力都集中在這上面。”他還進一步補充道,“在超算叢集中,無論是用於推理還是訓練,將許多AI5/AI6 晶片放在一塊板上是合乎情理的,這僅僅是為了將網絡佈線的複雜性和成本降低幾個數量級。我想,這可以稱之為Dojo 3。”“AI4 和AI5 之間在實際性能上的差異,遠超我所知的所有版本”。為什麼「自研訓練晶片」這麼難?1)生態與軟體壁壘訓練晶片不是單晶片競賽,框架適配、編譯器、核心庫、平行策略、調優工具鏈才是吞時間的黑洞。輝達把CUDA/cuDNN/各類平行庫打磨了十幾年,後來者很難追平這個「隱形工程量」。業界多家廠商在軟體成熟度上“掉鍊子”,訓練端難以穩定釋放算力密度。2)系統工程與供應鏈先進封裝(CoWoS/SoIC)、HBM 供給、機櫃/供電/散熱、互聯拓樸、群集調度、可靠性工程,任何一環不夠強,TCO 就會被市售GPU 平台反殺。尤其是先進封裝和HBM這兩塊,2025年NVIDIA至少鎖定台積電CoWoS-L 七成產能的報導頻出,HBM市場由SK hynix/三星/美光三強主導,且HBM3E→HBM4 的節奏被各家緊緊盯住。沒有這些供給保障,自研方案即便流片成功,也會在封裝與記憶體上「卡脖子」。3)需求與現金流節奏自研要靠穩定、可預期且超大規模的自用訓練需求攤薄巨額前期投入。除Google(TPU)和AWS(Trainium)這類雲端巨頭,鮮有人能把「晶片—叢集—雲端服務」連結成正循環。Meta訓練芯也在逐步嘗試,今年3月根據路透社的報導,Meta正在測試首款AI 訓練晶片,消息人士稱,測試部署是在Meta完成晶片的首次「流片」後開始的。這款晶片是該公司元訓練和推理加速器(MTIA) 系列的最新產品。不過該專案多年來發展一直不太順利,甚至一度在類似的開發階段放棄一款晶片。目前Meta的MITA晶片仍以推理為主,用於確定那些內容出現在Facebook 和Instagram 新聞推送中的推薦系統。Meta 高層表示,他們希望在2026 年開始使用自己的晶片進行訓練,或進行運算密集型流程,為AI 系統提供大量資料以「教導」它如何執行。與推理晶片一樣,訓練晶片的目標是從推薦系統開始,然後用於聊天機器人Meta AI 等生成式人工智慧產品。4)機會成本AI時代下,輝達和AMD兩大AI晶片玩家都已代際升級以季度為單位推進,自研晶片的代次跨度很容易一上板就過時,落地即落後。現在AMD也補上了“可用的第二供應商”,6月份,AMD發布了其首次提交MLPerf訓練的結果,AMD的訓練成績也已經很能打(MLPerf 上與輝達可比/部分領先的負載出現了)。在AMD MLPerf Training v5.0 測試中,Instinct MI325X平台在微調Llama 2-70B-LoRA(一種廣泛用於客製化大型語言模型的工作負載)時,效能比NVIDIA H200 平台高出高達8%。在這種情況下,再走一條第三條自研路,邊際價值更小、失敗成本更高。Dojo 的叫停不等於「自研訓練晶片永無出路」。雲端巨頭例外依然成立:Google TPU、AWS Trainium 能跑通,是因為它們擁有超大、穩定的自用訓練需求+ 雲端服務生態+ 演算法/框架協同,能把「芯-機-雲-軟體」串成正循環。但對車企/應用公司而言,缺乏生態+ 缺供給鏈+ 節奏跟不上,機會成本才是終極殺手。輝達贏在那裡?輝達的勝利是系統性勝利。不只是GPU 領先,而是從矽到機架到網路到軟體的全端交付能力:硬體層:GPU + NVLink/NVSwitch + 高頻寬記憶體+ 機架級整機;網路層:InfiniBand 與Spectrum-X 乙太網路兩套方案,涵蓋不同客戶偏好與成本模型;軟體層:CUDA 體系與全端程式庫/工具,保障「可用算力/周」;交付層:從整櫃到整機房的“交鑰匙工程”,縮短客戶的Time-to-Train。一個典型的案例:GB200 NVL72——72 張Blackwell GPU + 36 顆Grace CPU 的液冷整櫃,一個機櫃內構成72-GPU 的NVLink 統一域,對外就像一塊超大加速器;第五代NVLink/ NVSwitch 還能把多個機櫃無阻塞到576 GPU。這不是“堆卡”,而是把互聯、內存、軟體、上電與運維做成可交付的“AI 工廠”對於去自研AI訓練晶片的廠商而言,很多時候,他們並不是技術不可行,而是時間、資金與生態的綜合算術不合。當你在流血做“芯—板—機—叢集—軟體—網絡”的全棧整合時,輝達已經把GPU+ NVLink/NVSwitch/Spectrum-X + CUDA/cuDNN + DGX/GB 系統一整套“AI 工廠”賣給了你的對手與合作夥伴,“買輝達= 立刻可用的AI 工廠”輝達在機架級產品(如GB 系列)與網路(Spectrum-X/InfiniBand 以外的乙太網路解法)上持續前移,將「可用算力/周」最大化。 2024年10月28日,NVIDIA利用NVIDIA Spectrum-X乙太網路平台,實現了100,000個NVIDIA Hopper GPU相連,這就是位於田納西州孟菲斯的xAI Colossus 超級電腦叢集,其主要用於訓練馬斯克的Grok大模型。 xAI和NVIDIA僅用122天就建成了配套設施和最先進的超級計算機,而這種規模的系統通常需要數月甚至數年的時間。從第一個機架滾到地面到訓練開始,整個過程只花了19 天。輝達的「系統+ 軟體+ 生態+ 交付能力」的複合護城河,正在把每一個「自研訓練晶片」的商業試驗拖回現實。對於輝達而言,如今最大的變數和對手是AMD,AMD在性價比、特定工作負載(如微調)上持續追近,會壓縮自研路線的“理論窗口期”,但短期難撼動輝達的系統與軟體領先。接下來很長一段時間,「訓練自研,推理解耦」將成為非雲端巨頭的主流策略:訓練上公版平台,推理做自家SoC/ASIC,把能沉澱差異化的算力放在端側/產品內。結語特斯拉關掉Dojo,不是輸給了一塊更強的晶片,而是輸給了一個更強的「產業系統」。 自研訓練晶片這條路,對絕大多數公司而言不具可複製性;而在「買卡+ 更快上線+ 產品側自控推理」的組合裡,輝達再次贏下了時間、生態與現金流的三重賽點。輝達的再次勝利,是對整個產業的一次提醒:在AI 基建時代,速度與生態,就是一切。參考連結【1】https://en.wikipedia.org/wiki/Tesla_Dojo?utm_source=chatgpt.com【2】https://www.reuters.com/technology/artificial-intelligence/meta-begins-testing-its-first-in-house-ai-training-chip-2025-03-11/?utm_source=chatgpt.com【3】https://www.bloomberg.com/news/articles/2025-08-07/tesla-disbands-dojo-supercomputer-team-in-blow-to-ai-effort【4】https://www.reuters.com/business/autos-transportation/tesla-shuts-down-dojo-supercomputer-team-reassigns-workers-amid-strategic-ai-2025-08-07/【5】https://www.amd.com/en/blogs/2025/amd-drives-ai-gains-with-mlperf-training-results.html?utm_source=chatgpt.com (半導體產業觀察)