2026年開年,AI晶片領域就傳出兩則重磅的消息:
埃隆·馬斯克在社交平台確認特斯拉重啟Dojo 3超級電腦項目,其表示特斯拉將成為全球最大的AI晶片廠商;
同為AI晶片行業的重要參與者Cerebras Systems則與OpenAI則與敲定了一份價值超百億美元、承諾交付750兆瓦算力的多年採購協議,該產能將在2028年前分批投入使用。
一個是自研訓練晶片的“死而復生”,一個是晶圓級系統的商業突破——兩條迥異新聞背後,讓“大晶片”這一曾被視為異類的技術路線再次站回了聚光燈下。
在AI晶片的演進史上,大晶片從來不是一個精確的技術術語,而更像是對兩種截然不同設計的概括。
一種是以Cerebras為代表的晶圓級單片整合,另一種則是特斯拉Dojo這類介於單晶片與GPU叢集之間的“晶圓級系統”。前者追求大道至簡,用一整片300毫米晶圓建構單一處理器,後者則走中間路線,通過先進封裝將多個預測試晶片整合為類單晶片系統。
這種分野的根源,在於對“記憶體牆”和“互連瓶頸”兩大痛點的不同解法。
傳統GPU架構下,處理器與記憶體的分離導致資料不斷在HBM與計算核心間往返。根據技術文獻,輝達從A100到H100,計算能力增加約6倍,但記憶體頻寬僅增長1.7倍,這種失衡讓訓練時間的主導因素從計算能力轉向了記憶體頻寬。而多GPU系統更是將這種開銷放大——即便NVLink 6.0已將單GPU頻寬推至3.6TB/s,晶片間通訊的延遲依然是片上互聯的數百倍。
2024年發佈的Cerebras WSE-3用4兆電晶體、90萬個AI核心和44GB片上SRAM給出了一個自己的答案:把計算和儲存塞進同一塊矽片,讓資料足不出戶就能完成處理。其片上互聯頻寬達到214Pbps,是輝達H100系統的3715倍,記憶體頻寬高達21PB/s,是H100的880倍。這種極致的整合密度帶來了極致的性能提升,在Llama 3.1 8B模型上跑出1800 token/s的生成速度,而H100僅為242 token/s。
但這種極致也帶來了極致的工程挑戰。一整片晶圓的良率問題幾乎是反摩爾定律的:面積越大,缺陷機率指數級上升。Cerebras的破局之道是將每個AI核心縮小到0.05平方毫米——僅為H100 SM核心的1%,並通過冗餘設計和智能路由繞過缺陷區域。這種蟻群式的容錯機制讓單顆晶片即便存在瑕疵也能維持整體性能,但代價是需要專門的韌體對應和複雜的散熱系統,WSE-3的23千瓦功耗需要定製的液冷循環和混合冷卻劑。
相比之下,特斯拉Dojo走的是介於兩者之間的晶圓級系統路線。D1晶片本身只有645平方毫米,但通過5×5陣列排列在載片上,利用台積電InFO封裝技術實現高密度互連,讓25顆晶片像單一處理器般協同工作。這種設計既避免了單片晶圓的良率風險.每顆D1都可以預先測試,又在一定程度上緩解了多晶片系統的互聯瓶頸,晶片間延遲僅100納秒,遠低於傳統GPU叢集的毫秒級。
2025年8月,彭博社報導特斯拉解散Dojo超算團隊,這一度被視為自研訓練晶片路線的終結。但在短短半年後,Dojo就迎來了重啟,二它背後邏輯也已發生根本性轉變。
馬斯克在社交平台透露,AI5晶片設計狀況良好,特斯拉將重啟Dojo 3的工作,其將採用AI6或AI7晶片,目標不再是訓練地球上的自動駕駛模型,它將專注於“太空人工智慧計算”。
這個轉向耐人尋味。原本Dojo被定位為對標10萬張H100的通用訓練平台,摩根士丹利一度估值其能給特斯拉帶來5000億美元增量。但現實是核心團隊接連離職,項目在2024年底被叫停,特斯拉轉而採購6.7萬張H100等效算力組建Cortex叢集。背後原因不難理解,儘管D1紙面性能強大,但訓練晶片的關鍵並不是單晶片性能。
輝達的護城河,是CUDA生態的十幾年積累、CoWoS先進封裝產能的鎖定、HBM供應鏈的深度繫結。對比之下,特斯拉的自研Dojo2方案即便流片成功,也要在軟體適配、叢集調度、可靠性工程上補課數年,而這段時間輝達早已迭代兩至三代產品。
特斯拉如今選擇的是訓練外采和推理自研,其本質上是對機會成本的重新計算。馬斯克表示,特斯拉在兩種完全不同的AI晶片設計上分散資源不合理,AI5、AI6及後續晶片在推理方面將非常出色,至少在訓練方面也相當不錯。AI5晶片採用3nm製程,由台積電代工,預計2026年底量產,單顆性能接近輝達Hopper等級,雙晶片配置則可接近Blackwell架構。
在競爭愈發激烈的當下,大晶片路線的生存空間究竟有多大?
要知道,AI晶片市場早已人滿為患,去年6月,AMD推出了MI350X和MI355X兩款GPU,訓練及推理速度與 B200 相當或更優,而在今年1月,輝達又在CES上推出了Rubin平台,這兩家晶片早已到了一個令人咋舌的更新速度。
當GPU市場走向一超多強,留給第三條技術路線的窗口期急劇縮小——客戶可以用AMD這樣的通用GPU廠商避險輝達,何必冒險押注尚未成熟的晶圓級系統?
大晶片再度走入大家的視線,但“大”的邊界似乎已悄然改變。
首先是物理尺寸上的“大”——Cerebras那塊佔據整片晶圓的單晶片依然是技術奇蹟,但商業價值被限定在特定場景。Cerebras WSE系統大約需要200萬至300萬美元,迄今為止部署在阿貢國家實驗室、梅奧診所等機構,以及與G42合作的Condor Galaxy設施。
其次是系統整合度上的“大”——無論是特斯拉的晶圓級封裝,還是輝達GB200 NVL72的整櫃方案——正在成為主流。
最後是商業模式上的“大”——這是真正的分水嶺。OpenAI與Cerebras的合作被廣泛視為領先科技公司吸收有前途的AI晶片初創公司的又一例證,無論是通過直接收購,還是通過獨家、大規模的商業合作關係,有效地將這些初創公司納入一個主導的生態系統。SambaNova、Groq和Cerebras各自採用了不同的技術方案,多年來被視為少數幾家能夠在特定工作負載方面與AI晶片市場行業領導者競爭的利基挑戰者,但隨著競爭加劇和客戶接受度持續有限,許多此類初創公司難以突破與主要客戶的試點部署階段。
特斯拉Dojo的停擺與重啟,本質上是一次昂貴的商業試錯——它驗證了全端自研訓練晶片對非雲巨頭不具可複製性,但也為推理側的自主可控保留了技術儲備。Cerebras與OpenAI的聯姻,則是在推理爆發前夜的一次精準卡位,用晶圓級架構的極致性能換取垂直場景的定價權。
在摩爾定律放緩、先進封裝接力、AI場景碎片化的三重背景下,晶圓級整合這條看似小眾的技術路線,正在以意想不到的方式重新定義“大”的邊界。
它們不是要復刻輝達的成功,而是在AI算力版圖的裂隙中,找到那些被通用方案忽視的價值窪地。從這個意義上說,它不是崛起或沒落的二元敘事,而是一場關於如何在巨人陰影下生存,並最終開闢新疆域的持久戰。 (EDA365電子論壇)