老黃人在北京侃侃而談,沒想到轉眼老家被“偷”,客戶變對手。
特斯拉的最新消息,Dojo二代晶片量產進入倒計時,效能比第一代提高10倍,算力直逼輝達Blackwell B200晶片。
這很可能會讓特斯拉FSD實現“自產自訓”,從此擺脫輝達的束縛,甚至能向外部提供算力。
更關鍵的是,特斯拉表示,Dojo 2超算能讓資料訓練速度激增一個數量級,也意味著FSD的最佳化能再上一個台階。
不過在馬斯克這兒,還不夠。
算力更強、效能巔峰的Dojo第三代晶片,時間表也定了,明年就推出。
據外媒平台Not a Tesla App稱,特斯拉新一代Dojo 2晶片,已和全球最大的半導體製造商——台積電達成合作,年底前進入量產階段。
台積電方面也透露過,第二代Dojo的訓練模組已投入生產,且採用了台積電最新的封裝技術。
特斯拉多次表示,Dojo 2晶片已經接近輝達Blackwell B200水平——這是輝達最新一代的AI晶片,性能也最強。
在馬斯克的另一家公司X平台上,也有人分享了這個消息:
不少「特粉」表示,足夠令人振奮。
因為這意味著,特斯拉實現了從感測器到超算的垂直AI能力,即將擺脫輝達的束縛:
甚至,特斯拉未來可以向外提供算力,成為輝達的對手。
而自研晶片最利多的就是成本,特斯拉將有能力以前所未有的速度擴大規模:
還有網友已經「預見」到未來的驚天巨變,認為Dojo 2很有可能會改變汽車和AI產業的遊戲規則:
也有人對真實性存疑,畢竟,馬斯克定下的ddl總是設定在年末,但真正兌現的情況並不多見:
不過,馬斯克倒是在評論區現身說法,回應很簡潔:“Dojo 2是一台很好的電腦”,算是暗戳戳地肯定了量產時間屬實。
緊接著他又講了個經典的電腦硬體性能笑話——
Dojo 2可以以每秒十億幀的速度玩《孤島危機》。
提醒一下不知道的朋友,《孤島危機》是2007年發行的一款遊戲,起初對配置要求極高,不知道燒壞了多少顯示卡,被玩家一致調侃為「顯示卡危機」。
後來是輝達向遊戲官方提供了技術支援,輝達曾多次用“可以玩《孤島危機》”,證明其配置硬核。
現在,這個玩笑也被馬斯克也拿出來證明Dojo二代晶片的性能,算是裡奇外外都和輝達對標了。
那麼Dojo到底有多厲害,能和全球第一的AI公司槓上?
所謂Dojo,就是馬斯克親自推動、為了訓練FSD神經網路而自研的AI超級計算平台。
關於「Dojo」的概念,最早是在2019年特斯拉的自動駕駛日上,被馬斯克和AI團隊首次提及。
馬斯克多次強調,視覺是實現FSD的關鍵,強大的神經網路需要大量視訊資料訓練。
特斯拉的純視覺方案,每天會產生1,600億幀的視訊資料。
這些影片需要逐一進行分析、標記和處理,幫助FSD不斷學習新的邊緣場景(即不可預測的罕見情況),這對於堅持不用雷射雷達的特斯拉而言至關重要。
而當時,即便強如輝達,其算力也很難滿足特斯拉對大規模視訊訓練的需求,並且缺乏針對視訊訓練的專用指令集。
這讓特斯拉產生了自研晶片、打造高效能視訊訓練超算的念頭。因為一旦成功,特斯拉的FSD訓練效率將從根本上改變。
在這種背景下,第一代Dojo及其自研晶片D1,首次亮相於2021年的特斯拉AI Day上,不過當時還只是Demo。
D1晶片是Dojo的核心,由台積電7nm工藝製造,有500億個電晶體,晶片面積為645mm²,小於輝達的A100(826 mm²)和AMD的Arcturus(750 mm²)。
每個晶片有354個訓練處理節點,以及440MB的靜態隨機儲存器,BF16精度下算力高達362TFLOPs,一塊晶片功耗只有400W。
D1晶片測試完成後,會被封裝到Dojo訓練瓦片(Tile)上,每個瓦片容納25顆D1,這就是最終的Dojo。
當時的Dojo有超過50萬個訓練節點,每個模組算力為9 petaflops,每秒36 TB的區塊外頻寬。
而120個Dojo組合在一起,就是當時超算的頂級配置-Dojo ExaPOD,集結3000塊D1晶片,擁有超1百萬個訓練節點,算力達到1.1EFLOP。
不過,特斯拉也表示,當時的D1晶片還無法完全為Dojo提供運算支援,需要和輝達的GPU一起工作,之後會逐步擴大D1和Dojo使用的佔比。
隔年9月,特斯拉展示了首個Dojo機櫃,進行了2.2兆瓦的負載測試,還展示了運行Stable Diffusion模型生成「火星Cybertruck」圖像的能力,以證明其AI訓練通用性。
直到2024年1月,特斯拉投資5億美元(約36億元),在紐約工廠打造了Dojo叢集,承擔起特斯拉5%~10%的智慧輔助駕駛訓練資料量。
只不過,特斯拉這時候仍是「自研+合作」雙路徑運行,沒有擺脫對輝達的依賴。
但這一切,可能都會隨著今年Dojo 2晶片的量產而改變。
據特斯拉透露,新一代Dojo晶片仍由台積電代工,解決了上一代Dojo的靜默資料損耗(SDC)和功耗問題,效能將比上一代提升10倍。
靜默資料損壞,就是超算有缺陷的節點,可能導致耗時數周的AI模型訓練產生錯誤結果,或使收斂速度顯著放緩,而這種缺陷很難被第一時間檢測。
而Dojo 2實現效能大漲,原因來自多方面,包括最佳化了D1的核心架構,採用更密集的mesh網路互聯架構擴展頻寬,模組化規模更大、整合度更高等等。
其中最值得一提的是台積電的最新封裝技術—InFO-SoW。
這是一種晶圓級系統整合技術,就是把整個晶圓當作一個整體,把多顆晶片、電源模組、散熱結構等直接整合在晶圓上,而不再是傳統方式中先切割晶圓,再單獨封裝晶片的方法。
Dojo將直接在整片晶圓上整合25個計算晶片,在645平方毫米的晶片上放置500億個電晶體,單晶粒提供362 TFlops的運算能力。
也就是說,一個晶圓就相當於一個超算模組,單一Dojo就擁有9 Petaflops(每秒千兆次)的算力。
同時,新的封裝技術取消傳統封裝中的基板(PCB)和中介層,晶片之間透過超高密度金屬布線直接進行高頻寬連接,資料傳輸速度翻倍增長。
散熱模組則直接整合在晶圓背面,熱量透過金屬板快速匯出,顯著改善了散熱問題。
據特斯拉介紹,Dojo 2已經能夠達到接近、甚至部分超越輝達B200的水平。
例如其單訓練瓦片算力可達1000 TOPS,高於B200單晶片的900 TOPS;Dojo 2的瓦片模組間頻寬達36TB/s,也是B200的NVLink 5(10TB/s)的3.6倍。
也就是說,特斯拉或許很快就能脫離外部GPU的依賴,實現「計算自由」。
而且,Dojo雖然是為FSD而生,卻也適用於其他應用領域,例如同樣需要「視覺」的特斯拉機器人柯博文。
此外,Dojo 2還不是特斯拉超算實力的終點。
馬斯克曾表示,Dojo實現起來“可能不抱希望”,並且應當是“三代出巔峰”。 Dojo 3將是特斯拉超算的最強水平,性能還會是Dojo 2的40倍。
而Dojo 3的推出時間已經不遠,預計2026年就會問世。
馬斯克不愧是馬斯克。
從公開首次提出概念,到二代產品即將追平世界頂尖水平,不過六年時間。
其實透過特斯拉的例子看中國汽車業,同樣大有啟發。
馬斯克之前,中國車圈沒有類似的先例。
現在,雖然能完全獨立的超算晶片還沒真正看到落地,但他的做法已經給了中國車圈啟發。
自動駕駛發展,有三大核心要素:算力、資料、演算法,它們也統稱為AI基礎設施。
現在,車圈已經有不少玩家和特斯拉類似,在這些AI基礎設施上佈局。
演算法方面,不用多說,這是各家車企最先爭奪的智慧化戰場。
資料方面,比亞迪在深圳建構了超級資料閉環平台,資料每日回傳規模達PB等級,蔚來在上海與合肥建立了雙資料中心,與部分外部雲平台(阿里、AWS)一起協同工作。
算力方面,有蔚來自研的神璣NX9031晶片,小鵬自研的圖靈晶片。
也有比亞迪成立先進技術研發中心,自建AI超算平台,吉利、長城、蔚小理等也都打造了自己的智算中心。
透過這些車企動作,可以得出一個汽車產業更遠的趨勢是:
車企智慧化戰場,已經從單純的智慧化功能疊加,轉向更持久的AI基礎建設能力。 (智慧車參考)