特斯拉抗衡輝達失敗,自研晶片要涼?

特斯拉禍不單行。一邊全球大裁員,一邊經歷「黑色星期五」。

4月19日,美股AI概念股們迎來了慘烈的「黑色星期五」。

輝達暴跌10%,每股跌近85美元,創2020年3月16日以來最大單日跌幅,刷新史上最大單日跌幅紀錄。競爭對手AMD大跌5.4%,晶片設計公司Arm跌近17%,晶圓代工龍頭台積電稍微好一點,跌超3%。

作為上述晶片供應商的客戶,特斯拉也未能倖免,本週跌幅居首,大跌超過14%,市值在4月15日一天就蒸發304.33億美元(約合人民幣超2200億元)。

瑞穗證券駐場分析師喬丹·克萊因(Jordan Klein)表示,晶片領域“整個行業出現回撤”,過去一周左右時間裡,回撤速度一天比一天快。

這對正在加碼AI的特斯拉來說是個雪上加霜的壞消息。

2023年9月,摩根士丹利還曾預判,特斯拉用於訓練自動駕駛汽車人工智慧模型的超級電腦Dojo可能會給這家電動車製造商帶來“不對稱優勢”,使其市值增加近6000億美元。

自2022年年底開始,AI 應用全面爆發、勢不可擋,如今卻遭到機構對AI投資熱潮回檔。特斯拉重金投入的Dojo超級電腦專案晶片研發進展不理想,在無法All in的現實中,馬斯克聰明地作了兩手準備:儲備了足夠多的僅次於扎克伯格Meta的輝達晶片。

一位業內人士對汽車商業評論稱,從一開始就對馬斯克自研晶片不太看好。

「Dojo所使用的是一種用於大模型訓練的伺服器晶片,與在汽車上運行的軟體不同。其次,它(特斯拉)還沒準備好,製造晶片很不容易,需要時間累積。我覺得像其他人一樣購買現成的晶片是最好的路徑。

自建“道場”

特斯拉在2021年的「人工智慧日」(AI Day)上發表了Dojo,公佈了自研晶片D1。

這是特斯拉用於雲端訓練AI模型的超級計算機,名字來自日語,寓意為“道場”,象徵著它是作為訓練AI的地方。

Dojo旨在成為世界上最快的電腦之一,能夠處理大量的視訊數據,從而加速特斯拉Autopilot和全自動駕駛系統(FSD)的學習和改進,也為特斯拉的人形機器人Optimus提供計算支持。

Dojo的核心是特斯拉自主設計製造的神經網路訓練晶片D1以及基於此晶片構建的訓練模組、系統托盤和ExaPOD集群。

D1晶片採用台積電7奈米製程製造,這款晶片整合了500億個電晶體,並擁有354個訓練節點,每個節點都包含一個處理器核心、一個高速緩存、一個高頻寬記憶體和一個高速互連。 D1晶片的峰值算力高達362TFLOPS,頻寬達到36 TB/s。

為了進一步提高算力,特斯拉將25顆D1晶片進行無縫連接,形成訓練模組。每個訓練模組的峰值算力可達9PFLOPS,頻寬為900GB/s。

這些訓練模組建構了一個高密度、高效能、高可靠的系統托盤,每個托盤可容納10個訓練模組,並配備相應的電源、冷卻和網路設備。每個系統托盤的峰值算力達到90 PFLOPS,頻寬為9 TB/s。

最後,基於系統托盤,特斯拉建構了一個ExaPOD叢集。每個集群由10個系統托盤組成,安裝在一個機櫃中。一個ExaPOD機櫃模型的峰值算力高達900 PFLOPS,頻寬為90 TB/s。

作為Dojo落地形式的ExaPOD,由3000片D1晶片構成,單精度算力為1.1EFlops。

根據特斯拉的公開資料,Dojo基於特斯拉自研D1晶片,用於取代基於輝達A100的資料中心。截至2022年9月,該資料中心有1.4萬片A100,是全球第七大資料中心。

特斯拉計畫2023財年大概出貨4萬-5萬片D1,2023年7月第一個ExaPOD已經投入運營,且預計在短期內向Palo Alto數據中心投入6個ExaPOD,算力共7.7EFlops。到今年四季度,Dojo算力目標是達到100EFlops(約91個集群)。

在2023年7月下旬的第二季度電話會議中,馬斯克表示沒必要自造晶片,“如果輝達能夠給我們足夠的GPU,也許我們就不需要Dojo,但他們無法滿足我們的需求。”

在自研的重要節點上,2023年11月,負責Dojo超算計畫的負責人、同時也是特斯拉自動駕駛硬體資深總監加內什·文卡塔拉馬南(Ganesh Venkataramanan)離職,職位由前蘋果高層彼得班農(Peter Bannon)負責。彼時有消息稱,很可能是因為Dojo第二代晶片未達標,加內什遭到解僱。

加內什先前負責特斯拉Dojo超算計畫已達5年,在進入特斯拉之前,他曾在美國知名半導體公司AMD任職近15年。

加內什的離職,被認為是特斯拉自研晶片不力,或者沒有設想中那麼順利。

對馬斯克來說,他能採取的措施就是一邊想辦法自研,一邊購買合適的晶片。


設想與現實

一位網名為「whydoesthisitch」的深度學習研究人員研究AI晶片已久,他解析了馬斯克的Dojo無法依靠自研晶片的原因。

他認為,Dojo 仍可能處於相對早期的開發階段,即使它加緊追趕,在性能方面仍將落後輝達4 年以上。

今年3月20日,輝達投下了Blackwell B200 炸彈,這是下一代資料中心和AI GPU,將使得運算能力獲得巨大的世代飛躍。

Blackwell 包含三個部分:B100、B200 和Grace-Blackwell 超級晶片(GB200)。

新的B200 GPU 擁有2080 億個晶體管,可提供高達20petaFlops 的FP4 算力;GB200 將兩個GPU 和一個Grace CPU 結合在一起,可為LLM 推理工作負載提供30 倍的性能,同時還能大大提高效率。

輝達表示,與H100 相比,它的成本和能耗「最多可降低25 倍」。訓練一個1.8 兆個參數的模型以前需要8,000 個Hopper GPU 和15 兆瓦的電力,如今,2,000 個Blackwell GPU 就能完成這項工作,耗電量僅4 兆瓦。

在具有1,750 億個參數的GPT-3 LLM 基準測試中,GB200 的表現是H100 的7 倍,輝達稱其訓練速度是H100 的4 倍。

「而特斯拉確實誇大了晶片本身以及它們的開發進展,」「whydoesthisitch」認為,例如,特斯拉宣傳Dojo 突破了exaflop 算力、Dojo躋身世界上最強大的運算中心之列之時,谷歌在俄克拉荷馬州梅斯縣的資料中心已經安裝8 個TPUv4 系統Pods,該資料中心正在以接近9 exaflops的總運算能力供谷歌雲端部門使用;亞馬遜的AWS 使用Trainium 晶片算力達到6 exaflops ,使用輝達的H100 GPU 算力達到20 exaflops。

他認為,如果Dojo夠便宜,那它有理由取代輝達。問題是,特斯拉的營運規模支撐不了這種龐大的研發投資。

今年1月16日,最近離職的特斯拉公共政策和業務發展副總裁的羅漢·帕特爾(Rohan Patel)在社交媒體X上發布了一則消息,稱“週五晚上與埃隆·馬斯克就一項大型AI資料中心投資進行了反覆討論。 。


資深科技部落客漢斯·尼爾森(Hans Nelson)研究馬斯克和特斯拉多年,他在隨後的連線時評上稱,Dojo肯定是大型AI數據中心的重要部分,但是帕特爾的這則推文卻沒有提及Dojo,估計是Dojo的晶片項目有點落後於他們希望推進的程度,這可能表示Dojo在短期內將更多使用輝達的晶片。

Dojo原打算到今年2月,算力規模進入全球前五,今年10月算力總規模將達到100 exaflops,相當於30萬塊輝達A100的算力總和。

尼爾森認為,Dojo目前算力能達到33exaflops,至於如何在10月達到100exaflops,以及目前的算力中使用的自研晶片和輝達晶片各自佔比,則無從得知。但可以肯定的是,無論Dojo是否能依照時間表實現算力目標,馬斯克囤積了足夠的H100GPU。

(圖片來源:來自漢斯·尼爾森連線對談影片截圖)


H100GPU效能比之前的A100更好,特別是在AI訓練和推理方面。 H100基於輝達Hopper架構,是第一代支援AI和HPC的Ampere架構的下一代架構,而A100是基於Ampere架構的產品。

10天後的1月26日,紐約州州長凱西·霍楚(Kathy Hochul)稱,特斯拉將投資5億美元,在該州的布法羅市(Buffalo)建造一台Dojo超級電腦。

雖然霍楚在發布會上著重提到了5億美元的投資規模,但是特斯拉在社交媒體X上卻有意淡化了這一數字,並指出該公司在2024年,在輝達硬體上的投資將超過這一金額。

5億美元相當於約1 萬台H100 GPU。

4月8日,X 平台用戶「The Technology Brother」發布的囤積輝達H100GPU排行榜上,Meta以35 萬塊位居第一。

馬斯克對排行榜將特斯拉和xAI 1萬塊的排名表示不滿,並指出「如果計算正確,特斯拉應該是第二名,xAI 將是第三名」。

這意味著特斯拉可能擁有3 萬到35 萬顆H100 GPU,xAI 則可能擁有約26,000 到3 萬顆。

一直和祖克柏針鋒相對的馬斯克,在不服氣的嘴砲中暴露了真實狀況:至少現在,Dojo的自研晶片失敗,全面轉向輝達。

馬斯克稱,在人工智慧領域保持競爭力,每年至少需要投入數十億美元,並將擴大購買輝達競爭對手AMD的產品。

但「whydoesthisitch」認為,Dojo的算力規模要達到100 exa flops,估計要延至2027-2028年,而那時主流的雲端服務商比如亞馬遜的算力已經達到zettaflop等級。

他稱,目前Dojo的晶片性能其實只能達到H100的10%-35%,當它追上H100時,輝達已經在新一代的Blackwell 上奔跑很遠。

尼爾森則認為,至少馬斯克意識到了,購買晶片還是最划算的。(汽車商業評論)