特斯拉Dojo

Dojo作為特斯拉超級電腦項目是其人工智慧戰略的核心組成部分,透過訓練「完全自動駕駛」(FSD)神經網路來實現完全的車輛自動駕駛能力。

特斯拉希望藉助Dojo,不僅能鞏固其在自動駕駛領域的地位,還能透過這個超級電腦平台開闢新的商業模式和收入來源。 Dojo透過自研的硬體和模組化設計,為資料中心提供更有效率、更經濟的計算解決方案。

D1晶片的一些技術參數?

D1晶片是Dojo系統的核心硬體,採用台積電7納米工藝製造,每個D1晶片包含354個計算核心,支援64位元標量運算和64字節單指令多資料(SIMD)向量指令,專為機器學習任務最佳化(“The D1 instruction set supports both 64-bit scalar and 64-byte single instruction, multiple data (SIMD) vector instructions” )。 D1晶片的每個核心擁有1.25MB的SRAM主儲存器,晶片總共支援440MB的SRAM,最大計算能力可達376 Teraflops(基於16位元浮點數) 。

在模組化設計方面,特斯拉將25個D1晶片組成一個訓練tile,這些tile通過水冷散熱,每個tile可以實現36TB/s的頻寬和9 Petaflops的計算能力(“Each tile achieves 9 petaflops at BF16/CFloat8 precision (25 D1 chips × 376 TFLOP/D1)” )。六個tile組成一個系統匣(System Tray),進一步堆疊組成整個ExaPOD超級計算架構。

D2晶片的研發進度?

D1晶片已經完成開發並投入應用,目前用於Dojo的訓練任務。然而,特斯拉正在研發下一代D2晶片,旨在解決資訊流瓶頸問題,將整個訓練tile整合到單一矽片上(「Tesla is also working on a next-gen D2 chip that aims to solve information flow bottlenecks ” )。目前關於D2的具體性能指標和上線時間尚未公開。

Dojo系統的N卡佔比?

特斯拉目前依賴Nvidia GPU進行AI訓練,特別是H100 GPU。根據2024年的計畫,特斯拉預計將Dojo系統中約50%的硬體切換為自研AI硬體,而另50%仍由Nvidia GPU或其他供應商的硬體構成(“Aiming for about half Tesla AI hardware, half Nvidia/other」 )。目前,特斯拉正在運行一個包含10,000個Nvidia H100 GPU的新訓練叢集。

與傳統的GPU解決方案相比,Dojo的設計目標是減少對Nvidia等供應商的依賴,同時降低成本。雖然特斯拉目前仍依賴Nvidia的GPU進行AI訓練,但其長期目標是透過Dojo實現計算能力的自主化,尤其是在晶片供應緊張的情況下。
(「Tesla appears to rely on Nvidia to power its current Dojo training computer, but it doesn't want to have all its eggs in one basket」)。

從商業角度來看,Dojo不僅服務於特斯拉的自動駕駛系統,還可能成為類似AWS或Azure的計算服務平台。特斯拉可以透過出租計算能力獲得額外收入,甚至進一步擴展到通用AI模型訓練領域。然而,這需要克服目前AI軟體對GPU架構的依賴,因為使用Dojo將需要對訓練程式碼進行大幅調整(「Using Dojo to train general-purpose AI models would require rewriting the software」)。根據摩根士丹利的分析,Dojo可能為特斯拉帶來多達5,000億美元的額外市場價值。

D1晶片的模型適配?

D1晶片目前主要用於特斯拉的「完全自動駕駛」(FSD)模型的訓練。該晶片設計特別適用於電腦視覺和神經網路的高效訓練,其架構最佳化了與視訊資料相關的任務(“Tesla Dojo is a supercomputer designed and built by Tesla for computer vision video processing and recognition” )。此外,D1晶片支援PyTorch等主流機器學習框架,專注於FSD訓練。 (弱有效)