Dojo——馬斯克的“無人駕駛”豪賭

Dojo超級電腦對特斯拉的重要性正在與日俱增。

對於馬斯克來說,Dojo不僅僅是特斯拉用來在雲端訓練自動駕駛模型的超級電腦,實際上,它已經成為馬斯克商業帝國下AI業務的基石。

大摩此前甚至將Dojo比喻為“特斯拉的AWS”,認為其將成為特斯拉未來最大的價值驅動因素。

在馬斯克宏偉的AI藍圖中,Dojo到底起到怎樣的作用?當地時間週六上午,科技媒體TechCrunch記者Rebecca Bellan發佈深度報導《Tesla Dojo: Elon Musk’s big plan to build an AI supercomputer, explained》,以Dojo為出發點,詳細解釋了馬斯克的AI計畫。

以下是文章亮點:

1、特斯拉的純視覺路徑(僅依靠攝影機而非感測器來捕捉資料)是其需要超級電腦的主要原因。

2、特斯拉的目標是在接下來的大約18個月內實現“半特斯拉AI硬體,半輝達/其他”,“其他”可能是AMD晶片。

3、Dojo計畫的核心是特斯拉的專有D1晶片,這意味著特斯拉將來可能不必依賴輝達的晶片,低成本就可以獲取大量算力。

4、Dojo晶片是特斯拉的保險單,可能會帶來紅利。

5、預計到今年10月,Dojo的總算力將達到100 exaflops,約等於320500塊輝達 A100 GPU的算力水平;預計今年年底前,Dojo1將實現與約8000塊H100等效的線上訓練。

文章全文如下:


多年來,埃隆·馬斯克一直在談論Dojo——這是將成為特斯拉人工智慧雄心基石的人工智慧超級電腦。這個項目對馬斯克來說非常重要,他最近表示,隨著特斯拉準備在10月公佈其robotaxi,公司的人工智慧團隊將“加倍發力”推進Dojo項目。

但Dojo究竟是什麼?它對特斯拉的長期戰略為何如此關鍵?

簡而言之:Dojo是特斯拉定製建構的超級電腦,旨在訓練其“全自動駕駛”的神經網路。提升Dojo與特斯拉實現全自動駕駛並將robotaxi推向市場的目標密切相關。FSD目前在大約200萬輛特斯拉汽車上,可以執行一些自動化駕駛任務,但仍然需要人類在駕駛座保持注意力。

特斯拉將原定於8月公佈其robotaxi的時間推遲到了10月,但無論是馬斯克的公開言論還是特斯拉內部的消息源都告訴我們,自動駕駛的目標並未消失。

特斯拉似乎正準備在人工智慧和Dojo上投入巨資以實現這一壯舉。


特斯拉Dojo背後的故事

馬斯克不希望特斯拉僅僅是一家汽車製造商,或不僅僅是太陽能電池板和能源儲存系統的提供商。相反,他希望特斯拉成為一家人工智慧公司,一家通過模仿人類感知來破解自動駕駛汽車程式碼的公司。

大多數其他開發自動駕駛汽車技術的公司都依賴感測器的組合來感知世界(比如雷射雷達、雷達和攝影機)以及高畫質晰度地圖來定位車輛。特斯拉相信,它可以僅依靠攝影機來捕捉視覺資料,然後使用先進的神經網路來處理這些資料,並快速決定汽車應該如何表現。

正如特斯拉前人工智慧主管Andrej Karpathy在2021年該公司的首次AI Day上所說,公司基本上正在嘗試“從頭開始建構一個合成生物”。(馬斯克自2019年以來一直在預告Dojo,但特斯拉在AI Day正式宣佈了它。)

像Alphabet的Waymo這樣的公司,已經通過更傳統的感測器和機器學習方法,實現了4級自動駕駛汽車的商業化——SAE將其定義為在特定條件下無需人類干預即可自行駕駛的系統。而特斯拉至今還未生產出一個不需要人類參與的自動駕駛系統。

大約有180萬人為特斯拉的FSD支付了高昂的訂閱費,目前其價格為8000美元,最高時定價為15000美元。推銷的點是,經過Dojo訓練的人工智慧軟體最終將通過隔空更新推送給特斯拉客戶。FSD的規模也意味著特斯拉已經能夠收集到數百萬英里的視訊片段,用於訓練FSD。這意味著,特斯拉能夠收集的資料越多,這家汽車製造商就越接近實現真正的全自動駕駛。

然而,一些行業專家表示,簡單地向模型投入更多資料並期望它變得更聰明的方法可能存在侷限性。

“首先,存在經濟限制,這樣做很快就會變得成本過高,”普渡大學矽谷電子與電腦工程教授Anand Raghunathan對TechCrunch表示。他進一步說,“有聲音說我們實際上可能會耗盡有意義資料來訓練模型。更多的資料並不一定意味著更多的資訊,所以這取決於那些資料是否包含有用資訊來建立一個更好的模型,以及訓練過程是否能夠真正將這些資訊提煉成更好的模型。”

Raghunathan說,儘管有這些疑慮,但至少在短期內,資料似乎會更多。更多的資料意味著需要更多的算力來儲存和處理,以訓練特斯拉的AI模型。這就是超級電腦Dojo的用武之地。


什麼是超級電腦?

Dojo是特斯拉設計的超級電腦系統,用作人工智慧,特別是FSD的訓練場。這個名字是對武術練習道場的致敬。

超級電腦由數千台稱為節點的小型電腦組成。這些節點各自擁有自己的CPU(中央處理單元)和GPU(圖形處理單元)。前者負責節點的總體管理,後者則處理複雜的事情,比如將任務分割成多個部分並同時進行處理。GPU對機器學習操作至關重要,就像它們支援FSD訓練模擬一樣。它們還支援大型語言模型,這就是為什麼生成式AI的崛起使得輝達成為地球上最有價值的公司。

甚至特斯拉也購買輝達的GPU來訓練其人工智慧(這是後話)。


為什麼特斯拉需要超級電腦?

特斯拉的純視覺路徑是其需要超級電腦的主要原因。FSD背後的神經網路是在大量駕駛資料上訓練的,以識別和分類車輛周圍的物體,然後做出駕駛決策。這意味著當FSD啟動時,神經網路必須連續不斷地收集和處理視覺資料,速度要與人類深度和速度識別能力相匹配。

換句話說,特斯拉想要創造一個數字版的人類視覺皮層和大腦功能。

為了達到這個目標,特斯拉需要儲存和處理從世界各地的汽車收集的所有視訊資料,並運行數百萬次模擬來訓練其模型上的資料。

特斯拉似乎依賴輝達為其當前Dojo訓練電腦提供動力,但它不想把所有雞蛋放在一個籃子裡——尤其是因為輝達晶片價格昂貴。特斯拉還希望製造出更好的東西,增加頻寬並減少延遲。這就是為什麼這家汽車製造商的AI部門決定提出自己的定製硬體計畫,該計畫旨在比傳統系統更有效地訓練AI模型。

該計畫的核心是特斯拉的專有D1晶片,該公司表示這些晶片已針對AI工作負載進行了最佳化。


更多關於這些晶片的資訊

特斯拉與蘋果持有類似的觀點,即認為硬體和軟體應該被設計為一起工作。這就是為什麼特斯拉正在努力擺脫標準GPU硬體、設計自己的晶片來驅動Dojo。

特斯拉在2021年的AI Day上展示了其D1晶片,這是一個手掌大小的硅方塊。截至今年5月,D1晶片已經投入生產。台灣半導體製造公司台積電正在使用7納米製程工藝製造這些晶片。根據特斯拉的說法,D1擁有500億個電晶體和一個645平方毫米的大尺寸,這一切都在說D1承諾將非常強大和高效,並能夠快速處理複雜任務。

“我們可以同時進行計算和資料傳輸,我們的定製ISA(指令集架構)完全針對機器學習工作負載進行了最佳化,”特斯拉前自動駕駛硬體高級總監甘尼什·文卡塔拉曼在2021年特斯拉AI Day上說。“這是一個純粹的機器學習機器。”

儘管如此,D1晶片仍然不如輝達的A100晶片強大,後者也是由台積電使用7納米工藝製造的。A100擁有540億個電晶體,尺寸為826平方毫米,所以在性能上略勝於特斯拉的D1。

為了獲得更高的頻寬和計算能力,特斯拉的AI團隊將25個D1晶片融合在一起形成一個區塊,作為一個統一的電腦系統。每個區塊具有9 petaflops的計算能力和每秒36 TB的頻寬,并包含電源、冷卻和資料傳輸所需的所有硬體。你可以將這個區塊想像成一個由25台小型電腦組成的自給自足的電腦。六個這樣的區塊組成一個機架,兩個機架組成一個機櫃。十個機櫃組成一個ExaPOD。在2022年的AI Day上,特斯拉表示Dojo將通過部署多個ExaPODs來擴展。所有這些加在一起構成了超級電腦。

特斯拉還在開發下一代D2晶片,旨在解決資訊流瓶頸問題。D2不是連接各個晶片,而是將整個Dojo塊放置在單個硅片上。

特斯拉尚未確認它已訂購或預計收貨多少D1晶片,也還沒有提供將Dojo超級電腦在D1晶片上運行所需的時間表。

6月在X上的一篇帖子稱:“埃隆正在德克薩斯州建造一個巨大的GPU冷卻器”,對此,馬斯克回覆說,特斯拉的目標是在接下來的大約18個月內實現“半特斯拉AI硬體,半輝達/其他”。根據馬斯克1月的評論,“其他”可能是AMD晶片


Dojo對特斯拉意味著什麼?

控制自己的晶片生產意味著特斯拉有一天可能能夠以低成本快速為人工智慧培訓項目新增大量計算能力,特別是在特斯拉和台積電擴大晶片生產規模的情況下。

這也意味著特斯拉將來可能不必依賴輝達的晶片,這些晶片的價格越來越高,也越來越難以確保。

在特斯拉第二季度財報電話會議上,馬斯克表示,對輝達硬體的需求“如此之高,以至於通常很難獲得GPU。”他說,他對能夠穩定地在需要時獲得GPU“相當擔憂”,“因此我認為這需要我們在Dojo上投入更多的努力,以確保我們擁有所需的培訓能力。”

話雖如此,特斯拉今天仍在購買輝達晶片來訓練其AI。6月,馬斯克在X上發帖說:

“在我所說的特斯拉今年將進行的大約100億美元與AI相關的支出中,大約一半是內部的,主要是特斯拉設計的AI推理電腦和我們所有汽車中存在的感測器,加上Dojo。對於建構AI培訓超級叢集,輝達硬體大約佔到成本的2/3。我目前對特斯拉今年購買輝達的最佳猜測是30億到40億美元。”

推理計算指的是特斯拉汽車即時執行的AI計算,與Dojo負責的訓練計算是分開的。

Dojo是一個冒險的賭注,馬斯克通過多次表示特斯拉可能不會成功,以此來對沖這一賭注。

從長遠來看,特斯拉理論上可以基於其AI部門建立一種新的商業模式。馬斯克曾表示,Dojo的第一個版本將專門為特斯拉電腦視覺標記和培訓量身定製,這對FSD和培訓Optimus(特斯拉的仿人機器人)非常有利,但對其他事情沒什麼用處。

馬斯克曾表示,Dojo的後續版本將更傾向於通用AI培訓。與此相關的一個潛在問題是,幾乎所有現有的AI軟體都是為GPU編寫的。使用Dojo來訓練通用AI模型將需要重寫軟體。

除非特斯拉出租其算力,類似於AWS和Azure出租雲端運算能力的方式。馬斯克在第二季度收益電話會議上還指出,他看到“通過Dojo與輝達競爭的一條路”。

摩根士丹利在2023年9月的一份報告中預測,Dojo可以通過解鎖robotaxi和軟體服務的新收入流,為特斯拉市值增加5000億美元。

簡而言之,Dojo的晶片是這家汽車製造商的保險單,可能會帶來紅利。


Dojo進展如何?

路透社去年報導稱,特斯拉於2023年7月開始生產Dojo,但馬斯克在2023年6月的一篇文章中暗示,Dojo已經“線上並運行有用的任務幾個月了。”

大約在同一時間,特斯拉表示,預計到2024年2月,Dojo將成為最強大的五台超級電腦之一——這一壯舉尚未公開披露,讓我們懷疑它是否已經發生。

該公司還預計,到2024年10月,Dojo的總算力將達到100 exaflops。(1 exaflop等於每秒1千萬億次電腦操作。要達到100 exaflops,假設一塊D1能達到362 teraflops,特斯拉將需要超過276,000塊D1,或大約320,500塊輝達 A100 GPU。)

特斯拉還在2024年1月承諾投資5億美元,在紐約州水牛城的超級工廠建造一台Dojo超級電腦。

2024年5月,馬斯克指出,特斯拉奧斯汀超級工廠的後部將保留用於“超密集的水冷超級電腦叢集”。

就在特斯拉二季度財報電話會議後,馬斯克在X上發帖稱,這家汽車製造商的AI團隊正在使用特斯拉HW4 AI電腦(更名為AI4),這是特斯拉汽車中的硬體,存在於輝達GPU的訓練循環中。他指出,細分大約是90,000個輝達的H100加上40,000台AI4電腦。

他繼續說:“Dojo1將在今年年底前實現與約8,000塊H100等效的線上訓練。不是很多,但也不少。” (華爾街見聞)