特斯拉AI Day 2022:能走會動的Tesla Bot,DOJO超算明年量產、還有FSD新進展

幾個小時前,特斯拉正式舉辦了2022 AI Day,一場全球汽車、人工智能、信息科技行業翹首以待足足13 個月的發布會。

嚴格意義上AI Day 不像是「發布會」,而是「交流會」——馬斯克本人也在推特上說,「此活動旨在招聘AI 和機器人工程師,因此技術含量很高」 ——換句話說,這是馬斯克的高山流水,為特斯拉的鍾子期而開。

不過這並不妨礙我們以比較輕鬆的視角,記錄下這場科技狂歡。因為特斯拉團隊幾乎100% 實現了去年的承諾,在本屆AI Day 上帶來了以下技術成果:

不再需要群演的真·Tesla Bot 機器人原型機;

不再停留在PPT 的DOJO POD 人工智能超級計算機;

FSD 技術新進展,等等。

當然,即使我們會盡力寫得簡單點,今天的文章依然會相對硬核。趁著國慶假期,建議大家可以慢慢看,下面馬上開始。


一、Tesla Bot 原型機

Optimus 它來了!

13 個月前還需要群演的Tesla Bot,今天正式以原型機的形式出現——原型意思是它還沒穿衣服(外殼)

原型機的樣子比PPT 裡面明顯更粗放,線束、促動器等零件堆砌略顯凌亂。但好消息是,Tesla Bot 原型機已經可以走路、打招呼,雙手可以完整舉過頭頂。

在特斯拉的演示視頻裡,Optimus 已經可以做一些簡單的工作,比如搬運箱子、澆花等等。

但更重要的可能是這個畫面:Optimus 眼中的世界,通過純視覺發現並分析周邊的一切,然後識別出自己的任務對象。

事實上Optimus 不是不能裝上外殼,但出於工程原因,帶外殼版本截止到發布會當天還不能自如地走路(原因後面再解釋),只能簡單揮舞一下手臂。

裝上外殼之後我們發現,更接近量產版的Optimus,變得更胖了——現在它重73 公斤,比去年PPT 版「增重」超過20%,整個「人」圓了一大圈。

更接近量產,也意味著Optimus 更高階的參數也可以公佈了:100W 靜坐功耗、500W 快步走功耗、超過200 檔的關節自由度,光手部自由度就有27 檔。

另外,Optimus 的大腦由單塊FSD Chip 組成,意味著算力應該是HW3.0 的一半(72TOPS);電池則是52V 電壓、2.3kWh 容量、內置電子電氣元件的一體單元。

說完數字,是時候聊聊Optimus 的研發邏輯了。

1. 汽車化

馬斯克說過「當你能解決自動駕駛,你就能解決現實世界中的人工智能」。這句話點破了特斯拉研發Optimus 的方法論:大量借鑒汽車研發經驗。

比如借鑒汽車碰撞模擬軟件,為Optimus 編寫「跌倒測試」軟件。

再比如利用汽車大規模零件的生產經驗,為Optimus 挑選盡可能保證成本+效率的原材料。「我們不會用碳纖維、鈦合金這樣的原材料。因為它們雖然很優秀,但像肩膀這樣的易損部位,製造和維修成本都太貴了」。

除此以外,製造Optimus 的中心思想,也基本和智能汽車相當:減少線束長度、計算和電子控制單元中心化,等等。

2. 仿生學

既然是類人機器人humanoid,設計自然要藉鑑人類仿生學。

特斯拉用了幾個例子解釋Optimus 的仿生學,首先是膝關節。特斯拉表示Optimus 的關節希望盡量復刻生物學上的「非線性」邏輯,也就是貼合膝關節直立到完全彎曲時的受力曲線。

為此,Optimus 的膝關節使用了類似於平面四桿機構的設計,最終發力效果會更接近人類。

緊接著,我們創造人類文明的雙手,才是Optimus 類人之路更大的boss。

Optimus 光手掌區域就用了6 個促動器,具有11 檔的自由度。擁有自適應的抓握角度、20 磅(9 公斤)負荷、工具使用能力、小物件精準抓握能力等等。

此外,Optimus 的手掌用的是「non-backdrivable」無法反向驅動的指尖促動器。學術界的看法是,這樣的促動器可以提昇在「開放環境」下的性能。

最後是讓Optimus 學著像人類一樣走路——這裡用到的仿生學設計叫做「運動重心控制」。

為什麼有外殼的 Optimus 還不會走?其中一個原因就是重量變了,運動重心控制算法需要重新調試。

事實上,Optimus 不僅要做到會走路,還要做到別摔倒。所以它不僅需要控制走路的重心,還要穩住受到外力(比如推搡)時的隨機動態重心。

訓練FSD 用到的神經網絡和在線仿真模擬,這次在Optimus 身上大顯身手。路徑規劃、視覺融合、視覺導航等等熟悉的名詞都被「灌輸」到Optimus 腦子裡。

這樣的努力下,Optimus 今年4 月邁出了它的第一步;7 月份解鎖了骨盆活動;8 月走路時可以擺手臂了——發布會前幾週,實現了腳趾離地的類人行走動作。

3. 「肌肉」

我們通過結締組織包裹著的肌肉完成運動,機器人的「肌肉」則叫做促動器actuator。

如上圖所示,橙色部分均為Optimus 的促動器,這些促動器也都是特斯拉完全自研的。

特斯拉為 Optimus 從力度大小的角度,設計了6 種各自獨特的促動器——這其實是很小的數字,業界平均是20-30,甚至50 種,目的是覆蓋盡可能多的人類活動細節。

為什麼特斯拉的促動器種類這麼少?原因還是FSD 體系。

特斯拉舉了28 種人類常見活動,比如抬舉手臂、彎曲右膝等。通過分析這些活動反饋的雲數據,找出各類運動的相對共同點,然後就可以盡量減少專門設計促動器的種類。

雖然只是輕描淡寫的一張PPT,但我認為促動器從50 種減少到6 種,意義實際上遠大於借鑒特斯拉電機經驗的促動器本體——因為它代表著數據為王的新工業時代。

不過促動器種類大幅度減少,也意味著Optimus 前期的實際效果可能會沒有那麼「類人」,當然還是得等最終交付了。

最後來說一個數字:2 萬美元

這筆錢買不到半台Model 3,但卻是馬斯克口中Optimus 的目標售價。「它會徹底改變人類社會的效率,就像無人交通可以徹底改變運輸效率」


二、DOJO 的終極形態?

本來發布會的第二部分是FSD,但那部分過於硬核,我決定先讓大家看點激動人心的數字。

去年DOJO 驚艷全世界,但遺憾的是有太多細節未公佈。D1 芯片是怎麼組成EXA POD 超算系統的?理論性能爆炸,能代表實際應用嗎?

這部分,特斯拉舉了大量的數據,證明自己已經是計算領域的新巨頭。

首先是散熱。

先別發問號,超算平台的散熱,一直是衡量超算製造者係統工程能力的重要維度。比如穀歌、華為、英偉達在公佈自家方案的時候,都會花大篇幅講散熱。

DOJO POD 的散熱可以用兩個詞概括:高集成度、高自研率。

特斯拉在DOJO POD 上使用了全自研的VRM(電壓調節模組),單個VRM 模組可以在不足25 美分硬幣面積的電路上,提供超過1000A 的電流。

高集成度帶來的問題,是熱膨脹係數CTE。DOJO 堪稱極限的體積集成率和發熱,意味著CTE 稍微失控,都會對系統結構造成巨大破壞(也就是會撐爆)。

為此,這套自研VRM 在過去兩年內迭代了14 個版本,最終才完全符合特斯拉對CTE 指標的要求。

目前DOJO POD 已經進入負載測試階段——單機櫃2.2MW 的負載,相當於6 台Model Y 雙電機全力輸出。


解決了散熱,才有資格說集成度。

一個DOJO POD 機櫃由兩層計算托盤和存儲系統組成。每一層托盤都有6 個D1 Tile 計算「瓦片」——兩層12 片組成的一個機櫃,就可以提供108PFLOPS 算力的深度學習性能。

對了,DOJO POD 的供電模組也是52V 電壓的,Optimus 母親實錘了。

每層托盤都連接著超高速存儲系統:640GB 運行內存可以提供超過18TB 每秒的運算帶寬,另外還有超過1TB 每秒的網絡交換。

為了適配訓練軟件以及運營/維護,每個托盤還配備了專屬的管理計算中心。

最終,可以提供1.1E 算力、13TB 運存、1.3TB 緩存的EXA POD,將於2023 年Q1,正式量產——這也是今天發布會唯一一個有確定日期的特斯拉產品。

義大利炮有了,能不能轟下縣城?

特斯拉表示,配合專屬的編譯器,DOJO 的訓練延遲,最低可以做到同等規模 GPU 的1/50!

最終,特斯拉的目標是到2023 年Q1 量產時,DOJO 可以實現相比英偉達A100,最高4.4 倍的單芯片訓練速度——甚至能耗和成本都更低。


三、FSD 的新進化

文章來到這裡,大家的手指應該已經劃了很多次屏幕。這也說明,看到這裡依然興致勃勃的你,一定是特斯拉老粉——那就聊點更「無聊」、更硬核的吧。

篇幅有限,本屆AI Day 關於FSD 的進展,我們只聊三個點:Occupancy Network、Training Optimization、Lanes

1. Occupancy Network

先聊一個概念:矢量圖。做設計的朋友一定很熟悉,這是一種精度(分辨率)可以做到無限,但佔用存儲空間很小的數字繪圖。

Occupancy Network,就是將3D 向量數據繪製成矢量圖的、 2019 年開始興起的一種三維重建表達方法。

有意思的是,特斯拉用了最Occupancy Network 的方式,表達他們對Occupancy Network 的應用:網格(方塊)化的3D 模擬。

其實FSD 眼中的世界並不是這樣Minecraft 化的,但Occupancy Network 的本質特徵,就是用「決策邊界」描繪「物體邊緣」。

儘管Occupancy Network 效率很高,但實際訓練規模依然足夠可觀。目前特斯拉公佈的數據是超過14.4 億幀視頻數據,需要超過10 萬個GPU 訓練小時,實際視頻緩存超過30PB ——而且全程90℃ 滿負載。

二、因此,Training Optimization 訓練優化尤為重要。

去年Andrej 公佈了特斯拉的千人in-house 標註團隊,今年特斯拉的重點,則在於優化自動標註流程。

大概總結一下就是,優化過後,訓練時視頻幀選取會更智能,同時大幅度減少選取的視頻幀數量——可以提高 30% 的訓練速度

另外視頻模型訓練時smol 異步庫文件體積可以縮小11%,所需的讀取次數足足縮小到1/4...最終這套優化流程讓特斯拉的Occupancy Network 訓練效率提升了2.3 倍。

3. 最後聊聊車道線Lanes。

從FSD Beta 10.12 開始,幾乎每一版更新,車道線和無保護左轉,都是更新日誌的第一條。

為了更準確高效應對車道線,特斯拉這次「編」了一套「屬於車道的語言」。其中包括車道級別的地理幾何學和拓撲幾何學、車道導航、公交車道計算、多乘員車輛車道計算等等。

最終這套「車道的語言」,可以在小於10 毫秒的延遲內,思考超過7500 萬個可能影響車輛決策的因素——而且FSD 硬件「學會」這套語言的代價(功耗),還不足8W。


四、四十年後,開始圓夢?

寫到這裡,真的很頭疼。

一方面是我們大部分人,都不是這屆AI Day 的對象——馬斯克眼裡只有招聘。另一方面,是現在一家汽車公司的發布會,對知識面要求實在太高了。

還是說回馬斯克吧,40 年前的他,還是個每天會看10 個小時科幻小說的小孩子,沉醉於《銀河系漫遊指南》、《基地》、《嚴厲的月亮》等等。

但正是這些科幻小說,培養了馬斯克冰冷卻又宏大的事業觀。他會跟你說人類社會生產力的效率可以擴大到無限,他會跟你說人口是維繫文明的最重要因素。

所以,當我們把52 歲的馬斯克和12 歲的馬斯克放在一起,你會發現他倆依然在本質上是同一個人。

也正因如此,你看到他如今幾乎涉獵了科幻小說所有最熱門題材的商業帝國,才會覺得「哦,那很正常」。

希望明年我們能看到更接近現實的馬斯克童夢吧。(電動星球)