特斯拉AI Day 2022：能走會動的Tesla Bot，DOJO超算明年量產、還有FSD新進展 | 科技 | 鉅亨號 | Anue鉅亨

特斯拉AI Day 2022：能走會動的Tesla Bot，DOJO超算明年量產、還有FSD新進展

2022/10/01

•

幾個小時前，特斯拉正式舉辦了2022 AI Day，一場全球汽車、人工智能、信息科技行業翹首以待足足13 個月的發布會。

嚴格意義上AI Day 不像是「發布會」，而是「交流會」——馬斯克本人也在推特上說，「此活動旨在招聘AI 和機器人工程師，因此技術含量很高」 ——換句話說，這是馬斯克的高山流水，為特斯拉的鍾子期而開。

不過這並不妨礙我們以比較輕鬆的視角，記錄下這場科技狂歡。因為特斯拉團隊幾乎100% 實現了去年的承諾，在本屆AI Day 上帶來了以下技術成果：

不再需要群演的真·Tesla Bot 機器人原型機；

不再停留在PPT 的DOJO POD 人工智能超級計算機；

FSD 技術新進展，等等。

當然，即使我們會盡力寫得簡單點，今天的文章依然會相對硬核。趁著國慶假期，建議大家可以慢慢看，下面馬上開始。

一、Tesla Bot 原型機

Optimus 它來了！

13 個月前還需要群演的Tesla Bot，今天正式以原型機的形式出現——原型意思是它還沒穿衣服（外殼）。

原型機的樣子比PPT 裡面明顯更粗放，線束、促動器等零件堆砌略顯凌亂。但好消息是，Tesla Bot 原型機已經可以走路、打招呼，雙手可以完整舉過頭頂。

在特斯拉的演示視頻裡，Optimus 已經可以做一些簡單的工作，比如搬運箱子、澆花等等。

但更重要的可能是這個畫面：Optimus 眼中的世界，通過純視覺發現並分析周邊的一切，然後識別出自己的任務對象。

事實上Optimus 不是不能裝上外殼，但出於工程原因，帶外殼版本截止到發布會當天還不能自如地走路（原因後面再解釋），只能簡單揮舞一下手臂。

裝上外殼之後我們發現，更接近量產版的Optimus，變得更胖了——現在它重73 公斤，比去年PPT 版「增重」超過20%，整個「人」圓了一大圈。

更接近量產，也意味著Optimus 更高階的參數也可以公佈了：100W 靜坐功耗、500W 快步走功耗、超過200 檔的關節自由度，光手部自由度就有27 檔。

另外，Optimus 的大腦由單塊FSD Chip 組成，意味著算力應該是HW3.0 的一半（72TOPS）；電池則是52V 電壓、2.3kWh 容量、內置電子電氣元件的一體單元。

說完數字，是時候聊聊Optimus 的研發邏輯了。

1. 汽車化

馬斯克說過「當你能解決自動駕駛，你就能解決現實世界中的人工智能」。這句話點破了特斯拉研發Optimus 的方法論：大量借鑒汽車研發經驗。

比如借鑒汽車碰撞模擬軟件，為Optimus 編寫「跌倒測試」軟件。

再比如利用汽車大規模零件的生產經驗，為Optimus 挑選盡可能保證成本+效率的原材料。「我們不會用碳纖維、鈦合金這樣的原材料。因為它們雖然很優秀，但像肩膀這樣的易損部位，製造和維修成本都太貴了」。

除此以外，製造Optimus 的中心思想，也基本和智能汽車相當：減少線束長度、計算和電子控制單元中心化，等等。

2. 仿生學

既然是類人機器人humanoid，設計自然要藉鑑人類仿生學。

特斯拉用了幾個例子解釋Optimus 的仿生學，首先是膝關節。特斯拉表示Optimus 的關節希望盡量復刻生物學上的「非線性」邏輯，也就是貼合膝關節直立到完全彎曲時的受力曲線。

為此，Optimus 的膝關節使用了類似於平面四桿機構的設計，最終發力效果會更接近人類。

緊接著，我們創造人類文明的雙手，才是Optimus 類人之路更大的boss。

Optimus 光手掌區域就用了6 個促動器，具有11 檔的自由度。擁有自適應的抓握角度、20 磅（9 公斤）負荷、工具使用能力、小物件精準抓握能力等等。

此外，Optimus 的手掌用的是「non-backdrivable」無法反向驅動的指尖促動器。學術界的看法是，這樣的促動器可以提昇在「開放環境」下的性能。

最後是讓Optimus 學著像人類一樣走路——這裡用到的仿生學設計叫做「運動重心控制」。

為什麼有外殼的 Optimus 還不會走？其中一個原因就是重量變了，運動重心控制算法需要重新調試。

事實上，Optimus 不僅要做到會走路，還要做到別摔倒。所以它不僅需要控制走路的重心，還要穩住受到外力（比如推搡）時的隨機動態重心。

訓練FSD 用到的神經網絡和在線仿真模擬，這次在Optimus 身上大顯身手。路徑規劃、視覺融合、視覺導航等等熟悉的名詞都被「灌輸」到Optimus 腦子裡。

這樣的努力下，Optimus 今年4 月邁出了它的第一步；7 月份解鎖了骨盆活動；8 月走路時可以擺手臂了——發布會前幾週，實現了腳趾離地的類人行走動作。

3. 「肌肉」

我們通過結締組織包裹著的肌肉完成運動，機器人的「肌肉」則叫做促動器actuator。

如上圖所示，橙色部分均為Optimus 的促動器，這些促動器也都是特斯拉完全自研的。

特斯拉為 Optimus 從力度大小的角度，設計了6 種各自獨特的促動器——這其實是很小的數字，業界平均是20-30，甚至50 種，目的是覆蓋盡可能多的人類活動細節。

為什麼特斯拉的促動器種類這麼少？原因還是FSD 體系。

特斯拉舉了28 種人類常見活動，比如抬舉手臂、彎曲右膝等。通過分析這些活動反饋的雲數據，找出各類運動的相對共同點，然後就可以盡量減少專門設計促動器的種類。

雖然只是輕描淡寫的一張PPT，但我認為促動器從50 種減少到6 種，意義實際上遠大於借鑒特斯拉電機經驗的促動器本體——因為它代表著數據為王的新工業時代。

不過促動器種類大幅度減少，也意味著Optimus 前期的實際效果可能會沒有那麼「類人」，當然還是得等最終交付了。

最後來說一個數字：2 萬美元。

這筆錢買不到半台Model 3，但卻是馬斯克口中Optimus 的目標售價。「它會徹底改變人類社會的效率，就像無人交通可以徹底改變運輸效率」。

二、DOJO 的終極形態？

本來發布會的第二部分是FSD，但那部分過於硬核，我決定先讓大家看點激動人心的數字。

去年DOJO 驚艷全世界，但遺憾的是有太多細節未公佈。D1 芯片是怎麼組成EXA POD 超算系統的？理論性能爆炸，能代表實際應用嗎？

這部分，特斯拉舉了大量的數據，證明自己已經是計算領域的新巨頭。

首先是散熱。

先別發問號，超算平台的散熱，一直是衡量超算製造者係統工程能力的重要維度。比如穀歌、華為、英偉達在公佈自家方案的時候，都會花大篇幅講散熱。

DOJO POD 的散熱可以用兩個詞概括：高集成度、高自研率。

特斯拉在DOJO POD 上使用了全自研的VRM（電壓調節模組），單個VRM 模組可以在不足25 美分硬幣面積的電路上，提供超過1000A 的電流。

高集成度帶來的問題，是熱膨脹係數CTE。DOJO 堪稱極限的體積集成率和發熱，意味著CTE 稍微失控，都會對系統結構造成巨大破壞（也就是會撐爆）。

為此，這套自研VRM 在過去兩年內迭代了14 個版本，最終才完全符合特斯拉對CTE 指標的要求。

目前DOJO POD 已經進入負載測試階段——單機櫃2.2MW 的負載，相當於6 台Model Y 雙電機全力輸出。

解決了散熱，才有資格說集成度。

一個DOJO POD 機櫃由兩層計算托盤和存儲系統組成。每一層托盤都有6 個D1 Tile 計算「瓦片」——兩層12 片組成的一個機櫃，就可以提供108PFLOPS 算力的深度學習性能。

對了，DOJO POD 的供電模組也是52V 電壓的，Optimus 母親實錘了。

每層托盤都連接著超高速存儲系統：640GB 運行內存可以提供超過18TB 每秒的運算帶寬，另外還有超過1TB 每秒的網絡交換。

為了適配訓練軟件以及運營/維護，每個托盤還配備了專屬的管理計算中心。

最終，可以提供1.1E 算力、13TB 運存、1.3TB 緩存的EXA POD，將於2023 年Q1，正式量產——這也是今天發布會唯一一個有確定日期的特斯拉產品。

義大利炮有了，能不能轟下縣城？

特斯拉表示，配合專屬的編譯器，DOJO 的訓練延遲，最低可以做到同等規模 GPU 的1/50！

最終，特斯拉的目標是到2023 年Q1 量產時，DOJO 可以實現相比英偉達A100，最高4.4 倍的單芯片訓練速度——甚至能耗和成本都更低。

三、FSD 的新進化

文章來到這裡，大家的手指應該已經劃了很多次屏幕。這也說明，看到這裡依然興致勃勃的你，一定是特斯拉老粉——那就聊點更「無聊」、更硬核的吧。

篇幅有限，本屆AI Day 關於FSD 的進展，我們只聊三個點：Occupancy Network、Training Optimization、Lanes。

1. Occupancy Network

先聊一個概念：矢量圖。做設計的朋友一定很熟悉，這是一種精度（分辨率）可以做到無限，但佔用存儲空間很小的數字繪圖。

Occupancy Network，就是將3D 向量數據繪製成矢量圖的、 2019 年開始興起的一種三維重建表達方法。

有意思的是，特斯拉用了最Occupancy Network 的方式，表達他們對Occupancy Network 的應用：網格（方塊）化的3D 模擬。

其實FSD 眼中的世界並不是這樣Minecraft 化的，但Occupancy Network 的本質特徵，就是用「決策邊界」描繪「物體邊緣」。

儘管Occupancy Network 效率很高，但實際訓練規模依然足夠可觀。目前特斯拉公佈的數據是超過14.4 億幀視頻數據，需要超過10 萬個GPU 訓練小時，實際視頻緩存超過30PB ——而且全程90℃ 滿負載。

二、因此，Training Optimization 訓練優化尤為重要。

去年Andrej 公佈了特斯拉的千人in-house 標註團隊，今年特斯拉的重點，則在於優化自動標註流程。

大概總結一下就是，優化過後，訓練時視頻幀選取會更智能，同時大幅度減少選取的視頻幀數量——可以提高 30% 的訓練速度。

另外視頻模型訓練時smol 異步庫文件體積可以縮小11%，所需的讀取次數足足縮小到1/4...最終這套優化流程讓特斯拉的Occupancy Network 訓練效率提升了2.3 倍。

3. 最後聊聊車道線Lanes。

從FSD Beta 10.12 開始，幾乎每一版更新，車道線和無保護左轉，都是更新日誌的第一條。

為了更準確高效應對車道線，特斯拉這次「編」了一套「屬於車道的語言」。其中包括車道級別的地理幾何學和拓撲幾何學、車道導航、公交車道計算、多乘員車輛車道計算等等。

最終這套「車道的語言」，可以在小於10 毫秒的延遲內，思考超過7500 萬個可能影響車輛決策的因素——而且FSD 硬件「學會」這套語言的代價（功耗），還不足8W。

四、四十年後，開始圓夢？

寫到這裡，真的很頭疼。

一方面是我們大部分人，都不是這屆AI Day 的對象——馬斯克眼裡只有招聘。另一方面，是現在一家汽車公司的發布會，對知識面要求實在太高了。

還是說回馬斯克吧，40 年前的他，還是個每天會看10 個小時科幻小說的小孩子，沉醉於《銀河系漫遊指南》、《基地》、《嚴厲的月亮》等等。

但正是這些科幻小說，培養了馬斯克冰冷卻又宏大的事業觀。他會跟你說人類社會生產力的效率可以擴大到無限，他會跟你說人口是維繫文明的最重要因素。

所以，當我們把52 歲的馬斯克和12 歲的馬斯克放在一起，你會發現他倆依然在本質上是同一個人。

也正因如此，你看到他如今幾乎涉獵了科幻小說所有最熱門題材的商業帝國，才會覺得「哦，那很正常」。

希望明年我們能看到更接近現實的馬斯克童夢吧。（電動星球）

最近長文

關於鉅亨號

「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台，從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事；對創作者而言更是一個直接能與1,000萬用戶互動的舞台。

最好用的投資平台，幫你找到最適合自己的標的

看真實的投資分享文章，跟隨達人腳步取得最佳利益

多元投資社群平台，掌握最新市場動態熱門議題