借一段刷屏的 Optimus 慢跑視訊,說明它這次已經達到生物力學意義上的類人慢跑,不是擺拍快走;順手拆了一下腳、手和感知佈局,解釋 Gen 2.5 為什麼更像一台給演算法練級的工程平台。後半段把視角拉到工程和供應鏈,用“一年 1000 萬台”當假設,倒推執行器、滾柱絲槓和工廠節奏的算術,強調真正決定人形機器人格局的,不是這一小段跑得多快,而是誰有能力把它做成按千萬台節奏複製的工業產品。
特斯拉剛丟出一段 Optimus 跑步視訊。還是大家熟悉的Gen 2.5 版本,但這次你能非常清楚地看到:它在實驗室裡是真正在跑,不是擺拍慢走。
很多人第一反應是速度大概有5–7 英里/小時(約 2.5–3.1 m/s),包括 Elon 本人、之前在特斯拉機器人團隊的 Anan Swamanathan、前 Optimus 負責人 Milan Kovac 在內,看完都挺驚訝,也給了比較高的評價。
從步態分類上講,我得先把話說清楚:這已經不是普通意義上的“走路”,而是嚴格生物力學定義下的跑步——在某個瞬間,兩隻腳是同時離地的,進入一個短暫的“騰空相”。你把畫面放慢,會看到有一幀裡雙腳完全離地。這和競走那種“任何時候至少一腳著地”的模式完全不是一回事。所以我更傾向於這樣說:現在的 Optimus 展示的是一種類似人類的慢跑(jogging)步態,而不是在拼極限衝刺速度。
從觀感上講,這段 Optimus 的跑步視訊給我的第一感覺是:它現在看起來更像一個在慢跑的人,而不是一台機械在“挪動”。步幅、擺臂、支撐相和擺動相的節奏都挺自然,整體姿態已經非常接近人類慢跑的范兒了。你要是逐幀慢放,會看到一些肉眼略過的細節——比如腳趾前端的 toe box 在支撐和離地過程中會明顯彎曲、形變,這說明他們在足部結構裡已經刻意留了柔性和緩衝,而不是做一塊又硬又死的“鋼板腳”。
要強調的是,這一切都還發生在 Gen 2.5 這一代硬體平台上。就我現在掌握的資訊來看,特斯拉在 2.5 上的硬體基本已經不再做大刀闊斧的結構改動,更多是把它當成一個RL、零樣本控制和世界模型的試驗平台:多造一些樣機出來,讓演算法團隊在真機上反覆練習、踩坑,為後面的 V3(Gen3)打基礎。所以你會看到視訊還在不停往外放,但底層這套機械本體,其實就是一個“結構鎖版,用來喂演算法”的工程平台。
在速度這塊兒,我自己的流程其實很簡單:第一遍就是拿手機隨手一看,肉眼+直覺給的數字大概就是5 英里/小時(約 2.2 m/s) 左右。然後我不太信這種“眼球估計”,就又按我平時那套更細緻的方法做了一遍計算,最後算出來差不多是5.2 英里/小時(約 2.34 m/s),跟 Anan 提的 2.5–3 m/s 區間的下限非常接近。這個數字不是我隨口編的,而是有一整套完整的算式支撐的。現在大家都在玩“誰算得最準”的遊戲,有人甚至把視訊丟給像 Grok 這樣的模型去估速,能給出個 6 英里/小時(約 2.7 m/s) 之類的結果——我的態度很簡單:你報什麼數字都行,但請把過程拿出來。
從人形機器人實用性的角度看,我一直在強調的一點是:真正的門檻不是“能不能跑”,而是“能不能在大概 2.5 英里/小時(約 1.1 m/s)附近穩定地走起來”。在家裡或者工廠這種環境,如果機器人頂多隻能以 1–1.2 英里/小時(約 0.45–0.54 m/s) 的速度晃悠,那基本就是在“拖著走”,在產線和家庭場景裡都很難說是高效工作。之前我們看到的 Optimus 行走速度,大多還停留在這一檔,差不多也就理想工作速度的一半不到。
也正因為這樣,這次跑步視訊對我來說真正有意思的點在這兒:它證明了這一代平台在硬體和控制上,已經有了更高的動態冗餘。既然你能跑到接近 5 mph(約 2.2 m/s),那說明在 2–3 mph(約 0.9–1.3 m/s)“快走”區間實現穩態行走,物理上已經不是瓶頸了,更多是控制策略和軟體調出來的問題。所以接下來我更想看的,其實不是再來一條更酷的衝刺視訊,而是:在 2–3 英里/小時(約 0.9–1.3 m/s)這個區間裡,自然、可控、可復現的行走 Demo,而不是現在這樣只有“1 mph (約 0.45 m/s)慢吞吞 + 5 mph(約 2.2 m/s)沖一下”這兩檔分離的狀態。
NeurIPS 現場那台帶手的 Optimus,我也看得比較仔細。Gen 2 這代靈巧手已經穿上了手套,而且手套不是隨便套一塊布上去。從近景可以看到,掌心位置刻意留了一道很明顯的摺痕,對應的就是手掌多出來的那條 palm joint——不這麼做的話,這條掌關節一彎,外面的包覆材料就會直接把自由度鎖死。就我自己的判斷,手套表層更多承擔防護和摩擦力這兩個角色,真正的觸覺感測器應該還是長在手套底下那層硬體裡。
再看關節細節:當手指屈曲握拳時,指間關節(尤其是 IP 關節)背側會撐出一個很大的 “V” 形開口,手套是被強行拉過去罩在這塊區域上的。原因很簡單:關節本身就是鉸鏈結構,背側開合幅度很大,會天然形成潛在的夾點。如果這些地方是裸露的,你很容易把異物卡在裡面,更別提防塵防水了。加一層手套,本質上是在用軟材料把這些夾點“鈍化掉”:一方面減少異物侵入和卡滯風險,另一方面提升它和人、和環境接觸時的安全性。對照他們公開過的那隻機械裸手,你會發現所有關節、開口的位置完全對得上,這套東西明顯就是面向量產的“試產版手部”,而不是一隻隻為展覽拍照的原型手。
感知這塊,從工程師的口徑和視訊畫面綜合起來看,Optimus 的頭部正面至少有兩枚攝影機做立體視覺,後腦勺還能看到一顆鏡頭,這意味著它已經具備一定程度的“背向視野”。前方用雙目做近距離深度,後面用一顆補視角,整體思路和車上的“廣角 + 長焦”那套很像。之前發佈會上給過的一些“官方參數”,對我來說現在都已經是歷史版本了,更靠譜的描述是:前向至少兩枚 + 後向至少一枚攝影機,至於側向有沒有、有沒有額外的小鏡頭,特斯拉目前還沒攤開講。
如果把這輪資訊做個工程視角的小結,我會這樣看 Optimus Gen 2.5的“乾貨補全”:
當你把畫面停在指間關節(IP joints)和指關節頂部的位置時,有一個細節其實特別關鍵。手指完全伸開的時候,指背會撐出一個很大的“空洞/裂谷”,手套是被硬生生拉過去罩在上面的。對我來說,這基本就把一件事鎖死了:手套下面的機構,和他們之前裸露展示的那隻機械手,是同一套東西,不太可能搞什麼“展台上一套、手套裡再藏一套”的雙結構戲法。
從運動學角度看,我大致是這麼數這隻手的自由度的:如果只算手指、不算手腕,本體大概有 22 個自由度。然後你再把拇指根部多出來的那一檔自由度,以及小指那一側第五掌骨那種額外“往裡繞進來”的擺動也算進去,總數差不多是 24 個自由度。粗拆一下:每根手指大概有4 個自由度,上面那節是 IP 關節,下面那節是 MCP,MCP 既能做屈伸運動,又能做外展/內收。拇指在根部再多給一個 DoF,小指那一側第五掌骨還能往裡“拐”一下,所以才會從 22 撐到 24。
但你再往前臂裡看驅動配置,就會發現一個很典型的工程取捨:他們現在只塞了 17 個線性致動器。腱的顏色編碼很直白:紅色那組負責屈曲(抓握),黑色和藍色管外展/內收,另外還有兩根綠色腱專門負責把拇指和小指“繞過來”做對掌動作。結果就是一個標準的“少驅動”狀態:24 個自由度,只配了 17 個執行器,中間少了大約 5–7 個主動通道,是拿結構和彈性件在硬湊。
也正因為少驅動,現在很多關節的“回程”並不是靠主動腱拉回來,而是完全交給彈性結構兜底。比如,小指和拇指那種“繞過來”的動作,是靠綠色腱把它們拉進來,對掌完成後鬆掉腱,讓關節裡預置的彈簧把它們彈回去。手指伸直也是同樣的邏輯:只有主動的“屈曲腱”,沒有一套對等的“伸展腱”,回程就只能靠沿著手背布的一條“韌帶/橡皮筋”式的彈性帶。在股東大會的特寫鏡頭裡,你能看到手背上那條白白的帶子,那就是他們用來做被動回程的結構。換句話說,目前明顯是缺了幾根真正可控的“伸肌腱”,伸展這半程沒辦法做到精確控制。
馬斯克之前說過一句話:未來單側前臂裡大概會塞進 25 個致動器左右。你把現在這版數一數:手指 17 個 + 手腕 2 個,一共才 19 個。要漲到 25 左右,差的那 6–7 個,很明顯就是準備補在這裡——把現在交給彈簧和橡皮筋“兼職”的回程動作,改成真正的主動驅動,包括外展/內收的回程、手指伸展,還有拇指和小指對掌的主動控制。從佈局上看,前臂裡現在是兩圈執行器:底部一圈大概 12 個,看上去像一圈插滿的“生日蠟燭”,上面再是一圈大概 5 個左右,後側刻意留了一個缺口給手腕的兩個執行器,所以這圈並不是完整的 360°,而是大概 300° 的環形陣列。
再說一個所有仿生系統都會遇到的老問題,人類自己的身體上也有:你轉動手腕的時候,會發現手指會不自覺地跟著微微動一下。原因很簡單——當腕關節轉動時,肌腱路徑會改變,等效長度和張力也會一起變。Optimus 這隻手上也是同樣的事情:17 根腱擠在一條非常狹窄的通道里,手腕一動,整束腱的路徑和受力都會一起被拖著走,就會出現一些手指(尤其是拇指)在手腕動作時出現輕微的“無意識聯動”。人類可以靠肌肉主動把這部分抵消掉,但機器人想解決這個問題,只能依賴控制演算法再加更多主動腱去做補償。
充電方式這塊,他們現在基本還是沿用老方案。背後有一個直觀的介面,可以直接插線給它充電;另外你還能看到一種類似“掛牆式充電架”的東西——機器人後背掛在支架上,膝蓋彎曲,由支架托著,看上去就像是“掛起來充電”。從工程角度看,我會非常傾向於認為,真實場景下,他們會大量採用“工作時持續插著電”的模式,而不是完全指望電池撐一整班。否則,讓它干三四個小時活,然後因為電池見底當場癱倒,這在很多工況下是完全不可接受的。
這批展示出來的機器人,官方現在叫 Optimus Gen 2.5。馬斯克已經公開說過,Gen 3 會在明年二季度公佈,大概在 3 月左右。站在手這個局部來看,我更願意把 Gen 3 理解成:在現有手的基礎上繼續做第 3、4 輪迭代,而不是徹底推翻重來。你如果把現在這版手當作“預告片”,其實已經能看出後續升級的大方向:
一開始他們是死扣那套“零部件越少越好”(the best part is no part)哲學在做手,能砍一個執行器就砍一個,能用彈簧、橡皮筋解決的,就絕不多加一根腱。現在你看這隻手的狀態就很清楚:如果想在手上拿到足夠的精度和抓持力,有些執行器是躲不過去的,遲早得加回來。另外,指關節區域張開時那道大“裂谷”,從工程上看就是一個典型的夾傷點 + 疲勞應力集中源。那怕外面罩了手套,手套本身也會被反覆撐開、捏皺,高頻跑一陣子,非常容易在那一帶率先撕裂。這個問題絕對不是特斯拉獨有的鍋,現在幾乎所有仿人靈巧手的指背幾何,都是“手指一張開,背面露出一個大坑”的這一掛,我個人判斷,這一塊大機率會成為下一代設計必須重點“掃雷”的區域。
還有一點很多人容易忽略:我們現在看到的這隻手,其實是“夏天就已經設計凍結”的版本。什麼意思?就是硬體團隊早早把結構鎖死,交給演算法/訓練團隊當穩定平台,繼續在真機上練走路、跑步、操作這些技能。與此同時,新一代的手和腿在後台悄悄迭代,等新版本成熟了,軟體這邊幾乎可以做到“無縫切換”到新硬體拓撲。下肢這塊,我不覺得他們會做特別激進的結構改造,整體策略更像是在現有架構上,提升執行器性能和工藝水準,髖關節之類關鍵總成做小步最佳化,好處就是可以沿用現有拓撲,盡快把測試和產能往前推。
供應鏈側現在也開始冒出一些符合邏輯的訊號。比如有傳聞說,特斯拉會在 12 月 7–13 日這一周,對部分中國供應商工廠做質量稽核。這類消息如果是從供應商端流出來的,我個人會給個“八九不離十”的置信度,因為這種鏈路上資訊本來就很難完全摀住。如果這事屬實,基本可以解讀成一句話:Optimus 相關零部件和整機的量產節奏,並沒有脫離他們內部規劃的大框架,反而是在按部就班地往前推。
在“大腦”和訓練這塊,我自己覺得 NeurIPS 上那個所謂的“神經網路模擬環境(neural sim)”其實是整場裡最硬的一塊內容之一。
現場的 setup 看起來很樸素:一個模擬駕駛艙,人坐進去,握著方向盤、踩著踏板“開車”。關鍵不在硬體,而在螢幕上那一塊——你看到的 不是預錄視訊,也不是傳統遊戲引擎渲出來的畫面,而是特斯拉神經網路即時生成的“擬真視訊世界”。這個網路前面已經把海量真實駕駛視訊吃乾抹淨了,所以現在吐出來的東西,在 物理合理性和觀感上,基本就是“真視訊等級” 的。
他們在機器人會議上放這個 Demo,其實想說的核心意思很直白:給汽車做出來的世界模型,加上端到端強化學習那一整套 pipeline,將來是要直接遷到 Optimus 身上的。你完全可以腦補下一步的場景:在一個由神經網路生成的虛擬工廠、虛擬家庭環境裡,放一台“虛擬 Optimus”進去幹活——揀貨、泡咖啡、擰螺絲、做家務。表面上你像是在玩一款“Optimus 模擬器”的遊戲,但從訓練角度看,螢幕上每一幀狀態、每一個動作,其實都可以直接當成訓練樣本,源源不斷回灌到真實的 Optimus 身上。
本質上,這就是把他們在 FSD 上那條路,原封不動平移到機器人領域:先從真實路況視訊裡挖各種“邊緣場景”和複雜路口,再在模擬裡重建,反覆回放、改條件——早晚高峰、雨雪霧、強光弱光等等——用這種方式堆出一個極其豐富、極其多樣化的資料分佈。 接下來只需要“換皮”:把車換成 Optimus,把“車流和路口”換成“貨架、工位和工具”,你就可以在一個高擬真的“Optimus 遊戲世界”裡,把“泡咖啡”“揀貨”“擰螺絲”“做家務”等等任務來回推演幾萬遍。
站在我這種比較宅的技術視角看,這條路如果走通了,最大的價值不是“酷炫 demo”,而是它給了 Optimus 一個可以持續自我喂資料、自我進化的閉環。 真實世界負責提供原始分佈和極端情況,neural sim 負責重建和放大,強化學習和控制策略負責把這些經歷“寫進”機器人身體裡。只要這幾個環節閉得夠好,後面你看到的就不會只是一兩個精心排練的秀場鏡頭,而是整個“物種等級”的能力爬坡。
我這次主要做了三件事:確認 Optimus 是真的在跑、搞清它到底跑多快、順帶用這個例子聊聊量產和供應鏈的硬約束。
先說跑步本身。視訊裡可以很清楚地看到一個完整的 飛行相(雙腳同時離地),這在生物力學上已經是標準的「跑」,不是快走。另外大家注意到的toe box 翹起,在春天那支跳舞視訊裡就出現過:現在的toe box 是被動鉸接結構,沒有主動驅動。當腳向後拖、前緣那一小塊被地面掛住時,會繞鉸鏈產生力矩,把 toe box 撬起來。這次跑步也是同一個機理:腳跟先落地→腳掌踏平→推進階段壓力集中到腳趾根部折線→地面從下往上頂這條折線→toe box 被掀起,離地後又回位。這種大開口結構在室內還能用,一旦到戶外,小石子非常容易卡在縫裡,高頻跑動還會造成疲勞撕裂,所以我預計後續版本大機率會改成 整塊連續鞋底,刪掉這條橫向分割縫。
再說一下我是怎麼得到這個 5.2 mph (2.34 m/s) 的。簡單講,我先在畫面裡用 Optimus 身高做幾何標定:截一幀圖,把起點線和終點線畫出來,用一台 Optimus 的身高當尺子量,跑道大約是 4 米。然後我看的是骨盆穿過起終點線的時刻,而不是腳尖——腳在擺動周期裡前後晃動太大,用腳算速度會嚴重失真;骨盆才真正代表機體的平移速度,就像田徑比賽看胸口沖線一樣。按 24 fps 逐幀數下來,從起點到終點大約 1 秒 + 17 幀 ≈ 1.71 s,所以速度就是v ≈ 4 m ÷ 1.71 s ≈ 2.34 m/s ≈ 8.4 km/h ≈ 5.2 mph。也就是說,這就是一個非常典型的人類慢跑速度檔。你完全可以用別的方法去估,但我的原則很簡單:誰報一個數字,就請把算式一並亮出來。
量產這塊,我更關心的是背後的算術。以現在這版結構粗算,一台 Optimus 大概有 約 30 個結構執行器 + 約 50 個手部小執行器,合計大約 80 個執行器/台。如果馬斯克嘴裡的目標是 1000 萬台/年,那一年就是 8 億個執行器 的需求。線性執行器更誇張,目前一台機器人大約有 14 個線性執行器,每個需要 10 根行星滾柱絲槓,也就是一台 140 根絲槓,乘上 1000 萬台,就是十億等級的滾柱絲槓/年。這類精密件往往是「幾分鐘一件」,完全不可能像螺母螺栓那樣「一秒一個」,所以要麼上成百上千台裝置,要麼發明一整套高吞吐製造工藝——這才是「一年 1000 萬台人形機器人」這句話背後真正的物理含義。
供應鏈側的訊號和這個也對得上:一邊是 中國零部件供應商的驗廠傳聞,一邊是在 加拿大蘭裡執行器供應商附近招 Actuator Program Manager 駐場。對我來說,這說明:即使 V3 設計還沒 100% 鎖死,特斯拉對大約 80% 的結構和零部件路線已經心裡有數,供應鏈是被前置拉進來一起迭代的,剩下那 20% 就邊調邊逼著供應商改規格,而不是「設計完了再想怎麼生產」。
最後說一句價值觀上的東西。我最看不慣的一點就是:大家都愛發炫技視訊,卻很少有人老老實實把行走/奔跑速度標出來。我問一些工程師「你們這個到底跑多快?」,居然能聽到「不知道」這樣的答案。所以我才專門用這一整套方法,把 Optimus 的速度算清楚,也是真心希望後面誰再發機器人走路、跑步的視訊,順手把速度參數寫上去——這是對工程的基本尊重,也是讓整個行業的討論從「看熱鬧」回到「看資料」的必要一步。 (AI工業)