一文看懂機器人“大腦”：從感知、決策到動作生成

2026/06/18

•

有一種看似非常簡單的方式可以描述“物理 AI”究竟是什麼，而且任何具備 STEM 背景的人都能直覺地理解它。像所有其他 AI 模型一樣，控制機器人的模型本質上也是一個函數。它接收觀測輸入（攝影機像素、關節角度、夾爪感受到的阻力等），並輸出動作，也就是其電機下一組位置與扭矩指令。除此之外的所有內容——那些複雜的演算法、訓練方法，以及資料規模化理論——本質上都是在服務於一件事：產出這個函數的一個優良版本，並把它嵌入神經網路的權重之中。

本文來源於 An Overview of Modern AI Robotics from First Principles，翻譯整理而來，僅供參考。如需查看英文原版及更多資料，可在文末獲取。

圖 1 · 策略函數

圖 1 機器人的策略本質上是一個函數。觀測資訊從左側持續流入，網路對其進行提煉，然後一組動作指令從右側持續流出——機械臂的每一個關節、每一個自由度都對應一條指令。這個領域裡其餘的一切工作，都是為了讓這一個函數變得足夠優秀、足夠快速。

如果你曾訓練過一個將輸入對應到輸出的模型，那麼你已經能夠把握這個問題的大致形狀。真正有意思的部分，在於當你把這種熟悉的結構放進一個持續運動、主動變化的世界中之後，會發生什麼。

這套配方，以及打破它的那個維度

有兩個要素可以提升這個函數的質量：算力和資料。資料是機器人智能的原始燃料，現實世界中的模式就藏在其中，像尚未加工的礦石一樣。算力則負責訓練這個函數，通過矩陣乘法把從資料中“開採”出來的模式嵌入進去。

這聽起來和普通機器學習並沒有太大區別，而且在一段時間裡，你也確實可以假裝它就是普通機器學習。但機器人領域引入了經典機器學習從未真正需要嚴格面對的第三個坐標軸：推理時間。

語言模型可以花三秒鐘思考下一個 token，通常不會造成什麼後果；但一個正在倒咖啡的機器人卻不行。杯子已經在移動，動作必須在事件進行過程中即時生成。這個函數不僅要正確，還必須快到足以讓“正確”在答案到達時仍然有意義。你的模型思考時，物理世界並不會暫停，它仍然持續運行。這就使得機器人領域出現了一些困難但也非常有意思的取捨。

把“大腦”拆成兩部分

最自然的第一反應，是學習一個巨大的模型，直接把觀測對應成動作。但在實踐中，這個領域逐漸收斂到了一種更有意思的結構：現代機器人模型通常被分成兩個部分——理解者和行動者。

其骨幹是一個大型模型，通常是視覺-語言模型（VLM），也就是像 GPT-5 或 Gemini 這類在理解語言與圖像時所使用的同一家族模型。它已經在海量網際網路圖文資料上完成訓練，因此本身就已經“知道”這個世界。例如，它知道杯子無論顏色如何都是杯子，也知道“把東西收起來”意味著把它放回一個合理的位置。它內部攜帶著一個關於世界外觀與運作方式的已學習表示。它是那個較慢、較審慎的規劃者，負責理解環境。

接在它之上的，是一個小得多的動作專家：一個高速模型，它唯一的工作就是把骨幹模型的理解進一步細化成即時、平滑的電機控制指令。

NVIDIA 在 2025 年發佈的、面向人形機器人的開源基礎模型 GR00T N1，就把這種拆分明確表達了出來：它的 System 2 VLM 負責對場景進行較慢而審慎的推理，而一個獨立的 System 1 模組則幾乎像本能一樣生成實際動作，這兩個部分被緊密地聯合訓練。Physical Intelligence 的 π₀ 也採用了相同的結構：一個負責理解的 VLM，加上一個負責行動的小型動作頭。這種結構構成了所謂的視覺-語言-動作模型（VLA）。

圖 2 · VLA 的內部結構

圖 2 視覺-語言-動作模型是一個由兩個緊密耦合部分組成的網路。大型 VLM 骨幹網路讀取圖像、語言和機器人狀態，並建構對場景的理解。小型動作專家則在此基礎上，從噪聲出發，並在一次前向傳播中將其逐步細化為一個動作塊（action chunk）：也就是一小段未來動作序列。

因此，我們就從一個單體的函數，轉變為一種協同關係：一個模型負責持有對世界的圖景，另一個更小的模型負責把這幅圖景轉化為運動。

動作究竟是如何輸出的

那麼，這個函數究竟以什麼形式輸出動作？有兩種答案，而這個領域的發展歷史，在很大程度上就是從第一種走向第二種的過程。

第一種是離散式（discrete）：動作頭一次只產生一個動作。模型先觀察，發出一條單獨指令，執行它，然後再次觀察。早期系統就是這樣工作的。這種方式直觀，而且對更簡單的問題也有效，但它太慢了，而且微小誤差會不斷累積。每一個細小失誤，都會把機器人輕輕推向一個比訓練時見過的情況更陌生一點的位置；於是下一次預測會更差一點，再下一次更差。機器人會逐漸偏離它自身能力範圍的邊緣，最終導致失敗。

第二種是分塊（chunking）：模型一次性預測一小段未來動作序列，然後把它作為一個平滑整體執行完，再重新查詢。這一思想在 2023 年由史丹佛 Tony Zhao 及其合作者提出，稱為 Action Chunking with Transformers（ACT）。它借用了心理學中的“chunking（分塊）”一詞，在心理學裡，這個詞描述的是人類如何把一連串細小動作組織成一個流暢的整體動作。ACT 帶來了顯著提升：它僅用大約 10 分鐘的示範資料，就能以 80%–90% 的成功率學會一些對精度要求很高的任務，例如打開半透明調味杯，或把電池插入卡槽。預測一個動作塊，會縮短任務的有效長度，並緩解一步一步預測所固有的誤差累積問題。

圖 3 · 離散式 vs 分塊式

圖 3 切換模式並點選運行。在離散模式下，機器人一次只預測一步，微小誤差會持續累積，因此它會逐漸偏離自身能力邊界；而在分塊模式下，它一次提交一小段動作序列，因此能夠更緊密地貼合預期路徑。

現代機器人學的很多部分都與人類行為相呼應。人類並不是每次只思考一個微小動作然後再執行它。我們是在連續流動的動作中，一邊運動，一邊思考。現代機器人學追求的是連續的、分塊式的動作生成，在動作之間不留下“死空氣”，這樣運動看起來更像一種活物，而不是一具僵硬的木偶。

當前生成這種平滑動作塊的最先進方法，叫做流匹配（flow matching）。這是一種通過擴散過程，將帶噪的潛在表示逐步提煉為連貫軌跡的技術。無論是 π₀ 還是 GR00T，它們的動作專家模組都是從噪聲出發，再逐步細化成一條連貫的運動軌跡。這與現代圖像生成器改採用的方法屬於同一家族，只不過這裡生成的不再是像素，而是動作。

“大腦”放在那裡：邊緣端還是雲端？

當你擁有了這個函數之後，你還必須決定把它運行在那裡。這裡會出現一個重要權衡：可用算力與時延之間的權衡。

你可以把模型放在邊緣端（edge），也就是直接部署在連接機器人本體的電腦上。這樣一來，時延幾乎為零（前提是你的模型能裝得進邊緣裝置），這很適合物理世界；但問題在於，你只能使用能夠安裝在機器人身上的那點硬體，因此往往不得不把模型做小。

或者你也可以把它放在**雲端（cloud）**運行，把繁重計算解除安裝給強大的伺服器，再通過網際網路把動作回傳回來。這樣你就能運行非常巨大的模型，但每一個動作都必須在網路上往返一圈，時延就會成為敵人。

這個約束到底有多緊？以 π₀.₅ 為例：在一塊高端 GPU 上，它完整的一次“感知—動作”循環大約需要 274 毫秒，而其中大約 80% 的時間，僅僅花在迭代式流匹配細化上。另一方面，在一個以 3 Hz 控制循環運行的小型邊緣裝置上，每一輪循環總共只有大約 330 毫秒留給感知與動作生成，幾乎沒有任何余量。

這正是整個領域賴以平衡的核心問題：雲端給你一個更大的大腦，邊緣端給你一個更快的大腦，但你絕不能讓“思考”和“行動”之間的間隔大到足以讓世界從你腳下先一步移動開。

圖 4 · 時延預算

圖 4 在邊緣端，模型直接在裝置本地運行，不需要經過網路，但由於加速器較弱，因此計算模組更大。切換到雲端後，更強的 GPU 會縮短計算時間，但每一個動作現在都必須額外包上一整次網路往返。把往返時延繼續拉高，你就會看到總時間跨過 330 毫秒的截止線。

資料瓶頸

和許多深度學習問題一樣，機器人學也受困於資料。但機器人領域尤其受困於資料的多樣性。

最有價值的機器人資料通常來自遙操作（teleoperation）：由人類反覆操控機器人完成任務。專家示範確實能夠穩定地產生高品質策略，但這種方式無法擴展。每獲得一小時資料，就需要投入一小時的人類勞動（有時甚至更多，因為示範質量本身就很重要）。更糟的是，不同機器人、不同夾爪、不同實驗室通常都會產出彼此不相容的小資料集。GR00T 團隊把這種局面形容得很貼切：這不是一個統一、連貫、達到網際網路規模的資料海洋，而是一片片彼此割裂的“資料孤島”。

把它和 AI 其他領域的發展軌跡對比，你會發現，那個“魔法技巧”其實一直是一樣的：把問題轉化為一個能夠隨著算力擴展的問題。例如，語言建模之所以能夠擴展，是因為文字資料極其豐富，而且具有可互換性。機器人學卻沒有這樣的“資料消防水帶”。因此，這個領域逐漸分裂出兩條策略，用來“製造”它無法直接採集到的資料。

策略一：模擬這個世界

如果你無法採集足夠多的真實世界資料，那就建構一個假的世界，讓機器人在其中免費練習。這正是**世界模型（world models）和模擬（simulation）**登場的地方。

精準地說，模擬是一個更寬泛的概念：任何一個能夠把世界建模得足夠好、從而允許你在其中練習的系統，都可以算作模擬。世界模型則是一個神經網路：給定當前狀態和一個動作，它預測世界接下來會變成什麼樣。它學習的是“採取行動之後會發生什麼後果”，通常這種預測會以某種媒介表達出來，比如圖像。更關鍵的是，它學習物理規律並不是靠手工編寫規則，而是通過觀察來學會，因此能夠捕捉到那些對目標環境至關重要的關鍵動力學。

2025 到 2026 年間，這一方向的一次飛躍來自 Google DeepMind 的 Genie 3：這是一個世界模型，只需給它一個文字提示，它就能即時生成完全可互動、可導航的 3D 環境，並根據之前的幀持續預測後續每一幀。它與機器人學的相關性非常直接：你可以獲得無限、廉價的訓練場景，其中還包括那些你永遠不想在現實中真的搭建出來的危險邊緣情況。

Waymo 走的正是這條路線：它建構了一個 Waymo World Model，用於生成同步的攝影機與雷射雷達駕駛場景，其中充滿真實車輛幾乎永遠遇不到的罕見情境。NVIDIA 則發現，在 GR00T 的訓練中混入合成資料，相比僅使用真實資料，性能提升了 40%。這個方向的夢想，是把資料問題轉化為算力問題。一旦做到這一點，你就能繼承 AI 其他領域已經享受到的一切優勢。

策略二：向“作為人類的人類”學習

第二種策略更加巧妙，而且在我們看來，也更優美。最具可擴展性的機器人資料採集器，並不是機器人，而是一個戴著眼鏡的人。

像 Meta 的 Ego4D（包含超過 3000 小時的第一視角視訊，記錄人們做日常事情的過程）以及 Project Aria 眼鏡這樣的項目，幾乎是從根本上重新定義了這個問題。佐治亞理工學院的一個系統 EgoMimic 給出了極其精煉的表述：當你看著一個巨大的第一視角人類資料集時，你看到的其實也是一個巨大的機器人資料集，只不過它是在人們正常生活的過程中被被動生成出來的。

你只需要戴上眼鏡，照常過你的一天，你就在以“人類生活本身”的規模，持續產出運算元據。那項工作裡最令人震撼的發現是：額外增加 1 小時的人類手部資料，對機器人的提升，竟然比額外增加 1 小時的機器人資料更大。

因此，相較於遙操作那種需要專門投入人力的方式，第一視角資料採集提供了一種前景：它能夠在幾乎不增加重大額外成本的情況下，把資料規模真正做大。

訓練的階梯

當架構和資料都已經具備之後，你究竟要如何真正建構出一個有能力的機器人？答案是：要分成若幹個階段來做，而每一個階段都有不同的目標。

圖 5 · 訓練的階梯

圖 5 能力是分階段建立起來的，每一個階段都建立在前一個階段之上。點選某一級台階，就能看到它的目標：從一個能夠理解世界的骨幹網路，一路走到一個在某個具體房間裡真正安全且有用的機器人。

預訓練塑造的是 VLM 骨幹網路。你要向它喂入海量關於空間推理以及世界一般如何運作的資料，目標是建構它對物理世界的理解與推理能力。

中期訓練創造的是動作專家（action expert）。目標是得到一個在幾乎任何配置上都能“還算不錯”運作的大腦，能夠把自己的理解翻譯成各種各樣的動作，並適用於多種類型的機器人。這需要大量來自不同環境、不同機器人平台的機器人資料。

後訓練（微調，fine-tuning）則是把這個通用心智調校到一個具體身體和少數幾項任務上。你先拿一個通才模型，再把它專門化，例如適配到某一種特定的雙臂機器人配置上，那麼它就能夠在這種具身形態下“開箱即用”地表現得相當不錯。現實世界中挖掘來的資料，正是在這一階段體現真正價值：遙運算元據和第一視角資料，都會在這裡最直接地轉化為真實表現。

部署訓練的目標，是讓機器人適應一個特定環境，直到它在那裡真正安全且真正有用。它填補的是“一個在演示裡能工作”的機器人，和“一個在你家廚房裡也能工作”的機器人之間的鴻溝。很多原本看起來非常驚豔的系統，恰恰就是悄悄倒在了這一關。

π₀.₅ 之所以有意思，正是因為它試圖縮小這道鴻溝：它被建構出來，是為了在訓練中從未見過的家庭裡清理廚房和臥室；而它往往確實能做到，雖然並不完美，但已經能讓人看見一種熟悉的火花——那種人在面對陌生房間時所展現出的應變能力。

讓機器人自己教會自己

但所有這一切，都存在一個天花板。一個只在示範資料上訓練出來的機器人，最多也只能和它的示範一樣好。它學會的是“理想路徑”，卻學不會如何從自己的錯誤中恢復，因為它根本從未真正見過這些錯誤。這就像一個人只通過觀看“完美駕駛”的視訊來學開車。一旦你第一次拐錯彎，你就會束手無策。

擺脫這個天花板的方式，與人類學習的方式是一樣的：練習，並接受批評者的反饋。這就是強化學習（reinforcement learning, RL）：讓機器人去嘗試，為結果打分，並強化那些有效的行為。

問題在於，你不可能在每一個時刻都監督機器人，也不可能為每一種可能情況都手把手提供示例。而且在現實世界中（不同於模擬器），嘗試是序列的、緩慢的，而且往往需要一個人類來重設場景。因此，現實世界中的強化學習會變得極其困難。

另一種可行方式，是借助人類干預。當機器人進入糟糕或不安全的狀態時，人類可以中斷推理過程，把它拉回到一個更好的狀態。這催生出了一系列基於 human-in-the-loop（人在回路中）的學習演算法，例如 HIL-SERL。

圖 6 · 回顧閉環（The Recap Loop）

圖 6 RECAP 將一個人掌握技能的完整過程編織成一個閉環。標記會在這個環中持續流動；點選任一節點，就能看到每一個階段的作用：從觀看示範，到對自己成千上萬次嘗試進行評分。

最近最生動的一個例子，就是 Physical Intelligence 的 π*₀.₆。它採用了一種他們稱為 RECAP 的訓練方法，這種方法把人類掌握技能的整個過程編織在一起：

Instruction（指導）：觀看示範；
Coaching（輔導）：由人類遙操作員在即時過程中介入，糾正錯誤，教會它如何恢復；
Practice（練習）：機器人自主嘗試任務成千上萬次，自己給自己打分，並保留那些有效的方法。

這裡甚至還有一個很巧妙的設計：流匹配模型無法直接使用標準強化學習的那套機制，因此 RECAP 改為訓練模型去識別“好動作”和“壞動作”，並在部署時直接要求它輸出“好”的動作。

這種方法帶來了很強的效果：在折疊衣物、拉取濃縮咖啡這類困難任務上，吞吐量大約提升為原來的兩倍，失敗率減少了一半甚至更多，而且機器人可以幾乎整天不間斷地運行一個咖啡工作站。

因此，自我提升演算法修復了機器人性能中的關鍵瓶頸，尤其是在泛化能力方面。

我們的位置

我們的使命，是在充滿好奇的公眾與機器人技術之間架起橋樑，並讓任何人都能更容易地部署機器人。上面所講的一切，正是我們希望變得清晰可理解、並且真正觸手可及的世界——不只是面向那些擁有龐大工程師團隊的實驗室，也面向任何一個足夠好奇、願意親手嘗試的人。

如果這些內容與你產生共鳴，歡迎與我們一起建設。你可以加入我們的 Discord，也可以在 X 上關注我們的工作。 (AI工業)