中國機器人,夢想是當打工仔


去年 4 月,人形機器人第一次和人類站在同一條賽道上跑馬拉松;今年4月,機器人已經跑得比人類還快。

不過,爭議聲也隨之而來:機器人跑那麼快有什麼用;機器人什麼時候才能幹實事?但這一次,機器人企業給出了更務實的答案——想要幹活,先去實習。

近日,智元機器人宣佈新款A3人形機器人將通過“擎天租”平台交付,批次上崗景區;自變數機器人宣佈與58同城合作提供到家服務,機器人將進入真實家庭,與保潔阿姨協同作業。

具身智能迎來了一波密集的商業化動作,行業敘事也在悄然轉向。

過去兩年,登上春晚、參加比賽是機器人展示拳腳的最佳舞台;但如今,深入工廠、走進家門,在真實場景中解決實際問題,才是對機器人的真正考驗。

“大腦”還沒長好

早在一個月前,自變數跟58同城合作,推出全球首個機器人保潔員,與保潔阿姨協同為使用者提供家庭清潔服務。

在社交媒體上,有不少使用者進行了“嘗鮮”,但整體評價依然是“機器人不如人”。

有使用者稱,機器人動作比較笨拙,雖然能做晾衣服、收納之類比較複雜的家務,但疊一件衣服就要接近10分鐘;機器人的活動範圍有限,有台階、有門檻都進不去。

但這種“不足”並非一家機器人企業面臨的難題,而是整個行業的共同挑戰。

自變數CEO王潛在近日表示,“今天在全世界範圍內,沒有任何一台機器人可以在沒有遙控操作的情況下,獨立完成大部分的日常家務。”

宇樹科技創始人王興興也提過類似觀點,他表示機器人在預設場景任務中,成功率趨近100%,一旦場景變化或出現從未見過的事件,成功率會斷崖式下跌,機器人做家務還要3-5年。

這也是當下具身智能行業最大的瓶頸——機器人無法理解真實世界的物理邏輯。

業內有個形象的比喻,機器人雖然“小腦”發達,但“大腦”還在發育。“小腦”指的是機器人的運動控制能力,能做武術、舞蹈等複雜動作;“大腦”則是認知、決策能力,是“能幹事”的基礎。

因此,讓機器人真正擁有一顆會思考的“大腦”,是當下整個機器人行業都在努力的事情,目前來看,主要分成了三條技術路線:

VLA端到端是當下的主流,也是最成熟的路線,主要通過融合視覺等多模態感知訊號與語言指令直接生成機器人動作。

簡單來說,就是機器人聽命令,然後直接做事情,比如使用者說“我餓了”,機器人就會找到食物並遞給你,只要機器人見過類似物體,它就能執行指令。

但弊端也很明顯,那就是隨著任務的複雜程度增加,出現機器人沒有訓練過的複雜場景和行動軌跡,它就很容易出現“邏輯當機”。

而且,行業中常用的VLA架構,基本上是將視覺、語言、動作三個模組各自獨立運行,資料每經過一次模組邊界就會發生資訊損耗和延遲,涉及精細動作,“大腦”容易跟不上“小腦”。

世界模型路線則被認為是最接近人類思考模式的路線,它的核心是能理解物理世界的運轉規律,從而預測下一刻會發生什麼。

比如一隻杯子從桌子上掉下來,物理模型能基於對運動、重力等方面的認知,估算出杯子掉落的基本方向,基於這個理解,機器人就可以扶穩杯子,或者避開杯子。

但世界模型也面臨著更巨大的成本挑戰,包括資料需求、訓練成本等,輝達的Cosmos世界基礎模型,便經過了9000兆個Token的訓練。

大小腦分層是更具國內特色的路線,LLM大模型作為“大腦”,負責理解任務;VLA/動作模型作為“小腦”,負責精細控制。

但將大小腦拆分開來,容易導致任務出現延誤,難以實現高精度操作。況且,模組越多,成本也會越高。

不過,由於國內大部分機器人企業在“小腦”環節都有一定積累,採用大小腦分層路線,先立住長板,再集中資源補短板,顯然比從零造一個“大腦”更務實。

邊“幹活”,邊“補腦”

總的來說,每一條技術路線都各有優劣,難言誰才是最終路徑。

況且,各個機器人企業雖然都有押注的主流技術路線,但也並非只有一條路線走到底,深度融合才是大勢所趨。

比如VLA端到端和世界模型的融合。智元Genie業務部生態及解決方案總監沈詠劍曾在採訪中表示,世界模型與VLA並不一定是替代關係,也有可能有融合或合作的狀態。

今年以來,智元推出了世界模型迭代版本GE-Sim 2.0、新一代VLA基座大模型Genie Operator-2,以及第二代一體化具身大小腦系統GenieReasoner。

智元在傳統世界模型僅建模“狀態”的基礎上,提出了世界動作模型的方向,將“狀態-動作-狀態演化”作為統一建模對象,並未只圍繞單一路線推進具身模型。

自變數則推出了世界統一模型架構的具身智能基礎模型,將大小腦塞進同一個模型,能更有效消除模組間的資訊損耗與延遲,提升機器人在真實物理環境中的泛化能力與互動效率。

其具身智能基礎模型WALL-B的特點就是“干中學”,讓機器人在反覆失敗、嘗試中完成自我迭代。

自變數CTO王昊指出,“世界模型並非一個單獨的模組,它本質上是一種能力,但這種能力不能簡單地累加,並不是在VLA後面再掛一個世界模型就能理解世界。”

智平方則提出了快慢雙系統融合方案,將智能體劃分為“快系統”(負責全身控制)和“慢系統”(負責邏輯推理),讓機器人在面對複雜的動態環境時,既能快速反應,又能保持對長程任務的深度理解。

可以看出,無論走那條技術路線,機器人“大腦”要真正“長好”,最大的挑戰都繞不開兩件事:一是理解世界,二是讓思考跟上身體的反應速度。

但這並非練得越多就越強。自變數CTO王昊舉了一個例子,“一個人在泳池裡學了10年游泳,但把他丟到大海,他還是有可能會淹死。”

他認為實驗室裡的訓練資料太過乾淨,機器人待在象牙塔裡,很難具備真正的獨立思考能力,最好的方法就是讓機器人到複雜的、充滿隨機性的環境中學習。

復旦大學電腦科學技術學院教授肖仰華也曾對外表示,“訓練具身智能大模型,保守估計當前已有資料量與所需資料量之間至少還差兩個數量級。”

出於對真實資料的渴求,機器人開始加速湧入真實場景。

優必選的人形機器人已經進入了工廠。創始人周劍表示,優必選花了兩年時間,從新能源汽車製造場景切入搬運、上下料、物料分揀、質檢等任務的POC 實訓。

銀河通用的Galbot機器人開始參與藥房營運,可以自主識別訂單並抓取藥品、掃碼、打包;魔法原子的人形機器人則變身“汽車銷售”,在汽車專賣店招攬顧客,為顧客講解車輛參數。

不同的機器人企業,不同的真實場景,大家的目標都只有一個:

在真實場景獲取資料,驗證機器人的能力,再反哺給具身智能基礎模型的迭代,讓機器人“大腦”從單一任務、有限場景,逐步實現物體泛化、背景泛化和任務泛化,變得更加聰明。

場景拉高上限

一旦理解了“練大腦”離不開“真資料”,就能明白為何資本市場對具身智能的估值邏輯,在最近這一年悄然發生了轉向。

據第一財經不完全統計,截至4月10日,國內具身智能領域至少發生269起融資事件。

但與往年相比,資本投向的側重點出現了明顯變化——資本正在加速湧向資料與模型演算法,本體硬體的估值預期,則從技術敘事轉向商業落地。

今年以來,多家側重於“大腦”的具身智能企業,完成了數十億元等級融資:自變數宣佈已完成近20億元的B輪融資;它石智航拿下4.55億美金Pre-A輪融資,刷新中國具身單筆融資紀錄;具身資料與模擬基礎設施公司光輪智能最新一輪融資達10億元。

行業發展到當前階段,本體硬體的形態已基本完善。今年機器人馬拉松的奪冠者並非傳統機器人企業,而是消費電子廠商榮耀,也從側面說明了硬體的技術門檻正在降低。

市場開始形成一種新共識,那就是決定機器人能否投入實際應用的核心變數在於“大腦”,而“大腦”背後則是模型能力與資料資產。

如果說過去的資本邏輯,是希望通過硬體銷量率先完成佔位;那麼今天市場在估值時,則會更關注誰的“大腦”更聰明,並具備充足的泛化能力。

機器人的硬體門檻會隨著供應鏈成熟而逐漸拉平,但“大腦”卻不一樣——誰的模型能在更多真實場景中跑通,並將特定場景中學到的技能和知識,遷移到新的對象、任務或環境‌,誰就能“舉一反三”,快速在更多不同場景中落地。

而且,具身模型的泛化能力越強,護城河越高,天花板也更高。

自變數創始人王潛提到,“家庭場景對泛化性要求最為極致,能讓模型在極複雜的家庭場景跑得通,進傳統的工業場景都能完全降維打擊。”

這意味著,模型能力成熟以後,其可以在一個行業甚至多個行業通用,是一個可以無限復用的商業模式。

而且,相較於先建構能力再尋找落地場景,不少機器人企業已經將商業場景置於產品設計之前,將產品服務與商業場景繫結在一起。

比如銀河通用推出的兩款輪式機器人,強調穩定性和負載能力,更適合執行搬運、抓取、分揀等重複性工作;小鵬 IRON則明確將會優先落地博物館、4S 店、商場。

“機器人到底能幹什麼”這個問題,具身智能已經漸漸摸到了答案。

“宇樹們”花了十年時間,讓機器人實現從0到1的突破,但要讓機器人具備真正獨立思考的能力,擺脫對人類單一重複命令的依賴,背後是從1到10,再到無限的臨界點。

手腳能讓機器人站起來,但真正活下去,還要靠大腦。 (伯虎財經)