春晚之後,2026年中國兩大科技主線已經明確:
巨頭之間的AI(大模型)之戰,創業團隊之間的具身(機器人)之戰。
其中更為性感的、也更為產業所熱議的,自然是後者,具身機器人之戰,尤其是2026年正在成為具身機器人從“量產”到“落地”的關鍵一年。
僅僅是在開年這一周時間裡,就出現了五起大額融資——千尋智能兩輪近20億元融資,智平方超10億元B輪融資,銀河通用25億元A+輪融資,松延動力近10億元B輪融資,以及優理奇3億元股權融資。
經過這一輪資本加持,中國具身智能賽道已經跑出至少7家百億級獨角獸企業:宇樹、智元、銀河通用、星海圖、智平方、自變數、千尋智能。
然而,在具身機器人經歷了第一波量產嘗試後,在市場熱情再次被燃燒起來之時,整個產業更需要反思的是:
2025年,在第一波具身機器人量產過程中,暴露出了那些問題?
2026年,在又一波具身機器人落地浪潮下,有那些確定性瓶頸和趨勢?
就這兩個關乎具身機器人產業未來走向的問題,我是在近期舉辦的人形機器人與具身智能標準化年會上,聽到了一場含金量極高的對話,參與這場對話的均為中國具身領域頭部機構的從業者——
智源研究院院長王仲遠、星動紀元創始人陳建宇、星海圖創始人高繼揚、清華大學教授汪玉、自變數機器人創始人王潛、眾擎機器人創始人趙同陽、 帕西尼創始人許晉誠、加速進化創始人程昊,以及它石智航首席科學家丁文超。
從這九位具身機器人頭部機構從業者的深入研討中,我們找到了上述兩個問題的些許答案。
問:具身機器人量產過程中,最難啃的“骨頭”是什麼?
陳建宇:量產過程中,我們認為有兩個比較大的問題:
第一,“一致性”問題。
因為機器人鏈條很長,從供應鏈、零部件,到整機、系統、演算法,每個環節都可能出現一些小的變數影響一致性。
例如,我們之前遇到過這樣一個問題:
同一批次造出的人形機器人,有幾台走路走得總是不好,後來查了半天發現,工人在電機組裝的打膠水環節中,有幾台打得不太好,這種問題在實際生產環境中並不少見。
後來的解決方案是,我們設定了多層關卡和閘門,一層層把風險排除掉。
第二,因為具身機器人這類產品太新了,我們往往無法提前考慮到所有問題,特別是在我們自己小批次內測時,可能會存在沒有考慮到的問題。
例如我們之前有一款在售產品,推出一段時間並沒有出現任何問題,後來我們一位大客戶,買的量比較多、用得比較久,使用場景也比較重,在他們使用過程中,出現了一些我們完全沒有預料到的問題。
這樣的問題是目前難以避免的,但是我們可以做兩件事情:
第一,快速迭代, 遇到問題後,快速想辦法把問題分析解決掉;
第二,形成經驗“錯題本”,不斷積累,避免下次出現同類問題。
高繼揚:整機和智能的聯動是一個很重要的問題。
我們通過生產、工藝能夠保證一定的一致性,但最終發現,每台機器人之間依然存在細微差異,加上基礎模型之後,這些細微差異就會被放大。
這就需要有一個標定的過程,將整機中的各種感測器、機械結構,在一個統一的數學空間中做出標定,並與模型完成聯動。
基於此,不僅整機有量產,智能也有了一個量產的過程,中間的聯動就靠標定,這是在機器人或者具身智能量產過程中,比較獨特的問題。
王潛:兩位講的都是我們所能控制的部分,在我們自己的生產、標定當中,依然存在一部分我們自己控制不了的部門,就是供應鏈問題。
我印象特別深刻的是,有一次我們有一個電機,老是出現一些不規則的、難以預測的損壞情況,我們當時覺得很奇怪,為什麼在我們友商那裡,用同樣的電機,他們沒有碰到這樣的問題。
後來我們發現,因為大家使用的工況不同,友商使用的是比較常見的工況,供應商針對這個工況做的最佳化比較好,我們雖然也在供應商標定工況之內,但是可能供應商有點偷懶,沒有把那部分的測試和最佳化做好。
這也凸顯出了標準工作的重要性,如果我們有一套足夠完備的標準,能夠把這類情況規範起來,就可以避免這類問題發生的。
但是目前階段,還是不可避免地會走一些彎路,依然需要我們不斷積累,在各類環境中大量使用和測試,包括量產,才可能讓這些問題暴露出來,這是產業鏈一個發展過程。
趙同陽:首先,關於量產,我們要有一個清晰的定義。
從去年到現在,人形機器人數千台規模的出貨量,相較於汽車行業而言,只能算是“小批次試產”。
相對於百年的汽車行業而言,機器人現在所處的階段還遠未到量產階段,這是一個事實。
這其中,供應鏈的發展也還遠未達到量產階段。
像汽車,從輪胎、減速器,到玻璃、方向盤,每一個零部件都有幾十家,乃至上百家成熟的供應商,經過近百年的發展,而機器人行業,尤其是人形機器人行業,只是在近兩三年才得到高速發展。
從機器人的供應商來看,目前可選的並不多,質量也還在一起探索階段。
另外,這個行業到目前依然處於快速發展階段,產品迭代很快,這使得像模具的生產製造,大家都不敢放開手去做。
由於行業發展非常快,一個產品可能只有1-2年的競爭力,假如企業備了幾十萬台的貨,有可能在下次競爭中就會被淘汰,導致企業出現大量庫存,這就使得我們和供應鏈廠商都不敢大規模進行產品量產,也就導致整個供應鏈會有一點卡滯。
此外,小型人形機器人和大型人形機器人的標準要求也不一樣,小型人形機器人運動能力對機械強度等方面要求不是特別高,但大尺寸人形機器人要又蹦又跳,要承受10g-20g的加速度,還要保證齒輪不斷裂,需要從模擬到設計上慢慢驗證。
有些東西甚至無法模擬或設計出來,只能測試出來,這些都是我們整個行業在現階段要去解決的問題。
丁文超:大家講的很多是關節的、控制的一致性,我們遇到的一個問題是,如何保證大腦、小腦以及本體協同的一致性。
例如機器人要送去進行作業,機器人全生命周期的各種動態性能,包括力觸的感知都是動態變化的,但企業發佈的其實是“本體+模型”,如何保證大腦也具有一致性、量產性,其實是我們現在正在解決的問題。
這個問題不僅僅是一個硬體問題,還有很多大腦層面的訓練、資料使用技巧都可以加進去,讓機器人在整個生命周期,無論遇到怎樣的損耗、老化,都可以保持模型的泛化能力。
問:2026年,要讓機器人真正具備泛化能力,並在各個場景中發揮價值,還需要在那些方面進行突破?
王仲遠:過去這幾年機器人之所以受到如此高的關注,不僅是因為硬體的發展,也是由於人工智慧,尤其是大模型的突破,為具身智能帶來了新的變數。
具身智能和傳統的大模型相比,它需要和硬體耦合在一起,不像純數字世界,可能大模型本身可以直接發揮價值,但具身智能既需要有模型能力本身的提升,又要依賴硬體,複雜性更高。
具身智能現在依然非常缺乏高品質資料,這就要求具身智能的資料除了從網際網路模擬環境中獲取以外,一定要有真機資料。
當然,這些真機資料如何高品質、標準化地獲得,這就是標委會可以重點推進的一些事項。
展望未來,尤其是今年,我覺得可能分兩部分:
第一,就企業實際落地來看,我相信依然會以VLM+VLA,或者純VLA為主,在具體的場景中做資料閉環打磨;
第二,就科研角度來看,會將重心放在世界模型,放在推進下一代真正具備泛化性的具身智能模型。
陳建宇:2026年,我們有兩個重點:
第一,資料閉環。
經過過去兩年的發展,端到端VLA模型的一些範式已經開始標準化,這時,提升資料質量就成了提升模型能力最高效的途徑。
第二,模型範式的提升。
當前比較標準的VLA模型主要是基於模仿學習的範式,如何為機器人建立更好的理解物理世界的模型,幫助機器人更好、更范化、更精細地完成各類物理世界中的任務,這也需要進行範式的探索。
高繼揚:現在看機器人大腦這件事,主要分為三部分:
資料的形態、預訓練怎麼做、後訓練怎麼做。
預訓練,去年大家都在做VLA,今年明顯的趨勢是往世界模型在走,這是一個確定性的趨勢;
後訓練,去年主要是SFT的模仿學習微調,今年明確在向強化學習方向去走;
資料形態,現在具身智能有很豐富的資料形態,從傳統的遙運算元據,到UMI資料,再到我們最近和輝達有一個基於EgoScale框架的合作,是用POV資料觀測自己的雙手怎麼去做,沒有佩戴任何其它輔助裝置,也有很好的預訓練效果。
這三個方面,都會在今年有集中的體現。
汪玉:從演算法發展的角度來看,後訓練是從SFT向IL(模仿學習)、RL(強化學習)的方向走。
現在如何做強化學習,特別是如何將現有算力高效地用於強化學習,這是在雲端要考慮的問題。
邊端如何讓機器人在百分之七八十精準率的情況下,進一步通過真機的強化學習能夠將特定認為的精準率提升到99%,乃至100%,這是今年重點要突破的。
此外,就具身資料而言,資料的“量”很重要,“質”也很重要。
特別是針對資料的“質”,我們看到,做真機強化學習時,實際場景中沒有做好的資料如何回流,如何加入到典型資料中,讓機器人能夠不斷學自己做不好的事情,我覺得是一個關鍵問題。
王潛:模型架構本身是一個大的方向。
兩年前,還有很多人在做單點任務的小模型,去年大家開始去做VLA,今年大家開始做世界模型。
整體上是在往越來越統一、越來越全能的方向發展。
但是我們看模型的輸出,有輸出動作,有輸出世界模型對於未來狀態的預測,但其實我們希望模型學到的倒不一定是這些東西,我們更希望模型學到一些物理世界的規律,例如物體的屬性或者更加本質的東西。
其實我們自己認為,VLA模型、世界模型並不是相斥的關係,它們在更大框架下是相互幫助,所以我們提出了物理世界基礎模型,這個詞讓大家稍微有一點費解,後來我們把這個詞改成了世界動作模型。
我們的看法是,不同任務之間的相互協同是具身模型非常顯著的特點。
不同時間的任務,互相之間有大量本質性交叉,這是基於預訓練基礎模型架構的一個大的發展趨勢。
當然中間會有百花齊放,有的團隊更注重世界模型,有的團隊更注重動作的訓練。
另一方面,最近兩年後訓練獲得了很大的進展。例如很多團隊已經能夠在某些單點場景上做相當優秀的後訓練,特別是強化學習,能夠獲得非常不錯的、前幾年做不到的一些效果。
這很大程度依賴於預訓練模型的發展,不管是在具身模型上,還是之前在語言模型上看到的明顯特點,如果預訓練模型沒有很好的基礎,強化學習效果會很差。
關於資料,我看到的一個大趨勢是,資料生產逐漸從單點的known-how轉向工業體系。
之前大家對於資料的理解是在一個地方有一個口傳心授的秘訣,另外一個地方有單點的模型進行處理,但是現在整體的趨勢是,資料越來越向工業化的方向發展。
我們正在以一個完整、可控制、可大規模複製的方式去生產資料,我們也有成體系的 benchmark或模型閉環,這也是我們自己會非常重視和大力度投入的方向,基本上是這樣。
趙同陽:早期我們把人形機器人當成一個工具去使用,看重的是機器人的工具屬性,工具要做的就是足夠快、足夠精準、失敗機率足夠低,我們自己內部也在用世界模型、強化學習讓它的失敗機率更低一些。
但是人類已經有很多工具,還在乎多一種新的工具嗎?
除了工具屬性,接下來人形機器人會帶來更多情緒價值。
我們賦予它“雙眼”,讓它能看清這個世界,賦予它“雙耳”,讓它能聽懂這個世界,賦予它“觸覺”,讓它能夠感知這個世界……
既然賦予了它這麼多能力,我們希望它不僅能為人類帶來工具屬性的價值,還能帶來情緒價值,世界模型的使用,包括情緒、情感、喜怒哀樂,我們要將它做得至少像一個人,而不僅僅是一個機器。
此外,具身機器人大腦的模型還完全沒有收斂,每一家都有自己的做法,每過一兩個月都會有新的演算法出現。
它不像做腿足運動控制,現在已經能跑能跳,很多東西幾乎已經超越人類現有水平,而現有的VLA模型很多還處於探索階段,模型能力只能達到人類的1/3、1/4 ,甚至更糟糕的狀態,我們也正在嘗試解決這個問題。
許晉誠:我們一直嘗試在做的就是泛化的定義,我們押注在與物理世界接觸模態資訊上,只有這些資訊,才能提升整體任務的成功率。
我們在機器人實驗中,加入了大量接觸模態的感測器,例如觸覺感測器,它可以讓基於Pi0這樣基座模型的一個任務的執行成功率,從20%提升到90%以上。
這很大程度上提升了任務執行的成功率和泛化性,這是我認為具身機器人未來很重要的一個發展方向。
物理接觸模態的資料也很重要,我們現在也在把大量接觸模態的多維觸覺資料採集下來,這對提升整體任務的成功率很重要。
程昊:我們認為具身大腦是前期研發需要投入比較多的地方。
在整體路線變得越來越清晰的情況下,我們更側重於在現有雙足人形機器人上,尤其是在機器人全身運動已經越來越成熟,可能今年在很多任務執行上能夠超過人類的情況下,現有的具身模型或VLA到底引入那些新維度的資料,模型通過強化學習,還是更多模態的方式,能夠在雙足人形上有更好的效果提升,這是接下來兩年我們在具身大腦上重點投入的方向。
丁文超:資料和模型是我們成立第一天起就開始解決的問題,我們公司第一天就提出了一個概念,叫作“以人為中心的資料”。
遙操作是通過VR/AR裝置把動作對應到機器人上,讓機器人去完成,而我們的想法是,通過可穿戴式裝置,讓人去做資料採集任務。
我們設計了一整套數據採集套件SenseHub,你可以佩戴第一人稱的攝影機、穿戴手套,也可以佩戴二指指套,多種不同的終端。
這樣一套數采裝置很 大的好處真正能夠深入到各行各業,所以我們現有資料不僅侷限於數采中心,我們在真實場景下的各行各業,大家能想到人能去的場景,我們都能采到資料,這對於整個模型的泛化能力的提升非常關鍵。
在模型側,我們有一個落地任務,它是一個長程、柔性、高精度的任務,這是這代具身智能需要解決的問題。
我們發現,在現在的世界動作模型落地過程中,關鍵在於如何將對世界的預測和動作有機結合起來。
現在很多世界模型單純把它引入到VLA,很容易產生幻覺問題,對空間的幻覺、物理的幻覺會直接影響機器人最終執行的動作。
如何讓機器人的物理感知,對物理的推測、對空間的推測沒有幻覺,能夠穩定可靠執行任務,這是過去這一年我們一直在解決的問題。 (鋅產業)