九位具身大佬談：去年量產遭遇了那些難題，今年落地仍有那些瓶頸？

2026/03/04

•

春晚之後，2026年中國兩大科技主線已經明確：

巨頭之間的AI（大模型）之戰，創業團隊之間的具身（機器人）之戰。

其中更為性感的、也更為產業所熱議的，自然是後者，具身機器人之戰，尤其是2026年正在成為具身機器人從“量產”到“落地”的關鍵一年。

僅僅是在開年這一周時間裡，就出現了五起大額融資——千尋智能兩輪近20億元融資，智平方超10億元B輪融資，銀河通用25億元A+輪融資，松延動力近10億元B輪融資，以及優理奇3億元股權融資。

經過這一輪資本加持，中國具身智能賽道已經跑出至少7家百億級獨角獸企業：宇樹、智元、銀河通用、星海圖、智平方、自變數、千尋智能。

然而，在具身機器人經歷了第一波量產嘗試後，在市場熱情再次被燃燒起來之時，整個產業更需要反思的是：

2025年，在第一波具身機器人量產過程中，暴露出了那些問題？

2026年，在又一波具身機器人落地浪潮下，有那些確定性瓶頸和趨勢？

就這兩個關乎具身機器人產業未來走向的問題，我是在近期舉辦的人形機器人與具身智能標準化年會上，聽到了一場含金量極高的對話，參與這場對話的均為中國具身領域頭部機構的從業者——

智源研究院院長王仲遠、星動紀元創始人陳建宇、星海圖創始人高繼揚、清華大學教授汪玉、自變數機器人創始人王潛、眾擎機器人創始人趙同陽、 帕西尼創始人許晉誠、加速進化創始人程昊，以及它石智航首席科學家丁文超。

從這九位具身機器人頭部機構從業者的深入研討中，我們找到了上述兩個問題的些許答案。

01 具身機器人量產，N個“一致性”難題

問：具身機器人量產過程中，最難啃的“骨頭”是什麼？

陳建宇：量產過程中，我們認為有兩個比較大的問題：

第一，“一致性”問題。

因為機器人鏈條很長，從供應鏈、零部件，到整機、系統、演算法，每個環節都可能出現一些小的變數影響一致性。

例如，我們之前遇到過這樣一個問題：

同一批次造出的人形機器人，有幾台走路走得總是不好，後來查了半天發現，工人在電機組裝的打膠水環節中，有幾台打得不太好，這種問題在實際生產環境中並不少見。

後來的解決方案是，我們設定了多層關卡和閘門，一層層把風險排除掉。

第二，因為具身機器人這類產品太新了，我們往往無法提前考慮到所有問題，特別是在我們自己小批次內測時，可能會存在沒有考慮到的問題。

例如我們之前有一款在售產品，推出一段時間並沒有出現任何問題，後來我們一位大客戶，買的量比較多、用得比較久，使用場景也比較重，在他們使用過程中，出現了一些我們完全沒有預料到的問題。

這樣的問題是目前難以避免的，但是我們可以做兩件事情：

第一，快速迭代，遇到問題後，快速想辦法把問題分析解決掉；

第二，形成經驗“錯題本”，不斷積累，避免下次出現同類問題。

高繼揚：整機和智能的聯動是一個很重要的問題。

我們通過生產、工藝能夠保證一定的一致性，但最終發現，每台機器人之間依然存在細微差異，加上基礎模型之後，這些細微差異就會被放大。

這就需要有一個標定的過程，將整機中的各種感測器、機械結構，在一個統一的數學空間中做出標定，並與模型完成聯動。

基於此，不僅整機有量產，智能也有了一個量產的過程，中間的聯動就靠標定，這是在機器人或者具身智能量產過程中，比較獨特的問題。

王潛：兩位講的都是我們所能控制的部分，在我們自己的生產、標定當中，依然存在一部分我們自己控制不了的部門，就是供應鏈問題。

我印象特別深刻的是，有一次我們有一個電機，老是出現一些不規則的、難以預測的損壞情況，我們當時覺得很奇怪，為什麼在我們友商那裡，用同樣的電機，他們沒有碰到這樣的問題。

後來我們發現，因為大家使用的工況不同，友商使用的是比較常見的工況，供應商針對這個工況做的最佳化比較好，我們雖然也在供應商標定工況之內，但是可能供應商有點偷懶，沒有把那部分的測試和最佳化做好。

這也凸顯出了標準工作的重要性，如果我們有一套足夠完備的標準，能夠把這類情況規範起來，就可以避免這類問題發生的。

但是目前階段，還是不可避免地會走一些彎路，依然需要我們不斷積累，在各類環境中大量使用和測試，包括量產，才可能讓這些問題暴露出來，這是產業鏈一個發展過程。

趙同陽：首先，關於量產，我們要有一個清晰的定義。

從去年到現在，人形機器人數千台規模的出貨量，相較於汽車行業而言，只能算是“小批次試產”。

相對於百年的汽車行業而言，機器人現在所處的階段還遠未到量產階段，這是一個事實。

這其中，供應鏈的發展也還遠未達到量產階段。

像汽車，從輪胎、減速器，到玻璃、方向盤，每一個零部件都有幾十家，乃至上百家成熟的供應商，經過近百年的發展，而機器人行業，尤其是人形機器人行業，只是在近兩三年才得到高速發展。

從機器人的供應商來看，目前可選的並不多，質量也還在一起探索階段。

另外，這個行業到目前依然處於快速發展階段，產品迭代很快，這使得像模具的生產製造，大家都不敢放開手去做。

由於行業發展非常快，一個產品可能只有1-2年的競爭力，假如企業備了幾十萬台的貨，有可能在下次競爭中就會被淘汰，導致企業出現大量庫存，這就使得我們和供應鏈廠商都不敢大規模進行產品量產，也就導致整個供應鏈會有一點卡滯。

此外，小型人形機器人和大型人形機器人的標準要求也不一樣，小型人形機器人運動能力對機械強度等方面要求不是特別高，但大尺寸人形機器人要又蹦又跳，要承受10g-20g的加速度，還要保證齒輪不斷裂，需要從模擬到設計上慢慢驗證。

有些東西甚至無法模擬或設計出來，只能測試出來，這些都是我們整個行業在現階段要去解決的問題。

丁文超：大家講的很多是關節的、控制的一致性，我們遇到的一個問題是，如何保證大腦、小腦以及本體協同的一致性。

例如機器人要送去進行作業，機器人全生命周期的各種動態性能，包括力觸的感知都是動態變化的，但企業發佈的其實是“本體+模型”，如何保證大腦也具有一致性、量產性，其實是我們現在正在解決的問題。

這個問題不僅僅是一個硬體問題，還有很多大腦層面的訓練、資料使用技巧都可以加進去，讓機器人在整個生命周期，無論遇到怎樣的損耗、老化，都可以保持模型的泛化能力。

02 具身機器人落地，26年如何造大腦？

問：2026年，要讓機器人真正具備泛化能力，並在各個場景中發揮價值，還需要在那些方面進行突破？

王仲遠：過去這幾年機器人之所以受到如此高的關注，不僅是因為硬體的發展，也是由於人工智慧，尤其是大模型的突破，為具身智能帶來了新的變數。

具身智能和傳統的大模型相比，它需要和硬體耦合在一起，不像純數字世界，可能大模型本身可以直接發揮價值，但具身智能既需要有模型能力本身的提升，又要依賴硬體，複雜性更高。

具身智能現在依然非常缺乏高品質資料，這就要求具身智能的資料除了從網際網路模擬環境中獲取以外，一定要有真機資料。

當然，這些真機資料如何高品質、標準化地獲得，這就是標委會可以重點推進的一些事項。

展望未來，尤其是今年，我覺得可能分兩部分：

第一，就企業實際落地來看，我相信依然會以VLM+VLA，或者純VLA為主，在具體的場景中做資料閉環打磨；

第二，就科研角度來看，會將重心放在世界模型，放在推進下一代真正具備泛化性的具身智能模型。

陳建宇：2026年，我們有兩個重點：

第一，資料閉環。

經過過去兩年的發展，端到端VLA模型的一些範式已經開始標準化，這時，提升資料質量就成了提升模型能力最高效的途徑。

第二，模型範式的提升。

當前比較標準的VLA模型主要是基於模仿學習的範式，如何為機器人建立更好的理解物理世界的模型，幫助機器人更好、更范化、更精細地完成各類物理世界中的任務，這也需要進行範式的探索。

高繼揚：現在看機器人大腦這件事，主要分為三部分：

資料的形態、預訓練怎麼做、後訓練怎麼做。

預訓練，去年大家都在做VLA，今年明顯的趨勢是往世界模型在走，這是一個確定性的趨勢；

後訓練，去年主要是SFT的模仿學習微調，今年明確在向強化學習方向去走；

資料形態，現在具身智能有很豐富的資料形態，從傳統的遙運算元據，到UMI資料，再到我們最近和輝達有一個基於EgoScale框架的合作，是用POV資料觀測自己的雙手怎麼去做，沒有佩戴任何其它輔助裝置，也有很好的預訓練效果。

這三個方面，都會在今年有集中的體現。

汪玉：從演算法發展的角度來看，後訓練是從SFT向IL（模仿學習）、RL（強化學習）的方向走。

現在如何做強化學習，特別是如何將現有算力高效地用於強化學習，這是在雲端要考慮的問題。

邊端如何讓機器人在百分之七八十精準率的情況下，進一步通過真機的強化學習能夠將特定認為的精準率提升到99%，乃至100%，這是今年重點要突破的。

此外，就具身資料而言，資料的“量”很重要，“質”也很重要。

特別是針對資料的“質”，我們看到，做真機強化學習時，實際場景中沒有做好的資料如何回流，如何加入到典型資料中，讓機器人能夠不斷學自己做不好的事情，我覺得是一個關鍵問題。

王潛：模型架構本身是一個大的方向。

兩年前，還有很多人在做單點任務的小模型，去年大家開始去做VLA，今年大家開始做世界模型。

整體上是在往越來越統一、越來越全能的方向發展。

但是我們看模型的輸出，有輸出動作，有輸出世界模型對於未來狀態的預測，但其實我們希望模型學到的倒不一定是這些東西，我們更希望模型學到一些物理世界的規律，例如物體的屬性或者更加本質的東西。

其實我們自己認為，VLA模型、世界模型並不是相斥的關係，它們在更大框架下是相互幫助，所以我們提出了物理世界基礎模型，這個詞讓大家稍微有一點費解，後來我們把這個詞改成了世界動作模型。

我們的看法是，不同任務之間的相互協同是具身模型非常顯著的特點。

不同時間的任務，互相之間有大量本質性交叉，這是基於預訓練基礎模型架構的一個大的發展趨勢。

當然中間會有百花齊放，有的團隊更注重世界模型，有的團隊更注重動作的訓練。

另一方面，最近兩年後訓練獲得了很大的進展。例如很多團隊已經能夠在某些單點場景上做相當優秀的後訓練，特別是強化學習，能夠獲得非常不錯的、前幾年做不到的一些效果。

這很大程度依賴於預訓練模型的發展，不管是在具身模型上，還是之前在語言模型上看到的明顯特點，如果預訓練模型沒有很好的基礎，強化學習效果會很差。

關於資料，我看到的一個大趨勢是，資料生產逐漸從單點的known-how轉向工業體系。

之前大家對於資料的理解是在一個地方有一個口傳心授的秘訣，另外一個地方有單點的模型進行處理，但是現在整體的趨勢是，資料越來越向工業化的方向發展。

我們正在以一個完整、可控制、可大規模複製的方式去生產資料，我們也有成體系的 benchmark或模型閉環，這也是我們自己會非常重視和大力度投入的方向，基本上是這樣。

趙同陽：早期我們把人形機器人當成一個工具去使用，看重的是機器人的工具屬性，工具要做的就是足夠快、足夠精準、失敗機率足夠低，我們自己內部也在用世界模型、強化學習讓它的失敗機率更低一些。

但是人類已經有很多工具，還在乎多一種新的工具嗎？

除了工具屬性，接下來人形機器人會帶來更多情緒價值。

我們賦予它“雙眼”，讓它能看清這個世界，賦予它“雙耳”，讓它能聽懂這個世界，賦予它“觸覺”，讓它能夠感知這個世界……

既然賦予了它這麼多能力，我們希望它不僅能為人類帶來工具屬性的價值，還能帶來情緒價值，世界模型的使用，包括情緒、情感、喜怒哀樂，我們要將它做得至少像一個人，而不僅僅是一個機器。

此外，具身機器人大腦的模型還完全沒有收斂，每一家都有自己的做法，每過一兩個月都會有新的演算法出現。

它不像做腿足運動控制，現在已經能跑能跳，很多東西幾乎已經超越人類現有水平，而現有的VLA模型很多還處於探索階段，模型能力只能達到人類的1/3、1/4 ，甚至更糟糕的狀態，我們也正在嘗試解決這個問題。

許晉誠：我們一直嘗試在做的就是泛化的定義，我們押注在與物理世界接觸模態資訊上，只有這些資訊，才能提升整體任務的成功率。

我們在機器人實驗中，加入了大量接觸模態的感測器，例如觸覺感測器，它可以讓基於Pi0這樣基座模型的一個任務的執行成功率，從20%提升到90%以上。

這很大程度上提升了任務執行的成功率和泛化性，這是我認為具身機器人未來很重要的一個發展方向。

物理接觸模態的資料也很重要，我們現在也在把大量接觸模態的多維觸覺資料採集下來，這對提升整體任務的成功率很重要。

程昊：我們認為具身大腦是前期研發需要投入比較多的地方。

在整體路線變得越來越清晰的情況下，我們更側重於在現有雙足人形機器人上，尤其是在機器人全身運動已經越來越成熟，可能今年在很多任務執行上能夠超過人類的情況下，現有的具身模型或VLA到底引入那些新維度的資料，模型通過強化學習，還是更多模態的方式，能夠在雙足人形上有更好的效果提升，這是接下來兩年我們在具身大腦上重點投入的方向。

丁文超：資料和模型是我們成立第一天起就開始解決的問題，我們公司第一天就提出了一個概念，叫作“以人為中心的資料”。

遙操作是通過VR/AR裝置把動作對應到機器人上，讓機器人去完成，而我們的想法是，通過可穿戴式裝置，讓人去做資料採集任務。

我們設計了一整套數據採集套件SenseHub，你可以佩戴第一人稱的攝影機、穿戴手套，也可以佩戴二指指套，多種不同的終端。

這樣一套數采裝置很大的好處真正能夠深入到各行各業，所以我們現有資料不僅侷限於數采中心，我們在真實場景下的各行各業，大家能想到人能去的場景，我們都能采到資料，這對於整個模型的泛化能力的提升非常關鍵。

在模型側，我們有一個落地任務，它是一個長程、柔性、高精度的任務，這是這代具身智能需要解決的問題。

我們發現，在現在的世界動作模型落地過程中，關鍵在於如何將對世界的預測和動作有機結合起來。

現在很多世界模型單純把它引入到VLA，很容易產生幻覺問題，對空間的幻覺、物理的幻覺會直接影響機器人最終執行的動作。

如何讓機器人的物理感知，對物理的推測、對空間的推測沒有幻覺，能夠穩定可靠執行任務，這是過去這一年我們一直在解決的問題。 (鋅產業)

科技