千億資本買不走的物理現實——當機器人成為頂流,三道工程難題仍在等待回答

2026年農曆新年,四家中國機器人公司將人形機器人推上央視春晚舞台,引發關注。不禁讓我們憧憬下一步:那些在鏡頭前流暢舞動、談吐自如的機器人,買回家能做什麼?這個問題答案便觸及了整個產業最深的隱憂。從預設指令碼到真實世界自主操作,從實驗室演示到工廠級可靠性,人形機器人正被一道麥肯錫所稱的“鴻溝”困住。而限制它們突破的根本,不僅是算力、資本,還是物理現實本身,以及讓機器理解物理現實的那套尚未成熟的智識體系。

一、這扇窗

對於一個新興產業而言,沒有比這兒更好的發佈台。單次曝光可達數億至十億等級的受眾,一場演出勝過千場展會。2026年農曆新年,宇樹科技、魔法原子、銀河通用、松延動力四家中國機器人公司同時讀懂了這一邏輯。

2月16日晚,魔法原子攜6台MagicBot Z1和兩台MagicBot Gen1人形機器人與易烊千璽等藝人同台演繹《智造未來》;宇樹科技攜G1與H2兩款人形機器人,在節目《武BOT》中帶來人形機器人叢集武術表演;銀河通用在賀歲微電影《我最難忘的今宵》中亮相;松延動力四款人形機器人現身首個小品節目《奶奶的最愛》。大洋彼岸的NBC新聞在報導中指出,“中國已將機器人和AI置於其下一代AI+製造戰略的核心。”

市場的反應幾乎是即時的。據新京報報導,開播兩小時內,京東平台機器人訂單量環比增長150%,搜尋量增長300%,商品詢問量增長460%。南華早報報導,宇樹科技CEO王興興宣佈2026年出貨目標為1萬至2萬台,而該公司2025年實際出貨超5500台、量產下線超6500台,雖然這與根據 Omdia 1月8日發佈的宇樹2025年出貨4200台有所不同,但毋庸置疑已站在中國乃至全球頭部位置。

二、人形機器人的三個層級

摩根士丹利資產管理旗下Counterpoint Global團隊於2026年1月發佈的研究報告《具身AI與人形機器人的崛起》(Embodied AI and the Rise of Humanoid Robots),提供了理解這一問題的清晰框架——報告將人形機器人的AI能力劃分為三個層級:

第一級是任務專項執行:在預定義條件下完成固定動作,自適應能力極低。報告明確指出,這是當下商業化人形機器人的主導狀態。

第二級是任務泛化:利用感知輸入和習得經驗,將技能遷移至相近但不同的場景,是當前學術研究的前沿。

第三級是泛化智能:通過觀察和演示自主學習全新任務,報告將其定義為需要資料、推理和物理控制領域重大突破才能實現的遠期目標。

在這種高確定性舞台約束下,四家公司的機器人絕大多數呈現更接近第一級,少數環節可能疊加了有限的即時互動。36氪的調查披露,關鍵台詞、互動流程等核心環節大機率經過了預先編排;松延動力CMO張淼在回答媒體採訪時表示,團隊甚至按1:1比例復刻了央視一號廳的所有舞台道具,在公司內部反覆綵排才換來場上的流暢。

這種謹慎有其結構性根源。該報告在三級能力劃分背後,對應著機器人的兩層智識架構,研究把人形機器人的“內部智識架構”拆成兩層:

第一層是低級運動控制(“蜥蜴腦”),負責平衡、步態、反射與即時協調,最高可在數百赫茲頻率下處理;隨著模擬遷移與強化學習的進步,這一層的穩定性與全身控制能力已顯著提升。舞台上的武術編排與多機協同,更像是對這一層工程能力的集中展示——在強約束、可復現的環境裡,把動作庫與控制閉環做到“穩”。

第二層是高級認知推理(“cerebrum”),負責感知、規劃與決策;視覺語言模型讓機器人能夠理解場景、遵循指令並將任務組織為多步驟流程,但報告強調這也是當前系統最大的瓶頸:模型在訓練場景之外的泛化能力有限,遇到陌生環境時性能會明顯下滑,專項技能與廣泛適應性之間的差距仍是核心挑戰。

也因此,把舞台上的“像人一樣能打能跳”,直接等同為“走進現實就能像大家想像那樣替人類幹活”,往往會高估現階段的可靠性與經濟性。麥肯錫指出,令人印象深刻的原型機在真實世界中仍遠未達到一致、可靠且經濟合理的性能;而在工業或家庭場景裡,往往需要 99.X% 以上的穩定運行,長尾問題會迅速放大落地難度。

一台能在受控舞台上表演武術的機器人,與一台能在陌生廚房完成一頓早餐的機器人,在演算法複雜度上不可同日而語。舞台展示的,恰恰是前者。

三、物理世界的三道關

從一級到二級、再到三級,不是線性升級,而是跨越三道相互牽制的技術斷層,共同構成人形機器人產業最深的結構性挑戰。

第一道關:資料

真正的瓶頸不僅是“資料量”,而是“資料量×資料形態×資料成本”三位一體。Counterpoint Global的研究指出,具身智能的底層約束在於對大規模、高品質、以人為中心資料的強依賴;而當前主流採集方式(遙操作、動作捕捉)既慢又貴,難以把資料規模推到支撐泛化所需的量級。因此,越來越多開發者傾向於認為:只有在真實世界中實現一定規模的部署與循環回灌,才能持續生成足夠多樣的資料分佈,為更可靠的泛化打基礎,這與自動駕駛依賴車隊規模形成“資料—能力”飛輪的邏輯相似。

21世紀經濟報導援引業內受訪者判斷稱,行業當前可用的具身互動資料仍在百萬量級,而面向更強泛化所需的資料規模可能要提升到千萬乃至億級。這也構成了典型的“先有雞還是先有蛋”困境:機器人要在真實環境中大規模運行才能積累高價值資料,但沒有足夠資料,系統又難以在真實環境中長期保持一致、可靠的表現。

對此,《科學美國人》在2025年12月的深度報導一針見血地指出:支撐ChatGPT等產品的大語言模型並不是具身智能的“捷徑”,因為它們缺少從真實互動中獲得的具身知識。

第二道關:模擬到真實的域差

資料匱乏催生了一個看似完美的解決方案:在虛擬環境中批次訓練,再將模型遷移到真實硬體。但這條路上擋著機器人學最棘手的工程難題:Sim-to-Real差距。

德勤在Tech Trends 2026的相關分析中援引俄亥俄州立大學工學院院長、著名機器人學家阿亞納·霍華德(Ayanna Howard)。她的描述直指要害:虛擬環境中的視覺圖像相當逼真,但現實世界有著不同的細節。一個機器人也許在模擬中學會了抓取某樣東西,但當它進入物理空間,並不是1:1的對應關係。她進一步指出,機器人在模擬到物理環境的遷移過程中確實會適應,但它們是圍繞任務來學習,而不是整體性地與環境互動,也就是說,學會在不同摩擦係數表面抓球,與學會在人流擁擠的商場中安全行動,是截然不同的兩件事。

更根本性的物理約束來自硬體本身。德勤報告還採訪了敏捷機器人(Agility Robotics)聯合創始人喬納森·赫斯特(Jonathan Hurst):他指出,傳統機器人是位置控制裝置,擅長數控加工或點焊這類精確、可重複的任務,但它們不擅長非結構化空間中的組裝、操控或運動。IEEE高級成員帕薩·普拉提姆·雷(Partha Pratim Ray)在2026年1月的學術研究中得出了同樣的結論:人形機器人受限制的程度,與其說是人工智慧,不如說是物理現實的具身性本身。

第三道關:安全驗證

即便解決了資料和模擬問題,還有一道更難繞過的關:安全。IEEE的研究指出,由於人形機器人被設計為在人類附近工作,任何失敗的代價都更高。而習得行為很難被正式驗證,這使得受監管環境中的認證處理程序和大規模部署的推進都異常緩慢。

德勤的報告指出了同樣的問題:即便經過了大量安全測試,AI驅動的機器人仍可能表現出不可預測的行為。在公共空間,風險顯著上升,因為自主系統必須應對不可預測的人類行為。霍華德更給出了一個令人警醒的判斷:“我從根本上相信,在某處始終應該有一個人在回路中(human in the loop)——永遠。即便是我這個機器人學家也這麼說。”

而機器人學領域最具標誌性的懷疑論聲音,來自MIT電腦科學與人工智慧實驗室前主任、iRobot聯合創始人羅德尼·布魯克斯(Rodney Brooks)。他在部落格與公開文章中直接把“用人類視訊教機器人靈巧操作”這一當前主流路徑稱為“純粹的幻想思維”(pure fantasy thinking)。他的物理論據尤其冷靜。全尺寸行走人形機器人需要消耗大量能量維持直立,一旦跌倒,這些能量會轉化為傷害。物理定律決定了:把一台機器人的線性尺寸擴大為兩倍,其質量將增加為八倍,跌倒時釋放的有害能量同樣如此。這不是軟體能修復的問題。

布魯克斯預測,未來15年內,聚集在現在形態下人形機器人的大量資本將消失,今天的人形機器人將被基本遺忘,而最終成功的“人形機器人”將是裝著輪子、多臂、專用感測器的機器,而不是眼下這副雙足直立的樣子。布魯克斯自稱是“現實主義者而非悲觀主義者”——他不反對機器人,只是認為勝出的形態不是現在這樣。

這三道關的邏輯鏈條因此形成:真實資料太少,於是訴諸虛擬模擬;虛擬模擬與現實存在域差,於是需要更好的世界模型和物理引擎來理解物理規律;而就算模型的預測更準確,讓機器在人類附近安全操作的驗證體系,仍是一個幾乎尚未破題的問題。這是一個尚未閉合的循環。

四、資本熱情與商業現實

在技術突破時間線高度不確定的背景下,資本市場展現出了與之並不相稱的樂觀。路透社與市調機構Omdia的資料顯示,2025年全球約出貨1.3萬台人形機器人,中國約佔其中90%。摩根士丹利預測,2026年中國市場人形機器人銷量將翻倍至2.8萬台,部分原因是零部件成本預計同比下降約16%。36氪援引IT橘子資料顯示,2025年中國具身智能領域完成329筆融資,總額398.9億元人民幣,同比增長超過三倍。

資本熱情並非全無根基。摩根士丹利的報告提供了清晰的宏觀經濟邏輯:G7國家自2010年以來,每位失業者對應的職位空缺數量增加了約四倍;製造、物流、檢修等依賴體力重複性勞動的行業尤其突出。人形機器人的關鍵優勢在於它無需改造現有基礎設施——這些設施本就是為人類身體比例而設計的。高盛的研究顯示,人形機器人的製造成本在2023年至2024年間已經下降了40%。美國銀行研究院預計,人形機器人的硬體成本將從2025年的約3.5萬美元,降至未來十年的1.3萬至1.7萬美元。

這種成本下行趨勢,正在催生真實的早期部署。德勤報告記錄了若干標誌性案例:寶馬正在南卡羅來納州工廠測試人形機器人,用於傳統工業機器人缺乏的精密操控和雙手協調任務;亞馬遜已部署其第一百萬台機器人,其DeepFleet AI模型協調整個配送網路中這支龐大的機器人隊伍。

然而,通向大規模商業化的路仍舊具體而昂貴。麥肯錫提出一個便於討論的“四座橋”框架,用來描述從試點到規模化必須跨越的關鍵門檻,並且明確指出約束必須按順序解決。

第一座是安全系統:無圍欄操作的安全合規是前提,沒有監管合規,機器人就無法離開受控區域;國際標準化組織正在制定專門針對人形機器人的ISO 25785-1標準。

第二座是持續執行階段間:大多數機器人當前僅能充電運行2至4小時,遠低於工廠班次要求的8至12小時;這是ROI的核心驅動因素。

第三座是靈巧性與移動性:人類手部擁有約20至27個自由度,而當前大多數機器人手的有效自由度遠不及此,嚴重制約了非結構化場景下的實用性。

第四座也是最終的橋——激進的成本削減:當前商業原型機造價通常在15萬至50萬美元之間,主流行業部署需將售價降至2萬至5萬美元,而驅動系統佔總成本的40%至60%,是最大的攻關方向。麥肯錫的分析發現其經銷商報價與製造應成本之間存在十倍差距,是成本壓縮空間最大的單一方向。

與此同時,UBS的長期預測提供了一個坐標系,德勤在2026年Tech Trends報告中直接引用了這組數字:到2035年職場中將有200萬台人形機器人,到2050年這一數字將增至3億台,對應市場規模從2035年的300億至500億美元,增長至2050年的1.4兆至1.7兆美元。摩根士丹利則更為審慎,直接表態:有意義的批次出貨增長,預計要到本十年代末才會到來。Robotics Tomorrow援引多位投資人的判斷,認為當前估值熱潮與2000年代初網際網路泡沫存在結構性上有相似之處,行業洗牌不可避免。

五、2029年的那道門

摩根士丹利報告在結論部分選擇了自動駕駛作為類比,這個選擇意味深長。Waymo 的 robotaxi 到 2025 年底累計出行已超 2000 萬次,德勤將其視為物理AI領域迄今最成熟的商業化案例,但它服務的地理範圍依然有限,依賴高精度地圖和嚴苛營運環境。人形機器人面對的物理世界,遠比城市道路更加多變。

德勤把時間說得最直白:面向消費端的“人形管家”至少還需要十年。 這不是對產業前景的否定,而是對時間尺度的誠實標定。真正的考驗是一台機器人能否在一位獨居老人從未打掃過的公寓裡安全工作——這一類場景,要求的正是摩根士丹利報告中所定義的第二級乃至第三級能力。

IEEE的研究說得更根本:人形機器人的進步將取決於物理模擬器、更高效的硬體和學習與控制之間更緊密的整合,而不是更大或更強大的學習模型。這是布魯克斯以及摩根士丹利、德勤、麥肯錫等跨越立場分歧而共同指向的地方——瓶頸不在雲端,而在地面。

現在是2026年初,距離摩根士丹利所說的“本十年代末”,還有大約四年。報告也明確寫道:早期部署最可能先在可控工業場景發生,並作為資料生成引擎加速學習循環。與此同時,宇樹提出2026年1萬至2萬台的出貨目標,特斯拉Optimus Gen 3也被報導將於2026年初亮相,並在2026年底前推進產線準備。“從工廠和倉庫起步、積累資料、再向複雜場景擴展”的路徑,可能會以我們尚未完全看清的方式推進。

晚會每年如約而至,舞檯燈光每年都會更加絢爛。但決定這個產業真實高度的,是三道關什麼時候能真正打通。在那之前,最聰明的投資者和工程師,可能都應該把更多時間花在零件目錄和安全認證檔案上。 (New Economist)