#閆維新
半馬的終點,人形機器人的起點
宏觀趨勢4月19日,在2025北京亦莊半程馬拉松特別設定的“人形機器人賽道”上,20支頂尖機器人隊伍及1.2萬名參賽跑者展開史詩級同場競技。在長達21公里的賽道上,路程距離考量了其續航能力;高溫環境、長時間工作對關節部位的散熱帶來了挑戰;路面平穩性和環境的複雜程度考驗了機器人的本體穩定性和環境互動感知力。最終,“天工Ultra”以2小時40分完成21.1公里賽程,成為全球首個完賽半馬的全尺寸人形機器人,刷新世界紀錄。雖然各支隊伍表現各異,但也僅僅體現當前的研究水平和工藝能力。這是人形機器人的一小步,也是具身智能技術的一大步。人形機器人(通用)將有望成為下一個兆賽道。那麼,在這個賽道上,有那些技術細節和應用場景值得關注?有那些挑戰必須面對?又有那些機遇即將來臨呢?今天這篇文章,從人工智慧科學家的角度為你解答上面的問題。內容來源:2025年3月16日,交大安泰EMBA “科技引領·傳承創新”畢業論壇。分享嘉賓:閆維新 ,上海交通大學博士生導師,上海人工智慧研究院首席科學家。源 起大家好,我是上海人工智慧研究院首席科學家閆維新。在上海交大徐匯校區來參加這次論壇,不由得升起些許感慨:當年我在這裡讀博的時候,一直想選擇航空航天的項目,而博導卻讓我做烹飪機器人(按博導調侃的話,不當“廚子”就對不起我的長相)。所以,這裡算是我從夢想走向現實的開端。就在校園後面的玻璃房裡,誕生了中國第一款烹飪機器人。彼時,我還是個學生,被派到深圳,老闆直接任命我為副總設計師,管理著100多人。雖然我對KPI、績效這些管理概念一竅不通。2006年,我們這100多人齊心協力做出了烹飪機器人。到了2010年上海世博會,展會上的烹飪機器人也是由我們負責主導完成的 。在研發烹飪機器人期間,我有幸結識了聯想投資部門。與他們見面交流時,提到想涉足一些高科技領域的項目。正好我結識了幾位從麻省理工學院(MIT)回國的人才。隨後,我們決定開展與微流控相關的項目。在聯想的資金支援下,當時身為學生的我參與並主導了這個項目。我們成功孵化出了中國第一台微流控生化分析儀,首次將微流控晶片與生化檢測技術融合實現。現在很多寵物醫院裡用於生化檢測的微流控生化分析裝置,很大一部分技術基礎就源自當時的技術成果。2013年到2015年間,我回到上海交通大學任教。任教期間,我參與創辦了節卡機器人公司。2017至2018年,我進入碧桂園集團做顧問,擔任千璽集團副總裁一職,參與打造了冬奧會機器人餐廳項目。2023年開始了人形機器人的研發。回顧起來,在機器人領域裡已經探索了好些年頭。有以下一些感觸:第一,在機器人高科技領域,市場銜接是否匹配至關重要,它決定了能否該在領域實現長期發展;第二,時機把握也十分關鍵,過早或過晚進入市場都可能引發問題。我長期投身於機器人領域,特別是人工智慧與機器人緊密關聯的工作,如具身智能和人形機器人,尤其是泛智能體方向,致力於打造人工智慧與物理世界之間出色的連接載體。冬奧會的機器人餐廳就是我參與打造的,在那兒,漢堡包20秒左右就能製作完成,堪稱“機器廚子”。那時,具身智能的概念尚未興起,人工智慧主要侷限於常見的圖像識別、位置識別,依靠傳統軌跡運行。在行為的魯棒性(Robustness,指模型在面對噪聲、異常只資料或不確定性時仍然能夠維持其性能的能力)和泛化性上有所欠缺,不過也確實解決了不少實際問題。比如當時煎炸漢堡和薯條薯片時,採用的是傳統軌跡方法,在操作過程中只能逐個進行設定偵錯,泛化性並不高。現在的情況與以往截然不同了,尤其是春節過後這段時間,給我的衝擊特別強烈。在人工智慧與機器人領域,彷彿拍大片,隔幾天就有幾項新突破刺激著行業發展。在這種熱烈的氛圍下,我們也不能把明天想像得過於美好,當然也不必對未來過於悲觀。一、人形機器人到底有什麼用?1.人形機器人的戰略意義如今,人形機器人,特別是類智能體的發展,已經到了能夠重塑產業基礎的關鍵階段,將對人工智慧和未來產業帶來變革型的引領和帶動作用。人工智慧與機器人更是成為了第四次工業革命的創新引擎。仔細想想,我們能有這樣的發展契機,很大程度上得益於工業協作機器人多年來所打下的堅實基礎。首先,我們在關鍵零部件的製造方面做得相當出色。在國外知名機器人企業全球供應鏈中,最具量產規模的部分基本都集中在江浙滬地區。甚至在某些方面,我們的成本比他們還低一個數量級。其次,人形機器人和人工智慧相關技術已經得到了廣泛應用,尤其是在製造業中被譽為“皇冠頂端明珠”的領域,對製造業整體的發展起到了極大的推動作用。2.機器人的廣泛應用場景大家可能從電視上瞭解到現在機器人應用很廣泛,但實際上還遠遠不夠。目前,在搬運、噴塗、銲接、碼垛等工作中確實有不少機器人在使用,但在勞動密集型的裝配、排線、分揀等工作崗位,依然需要很多人力的投入。不過這也意味著機器人和人工智慧的載體有很大的發展空間,它們必將更深入地融入到我們的生活當中。① 柔性製造以汽車領域為例,在汽車的螺絲緊固、底盤安裝,以及在PTC、SPS分揀、線束處置等方面,還存在著大量的勞動密集型工作。而且這種情況在3C製造業中也較為普遍。② 特種作業替身在特種作業中,以機器人代替人來進行人工操作,不僅避免了人身風險,其應用空間更為廣泛。湖南瀏陽是中國煙花爆竹最集中的區域,其工作場景是一個個相互獨立的小隔間,每個隔間裡僅有一名工人作業。這樣設計的目的是一旦發生意外事故,影響範圍基本只侷限於一個人,通過物理隔離的方式儘可能降低風險。在P2、P3生化實驗室裡,即便是進行喂養小老鼠這樣看似簡單的操作,也存在著交叉感染和污染的風險。所有人員進入實驗室前都需要經過緩衝區域進行相應處理,物品則通過傳遞窗進出。實際上,實驗室裡的很多工作並非極其複雜,機器人完全能夠勝任。在化工廠中,三酸製備過程中會產生氣溶膠,其中含有的顆粒物質對人的呼吸道具有很強的感染性和危害性。南方電網在一些工程中會用到盾構機,這些盾構機在地下二十多米的深度工作,有時候需要進行更換刀頭的操作。而南方的地質條件非常複雜,盾構機很容易出現失衡狀況,一旦發生意外,工作人員極有可能被困在其中,面臨生命危險。這樣的危險場景,迫切需要機器人來進行相關處置工作,以保障人員安全並確保工程順利進行。在安保方面,以往對高爆危險物品的處置,往往簡單地將其放置到桶中,現在則期望實現遠端遙控機器人對其更有效的處置。另外,在舉辦大型展會或活動時,經常面臨警力和安保人員嚴重不足的問題,實際也可以借助機器人來緩解安保壓力。目前,上海青浦已有機器人在街道上巡邏,但嫌犯看到機器人時會感到緊張。這表明在很多特種行業領域中,機器人的應用存在著切實的剛性需求,其應用空間和潛力巨大。而且這種剛需對價格的敏感性並沒有那麼強烈。相較之下,讓機器人在特殊場景實現合理應用,顯然更能發揮它的價值。③ 教學科研場景在學校和科研中,人形機器人也多應用於開展運動學、動力學與感知計算研究。④ 互動服務在高端物業和商業綜合體中,結合人工智慧體,人形機器人在引導、問詢方面展示出一些應用場景。⑤ 倉儲物流倉儲物流領域,貨物的分揀、移動、碼垛也極具應用潛力。⑥ 機器人管家人形機器人在家庭中的應用也極具想像力,如替代廚師的餐飲機器人,護理病人、看護嬰幼兒、寵物等。當然,我的夢想是做廚子,真正做一個機器人餐廳。3.人形機器人應用尚存的一些問題首先,安全是第一要素。在工信部的會議上,我提出了對人形機器人及類智能體機器人管理的建議:亟需完善相關法律法規,並建立強制認證體系。這主要是基於安全考量,人形機器人的髖關節和膝關節動力強勁,最大扭矩可達300-400牛米,一旦失控,短短零點幾秒就能對人造成嚴重傷害,還可能引發摔倒、電器故障等風險。對此,建議借鑑醫療器械分類界定管理模式,根據機器人與人的互動程度,將其劃分為無接觸、弱接觸、中接觸和高接觸四類,制定差異化的安全標準。無接觸型機器人故障僅影響其任務的完成,但弱接觸及以上類型必須納入動態風險管控。例如,當機器人突發異常需要緊急停止時,需通過強製程序實現安全制動,避免摔倒砸傷人類;同時,對感測器穩定性、電器安全、防傷害設計、跌倒自恢復等方面,均應制定嚴格要求,以確保機器人安全可靠地進入市場和家庭。其次,在開放型場景中,目前機器人的智能化水平有限,處理複雜任務的能力並不足。例如,從洗衣機中取出衣服這樣看似簡單的動作,對機器人來說都是難以完成的挑戰。很多日常簡單工作,實則遠超當下機器人的能力範疇。我曾深入研究各類烹飪工藝,包括煎、炸、燉、燴、烤、炒、煸等。如果使用專用裝置處理這些烹飪流程,尚可實現;但對於通用性的機器人而言,卻難以勝任其中任何一種。就拿翻鍋來說,這項工作通常由男性廚師完成,需要將鍋中食材高高拋起再精準回落,以確保均勻受熱和翻炒,操作難度極大。我們曾通過在專業廚師身上加裝感測器,規劃翻鍋軌跡,但即便如此,目前人形機器人仍無法實現自主翻鍋操作。4.機器人的發展歷程機器人經歷了四代發展:第一代,遙控裝置的示教再現第二代,工業機器人第三代,移動智慧型手機器人第四代,通用(具身智能)機器人早期,示教再現是對軌跡的示教再現,而我們現在要求的是對力的示教再現。大家可以嘗試下:你看到你前面的一個東西,當你閉上眼睛時,你依舊可以很好地抓取,實際是對力的示教再現,而不是對軌跡示教再現。我們建立物理世界的橋樑,既然是物理的橋樑,總得在物理觸碰後才有感知、觸覺,有了觸覺後才可以做下面的事。機器人的具身智能化,在於四點:第一,觸覺、力覺、多模態異構資料匯入下的感測器足夠豐富;第二,具備垂類模型;第三,算力更強了;第四,針對任務工種使用垂類小模型,而不是基礎大模型。每個人都是垂類小模型,只能完成某類任務,如果要完成別的任務則需要去學習。所以,具身智能化並不是人形機器人的專屬,工業協作機器人也能具身智能化。比如幾家公司同期開發安防產品業務,那些有硬體本體基礎的公司更容易打通市場,這是因為:第一,硬體本體的設計製造能力具備了;第二,供應鏈市場成熟了。在供應鏈市場較為成熟的基礎上,服務會更加廣泛,且人工智慧演算法的難度(門檻)並不是難以踰越。為什麼?當你具有本體基礎能力之後,會有很多深入人工智慧或者具身智能演算法公司幫你一起把它(機器人)推向市場,它們來做經銷商,幫你進行應用落地。每個應用場景都進行落地,機器人公司做不到,也不可能做到。所以,一定有這樣的公司服務幫你落地,而以前的服務環節是做整合,今後服務的環節是幫它做垂類模型。這樣,在提供機器人本體和基礎演算法之外,還有其它新工種的產生。二、通用機器人智能時代的新明星在政策、資本和技術對維度賦能的背景下,預計到了2027、2028年後,第四代通用具備一定泛化性的機器人市場潛力將會加速釋放,其規模將遠超汽車的需求。1.人形機器人發展現狀人形機器人的相關技術,國內起步比較晚,而國外比較早。2000年10月31日,本田公司投入無數科技研究心血的結晶—全球最早具備人類雙足行走能力的類人型機器人阿西莫(ASIMO,Advanced Step Innovative Mobility)誕生了,其以憨厚可愛的造型博得許多人的喜愛,眾多的類人功能也不斷地衝擊著人們的想像。但ASIMO(阿西莫)算是起了大早趕了晚集,2022年3月31日,ASIMO在進行了最後一場表演後正式退役。究其原因:① 成本太高,沒有用產業化供應鏈的思維來幹這件事;② 沒有找到應用落地的場景;③ 人工智慧技術與其的結合還沒成熟,只能做簡單模仿人的動作,只能做些科研。特斯拉柯博文(Optimus)目前以極快的發展進度領跑整個人形機器人賽道,其在人工智慧資料、演算法、算力等核心要素方面都處於國際領先水平。馬斯克也預測特斯拉的長期價值來自於他的人形機器人公司柯博文。而國內方面,在機器人本體的製造方面具有非常大的優勢,成本也會比國外少很多(甚至低一個數量級),在算力和生態方面有著很多侷限,現在機器人的端邊側晶片都是輝達在供應,而生態建設也有著不小難度。國產算力晶片從訓練到部署都有著不小差距。2.人形機器人,應時代之需① 類人形態的機器人通用性更強,能夠快速融入到環境中執行複雜任務。無論城市的基礎設施、操作的工具、駕駛的車輛,還是尚未開發越野複雜環境擬人形態的機器人,具有通用性。② 對智能化要求更高,具有超越人類單體智慧的可能,能夠實現雲大腦和智能網聯。通過認知智能、具身智能、網聯智能的技術交叉融合,實現“形態上模擬人類神態上超越人類”的目標。③ 人形機器人需要更多技術的交叉融合,是多種前沿技術落地應用的實物載體。具有融合多種前沿技術且具有高度定製化的行為表現的實物載體,對行業具有顛覆性的意義。在技術鏈發展趨勢方面,可認知進化的能力越來越強,在比較夯實的本體和基礎運動控制後,在垂類領域會具有高效的開發能力。有了這些基礎,能源技術(增強持續的續航能力)、驅動技術(適用於大批次製造能力)和機構技術(低成本、可靠設計能力)都會有顛覆性的變化,而這些正是中國的強項。儘管如此,在機器人本體協作,特別是雙臂協作方面,現有機器人的能力還非常有限。在阿里、京東主導的電商紅海中,拼多多通過精簡供應鏈環節+自建倉和合作倉汽車製造廠,底盤緊固、分裝線束需要雙臂的協同操作;廚師烹飪,很多時候也是雙手完成的;衣物照護,洗衣、烘乾、疊衣、護理、晾曬等碎片操作也需要雙手;在適老性照護方面,雖然目前缺乏統一標準,但顯然要求會更高。3.通用機器人更“有腦”通用機器人的控制系統與人腦類似,分為小腦、大腦、雲端超腦、腦幹。腦幹做電流環、速度環、位置環、扭矩環的控制;小腦做底層的運動控制;大腦做感知規劃決策,雲端超腦彌補大腦和做模型訓練。最先的運動控制都是小碎步,在應用強化學習和模仿學習技術之後,運動能力越來越強,而且走的過程中對CPU的算力沒有太高的要求,這樣,在大腦、小腦、腦幹分配協作之下慢慢變成大小腦融合以GPU為主來完成任務。三、通用機器人的關鍵技術我認為,通用人工智慧賦能通用機器人的關鍵是兩個:第一,靈巧操作能力;第二,具身智能。1.靈巧手的操作能力靈巧操作能力,不是翻跟頭等簡單單單的事情,而是用輕巧手對五件事進行處理:① 抓取② 操作③ 工具端操作④ 抓取後處理⑤ 鉸鏈式處理具身智能,是在不同異構的資料格式下對它進行賦能,賦能之後讓機器人更有可能做些複雜點的工作。到現在為止,還沒有一個真正好用的靈巧手,要麼太貴買不起,要麼過程中缺力的感知,比如夾煙的動作,現在沒有那個機器人能做得很好,原因就是觸覺感知覆蓋率還沒做到較高的水準。人在操作過程中,指尖、指腹、指掌心這些位置的力,一般情況下是夠的,在抓取情況下是夠的,但在整個環節過程中是遠遠不夠的。這種情況下,我們需要力感測技術要儘可能深入和最佳化。但即便感測器覆蓋率高了,到身體控制時還是需要更多的算力,這時候在端邊側需要一個“聰明”的手,來處理複雜高密度的感測資訊。還有觸視感知下的控制,我曾做過挺有意思的事:在機器人的手指心安裝了Camera,當手指觸摸東西時能感知紋路的變化,這樣可以搓麻將或者摸盲文。但觸覺感知依舊需要許多算力,當手指處理能力不足時就會放到大腦裡來處理,大腦需要處理的事情太多了,既要做規劃,又要即時反饋,所以今後實現多GPU、CPU、多智能端側部件分佈式的控制是可能的。為了做靈巧手,我做了一個手指的功能量表,詳細列出了五大類33種功能。大家可以發現一件事,當你為了抓取的時候其實只用了三指,但在一些姿態控制時需要五個手指,尤其在工具端操作的時候,而物理世界所有工具都是為人準備的。所以,和人大體尺度上差不多、功能類似的“手”就顯得特別關鍵。這些功能已逐步實現,但唯一沒有做到的就是拿筷子這一動作。2.具身智能具身智能,是人工智慧與機器人學交叉的前沿領域,強調智能體通過身體與環境的動態互動實現自主學習和進化,其核心在於將感知、行動與認知深度融合‌。根據具身智能的定義,人形機器人要有具身感知能力並形成具身感知系統,然後在其領域內實現自適應;同時,人形機器人要有具身執行能力,要有互動式理解和模擬能力,進行協同式控制與決策能力;在認知深度方面,要求具有進化能力,在人-機-環境互動作用下,實現長期自主學習。在具身智能演算法的應用上,在機器人餐廳,從烹飪到清潔均由機器人完成。為此做了很多實驗:① 多感測器融合下資料的採集(包括烹飪動作);② 多模態感知的自主決策;③ 模型的訓練;④ 整體在機器人上進行應用。為實現矽基生命(機器人)與碳基生命(人)的深度融合,我們建構起資料對應橋樑,通過“一腦多機”方式,將人類行為資料精準轉化為機器人運行指令。人類肢體運動本質是完成物理互動,以人體手臂為例,大臂與小臂的協同運動可實現空間坐標的靈活定位,配合可控的手腕姿態,最終由手部完成各類操作任務。目前,我們已實現高精度的姿態與位姿控制,當機器人末端執行器抵達目標位置後,即便在不同機械構型下,也能精準輸出所需接觸力。早期銲接機器人僅聚焦於簡單軌跡規劃,而未來我們的研究方向將轉向複雜力控技術的實現。通過模擬人類手指施力特性,將複雜力反饋融入機器人操作過程,以力的精準再現推動操作能力的全面復刻。在此過程中,感測器的廣泛覆蓋與多維度感知至關重要,這將為實現更智能、更精準的人機互動提供關鍵支撐。在採集資料建模的過程中,發現了比較有意思的事:人的脖子是擴大感知區域的方法;腰部是擴大操作空間的關鍵。因此,在任務完成過程中,雖然手可觸達但還需要腰來輔助,要把腰部運動和雙臂運動結合在一起進行訓練。最後,我們打造了通用靈巧運算元據平台:① 打造人體上肢運動資訊資料庫(包括腰部資料);② 打造靈巧操作機器人資料庫;③ 建立即時機器人可視化資料看板;④ 遠端遙操作控制(移動操作);⑤ 實現數字孿生模擬,建立AI演算法訓練庫;當然,也開發了可擴展的二次開發演算法介面。四、機遇與挑戰當前,部分人形機器人還像漫無目的的“街溜子”,未能充分發揮價值。不久前與公安部門交流時我就提出:機器人的移動不應流於形式,而應在行走過程中,借助視覺與感知系統主動識別周邊潛在風險,並具備一定的風險處置能力。雖然機器人的威懾力能在一定程度上對不法分子產生心理震懾,但真正關鍵的是其任務執行能力、靈巧操作能力以及具身智能水平。1.靈巧手是具身智能的關鍵一環在研發烹飪機器人的過程中,我深切體會到技術挑戰的艱巨性。中式菜餚烹飪工藝複雜多變,對雙手和肢體操作的精細度要求極高,想要用機械語言精準詮釋這些工藝絕非易事。因此,具備泛化能力和高效運動執行能力的機器人,核心在於先進的具身智能演算法,而靈巧手則是將演算法落地實施的關鍵一環。靈巧手技術發展多年,市面上產品也多種多樣。其中,少自由度靈巧手通常配備六個電機,僅能完成基礎抓取任務,難以勝任一些複雜操作。相比之下,馬斯克研發的22自由度靈巧手,每個手指配備三到五個電機,結構與人手高度相似,優勢顯著。① 訓練時可實現與人手動作的精準對應;② 豐富的自由度能夠滿足各類複雜動作需求,比如簡單的“比耶”手勢也需要手指側擺;③ 該靈巧手大幅拓展了觸覺感知範圍,從最初的指尖指腹延伸到更多部位,極大提升了工作能力。在人形機器人應用落地問題上,業界存在諸多質疑,但我持樂觀態度。目前,大家對人形機器人的應用方向感到迷茫,這與當年新能源車推廣時的情況截然不同—新能源車的使用目的十分明確,而人形機器人的應用場景尚待挖掘。2.技術演進下,應用場景愈發廣闊隨著具身智能在算力與演算法層面不斷突破,人形機器人的應用前景將愈發廣闊。首先,基於遠端非視距遙操作的危險場景處置是極具潛力的發展方向。與駕駛場景不同,遠端遙操作面臨視野受限、缺乏觸覺反饋等難題,因此,能夠模擬人類觸覺的感知操作手套至關重要,它能讓操作者在抓取虛擬物體時獲得真實的觸覺反饋。其次,重體力勞動領域也是人形機器人的用武之地。以馬斯克公司研發的機器人為例,其髖關節、膝關節採用行星滾珠絲槓設計,直線推動力近9千牛(約0.9噸),腕關節等部位也具備強大推力且能實現機械自鎖。在美國,超過25公斤的重物搬運就需借助輔助裝置,而這款機器人有望勝任30 - 40公斤的搬運工作,能夠有效替代人類從事高強度、高風險的體力勞動。此外,在工業生產線上,存在許多不適合人類作業或易對人體造成損傷的工位,這些場景對人形機器人的需求同樣迫切。3.技術瓶頸與機遇當前,人形機器人及類智能體的發展面臨三大技術瓶頸,同時也是發展的機遇。① 算力適配挑戰現階段,端邊側算力多沿用早期智能駕駛的技術架構,但這種方案是否真正契合人形機器人及類智能體的運行需求,仍需深入探討。我們亟需探索更適配的算力模式,或是研發新型端邊側計算架構,以突破現有技術框架的限制,推動智能體實現更高效、更靈活的決策與互動,真正釋放其“智慧潛能”。② 能源問題已成為制約創新智能體發展的關鍵痛點在與工信部的交流中,我提出探索固態電池、新型能源等創新技術在智能體領域的應用可能性。理想的能源方案需滿足功率密度300-500以上,且充放電次數達到1000次以上的嚴苛標準。只有攻克能源技術難關,才能為智能體提供持久、穩定的動力支援,實現更廣泛的應用場景落地。③ 大功率驅動與核心部件需要創新多載關節驅動器是未來發展的重要方向,若每個關節推力能達到1噸級,將極大拓展機器人的應用邊界。目前,該領域核心技術被國外公司壟斷。此外,具備智能抑制功能、高效傳遞效率的預驅動晶片與驅動板卡,同樣是極具潛力的研發方向。在產業發展策略上,不應盲目追求“大而全”的系統開發,而應聚焦關鍵材料、核心零部件以及創新演算法。例如,強化學習與模仿學習的融合,顯著提升了模型迭代速度與應用效果;過去對電流環控制扭矩的高精度要求(需將差異控制在5%以內),如今放寬至20%仍能實現良好運行。這些案例充分證明,新演算法、新材料、新部件的創新突破,極有可能引發行業的顛覆性變革,成為推動整個人形機器人產業發展的核心動力。 (筆記俠)