“具身智能”席捲世界機器人大會,王田苗:大部分其實是“具身技能”

當前人形機器人還面臨兩大難點,一是機器人目前的“軟”件端,適合機器人的通用大模型和垂直專業模型,還在攻堅階段;此外,靈巧手目前在技術和成本上都有需要攻克的難點。
現在人形機器人的成本還沒有達到客戶的要求,此外量產還涉及到供應鏈的問題。現階段,人形機器人主要是在科研平台搭建各類應用,包括對硬體的開放,離我們所說的軟體開發應用,還有相當一段距離。


當“具身智能”成為2024世界機器人大會眾人熱議的焦點時,北京航空航天大學機器人研究所名譽所長王田苗提出了不一樣的視角。他認為這次展會,展示的大部分是垂直領域的具身技能。現階段,對於具身智慧型手機器人或人形機器人,業界基本停留在對通用領域的探索上。

具身智能(Embodied Intelligence)強調機器人通過綜合感知、推理和自主決策,實現多工處理和複雜環境中的人機互動,具備廣泛的認知能力;而具身技能(Embodied Skills)更聚焦於特定場景下的專業化能力,旨在高效完成特定任務,應用更垂直、商業化更容易。業內認為,具身智能側重“廣而全”的智能化,具身技能則注重“專而精”的能力。

現為北航機器人研究所名譽所長,中關村智友研究院院長的王田苗在機器人行業已深耕三十多年。2020年,王田苗聯合十五位科學家發起成立了“智友科學家基金”,重點關注具身智能、機器人、機器人上游核心部件等領域。


北航機器人研究所名譽所長,中關村智友研究院院長王田苗


在此次大會上,人形機器人的數量達到歷年之最。對外展出的27款人形機器人從“雙臂”“手指”靈活協同操作,到“雙腳”在複雜地形行走,再到開發基於人工智慧大模型的“大腦”,形態各異。王田苗認為,這種百花齊放的現像是技術發展早期的正常現象。當前人形機器人還面臨兩大難點,一是機器人目前的“軟”件端,適合機器人的通用大模型和垂直專業模型,還在攻堅階段;此外,靈巧手目前在技術和成本上都有需要攻克的難點。


世界機器人大會上展示的人形機器人,該款機器人引起現場人群圍觀


8月23日,圍繞具身智能當前面臨的難點和挑戰話題,王田苗接受了澎湃科技(www.thepaper.cn)等媒體的採訪。

以下是澎湃科技採訪王田苗內容:


機器人的“軟”件端和靈巧手是需要攻堅的難點

澎湃科技:大會期間,具身智能成為業內討論的熱詞,您怎麼看這波具身智能熱潮?

王田苗:目前,我認為大家在思考人形機器人或具身智慧型手機器人發展時需要思考三個問題:

第一,在什麼場景下應用。未來三至五年,機器人很有可能會進入複雜環境,在安全和功能上得到有效檢驗,通過客戶的檢驗,這是目前非常重要的問題。在危險環境、工業、家用甚至一些泛商業化的場景中,技術都不停在迭代。

第二,以應用為牽引,兩件事情值得特別關注:一是機器人的“軟”件,以大模型和資料驅動的生成和學習,這波具身智能的浪潮,最重要的是讓大模型賦能機器人,從而實現人機互動,將複雜任務拆解為子任務;二是各種子任務和現實中的物理空間的結合,這需要視覺模型和觸覺模型,沒有視覺就沒有空間的推理,沒有觸覺,很難完成精細的裝配甚至操作。

第三,除了能行走穩定、安全以外,有一雙靈巧手也很重要。Figure AI的新款產品也將重點放在了靈巧手,特斯拉在更新應用時也會涉及靈巧手。

這三個問題可能是作為我們具身智能研究的三大重點,也是熱點。

目前“軟”件端,通用大模型和垂直專業模型還在攻堅階段。此外,泛化運行的機器人,不論是輪式還是有足機器人,最終實現操作和互動的是雙手,所以靈巧手是目前人形機器人需要在技術和成本上攻克的難點。

這次展會,大部分其實是垂直領域的具身技能,這是我自己淺顯地理解。現階段,基本停留在對通用領域的探索上。


現場另一款人形機器人展示其靈巧手部分


澎湃科技:從人形機器人研發的角度看,大模型可以重點解決那些技術問題?

王田苗:大模型對人形機器人的核心貢獻在於實現類似人類的互動、推理和環境適應能力。然而,目前仍存在理論和技術挑戰。人類認知是分層的,有概念邏輯認知、感知、視覺與觸覺,還有肢體協調運用,這些不同層次的關係尚未完全理清。此外,大模型在演算法選擇上,是監督學習、強化學習,還是端到端學習或者模擬學習,這些都在探索中。另外,訓練大模型的資料生成方面也存在問題,尤其是實際運算元據的獲取。

大模型有望在通用機器人和具體操作中發揮作用,但現實中許多工仍需專和精。大家希望能通過大模型培養出“全能型”機器人,但這是理想,還需進一步探索,最終還涉及科學研究與應用場景的結合,以及功能、安全和成本的平衡。


現階段人形機器人量產主要面向科研平台

澎湃科技:為什麼一定要做人形?在工業場景中,專用機器人也可以做,人形和專用這兩者之間,會不會有替代性關係?

王田苗:從技術和產業的發展階段來看,人形機器人加上大模型可能會形成機器人的新品類。人形機器人應用的特別重要的場景是複雜空間,小批次多品種很難實現大規模自動化甚至是特別危險的場景;由於是新物種,就會涉及很多新結構,比如電機驅動感知一體化關節、感測、資料生成和服務等,它有可能會促成新應用場景和應用產業;此外,以人形機器人作為抓手,可能會把機器人的理論、技術、產品都推到新的階段。

未來20年,人形機器人在智慧型手機器人領域的佔比,目前有兩種不同的觀點。一種樂觀的看法是,人形機器人的市場份額將超過50%或60%;而另一部分產業觀察者則認為,人形機器人可能只會佔據20%或30%市場份額。因為它們只解決了一部分需求,而其他類型的機器人,如臂式、履帶式、輪式,以及協作型和並聯型機器人等,將滿足多樣化的需求。

我個人認為,最終採用那種形式的人形機器人,首先取決於底層技術創新達到的程度;其次,還取決於具體的應用場景和客戶需求,即客戶是否願意為這種服務成本和產品功能買單。因此,不應該絕對地認為人形機器人一定行或者一定不行。


澎湃科技:今年也出現了售價10萬塊以下,相對更便宜的人形機器人,這是否意味著人形機器人量產的前夜?

王田苗:現階段無論15萬還是10萬或更便宜,主要還是面向科研平台展示。現在客戶對人形機器人的成本要求還沒有形成閉環,量產還涉及供應鏈的問題。現階段,主要是以科研的平台搭建起來,在科研平台搭建各類應用,包括對硬體的開放,離我們所說的軟體開發應用,還有相當一段距離。


澎湃科技:現在每家公司人形機器人的形態不太一樣,比如有的手指是三指,有的是五指,有的機器人有腿,有的可能乾脆沒有腿。接下來,人形機器人是否會出現一個統一的形態?

王田苗:任何一個顛覆性技術出現時,大家對它都會抱有很大希望,因此會出現五花八門、各種形態的機器人,有的連腦袋都可以轉180度,腰部甚至手都能隨意旋轉。日本在上世紀70年代初,他們有近200家公司在嘗試各種機器人應用,發展到如今的關節、並聯結構等。我覺得當前這種狀態是非常正常的,技術應當不斷髮展。但在未來,肯定會形成若干標準化的品類,因為這些品類會在效率、操作時間、成本等方面達到最佳,同時供應鏈也會逐步形成。

不過,這需要一個過程。目前來看,可能需要10年。因為在人形機器人發展中,我認為這是通用人工智慧走向現實,接觸物理世界的必經之路。任何科學技術的發展都需要很長的時間和成本,無論是汽車、手機,還是機器人研發,每個階段都需要10到20年的迭代。

很多人對未來的顛覆性發展過於樂觀、過於渴望,往往會誇大。但現實並非如此,最終還是要看技術是否真的被需要,功能是否完善,是否涉及社會安全,成本是否能夠被接受,以及產業化標準是否健全等多個因素,這是一系列的綜合考慮。

很多人希望技術能夠迅速突破,好像第二天、第二年就會實現顛覆性進展,但這並不現實。


專精特新小企業,建議從具身技能入手

澎湃科技:您有科研學術界背景,對產業也有研究,您覺得機器人產業在的推進過程中,還有那些問題需要解決?

王田苗:通常來說,科學家應該更多地從事基礎研究,或通用的理論,比如關注通用大模型等。至於具身智能或具身技能,產業界應從應用領域以及相應的供應鏈、使用安全性、有效性和成本等方面去驗證。

但現在科技創新和產業發展出現了一個現象:基礎研究和產業、工程研究聯絡得越來越緊密。不僅時間周期縮短,三者之間也相互促進、相互啟發,又相互推動應用,密不可分。在這個過程中,出現了大學聯合企業做基礎性研究,產業界、企業界聯合大學做應用技術研究等現象。科技創新和產業發展聯絡越來越緊湊,時間周期也越來越短,並不能按照我們想像的分段式地發展。


澎湃科技:對於創業公司來說,是圍繞具體場景找到機器人相對實用的模型方法好,還是應該攻克體積相對完善的通用大模型?

王田苗:如果是專精特新小企業,我建議還是圍繞一個具體的應用,從具身技能入手。這樣可能更能通過客戶的認可,包括大企業給的訓練資料、資金支援。對於融資很多甚至有產業背景資源支援的企業,可能會往更通用、更泛化的路徑走。不過,到後期也要實現落地。

對於創業企業來說,新型物種形態的潛在應用剛需,無論規模大小都值得探索;二是要關注上游核心部件的突破,包括肢體感測器、大腦(具身智能)和小腦(具身技能)的功能。

此外,人形機器人能否結合大模型和感知模型將技能泛化,譬如解決上下料、拋光打磨、搬運清潔等場景中的免程式設計問題,未來,我們希望通過大模型實現複雜任務的自動分解,進而達到免程式設計,這將為應用場景帶來巨大空間。 (澎湃新聞科技頻道)