輝達CEO黃仁勳(Jensen Huang)曾預言:“AI 的下一個浪潮將是具身智能(Embodied AI)。”
繼AI聊天機器人、大語言模型之後,具身智能作為AI領域的一個新的發展方向正受到越來越多的關注。
「具身智能是一種知行合一的AI,也就是在『知』的層面上,智能體要具有感知、推理、決策的能力。在『行』的層面,智能體可以透過身體的動作和表情,與環境以及其他智能體互動。這是一種既要有大腦,還要有軀體的智能體。」上海人形機器人製造業創新中心首席科學家江磊表示。
江磊強調, “具身智能的最佳物理形態就是人形機器人。”
在近期舉行的2024全球開發者先鋒大會多場分論壇上,數位專家、學者和先鋒開發者分享了對具身智能以及人形機器人產業創新的思考。
所謂“具身智能”,就是指機器人或智慧系統能夠透過感知器和執行器與其所處的環境進行即時互動,通常具備感知、認知、決策和行動的能力,能夠根據環境的變化做出相應的調整。
與傳統機器人相比,具身智慧對環境的感知和反應能力相對更出色。而且,具身智能不僅能接收外在訊息,還能理解這些訊息,並作出適當的反應。
在此之前,華人電腦科學家、史丹佛大學教授李飛飛,上海交通大學教授盧策吾等人都曾提出「具身智能」這個概念技術。
隨著2022年底發布的ChatGPT風靡全球,在ITF World 2023 半導體大會上,黃仁勳表示,AI 的下一個浪潮將是“具身智能”,即能理解、推理、並與物理世界互動的智能係統,引發全球關注。
在全球科技競賽的新賽道上,人形機器人正成為各國競相佈局的焦點。借助政策驅動和資本助力,這一領域的創新和突破正在加速。自2024年以來,人形機器人的商用化應用示範也正成為產業發展重點,然而商用化過程中仍面臨挑戰,這既是考驗,也是激發創新潛能的契機。
「人形機器人是具身智慧最完美、最佳的承載型態,也可能是通用機器人的終極型態。」清華大學交叉資訊研究院助理教授、星動紀元創辦人兼CEO陳建宇表示。
陳建宇稱, “不管是工業場景還是我們的生活場景,目前大部分的事情還是由人來做。所以我們急需這樣一個更通用的機器人來幫助我們完成很多的任務。”
在陳建宇看來,人形機器人有三大優勢:
江磊也同樣認為,人形機器人就是具身智能的最佳物理型態。
根據公開數據顯示,目前國內人形機器人的產業規模已達200億,遠遠超過所有人的預想。
自2023年以來,許多原本做人形機器人的公司也正在增加具身智能的新概念。 「我們給了它一個新的名詞叫通用人形機器人。目前在中國通用人形機器人整機的商業公司已經超過了25家。這個數字每天還在增長,可以說我國已經成為全球人形機器人產業的一個熱門聚集地。」江磊表示。
為何具身智能在AI領域越來越受到重視?上海人工智慧實驗室研究員龐江淼表示,之前大家更關注電腦視覺、自然語言處理,現在具身智慧突然受到了極大關注,是因為它的底層每一個模組的技術都已經趨近成熟了。 「 在這樣的情況下,我們能夠基於強化學習的方式去解決一些傳統NPC解決不了的控制問題。智能機器人是一個系統工程,那麼當這個系統工程的每個子模組的技術都有了躍進,那它本身就會成為下一個時代的目標。」龐江淼說。
復旦大學電腦科學技術學院研究員葉廣楠指出,目前大模型的發展是機器人領域發展的一個核心原動力。因為大模型有大量的數據,有強大的平行運算的能力,大模型實際上為機器人的核心內部注入了真實需要的「靈魂」。大模型會對機器人各階段的發展有很大的促進的作用。
談到未來人形機器人創新發展的技術關鍵,陳建宇指出,對於大語言模型發展主要的演化要素是資料、演算法,而對機器人來說有一些不同,除了資料和演算法都需要從機器人的角度有一定的改進以外,還要加上本體。
本體和數據、演算法的關係非常緊密。陳建宇認為,對於機器人的數據來說,它一定是需要從本體上面產生的,不管是現實世界的本體還是虛擬世界的本體。同時,演算法在目前也跟本體有一定的耦合性,現在還不能說完全能解耦開去做這件事情,所以是三位一體聯合去迭代的過程。
「人形機器人本體部分的關鍵技術點在於關節和靈巧手,例如腿部的關節和需求怎麼做,靈巧手要有多少自由度,觸覺怎麼做,怎麼樣平衡精度等等。此外還有一個很有意思的問題,就是人形機器人的手腿協同。我們發現如果還沿用原來的四足架構的話,當我們想讓(機器人的)手做一些訓練集沒有做過的事情,就會非常影響腿部的穩定性。所以我們提出了'去中心化'的訓練架構,使得手和腿在必要的時候進行一定程度的解耦,但是需要的時候它又可以做到比較好的耦合。”陳建宇說。
江磊則從硬體、智慧和場景三方面來分析人形機器人在未來如何落地。
江磊坦言,「首先是硬件,硬體還是集中在一定要打造一款低成本的硬件,才能指望它進入千家萬戶,思路和以往也不同,這一輪低成本硬件我們更希望通過新製造、新感測、新材料,使得機器人所有的複雜基建系統,尤其減速器、驅動器、電機、感測器和晶片真正進入智能階段;其次是如何實現智能,'具身智能'給了我們一個答案,具身智慧+核心零件會成為這個新賽道的新方向,例如特斯拉擎天柱Optimus人形機器人,僅使用視覺和關鍵位置編碼器,就可以在空間精準定位自己的肢體,這可以減少對高性能感測器和減速器的依賴,有利於降本。(人形機器人)透過臂、手、眼的協同實現操作,從而降低成本。這也是我們希望核心零件廠商關注的一個方向;最後是場景,未來具身智能應該是透過場景去打造一個規模化的數據集,然後把這個規模化數據集整理以後發給具身大模型。”
在江磊看來,具身智慧未來可大致分為三種實現路徑:一是非端到端的路徑,採用語言大模型、視覺大模型,載入機器人就可以實現控制;二是半端到端,類似谷歌DeepMind發表的機器人大模型RT-2;三是完全端到端,江磊更看好完全端到端的路徑,
「(因為)這是一種理想的技術途徑,而且只有完全端到端能把軟體和硬體進行解耦,讓穩定應用成為可能。」江磊稱。
未來「具身智能」的終極目標是什麼?
上海人工智慧實驗室研究員龐江淼認為,最終目標還是它能為人服務,以人為中心,實實在在的提升一些生產力。 「其實落到實際的產品迭代,作為一個科研從業人員,我們總是在研發各種各樣的前沿技術,但是對於產品來說,我覺得還是應該以產品設計為導向,就是什麼事是真正有用的,然後我們再想辦法怎麼去解決這些技術。”
陳建宇則從人形機器人的本體和智能上作出展望。
「第一階段是達到具身智能的ChatGPT時刻。它有相對應的很好的硬體本體,人形機器人的觸覺和身體關節都做的非常好非常成熟,成本也能接受。而在智能層面,達到一個類似ChatGPT的狀態,你教它乾一個什麼事,它對物理世界會有嘗試,並且它有通用的決策、行動還有控制的能力,然後能做各種各樣的事情。而且也具備比較強的學習的能力。
而第二個階段就是具有自主意識。像現在,ChatGPT是沒有靈魂的,你不會認為它真的有自己的思想,能幫助你回答一些比較難的問題。但如果它真的有了自主意識,它就是一個新的物種了,那麼我們就需要考慮該怎麼處理它與人類的相處,它需不需要有一個身份,是不是要跟我們人同等的去合作、競爭等。總的來講,我覺得還是要非常謹慎地去看AGI。 」
美國伊利諾大學香檳分校碩士,帕西尼感知科技聯合創始人、COO聶相如認為,當機器人實現了具身智能的終極能力時,樂觀主義者可能會覺得這不僅是一個效率的極致提升,還意味著人類與機器人可以有靈魂交往了。但從技術層面來看,這確實會在倫理道德上產生非常多需要把控的問題。像之前下圍棋的機器人AlphaGo,它自我迭代的速度非常強悍,在極短時間內就擁有了非常強大的能力,把人類圍棋這個領域拿下,完虐世界超一流的選手。
「總之,我們當然希望這一步會到來,但機器人實現這一步需要什麼樣的技術路線、佈局,一些前沿技術在論文階段、實驗室階段怎麼沉澱下來,這個是需要我們大家一起努力的地方。”聶相如表示。(鈦媒體AGI)