北京殺出機器人黑馬,李飛飛學生聯合創辦。
“AI教母”李飛飛的學生回國創業了,想聯合打造一雙更靈活的“手”,來回答具身智能商業化的終極命題。
靈初智能,由在黑莓、Sonos、雲跡科技等全球知名企業有過20多年的產品成功操盤經驗的王啟斌創辦。他堅定認為,人形機器人在落地過程中,操作能力遠比移動能力重要,存在著巨大的尚未被滿足的需求。
而00後陳源培,是靈初智能的聯合創始人之一,也是斯坦福大學訪問學者、師從李飛飛。在李飛飛的實驗室裡,他研究怎麼讓靈巧手完成複雜長程任務和類人操作,曾在全球首次實現利用強化學習在真實世界同時控制雙臂、雙手多技能操作。
這是一個跨越了70後、80後、90後和00後多個年齡梯度的核心團隊,他們想要教會機器人能把多個技能串聯起來、執行長程任務,還要學會自主探索、自主進階。
靈初智能是當前最年輕的具身智能創企之一,今年9月剛剛成立,上個月宣佈完成由高瓴、藍馳領投的天使輪融資,已發佈首個基於強化學習的端到端具身模型,能支援機器人雙靈巧手協同做複雜操作、掌握推理能力。
值得一提的是,稚暉君創辦的人形機器人獨角獸智元機器人,也是靈初智能的股東之一。
智東西獲悉,靈初智能不久前還加入了輝達Inception計畫,雙方會在具身智能的模擬訓練層面展開深度合作。“輝達預判,具身智能是未來加速計算最重要的落地場景,對它的整個生態包括硬體佈局、伺服器端晶片、端測晶片到模擬環境應用等都有很大影響,所以輝達也一直在尋找具身智能賽道里非常有價值的公司。我們在國內搭建完團隊後,一些研究成果就被輝達關注到了。”王啟斌說。
最近,智東西來到靈初智能位於北京的辦公室,與創始人兼CEO王啟斌、聯合創始人陳源培進行了一場面對面的獨家深度對話,這是創始團隊首次接受外界專訪。在與智東西的對話中,王啟斌反覆提及“閉環”。他篤信,操作能力的提升,正是實現具身智能商業閉環的關鍵。
目前,該公司已初步完成核心硬體研發,將於明年3月公佈機器人整機解決方案,且只聚焦在雙手雙臂輪式機器人的操作能力上,不會涉及雙足機器人。
在過去20年,王啟斌在多個領域積累了深厚的操盤經驗,多次實現了產品從定義、開發、上市再到全球“0-1-N”的產業閉環。
他在黑莓手機擔任過產品經理、投身Sonos開展當時新興的智能音箱業務,還曾去到了負責研發商用服務機器人的雲跡科技,負責配送機器人相關的工作。雲跡科技當時還是一家初創企業,配送機器人在酒店的部署量不到500家且使用頻次也不高。
如何拓展配送機器人的市場、提升配送效率是一大難題。一般的配送機器人可能需要有專人放置貨物,王啟斌便帶著團隊開始探索無人貨櫃和整合對接,打造一套無人的閉環系統,之後還成功在成都、西安、上海等地部署,讓機器人滲透到更多的酒店中。
過往的豐富經歷讓他看到,在機器人真正的商業化落地中,仍存在巨大的需求沒有被滿足,尤其是操作能力提升方面。
王啟斌用坐標軸形容機器人的兩種範式:橫向是移動能力,縱向是操作能力。上一代機器人,主要都是在做移動能力,移動能力在技術上已經出現了輪式、雙足等,移動範圍不斷擴展、移動速度加快,但是操作能力是更複雜、更具有挑戰性的。
不管機器人移動能力有多強,如果做不到操作能力的閉環的話,仍然是難以長久生存下去的。
去年年底,他決定入局具身智能創業。從市場未被滿足的巨大需求出發,王啟斌強調要做到技術、產品與市場的契合。“有時候大家容易更關注產品和市場匹配,但我覺得更重要的是技術和產品,只有技術的潛力才能支撐得起產品的勢能。”
王啟斌開始組建靈初智能的創始團隊。他覺得,在這一輪具身智能熱潮中,硬體本體、演算法和資料就是推動具身智能前進的“三個輪子”,這“三個輪子”耦合程度至關重要,而對團隊來說,每一個“輪子”都需要有足夠優秀的技術人才儲備。
對具身智能賽道前景的信心,讓王啟斌找到了同樣滿懷創業激情的幾位聯合創始人,其中,有一位00後陳源培。
極客少年、斯坦福訪問學者、師從李飛飛、痴迷機器人......陳源培身上有諸多標籤,還曾在全球首次實現利用強化學習在真實世界同時控制雙臂、雙手多技能操作。
大二時,陳源培就投身機器人製造,和團隊一起從底層機械機構、中層電控到上層AI演算法,全程自研搭建完整機器人。
他尤其專注於靈巧手操作研究,還以斯坦福訪問學者身份跟隨李飛飛進行研究,主要負責使靈巧手串聯多個操作以完成搭積木等長程任務,以及研究雙臂機器人的類人操作,如拿取物體、製作咖啡等精細化動作。
與王啟斌一同創業後,陳源培也依舊保持著與李飛飛研究室的溝通聯絡,一同交流技術上的研發進展。
另外,靈初智能還有聯合創始人柴曉傑博士,他是王啟斌在京東工作時認識的朋友,在機器人及無人駕駛領域從業15年,擅長演算法、模擬、工程、全端技術,有L4產品落地的資料閉環經驗。
靈初智能也與北京大學成立了北大-靈初智能具身靈巧操作聯合實驗室,由人工智慧研究院楊耀東博士擔任聯合實驗室項目負責人開展橫向課題合作,該實驗室首席科學家梁一韜博士則主要負責研究具身智能體長程任務規劃。
至此,靈初智能不僅具有深諳產品操盤的業界資深人士,也搭建起了一個被稱為“科學家密度最高”的技術隊伍,努力實現團隊在技術創新與商業落地上的平衡。
目前,靈初智能已初步建構起一套較為完整的產品體系:在硬體維度,打造雙手雙臂輪式機器人,部分核心硬體系自主研發成果;在軟體層面,持續迭代機器人的技能級(指通過機器人能做多少種任務、完成任務的複雜程度和完成任務的質量來劃分的一種技能等級),使其具備對上千種物體進行泛化長程操作的能力,能廣泛適配於柔性生產等多元場景。
特別是在機器人長程操作方面,陳源培提出了Psi-C0模型,能夠讓機器人把多個技能串聯起來,這是世界首次利用強化學習在現實中控制雙臂雙手多技能操作。
例如,向機器人下達完成任意形狀樂高積木搭建任務,機器人可以把翻找、抓取、重新導向和插入積木4個技能串聯起來,最後完成該形狀的搭建。
▲機器人正在完成翻找、抓取、重新導向、插入的積木搭建流程
Psi-C0模型依託金字塔狀資料結構,以人類操作及動作捕捉資料為底層資料,於模擬環境進行強化學習訓練,其中模擬資料構成關鍵中層。
待在模擬環境中訓練出良好基礎後,便遷移至真實世界,此時僅需補充少量真實世界資料進行微調,就能助力機器人跨越sim2real gap,從而提升機器人的操作能力與適應性。
另外,還有梁一韜博士開發的Psi-P0模型,可以實現開放環境中複雜任務的任務拆解和規劃,借自身經驗實現自我進階,所支援的任務複雜度和精準度都超越同期OpenAI的VPT和輝達的Minedojo。
最近,靈初智能又發佈了首個基於強化學習的端到端具身模型Psi R0,該模型支援雙靈巧手將多個技能串聯進行複雜操作,還可以實現跨物品、跨場景等級的泛化。
以電商場景為例,商品打包是典型的長程任務作業,需對上萬件商品進行抓取,掃碼,放置,塑料袋打結等多個操作。Psi R0能夠讓雙靈巧手流暢地完成這一系列動作,可以取代一個完整的現場工位,成為首個基於強化學習訓練完成長程靈巧操作任務的具身機器人。
王啟斌透露,靈初智能目前已初步完成硬體研發,將於明年3月公佈含資料採集裝置、軟體演算法等的整機解決方案;而技能級上,團隊正在打磨樣本,預計明年年中會正式上線。
在落地場景方面,靈初智能預計率先在物流領域實現應用落地,後續逐步向生產製造領域探索拓展,重點針對傳統非標自動化裝置及整合裝置因技能單一而難以應對的複雜生產環節,充分發揮機器人執行多技能組合長程任務的優勢。
這一輪具身智能熱潮中,雙足的人形機器人備受關注。不過對王啟斌來說,基於對目前行業生態的判斷,自己只聚焦在雙手雙臂輪式機器人的操作能力上,不會去涉及雙足機器人。
在他的預判裡,人形機器人大概會有三個發展階段,第一階段是3到5年裡,面向TO B場景的輪式機器人;第二階段是5到10年裡,雙足機器人可能應用場景會變得廣泛;第三階段是8到10年及以上,機器人形態會變得更多樣化,人形機器人不會是最終答案。
所以就目前階段而言,他認為操作能力的迭代及實現產品閉環是最重要的,這種重要性遠超過移動能力的迭代發展。
一直以來,高泛化性、高魯棒性和高泛化性都是具身智能領域的“不可達三角”。
高泛化性要求機器人在變化環境對不同物體執行複雜任務,高魯棒性意味著機器人受干擾時穩定正確執行任務,高靈巧性指機器人能夠靈活精準地執行任務,同時兼顧這三者極有挑戰性的。
陳源培解釋,靈初智能採用強化學習的復合路線,是實現接近或者是超越人類靈巧操作的必經之路,也是攻克“不可達三角”的關鍵。“在模仿學習下,人類操作著機器人示教一遍,機器人的操作水平提升是有上限的;但是強化學習讓機器人進行自主探索、通過自我糾錯來提升能力,會具有非常高的動態響應能力。”
具體來說,在靈巧性上,機器人通過強化學習能夠超越過去人類預先程式設計的侷限,能很好地完成如彈鋼琴、轉筆、轉魔方等甚至其他人類無法實現的靈活操作。
在泛化性上,靈初智能方案是讓機器人在模擬環境中學習訓練,模擬環境可對物體的光照、紋理、大小等進行隨機化處理,使訓練資料的多樣性遠超真實資料,從而讓機器人擁有高泛化能力。
而魯棒性方面,傳統的模仿學習僅基於專家資料,未涉及次優資料及失敗後如何恢復等情況,而強化學習從無知識智能體起步,歷經多次失敗及恢復過程,所以能夠實現較高的魯棒性。
王啟斌談道,具身智能的“不可達三角”要關注技術起點和發展路徑。從起點看,基於強化學習,其機器人不僅能在在泛化性上有顯著優勢,且在靈巧性上,不同於簡單抓取,強調的是多技能COT(Chain-of-Thought)概念,也就是將多個單個技能串聯起來,團隊在這方面時國內最領先的。
在路徑上,先是在單個技能上實現物體和環境的泛化,接著利用操作上的多技能串聯實現靈巧性,最後通過徵集強化資料提升成功率。靈初智能的整體技術架構使得其在“不可達三角”上起點更高,以及通過合理路徑發展,最終有望實現更高水平的綜合性能表現。
今年12月初,李飛飛創辦的空間智能創業公司World Labs宣佈在空間智能領域取得重大進展,發佈了一個利用單張圖像就能生成逼真三維世界的模型。另外,Google也在差不多的時間發佈了新一代世界模型Genie 2,同樣能夠根據一張圖生成可供人類或AI智能體遊玩的無限3D世界。
“不管是李飛飛還是我們現在做的,有個底層邏輯,那就是都在解決要在什麼樣的資料中進行訓練的問題,以及模擬是必不可少的。”陳源培說。以電腦視覺領域為例,儘管該領域的資料量相比機器人領域多可能幾萬倍,且像圖像生成的難度低於機器人控制,但生成的視訊在細節等方面仍不夠理想。
而在機器人領域,僅依靠真實性資料大機率無法實現良好的控制效果。因此,需要借助無窮無盡的模擬資料。比如,可以通過將一張真實世界場景的照片,放到模型中進行隨機化增強,生成比圖片原本包含資訊更多的資料,然後讓機器人進行訓練。
對於世界模型與具身智能模型之間的關聯,陳源培談道:“具身智能領域同樣需要世界模型,就像人類在行動時依靠大腦中的世界模型進行決策一樣,只不過其資料模型的建構難度遠超想像。”儘管當前世界模型在視覺方面的預測已取得較大進展,能生成比較符合物理世界的視訊,但對具身智能來說,直接採用的話可解釋性太低,裡面也不存在對“行動”的認知,所以要與機器人行動層面實現耦合還是很困難。
而王啟斌覺得,李飛飛的模型可能會先在虛擬遊戲之類的領域進行應用,也會借此來提升訓練機器人的模擬環境。不過,怎麼把這種模擬的三維時間空間關係結合到機器人的行動上,依舊有漫長的路要走,物體所具有的複雜物理屬性仍然會給機器人訓練帶來很大挑戰。
“世界模型在未來當然會對具身智能模型的發展產生重大影響,特別是在環境這一層面”王啟斌說,“不過,Agent(智能體)的本身的能力是從那裡來的呢?像人一樣,人是一種Super Agent,有時候一些能力可能是遺傳的先驗知識積累、是潛意識且不可解釋的。所以,我們現在還是很難簡單快速地直接從世界模型過渡到複雜的物理世界互動,這還是一個需要慢慢探索的過程。”
回顧創業以來的這一年,王啟斌坦言,還沒有遇到過讓自己覺得很有成就感的瞬間。
“具身智能是一個長線賽道,團隊每個人都很拼,就像源培經常晚上不回家就住在公司,就為了盡快把demo做出來,”王啟斌說道,“但是面對取得的成果,我們通常看起來很高興,不過也明白這其實只是在這個長線賽道上的滄海一粟,並不是真正的significance,還需要跟著節奏一步一步走下去。”
面對現在火熱的這波具身智能浪潮,大眾對此或許有過高的期待、行業發展會存在一部分泡沫,但他相信,就算熱潮回落,具身智能進入低谷期,低谷也會遠高於今天的發展起點。
長遠來看,隨著技術瓶頸的突破和應用場景的拓展,具身智能跨越現階段的浮躁是必然,會逐漸走向更成熟更具價值的發展方向、走向千家萬戶,只是,還需要多給它一些時間。 (智東西)