就在今天,國產頂流AI機器人星塵智能的Astribot S1秀真機了!在世界機器人大會上,它技驚四座,攤餅泡茶掃地喂貓練詠春大招頻現。兩年前,鵝廠大佬從Google項目中找到靈感,如今,機器人養老,真要成現實了。
4個月前,星塵智能的Astribot S1橫空出世——疊衣、分揀物品、顛鍋炒菜、吸塵清潔、競技疊杯等複雜技能樣樣精通。
一通絲滑操作猛如虎,甚至還被網友冠上了國產人形機器人「核彈」的頭銜。
網友們紛紛表示:忽然看到未來養老機器人的希望!
不僅如此,它在國外也破了圈。
人形機器人市場諮詢師Stewart Swayze稱,我們離《傑森一家》中的Rosey越來越近了。
4個月後,星塵智能直接向公眾秀真機了!
在今日舉行的機器人大會上,頂流機器人一再奉上精彩表現,直接刷爆了好評。
就連大名鼎鼎的Figure AI公司CEO,也在即時追蹤。
世界機器人大會現場,它用毛筆寫下了鏗鏘有力的「北京」二字,圍觀群眾為它響起了熱烈的掌聲。
你可能會疑問:這家機器人的操作怎麼這麼神,在其他家機器人那裡怎麼沒見過?
我們來逐幀看看這個兩天前發佈的詳細產品演示!
視訊中,Astribot S1能泡茶、做華夫餅、喂貓、清潔……完成一連串高難度、長序列、可泛化的任務,說一句「最強AI機器人助理」,一點也不誇張!
劃重點,以上這些demo,都是1倍速、實物實拍、無遙操作的。
S1表現出的敏捷、靈活、精準和絲滑度,無不令人驚嘆。
要知道,上面這些動作人類做起很輕易,但對機器人來說,需要跨越極高的技術門檻,單拎出那一個都不簡單。
洗茶、沖泡、倒茶、分茶它樣樣都能拿捏。用視覺識別技術識別茶具位置、形狀和狀態,用精確的觸覺和力覺控制系統舀茶葉、注水、倒茶,一氣呵成。
在以後,我們還會有瞭解自己飲茶偏好的機器人,來提供個性化服務。
而彈奏揚琴,對機器人的細微操作和精準控制能力要求極高。
懂樂器的朋友們都知道,打擊樂的精髓,就在於敲擊動作的精準度。而且,演奏所持的琴竹和敲擊的琴弦都具備彈性,這更是讓控制的複雜性大大增加。
機器人必須具備極高的力控能力,和對彈性特性的精準建模,才能「硬控」住彈性形變,同時精細調節敲擊力度。
可以看到,機器人會首先利用視覺識別技術,捕捉琴弦的位置和揚琴的結構;然後利用力覺反饋系統,讓每一次敲擊琴弦都安全精準,既不會太輕也不會太重。
接下來,S1還有一波酷炫操作。其中,投籃要的是精確控制力量和協調性,跳舞和打拳,則是要流暢的身體動作和節奏感。
相信大家看完演示,都有一個共同的感受:這個機器人,怎麼這麼像人?
是的,星塵智能的理念,即是讓機器人像人一樣學習、思考和勞動,不斷拓展應用邊界。
看完S1大秀的這波神操作,我們有理由相信,它離人類互動和家務場景已經不遠了!
能承載如此多高難度的精細操作,S1的身體,有必要說道說道。
生產線上精確控制的機械臂,不能算作機器人,因為既沒有智能,也不會學習和處理問題。
那麼,把大模型塞進機器人,就能得出真正的具身智能嗎?
顯然,並非如此。
正如Linda Smith在「具身假說」中所提出的,只有當一種智能能夠感知和導航物理環境時,人類水平的智能才能出現,就像嬰兒通過探索環境來學習一樣。
同樣,Meta的研究科學家Akshara Rai也曾表示,「缺乏物理具身的AI系統永遠無法真正智能。想要完全理解世界,就必須與之進行互動,並觀察這些互動的結果。」
所以,讓AI發展出真正智能的唯一方法,就是給它一個身體,以及在世界中移動和體驗的能力。
相比之下,純數位化的AI可能在處理特定任務時表現出色,但總會遇到智能的天花板。
爆火全網的Flux+Gen 3生成的視訊之所以有破綻,也是AI沒有人類的身體,不理解人類的舌頭、頭髮、眼睛為何物
然而,大多數機器人行業的人都知道,「做機器人很難」。這也正巧體現了莫拉維克悖論:對機器人來說容易的事情對人類很難,反之亦然。
隨著LLM的爆火,機器人研究領域也出現了一種新的趨勢:將LLM嵌入到規劃中,將VLM嵌入到感知中,將程式碼生成用於執行。
但僅僅把未經訓練的AI 「大腦」放入機器人「身體」裡,並不能解決問題。
畢竟,具身智慧型手機器人是集眾多領域之大成,包括但不限於機器學習、強化學習、電腦視覺、機器人技術、規劃與控制、環境建模與預測、基於物理的模擬等等。
因此,各種多亟待解決的挑戰也隨之而來。
- 現實世界的知識:具身智能必須對物理世界及其規律和動態特性有深刻的理解,從而能夠有效且安全地進行互動。
- 學習和適應能力:具身智能必須從經驗中學習,並適應不斷變化的環境。這需要先進的學習技術和極大的靈活性。
- 複雜的實體互動:具身智能需要一個能夠與物理世界進行自然互動的系統。這涉及到運動協調、環境感知和即時決策的管理。
- 魯棒性和可靠性:具身智能需要足夠的魯棒性(Robustness),從而可以在真實且常常不可預測和動態的環境中可靠地運行。
怎麼解決?靠的就是機器人身體和大腦的完美配合。
研發耗時一年,S1在軟硬一體化系統架構上取得了重大突破,既有智能的大腦,也有全能的身體。
星塵智能認為,研發出新一代最強AI機器人助理,便需要將「AI智能」和「最強操作」強耦合。
在智能方面,S1擁有一個「最強大腦」。
不僅可以在複雜環境中進行感知、認知、即時決策,而且還具備智能理解和多模態互動執行能力。從而實現物體、任務和環境等級通用操作泛化。
更厲害的是,S1還具備持續學習進化的能力。
從前文的demo中不難看出,S1能像人一樣去理解和分析、與人流暢互動,更能通過與人、與真實世界互動獲得海量高維資料,從而持續學習進化,不斷提升智能化和多工泛化能力,逐步實現通用智能。
大多業內人士認為,機器人訓練最大的瓶頸就是缺乏資料。更何況,機器人還需要理解物理定律和人類現實世界。
對此,星塵智能的思路是:不僅要收集所有可以得到的資料,而且還要高效地利用起來。
「模擬資料要用,人體動捕資料要用,機器人實操資料也要用!」
而由此得到的S1,既可以用第一人稱,支援從視訊、動捕,以及遙操作收集多維度的高品質資料,實現人類多模態資料互動,也能低成本、高效率地利用已有的真實世界視訊資料,以及人體動作資料。
在關於S1的視訊中,彈幕中最常出現的評論就是——「太絲滑了」,為什麼S1會讓人有這樣的感覺呢?
當然是因為,它「用力」方式和人是一致的。
如果只是軌跡一致,並不能滿足實操的效果,反而會僵硬,也沒有泛化能力。怎麼辦?
星塵智能的解決辦法是——追求更高資料維度,也就是力覺、觸覺等。
如果把力的資訊採集下來,就能讓機器人像人一樣,用施加某種力的方式控制精度。
比如,S1把鹽舀起來後,會在杯壁上刮了一下,可謂是把人的精巧、細微的力度控制都學出來。
給黃瓜繅絲的場景,也讓很多人印象深刻。
在這個過程中,靠的就是力,而不用依賴路徑。把刀壓在黃瓜上,機器人會感受這個力,因此,直接把黃瓜換成胡蘿蔔也是可以的,極大提升了泛化性。
同樣,安全的基礎也是力。知道互動時要用多少力,才能不傷人、不傷己、不傷環境。
也正是因此,S1的行為舉止,會無比接近人。
資料解決了,接下來就要看硬體的了。
S1採用了全新的剛柔耦合傳動機構設計,剛柔並濟,能低成本實現同規格機器人中的「最強操作性能」。
小小一個S1,單臂的額定負載就達到了10千克,平舉10千克。
4月首發的S1 demo中,團隊側重的是「有價值的上半身」。現經過4個月訓練,已將其打造成一個完整的機體。
具體來說,他們加入了仿人的腰,還有移動底盤,做出了「可落地的下半身」。
首先,有了移動底盤,擴大了S1的操作空間。從僅限桌面上的任務,擴展到不論任何高低的地方,皆可實現。
其次,在腰部,他們以人類自身為原型,從胳膊和腰發力的力度,得到啟發,引入仿人的腰。
因此,S1能夠執行用吸塵器清潔、蹲地喂貓糧等,這都需要腰部用力。
同時,團隊經過慎重思考後,加入了仿人結構。
這種結構既提升了能力,又可以直接讓機器人來學習採集來的人體資料。
總之,S1如此成功的核心,就是軟硬一體。
因為做到了軟硬一體,所以機器人既能把握硬的準度,又能把握軟的力度。無論是結構設計,還是很底層的硬體設計,都在追求這兩者之間的平衡點。
雖然大家按照慣例,會覺得工業臂的剛度很高、能達到很高的精準,但CEO來傑認為,這條技術路線不可能進入家庭。
原因就在於,它的柔度不夠。人可以很好地控制力度,而後者,才是互動的關鍵。
軟硬一體,也是AI和機器人的耦合。
AI希望從資料裡得到一些概念,但機器人本身,是純物理世界的東西。
之所以要在硬體和AI上同步發展,也是因為硬體才是資料的來源。
在加入豐富的感測器、動作能力和執行器之後,就能解決資料可不可以被執行的問題。
而這個過程中,就真正體現了「軟硬一體」的精髓。
當我們深扒S1背後的公司,更是為他們的神速所震驚了。
成立一年多,就做出讓業界刮目相看的頂流明星機器人,初創背後技術團隊的實力,著實不容小覷。
2022年底,星塵智能由創始人兼CEO來傑在深圳創立,核心6人團隊,全部出自騰訊RobticsX實驗室。
值得一提的是,來傑還曾是騰訊RobticsX實驗室1號員工,擁有16年機器人研發經驗。
鵝廠的輪腿式機器人Ollie,以及多款新型機器人,皆是由他主導研發。此外,他還曾擔任過百度「小度機器人」團隊負責人。
不僅如此,星塵智能團隊的核心成員,還有來自Google、華為、大疆、優必選等國內科技大廠和頂尖高校。
這些頂尖AI人才的匯聚,就是為了做好一件事:要讓通用機器人走進千家萬戶。
自今年4月,S1機器人demo首發亮相,憑藉其靈巧的操作能力,在業界引發極大的關注。
而這家公司的創業團隊,一直以來專注研發,對外比較低調。
今天,讓我們來一起來扒一扒,創始人來傑和團隊背後的故事。
究竟是什麼契機,讓他選擇了在2022年底這個時間點上入局機器人領域?
恰在2022年,Google發佈了PaLM-SayCan,將語言模型PaLM與助手機器人結合,讓其更好與人互動,提供幫助。
在此之前,來傑和團隊一直集中精力去攻克具身模型、機器人本體,卻沒有深入到更上層的要素——模型。
GoogleSayCan項目的出現,讓他們突然找到了靈感。
再加上,在百度小度機器人團隊時,他本人也在一直關注語言模型的發展,並預感到類似GPT模型未來會現身。
甚至,在他的大腦中,已經有了「世界模型」概念的雛形。
也就是,真正的智能,上層架構可以實現邏輯理解,中層架構能理解物理世界,底層架構可以實現與世界互動。
憑藉在技術上的敏銳的嗅覺,來傑果斷走出實驗室,創辦了星塵智能。
到了2023年,具身智能概念雖火了一年,但其中仍有很多問題還未解決。
如上所述,在AI+機器人行業領域深耕16年,來傑已經踩過非常多的坑,因此對機器人理解更偏架構層面。
首先,第一個問題是,AI和機器人該如何結合?
有時候,並非是我們所想的,用AI資料堆砌的方式就能解決那麼簡單,必須要本體性能得到提升。
實際應用中,有一些泛化問題,無論怎樣提升資料質量,都無法解決。
因此,需要賦予機器人本體一些能力,在硬體設計上不斷迭代,推陳出新。
其次,第二個問題是,在機器人行業發展過程中,抓手在那?
資料、演算法、算力是AI和機器人強耦合的重要因素。這其中,恆定不變的,唯有資料。
大概六七年前,來傑還在百度時,便發現資料量、資料維度是非常關鍵的要素。
然而,業界往往關心的資料精度問題,鮮有人去提升資料維度。
而星塵智能團隊能讓機器人以第一人稱視角收集觸覺、力覺、視覺、聽覺等多維度的高品質資料,再綜合這些資料進行更高效的規模化訓練。
正是通過對「極致的本體性能」和「更多資料維度」「更巨量資料量」方面的提升,這才有了視訊中,S1所展現的絲滑操作。
有人說,2023年是具身智能元年。投資人們熱切的目光,在尋找著一位破土而出的種子選手。
多年來,單一用途機器人市場已經趨於飽和狀態,而AI通用機器人蘊含的巨大潛力,亟待開發和挖掘。
而星塵智慧型手機器人在通用操作能力上, 稱得上是全球範圍內首屈一指的玩家。
順理成章地,它的研發實力和商業前景獲得了行業投資大佬們的認可。更何況,這也是他們看得很深的領域。
截至目前,星塵智能已完成數千萬美元Pre-A輪融資,由經緯創投領投。
資本人對此評價道,「擁有具身智能的通用機器人,未來將會是人工智慧與現實世界互動的關鍵橋樑,經緯創投對這一領域的未來充滿信心。而星塵智能正基於其優秀的創始團隊及自研軟硬體,正不斷拓寬機器人泛化操作能力的邊際」。
星塵智能正是站在了具身智能開發最前沿,將從第一性原理打雜面向AI機器人頂層架構。
而這筆融資,也將繼續投入到頂尖人才招募、研發,以及年底商業化部署中。
星塵的願景,是致力於讓數十億人擁有AI機器人助理,推進人機共存、共創、共贏的未來!
其實,如今這個勢頭,已經愈加呼之慾出了。
勞動力缺口,老齡化嚴重,何解?通用機器人,就是一個重要的解決途徑。
有專家表示,預計到2035年,需要超1億機器人來填補勞動力空缺。
此外,在普通家庭中,家務勞動的價值往往也會被忽視。
曾有調查顯示,一個家庭的家務勞動佔比中,做飯27%,採購23%,照看22%,洗衣13%,其他佔14%。這些看似不起眼的家務,蠶食著我們極大一部分閒暇時間。
如果機器人幫我們承擔一部分,家庭和諧度和幸福指數無疑都會大大提升。
2024年過半,通用機器人賽道中湧現出眾多創新者,乃至幾位重量級玩家。它們的設計初衷,皆是為了在實際應用中幫到人類。
前段時間,Figure 02耗時18個月完成進化,由OpenAI定製模型加持,主要是進入寶馬車間,每天無休止狂干20個小時。
同樣,馬斯克第二代柯博文已入駐特斯拉車間,開始分揀電池。它在疊T恤、澆花、搬貨物等任務上,也是大顯身手。
除此以外,包括輝達、波士頓動力、1X、以及優必選、宇樹等國內外公司,都在探索AI機器人未來的應用前景。
不論是走進製造、物流各種工廠,還是服務家庭,機器人商業化應用探索,皆因場景中的實際需求而來。
不過,從長期來看,機器人走進普通家庭,才是最具變革的一次應用。
每個人都曾幻想,能夠未來擁有一個「賽博保姆」,就像《機器管家》中的安德魯,從燒飯打掃衛生,到帶孩子,無所不能。
如今,星塵智能的S1,已經讓我們隱約瞥見了它的雛形。 (新智元)