Hugging Face進軍機器人,前特斯拉Optimus科學家帶隊|甲子光年

機器人太火了,連專注軟體領域的Hugging Face也入局了!

美國時間5月6日,Hugging Face的機器人專案負責人雷米·卡德內(Remi Cadene)宣布推出LeRobot開源程式碼庫,並形容它對於機器人的意義就如同「Transformer架構之於NLP(自然語言處理)」。

Remi Cadene表示:“人工智慧發展的下一步是將其應用於我們的物理世界。因此,我們正在圍繞AI機器人建立社區驅動的努力,並且它向所有人開放!”


Remi Cadene的X推文

Remi Cadene在兩個月前加入Hugging Face,並在法國巴黎搭建團隊,招募具身機器人工程師。先前Remi Cadene先後在特斯拉自動駕駛汽車部門與人形機器人Optimus團隊擔任科學家。

Remi Cadene表示自己將在Hugging Face開啟一個「雄心勃勃」的開源機器人項目,而且不是像OpenAI那樣的開放,是真正的開源。

Hugging Face是一家總部位於紐約的人工智慧公司,估值45億美元。在組成開源機器人團隊之前,Hugging Face的主營業務都是軟體形態,包括開源AI模型庫和AI助手Hugging Chat Assistants。

如今,隨著Hugging Face的開源機器人程式碼庫上線,將會有更多的人加入機器人研發的大潮。 Hugging Face已經搭上了大模型爆火的第一輪東風,它還會繼續搭上機器人的東風嗎?

1.LeRobot:一個機器人的“圖書館”

此次推出的LeRobot開源程式碼庫旨在為Pytorch框架下的現實世界機器人提供模型、資料集和工具,目標是降低進入機器人技術的門檻,以便每個人都可以做出貢獻,並從共享資料集和預訓練模型中受益。

LeRobot不僅僅是一個軟體包,而是一個綜合平台,其中包括用於共享、視覺化資料和訓練最先進模型的多功能庫。具體而言,LeRobot開源資料庫提供了一組預訓練模型、包含人類收集演示的資料集,以及無需組裝機器人即可使用的模擬環境,以為機器人在現實世界中的動作提供更多的支援。

它與實體模擬器無縫集成,讓沒有實體機器人硬體的愛好者和開發人員可以在虛擬環境中模擬和測試他們的人工智慧模型,目標是提供一個可以適應和控制任何形式的機器人的AI系統,從而實現機器人應用的多功能性和可擴展性。

Remi Cadene在推文中表示,LeRobot之於機器人就像Transformer架構之於NLP——它提供帶有預訓練檢查點的高級AI模型的簡潔實現。他們也復現了來自學術界的31 個資料集和一些模擬環境,無需實體機器人即可開始使用。


Cadene 發布了一些由Github上LeRobot庫的程式碼提供的機器人功能的範例,它們都是在真實資料集上訓練的。

例如,在這個資料視覺化的範例中,它展示了LeRobot是如何在Return(一個SDK和檢視器,用於視覺化與多模態資料流互動)上運行的,資料集來自Aloha專案(用於異質架構運行時自適應和安全深度學習的軟體框架,主要目標是促進深度學習演算法在異構低能耗運算平台上的實現,為最佳演算法選擇、資源分配和部署提供自動化。


LeRobot的另一項視覺化是在Mobile Aloha資料集上進行的,旨在完全端到端地學習導航和操作。以下例子展示了LeRobot控制下的兩個機器人抓手/手臂之間傳遞物體:


上述兩個資料集都是在機器人公司Trossen Robotics的機械手臂上收集的。

當Remi Cadene團隊使用ACT策略對LeRobot開源程式碼庫進行測試時,基於LeRobot的機器人在模擬環境下同樣表現良好。

ACT策略是一種機器人的動作分塊演算法,即Action Chunking with Transformers,它使用Transformer編碼器合成來自多個視點、聯合位置和風格變數的圖像,並使用Transformer解碼器預測一系列動作,透過預測動作序列來解決高精度領域中的問題。 ACT策略可以在新環境幹擾下做出反應,並且對一定程度的干擾具有穩健性。


可以看到,兩隻機械手分別嫻熟地捏起兩塊不同的積木並堆疊到了一起,證明了ACT策略下LeRobot的有效性。

同時,在Diffusion Policy(擴散策略,一種強大的模仿學習演算法)和TDMPC Policy(Temporal Difference Learning for Model Predictive Control,一種包含世界模型的強化學習演算法)兩種策略下,LeRobot同樣表現出色,可以不斷從與環境的互動中學習。



早在索邦大學(Sorbonne University)讀博的時候,Remi Cadene就給了NASNet模型(一個行動端的ImageNet模型)的Pytorch實作方法。

2021-2024年3月在特斯拉的Autopilot團隊和Optimus團隊工作期間,Remi Cadene也在自動標記神經網路、建構操控網路等工作中做出了重要貢獻。

2.軟體平台也有硬體野心

在過去的幾個月裡,人形機器人技術取得了令人印象深刻的突破(ALOHA、擴散策略、UMI 等等),使機器人能夠在有限數量的數據集上運行,同時讓許多資金實力不足的小團隊也能訓練自己的機器人。

同時,最近一段時間,大量風險資本湧入人形機器人產業,例如Figure AI在2月份獲得了來自英偉達、亞馬遜和OpenAI等的6.75億美元融資,這已經是他們在2023年5月完成7000萬美元A輪融資、7月獲英特爾900萬美元投資後,一年內的第三次融資。

4月18日波士頓動力將其液壓動力機器人Atlas退役、推出了全新的電動Atlas機器人(詳見《波士頓動力推出全新Atlas:人形機器人並不一定要像人》);就在前天,特斯拉宣布了其人形機器人Optimus能力的全面升級(詳見《特斯拉機器人Optimus「進廠打工」:它學會了糾正自己的錯誤》)。

在中國,人形機器人賽道同樣耀眼,光是2024年4月,中國的人形機器人領域就發生了4起投融資事件,截至目前已經有了8起融資事件,達到了2023年的三分之二,累計融資金額超過12億元。 2023年底,人形機器人第一股優必選更是成功在港交所上市。

「甲子光年」曾在《人形機器人+大模型,為什麼是投資人追逐的新風口》中指出,通用人工智慧對物理世界的價值需要有具身的實體來承載,而人形機器人就是最好的落地方式;大模型開啟了通用機器人的可實現性,幫助人形機器人在技術層面邁過了一個鴻溝,產生了巨大的價值發揮空間,而這也是人形機器人最近備受科技和投資圈關注的原因。

作為一個在機器學習和AI領域深耕了多年的玩家,Hugging Face同樣能夠看到人形機器人的巨大潛力。今年3月,在將前特斯拉AutoPilot與Optimus科學家招至麾下後,Hugging Face在法國巴黎招募具身機器人工程師,並提到:「在Hugging Face,我們相信機器學習不必局限於電腦和伺服器,這就是為什麼我們正在擴大我們的團隊,為專注於機器學習/人工智慧的機器人工程師提供新的機會。

Hugging Face表示,“在這個職位上,你將負責設計、構建和維護集成人工智能技術的開源和低成本機器人系統,特別是深度學習和具體人工智能技術,突破機器人和人工智能的可能性界限” 。

Hugging Face已經踏出了第一步。將LeRobot機器人程式碼庫開源是Hugging Face的策略決定,旨在避免權力和創新集中在少數公司手中。

LeRobot發展的基礎是創建有史以來最大的眾包機器人資料集。透過與大學、新創公司、大型科技公司和個人愛好者合作,Hugging Face 正在促進龐大機器人數據存儲庫的建立——這其中包含數以TB計的機載視頻記錄,這些視頻記錄正在使用輕量級的LeRobot Dataset 進行格式化,以便透過Hugging Face快速上傳和下載。

未來,透過降低進入門檻並創造共享知識和資源的環境,Hugging Face上有希望長出一個可以重新定義人工智慧機器人領域的社區,而這也是Hugging Face的機器人野心。 (甲子光年)