#VLA模型
聽說字節要造機器人,月薪開12萬
宇宙廠要造機器人?據科創板日報、第一財經等多家媒體報導,字節跳動旗下的火山引擎團隊,正以高達9.5萬至12萬的月薪招聘操作演算法資深專家(具身智能)。按照職位描述,這個崗位主導研發“人形具身機器人”的操作演算法,包括但不限於演算法架構設計,抓取演算法,VLA模型研發,靈巧手等方向的工作。職位描述中的五大核心職責,包括“主導研發人形具身機器人的操作演算法”、“參與具身大模型的預訓練與部署”以及“推動演算法在硬體上的系統整合與部署”等。這份對人才的要求,勾勒出字節跳動意在打造一個整合先進大模型、具備複雜操作能力的具身智能體。除了操作演算法資深專家,字節跳動同時也在招聘具身智能資料開發工程師、具身智能推理性能最佳化工程師、運動控制演算法資深專家等具身領域相關崗位。開這麼高的工資,說明不是“端側小應用”,而是面向通用具身智能棧的投入。字節造機器人不是新鮮事,只不過之前造的是輪式物流機器人。據“晚點LatePost”披露,字節跳動的機器人探索始於 2020 年,2023年7月時已有50人團隊。到2025年已累計量產超千台。今年開始在具身智能發力。7月,字節跳動Seed團隊今日發佈通用機器人模型GR-3。這是一款VLA模型,也就是機器人的大腦,能讓機器人理解指令、操作柔性物體,甚至雙手協同幹活。同樣是7月,發佈高自由度靈巧手ByteDexter,具備20個自由度,可以通過遙操作等輔助裝置實現人手的靈巧操作。9月, Seed 團隊發佈最新的機器人研究成果——Robix,一個旨在提升機器人思考、規劃與靈活互動能力的“機器人大腦”。據“機器之心”報導,搭載 Robix 的機器人已展現出一系列過去難以實現的複雜互動能力。比如,在做飯時,它不僅能根據菜名(如“魚香肉絲”)準備食材,還能主動發現缺少配料並詢問是否需要補齊。10月,火山引擎還與賽力斯集團旗下重慶鳳凰技術有限公司簽署具身智能業務合作協議,合作範圍包括“面向多模態雲邊協同的機器人決策、控制與人機協作技術”。字節提供AI技術支援——包括AI演算法、算力、多模態模型等;賽力斯提供產業場景和落地經驗——包括真實的產業需求、測試環境,並負責將技術最終落地到汽車、機器人產品中。如果把機器人“拆”開來,字節跳動已經在機器人的大腦、手、腿、演算法、場景等都開始各自有所進展了。為什麼現在又要招人做完整的機器人?字節跳動的優勢在於多模態大模型與流量分發。而具身智能需要長時程、閉環互動資料(視覺-觸覺-動作-語言)。把機器人引入“倉配/門店/內容生產”多場景,能產生高價值對齊資料,反哺其Agent與VLA模型。“未來程式碼局”則認為,全球網際網路的線上使用者增長和使用時長都已見頂,“線上流量”枯竭了。新的流量在物理世界。具身智慧型手機器人是終極的資料採集終端。它擁有視覺、聽覺、觸覺,它在現實世界中24小時不間斷地與環境互動、收集資料。這些資料是訓練更強大AI的“完美燃料”。對於字節來說,佈局具身智能,不僅是開闢新業務,更是為了獲取“下一代流量”——物理世界的資料流,從而延續其“資料-演算法-產品”的核心優勢。另外,由前字節跳動財務投資部負責人楊潔創立的錦秋基金(字節跳動為其出資方之一),正在深度佈局具身智能產業鏈正在深度佈局具身智能產業鏈,已投了星塵智能、樂享機器人、首形科技等機器人公司。 (鉛筆道)
特斯拉世界模擬器亮相ICCV!VP親自解密端到端自動駕駛技術路線
特斯拉世界模擬器來了!這些看似真實的駕駛場景,全都是用模擬器生成:這個模擬器在今年的電腦視覺頂會ICCV上亮相,由特斯拉自動駕駛副總裁Ashok Elluswamy親自講解。網友看了之後表示,這個模型實在是泰褲辣。同時,Elluswamy也首次揭秘了特斯拉的自動駕駛技術路線圖,表示端到端才是智能駕駛的未來。世界模擬器生成自動駕駛場景除了開頭看到的多場景駕駛視訊,特斯拉的世界模擬器還可以為自動駕駛任務生成新的挑戰場景。比如右側的車輛突然連並兩條線,闖入預設的駕駛路徑。也可以讓AI在已有的場景中執行自動駕駛任務,躲避行人和障礙物。模型生成的場景視訊,除了讓自動駕駛模型在裡面練手,也可以當成電子遊戲,供人類玩耍體驗。當然除了駕駛相關,對其他具身智能場景——比如特斯拉的柯博文機器人——也同樣有用。與這個模型一同被揭秘的,還有特斯拉在自動駕駛上的一整套方法論。特斯拉VP:端到端才是自動駕駛的未來ICCV演講中,特斯拉自動駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術細節,同時還在X上發表了文字版本。Ashok首先明確,端到端AI才是自動駕駛的未來。特斯拉利用端到端神經網路實現自動駕駛,這個端到端神經網路會利用來自各個攝影機的圖像、運動訊號(例如車速)、音訊、地圖等資料,生成驅動汽車的控制指令。與端到端相對的另一種方法是採用大量感測器的模組化駕駛,這類系統的優勢是在初期更容易開發和偵錯,但相比之下,端到端的優勢更加明顯:將人類價值觀規則化極其困難,但從資料中學習則容易;模組化方法中感知、預測和規劃之間的介面定義不明確,但在端到端中梯度從控制一直流向感測器輸入,從而整體最佳化整個網路;端到端方法可輕鬆擴展以處理現實世界機器人的繁重和長尾問題;端到端具有確定性延遲的同質計算。Ashok舉了一些例子,比如車輛行駛過程中發現前方路面存在積水,此時有兩種策略,一是直接從積水上開過,二是借用對向車道繞過積水。駛入對向車道是危險的,但在這個具體場景中視野開闊,在避開水坑所需的路程之內對向車道沒有車輛,借用對向車道避開水坑是一種可行的選擇。這種權衡取捨就很難用傳統的程式設計邏輯來表達,而對於人類來說,這在觀察場景時卻相當簡單。基於以上考慮及其他因素,特斯拉採用了端到端的自動駕駛架構,當然,端到端系統也仍有許多挑戰需要克服。特斯拉如何解決端到端自動駕駛困難端到端自動駕駛面臨的困難,其中之一就是評估。特斯拉推出的世界模擬器,也正是針對這一難題。該模擬器使用特斯拉篩選出的同樣的海量資料集進行訓練,其功能並非預測給定狀態下的行動,而是根據當前狀態和下一步行動來合成未來狀態。這樣的狀態可以與智能體或策略AI模型連接起來,以閉環方式運行,從而評估性能。同時,這些視訊並不侷限於評估,它還可以用於閉環大規模強化學習,從而實現超越人類的表現。除了評估之外,端到端自動駕駛還面臨“維數災難”,以及可解釋性和安全性保證的問題。在現實世界中,想讓自動駕駛系統安全運行,就需要處理高影格率、高解析度、長上下文輸入。假設輸入資訊包括7個攝影機×36FPS×5 百萬像素×30秒的場景畫面、未來幾英里的導航地圖和路線、100Hz的運動資料,以及48KHz的音訊資料,大約會有20億輸入Token。神經網路需要學習正確的因果對應,將這20億個Token精簡為2個,即車輛的下一個轉向和加速動作。在不學習虛假相關性的情況下學習正確的因果關係是一個極其棘手的問題。為此,特斯拉通過龐大的車隊,每天收集相當於500年駕駛總和的資料,並使用複雜的資料引擎篩選最高品質的資料樣本。使用這樣的資料進行訓練,就能讓模型獲得極高的泛化能力,從而應對極端情況。對於可解釋和安全性問題,如果車輛的行為不符合預期,端到端系統的偵錯可能就會變得很困難,但模型也可以生成可解釋的中間Token,可以根據情況用作推理Token。特斯拉的生成式高斯潑濺就是這樣一項任務,它具有出色的泛化能力,無需初始化即可建模動態物體,並可與端到端模型聯合訓練。其中所有的高斯函數都是基於量產車配置的攝影機生成的。除了3D幾何之外,推理還可以通過自然語言和視訊背景進行。該推理模型的一個小版本已經在FSD v14.x版本中運行。更多技術細節,可以到Ashok的文章和原始演講視訊當中一探究竟。端到端自動駕駛兩大路線:VLA還是世界模型?雖然端到端被視為自動駕駛的未來,但在業界,具體的軟體演算法路線也一直存在VLA和世界模型之爭。以國內為例,華為和蔚來都是世界模型路線的代表,元戎啟行和理想則選擇VLA路線,另外也有一些玩家認為應該將兩者結合。VLA玩家認為,該範式一方面可以應用網際網路已有的海量資料,積累豐富常識,進而理解世界。另一方面模型通過語言能力實際上是具備了思維鏈能力,能夠理解長時序資料並進行推理。更尖銳的觀點認為,有些廠家不用VLA是因為算力不夠,帶不動VLA模型。世界模型玩家們則堅持世界模型更接近問題本質,例如華為車BU CEO靳玉志認為“VLA這樣的路徑看似取巧,並不能真正走向自動駕駛”。而現在,特斯拉的方案之所以備受關注,也正是因為在自動駕駛發展歷程中,馬斯克從未有過“選錯”。特斯拉選什麼路線,VLA還是世界模型,關於端到端自動駕駛兩大技術路線的歷史性決戰。你看好VLA,還是世界模型?參考連結:[1]https://x.com/Tesla/status/1982255564974641628[2]https://x.com/aelluswamy/status/1981644831790379245 (量子位)
高盛-中國人形機器人的實地調研
2025年5月19-20日,高盛拜訪了北京/深圳的8家仿人機器人企業,並於5月21日在上海舉辦了一場與3家機器人行業公司(創始人/研究主管)的小組討論(總計7家私人初創企業,6位C級管理層)。大多數行業參與者一致認為,機器人必須將通用智能與實際應用相結合,才能實現規模化發展。實現這一目標依賴於四項核心技術:演算法、資料、計算能力和硬體。儘管中國在硬體供應鏈方面仍保持強大優勢,但初創企業已開始致力於開發仿人機器人的“大腦”。在各企業中,視覺-語言-行動(VLA)模型被認為是一種可行的解決方案,而高品質的現實世界資料也越來越重要,以實現與物理世界的一致性和任務精準性。企業正在投資建設資料工廠,以大規模收集真實機器人互動資料,我們拜訪的一家公司估計需要1,000萬小時的資料才能達到通用(L3)能力,這需要1億至2億美元的投資。在計算能力方面,輝達的Jetson Orin仍然佔據主導地位,但中國企業開始探索與華為的合作。硬體開發的一個日益重要的重點領域是靈巧手,配備觸覺和力反饋感測器,因為精細運動控制和借助攝影機進行物理資料收集的重要性。就實際應用而言,工業用例(如物料搬運和分揀)通常被提及為早期商業機會,而消費類應用由於除了技術要求外,還有額外的安全和監管障礙,因此仍顯得遙不可及。就定價而言,仿人機器人的價格差異很大,根據功能規格,從1.5萬美元到10萬美元不等,人們普遍預期隨著規模生產和零部件最佳化,成本將會降低。總體而言,我們對仿人機器人技術的進步和行業的長期前景留下了積極的印象。我們維持我們對行業的預測,即2025年預計全球出貨量為2萬台,2035年預計為140萬台。在我們看來,與資料收集相關的供應鏈股票可能是新的受益者。值得關注的關鍵事件是:8月15-17日在北京舉行的全球仿人機器人運動會,包括(1)13項體育和表演項目,如田徑、自由體操、足球比賽、獨舞/群舞;(2)6項基於應用的項目,包括在工廠環境中搬運和整理材料,在醫療環境中分揀藥品和拆包,在酒店環境中互動接待和清潔。我們注意到,與2025年4月19日在北京舉行的仿人機器人半程馬拉松(主要展示硬體的可靠性和耐久性以及運動控制能力)相比,這一活動將提供更全面的仿人技術展示(特別是在智能、泛化水平和敏捷性方面)。詳細要點:仿人機器人參與者認為,為了實現仿人機器人的商業化,它們必須具備通用智能,同時能夠執行實際任務。為了實現這一目標,四項核心技術是必不可少的:(1)演算法,(2)資料,(3)計算能力,(4)硬體。硬體和軟體都是不可或缺的,發展通常呈螺旋式迭代——硬體的進步推動軟體的改進,反之亦然。儘管人們普遍認為中國在硬體供應鏈方面具有強大優勢,但在這次行程中,我們聽到初創企業越來越多地致力於增強仿人機器人的“大腦”研發。演算法——VLA模型被認為是一種可行的解決方案在生成式人工智慧中,大型語言模型(LLM)是通過對大量文字資料進行分析來輸出最相關的文字。而視覺-行動-語言(VLA)的核心架構與標準的大型語言模型並無本質區別。不同之處在於,輸入內容變為視覺和行動的整合,而輸出則是機器人預期執行的動作。VLA結構是大多數公司普遍接受的基礎,而一些公司還將觸覺資訊作為另一種類型的輸入進行整合。一家公司的管理層評論稱,該演算法結構可能比美國的研究質量落後0.5-1年,但在中國也在迅速發展。儘管VLA被視為一個成功的早期發展方向,但一家初創企業的首席執行官也指出,它可能並非最終解決方案,並提到了深度學習中的早期循環神經網路(RNN)——在基礎架構方面很重要,但隨著架構的成熟,可能會被取代。儘管如此,目前在VLA方面的工作對於實現未來模型的突破至關重要,預計該領域將經歷3-4次重大迭代。資料——高品質資料最為關鍵使用資料訓練模型通常有三個步驟:■ 通過人類工作視訊進行預處理:向模型傳授常識性知識和任務結構,例如,教機器人逆時針方向擰開水瓶蓋。■ 監督式微調(SFT)使用通過遠端操作收集的資料或模擬資料來微調演算法,提高精度。■ 帶人類反饋的強化學習(RLHF)是在現實世界的複雜情境中真正實施預期動作,並最佳化行為。儘管對於那種資料最為有效存在一些爭論,但基於上述訓練機制,目前使用了三種類型的資料——二維視訊、遠端運算元據和模擬資料。根據我們的交流,我們注意到對於那種資料最適合訓練具身人工智慧系統,目前仍存在爭議。一些人認為模擬資料最佳,因為它具有可擴展性和低成本;而另一些人則強調現實世界資料的重要性,因為它更好地捕捉了物理一致性,即遵循現實世界的物理規律。此外,擁有多樣化資料集也很重要,以便在各種情況下測試動作。此外,建構模擬環境中的多樣化環境也並不一定更便宜。總體而言,大多數人同意需要一種資料配方,即三種類型資料的有效混合,而高品質的現實世界資料最為關鍵,因為它具有:1)精準性——動作與物理現實的匹配程度;2)多樣性——環境、物體類型和動作的多樣性。為達到L3等級通用自主能力,一家初創公司首席執行官估計需要1,000萬小時的真實世界機器人資料,這相當於10,000台機器人或操作員2年的努力,需要1億至2億美元的投資,從而催生了“資料工廠”概念:多家公司如今將資料收集基礎設施——“資料工廠”——視為一項戰略投資。對於從一個機器人收集的資料能夠多大程度上應用到另一個機器人上,存在不同意見。一些人評論稱,通常情況下將“動作輸出”從一個機器人轉移到另一個機器人是相對容易的。另一些人則表示,儘管他們最終希望建構一個能夠適用於不同形態機器人的視覺-語言-行動(VLA)模型,但目前資料必須與硬體緊密結合,因為模型仍處於早期階段。即使在遠端運算元據中,也有幾種不同類型的資料收集方法:■ 基於視覺的系統(攝影機或虛擬現實):這是最便宜且最具可擴展性的方法,但精度最低(在釐米到分米等級)。■ 慣性測量單元(IMU)感測器:安裝在關節處,精度可達毫米等級,但存在漂移/累積誤差問題。■ 光學運動捕捉:由Luster的子公司FZ Motion(股票程式碼:688400.SS)提供的解決方案,使用多個攝影機和反游標記,能夠實現小於0.1毫米的高精度。政府提供了基礎模型補貼和一些資料補貼。對於政府支援的資料收集中心,即使政府共享開源資料集,這可能有助於某些預訓練,但對於垂直領域的微調或任務級掌握可能還不夠。由於邊緣計算的限制,公司採用“快速+慢速”系統:在訓練或執行更複雜任務時,仍然需要像4090/3090這樣的高端GPU。他們使用邊緣裝置Jetson(Orin、Thor)來運行VLA,用於車載感知、規劃和輕量級推理。但一些本地初創企業正在與華為合作,表明在地緣政治風險下,正在努力建構國內計算基礎設施。幾乎所有公司都指出,靈巧手在他們為未來資料收集準備產品以及在中長期內在工廠中處理更複雜、更靈活的任務中發揮著關鍵作用。鑑於供應商數量的增加和行業努力,仿人機器人的其他元件(例如減速齒輪、電機和螺釘)越來越容易獲得,儘管這些元件的耐用性、可靠性和散熱性能仍有待改進。也就是說,靈巧手是一個關鍵障礙,主要是因為:(1)不同的機械設計使得在承載能力、靈活性和成本之間取得平衡非常困難;(2)觸覺感測器的性能和成本競爭力不夠理想,而觸覺感測器對於通過收集各種物理參數(如力、扭矩、溫度、紋理、摩擦力)來訓練和改進機器人AI模型至關重要。我們與一家國內觸覺感測器公司交談後瞭解到,他們正試圖引入一個明確的資料標準,以幫助通過靈巧手簡化資料收集、處理和訓練,並通過在設計、演算法和材料方面的創新降低感測器成本,其感測器平均售價目前比海外同行的同類產品低50%以上。仿人機器人公司經常提到,鑑於其在不同行業中廣泛且普遍的需求以及對任務性能(尤其是精度和效率)的相對較高容忍度,工廠中的物料搬運是早期商業機會。一家公司提到,他們的仿人機器人在物料搬運方面已達到95%的精度,另一家公司表示,他們的機器人在這一任務上的速度比人工勞動快30%(如果機器人每天工作兩班,則為60%),預計2025-2026年開始小規模採用。分揀是另一個經常被提及的應用,需求甚至更大(即不僅在工廠,還在零售環境,例如藥店),儘管其對速度的要求比物料搬運更高。公司還討論了托盤化/去托盤化和裝卸任務的巨大需求(例如,一家大型電動汽車公司有20,000名工人從事這些任務),但許多技術瓶頸仍有待解決(例如,識別小物體或顏色相似的物體)。此外,儘管仿人機器人製造商對長期消費類應用需求(例如做家務)持樂觀態度,但他們指出,鑑於消費者環境的高度多樣性,技術要求極高,更不用說監管和安全/隱私問題了。此外,商業仿人機器人已經在引導和互動接待角色中得到部署,這些角色對視覺-語言-行動(VLA)性能的要求相對較低。據一家初創公司稱,這些用例的出貨量超過了他們今年的預期。我們拜訪的公司提供的仿人機器人的平均售價從1.5萬美元到10萬美元不等,這主要是由於規格不同。行業共識表明,目前還沒有一種通用設計能夠滿足所有應用需求。低端定價的仿人機器人嵌入的智能/AI能力非常有限,只有基本的硬體規格(自由度有限,沒有靈巧手或視覺感測器)。這些低規格產品能夠快速進行基本運動(例如行走、揮手)和預程式設計的動作(例如跳舞),主要用於向大學和AI實驗室出售以供研究用途,以及向企業和政府出售用於接待或娛樂。另一方面,高規格的仿人機器人通常在手臂中使用諧波(而不是行星)減速齒輪,以及使用滾珠/滾柱絲槓(而不是連桿)代替,並配備多種感測元件,如視覺攝影機、力/扭矩感測器以及帶有觸覺感測器的靈巧手,旨在工廠環境中執行精細或重型任務,並具備AI/自主功能。大多數公司預計2025年的年出貨量將達到數百台機器人。展望未來,每家公司都看到了仿人機器人成本大幅降低的潛力,這將由生產最佳化(例如專用裝置和生產線)和更高的生產量推動,從而降低單位折舊和前期開發成本(例如研發和模具),這將為製造客戶帶來更好的投資回報率(ROI)。 (行業報告研究院)