#VLA
輝達開源最新VLA,能否破局L4自動駕駛?
隨著大模型深度融入汽車行業,行業競爭正從功能實現轉向高階智駕能力的比拚,而VLA(Vision-Language-Action Model,視覺語言行動模型)被視為下一代技術競爭的關鍵變數。圖片由AI生成當地時間12月1日,輝達(NVIDIA)宣佈正式開源其最新自動駕駛“視覺—語言—行動”(VLA)模型 Alpamayo-R1,該模型能夠同時處理車輛攝影機畫面、文字指令,並輸出行車決策,已在GitHub和Hugging Face平台開源,並同步推出Cosmos Cookbook開發資源包。這是行業內首個專注自動駕駛領域的開源VLA模型,輝達此舉旨在為L4級自動駕駛落地提供核心技術支撐。值得注意的是,輝達Alpamayo-R1相較於傳統黑盒式自動駕駛演算法,主打“可解釋性”,能夠給出自身決策的理由,有助於安全驗證、法規審查與事故責任判定。而輝達同時發佈“Cosmos Cookbook”等配套工具,能夠支援企業和開發者快速訓練、評估與部署。業內認為,輝達試圖通過開放核心技術,降低自動駕駛開發門檻,加速軟體棧標準化,打破原來Robotaxi昂貴的“全端自研”模式,從而轉變為可快速組裝的“Android式”生態。不過也有業內人士向筆者表示,此次輝達Alpamayo-R1開源與百度Apollo開源類似,對自動駕駛領域的入門選手來說有價值,但對專業公司來說意義不大。目前,VLA正成為智能駕駛領域公認的下一代核心技術,相關企業都在加碼佈局。國內理想汽車、小鵬汽車、長城汽車(已搭載於魏牌藍山)、元戎啟行等都已在VLA上實現量產落地。解決傳統“端到端”模型痛點傳統的端到端模型像一個“黑盒”,可能“看得見但看不懂”,在面對違規左轉、行人闖入等長尾場景時容易“翻車”。而相較於傳統“端到端”模型,VLA通過引入語言模態作為中間層,將視覺感知轉化為可解釋的邏輯鏈,從而具備了處理長尾場景和複雜突發狀況的潛力,讓機器像人類一樣“觀察、推理、決策”,而不僅僅是海量資料的簡單對應。自動駕駛領域的VLA(視覺-語言-動作)大模型,代表了將視覺感知、語言理解與決策控制深度融合的技術方向。它能直接輸出車輛的駕駛動作,其核心好處是,讓機器有了更強的環境理解與推理能力、更高效的一體化決策、更強大的長尾場景應對、更透明的人機互動與信任建構、更自然的車控方式等。此次輝達開放原始碼的VLA模型Alpamayo-R1,基於全新的 “因果鏈”(Chain of Causation, CoC) 資料集訓練。每一段駕駛資料不僅標註了車輛“做了什麼”,更註明了“為什麼這樣做”。例如,“減速並左變道,是因為前方有助動車等紅燈,且左側車道空閒”。這意味著模型學會的是基於因果關係的推理,而非對固定模式的死記硬背。同時,基於模組化VLA架構,輝達Alpamayo-R1將面向物理人工智慧應用預訓練的視覺語言模型Cosmos-Reason,與基於擴散模型的軌跡解碼器相結合,可即時生成動態可行的規劃方案;以及多階段訓練策略,先通過監督微調激發推理能力,再利用強化學習(RL)最佳化推理質量——借助大型推理模型的反饋,並確保推理與動作的一致性。輝達公佈的資料顯示:Alpamayo-R1在複雜場景下的軌跡規劃性能提升了12%,近距離碰撞率減少25%,推理質量提升 45%,推理-動作一致性增強37%。模型參數從0.5B擴展至7B的過程中,性能持續改善。車載道路測試驗證了其即時性表現(延遲99毫秒)及城市場景部署的可行性。也因此,輝達Alpamayo-R1有望給L4自動駕駛帶來能力的躍遷,Robotaxi有望安全地融入真實、混亂的公開道路。成為自動駕駛賽道的“Android”從這次開源Alpamayo-R1,可以再次看出輝達在自動駕駛領域的野心,已經不滿足於只是“硬體供應商”,而是要做成自動駕駛賽道的“Android”。其實,早在今年10月份,輝達就對外低調發佈了Alpamayo-R1大模型。而在華盛頓GTC大會上,輝達發佈了自動駕駛平台——NVIDIA DRIVE AGX Hyperion 10。Hyperion 10被認為是輝達自動駕駛的“身體”,而Alpamayo-R1則是自動駕駛的大腦。值得注意的是,Hyperion 10實現了“從模擬到實車”的閉環:在雲端,DGX超級電腦使用DRIVE Sim生成高保真模擬資料,用於訓練DRIVE AV模型;在車端,Hyperion 10的感測器資料與Thor晶片無縫對接。因此,如果一家車企想快速推出具備L4級能力的車型,不需要再分別組建龐大的硬體整合、軟體演算法和資料訓練團隊,採用輝達的整套方案可以快速實現上車。同時,輝達也在建構一個“Android式”的Robotaxi生態,並對外公佈了明確的落地時間表:2027年起部署10萬輛Robotaxi。目前,輝達已宣佈與Uber、奔馳、Stellantis、Lucid等公司合作,共同打造“全球最大L4級自動駕駛車隊”。截至2025年10月,輝達的雲端平台已積累超過500萬小時的真實道路資料。輝達的入場,正在將Robotaxi的競爭從單一的技術比拚,引向生態模式的對決。封閉模式除了導致重複的研發投入,更深刻的弊端是形成了“資料孤島”。Waymo的美國道路經驗難以惠及中國車企,每個玩家都在獨立而緩慢地跨越技術曲線。輝達的開放生態,有機會在確保資料隱私和安全的前提下,推動生態內玩家共享經過匿名化處理的特徵資料。例如,A車企在特定路口遇到的極端場景資料,可以轉化為脫敏後的訓練特徵,幫助B車企的模型更快地識別類似風險。如果輝達能夠成為自動駕駛領域的“Android”,將有望帶動整個生態的技術迭代速度從線性轉變為指數級提升。這不僅是技術共享,更是成本共擔。共同應對長尾場景這一行業最大難題的邊際成本,將隨著生態的擴大而持續降低。元戎啟行CEO周光預測,VLA帶來的可能是 “斷層式的領先”,並成為下一代競爭的關鍵變數。DeepWay深向CTO田山告訴筆者,VLA是目前自動駕駛行業非常火的一項技術,研究者眾多,能極好地提高自動駕駛模型的泛化能力及推理能力,輝達開源Alpamayo-R1,使得這項很火且很有前途的自動駕駛技術有更多的人可以參與研究並做出貢獻,能積極推進VLA技術的發展和落地,而這項技術也能應用在具身智能等物理AI的場景中。隱形門檻仍在前方不過,Alpamayo-R1目前要滿足車規級時延,還需要在RTX A6000 ProBlackwell等級的卡上運行——這張卡的INT8算力高達4000T,是Thor的6倍左右。輝達的商業模式決定了,其開源是為了更好地銷售其硬體和全端解決方案。Alpamayo-R1模型與輝達的晶片(如Thor)及開發平台(如Drive)深度繫結,能實現更高的算力利用率。這意味著,選擇輝達生態在獲得便利的同時,也意味著在核心算力上與其深度繫結。另外,DeepWay深向CTO田山向筆者指出,VLA是不是最佳的自動駕駛技術,目前還在實踐過程中,而Alpamayo-R1模型工具鏈基於輝達的平台,對很多開發者來說也是一種限制,所以也有很多其他的技術和其他的計算平台在推進自動駕駛技術發展。在田山看來,多數公司應該更聚焦技術落地,也就是技術的工程化實現,解決實際場景的問題,早日實現智駕技術的商業化閉環更有益於行業的長久健康發展。此外,L4自動駕駛的落地或者說Robotaxi的規模化商業化,還與政策與法規息息相關。同時,如何在合規框架內營運、如何通過安全評估、如何在資料利用與隱私保護間取得平衡,這些能力的重要性,並不亞於技術本身。輝達的黃仁勳一直將Robotaxi視為“機器人技術的首個商業化應用”,輝達一直要做的不是一輛無人計程車,而是讓所有玩家都能做出無人計程車的技術底座。如今,他正試圖通過開源VLA,為這個應用打造一條可以快速複製的生產線。但最終能否通過開源降低准入門檻,加速推動L4自動駕駛到來,讓技術的潮水湧向更廣闊的商業海岸,輝達Alpamayo-R1模型的開源,只是遊戲的開始,後面還有門檻要邁,還需要市場來驗證。 (鈦媒體AGI)
開除!字節打響“AI軍紀”第一槍
11月12日下午,字節跳動一則短短的人事消息,在科技圈炸開了鍋。任某某,字節跳動大模型團隊(Seed)的研究員,因洩密遭到公司開除。據澎湃新聞、證券時報等多家媒體證實,當事人已於11月11日辦完離職,距離通報僅隔一天。任某某是機器人系統整合的專家。作為擁有8.6萬粉絲的大V,他曾在知乎上透露,自己深度參與了字節機器人操作大模型GR-3的研發。而這一事件的意義遠不止於普通的人事處罰——這是中國大廠首次因洩密解僱AI核心研發人員,也象徵著字節跳動率先打響了大廠內部整頓“AI軍紀”的第一槍。據任某某在知乎帳號上展示的資訊,他於2015年畢業於浙江大學機電工程專業,2019年在義大利獲得機器人學博士學位,隨後回國進入機器人行業。▲來源:知乎入職字節跳動之前,任某某先後在山東的機器人公司珞石科技擔任機電工程師,之後加入小米公司,任高級研發工程師。2023年,他再次跳槽,進入字節跳動的Seed團隊,主要負責機器人系統整合相關研究。在字節期間,他很快接觸到新一代 Vision-Language-Action(VLA)模型——GR-3項目。今年7月,他曾對外詳細解讀過該項目的技術原理。不過,大皖新聞11月17日報導稱,據接近字節的知情人士透露,任某某的洩密行為是多次接受諮詢機構的付費訪談,洩露商業保密資訊,此事與他在知乎上的技術分享沒有關係。事實上,對資訊安全的重視在字節早已有跡可循。今年9月,字節跳動企業紀律與職業道德委員會發佈二季度員工違規處理情況,100名員工因觸犯公司紅線被辭退。通報中特別提到,有10名員工因違規參與外部付費訪談、洩露公司保密資訊而受到處罰。字節專門提醒員工,對外部諮詢公司以“專家訪談”“行業研究”等名義發起的有償邀約務必提高警惕,避免洩露機密。從任某某的處理結果可以看出,字節跳動在人工智慧領域的資訊保密機制正變得更加系統化,對單點洩密事件的容忍度也在不斷降低。對於觸碰紅線的行為,字節態度明確:絕不姑息。類似因為員工洩密而遭開除的案例,在其他大廠同樣出現過。今年9月,小米中國區市場部總經理王騰被辭退。小米集團職業道德委員會通報稱:“(王騰)洩露公司機密資訊,且存在利益衝突等嚴重違規違紀行為。”雖然並未披露具體洩露內容,但足以體現小米對資訊安全的重視。米哈游也在同月宣佈,對傳播《原神》《崩壞:星穹鐵道》未公開內容的洩密者採取刑事強制措施,並對多名參與“解包”的人員申請訴中行為禁令,要求立即停止侵權。各家大廠一向高度重視內部資訊安全。據澎湃新聞報導,阿里巴巴在2016年發佈的《員工紀律制度》中明確規定,“任何非對外公開資訊”都屬於保密範疇,員工若洩露,無論是否造成後果,均將被辭退。即便是公司內部網路資訊,也在被禁止洩露之列。2021年8月,第一財經即援引彭博社消息稱,阿里巴巴將開除對外洩露內部網路文章的10名員工,不過對於此事阿里並未回應。洩密嚴重者可能還會涉及司法。2025年1月16日,騰訊集團發佈“反舞弊通報”,公開點名了21人,其中就包括S3-CSIG人力資源中心方某,由於向外部人員洩露公司內部保密資訊,涉嫌犯罪被移送公安機關處理,騰訊已將其列入黑名單,永不錄用。目前,大廠雖鮮少公開專門針對AI的保密制度,但在2025年這一技術躍遷期,關鍵技術與模型細節成為核心競爭力,其安全性的重要性無需多言。字節跳動首次因洩密而開除AI高級研發人員,也意味著中國大廠正式吹響了整頓“AI軍紀”的第一槍。在全球AI競爭最激烈的矽谷,各大科技公司更是早將資訊安全視為核心防線,對洩密行為極度敏感,並建立了相對成熟、系統化的AI保密與應對機制。面對核心技術,包括涉及模型架構、訓練資料、演算法細節、推理框架、硬體最佳化方案或部署策略等關鍵環節資訊洩密事件的零容忍,已經成為矽谷公司行業共識,一旦發現員工洩密,輕則將其開除,重則都是——毫不猶豫地提起訴訟。今年備受關注的案例之一,是馬斯克旗下的xAI起訴前核心工程師李學宸的案件。李學宸是華人,他從xAI離職、套現約700萬美元股票後,便即刻加入了OpenAI。8月,xAI向加州聯邦法院提起訴訟,指控這位曾深度參與Grok聊天機器人訓練與開發的工程師,在離職前暗中拷走公司的核心商業機密——從模型原始碼、訓練資料,到未來數年的技術路線圖,幾乎涵蓋了一個大模型的命門。該案件目前還在初步訴訟階段,但法院已經對李學宸下達了臨時禁止令,禁止他在OpenAI參與任何與生成式AI技術相關的工作或交流。這起事件被媒體稱為今年最“狗血”的商戰案例——頂級工程師跳槽最直接的競爭對手、離職前涉嫌拷走大模型機密、臨走前還順手套現巨額股票,幾乎把矽谷最敏感、最戲劇化的元素一次性點滿。今年10月,巨量資料分析公司Palantir也爆出一樁重量級“AI商戰案”。公司將兩名前資深AI工程師告上紐約聯邦法院,指控他們在離職前擅自訪問並帶走了Palantir的“皇冠明珠”——包括核心演算法原始碼、模型架構,以及涉及政府與大型企業客戶的資料資產。更戲劇性的是,這兩人隨後成立了名為Percepta AI的新公司,被Palantir視為“對標產品”,幾乎是正面避險。Palantir的訴求十分激烈:禁止新公司繼續使用相關技術,並要求巨額賠償。目前風頭正盛的輝達,也因為洩密事件成了被告。2021年,法雷奧(Valeo)的一名前工程師跳槽至輝達後,在一次視訊會議中,意外洩露了法雷奧的智能泊車和高級駕駛輔助系統原始碼及相關文件。法雷奧隨後提起訴訟,指控輝達利用被洩露的技術加速自身研發,並要求巨額賠償。據報導,該工程師曾複製約27,000個檔案、6GB程式碼,其中涵蓋感測器融合、泊車任務、緊急剎車等核心模組。目前,案件仍在美國加州聯邦法院審理中,法院認為存在足夠的間接證據支援法雷奧的指控。但輝達方面否認故意利用對方商業秘密,並稱發現問題後已進行內部調查和清理。無論是李學宸案,還是Palantir案、輝達案,其本質都是生成式AI軍備競賽中的技術爭奪戰——一旦演算法、資料和核心人才三條線被同時撬動,對任何企業來說都如同被人掏空了根基,自然是無法容忍的。一些公司甚至對發表不當言論的員工,也會直接將其開除。2022年,公開聲稱Google大模型LaMDA對話式人工智慧具有感知能力的工程師Blake Lemoine,就因觸犯了公司禁忌而被問責。他關於“AI已經像人類一樣擁有情感和靈魂”的言論引發業內廣泛討論,有人認為他對AI潛在“感知”能力的敏感揭露了未來風險,也有人批評他的結論是主觀臆斷。但Google不管那麼多,立即以“違反保密協議”為由將其解僱。Google發言人在給媒體的一封郵件中證實了這次解僱:“我們希望Lemoine一切順利。”或許有人會覺得,矽谷對員工洩密的反應過於苛刻?但在很多公司高管的認知中,目前對洩密的懲處都還是太輕了。在大模型競賽中,每一次關鍵迭代都意味著巨額投入。一旦核心技術或訓練資料外洩,對企業來說不僅是經濟損失,更可能動搖其技術護城河,帶來災難性後果。比如GPT-4的訓練成本,曾被科技媒體和研究機構估算為約7800萬美元;而Google的Gemini Ultra,據多家分析報告推算,其單次訓練成本甚至達到1.91億美元的量級。arXiv上的論文《前沿AI模型訓練成本持續上漲》(The rising costs of training frontier AI models)進一步指出,前沿模型的訓練費用正以接近指數級的速度攀升,按照其趨勢估算,到2027年,單次訓練一次頂級模型的成本可能突破10億美元。在這種背景下,馬斯克對李學宸洩密事件如此震怒,也就不難理解了。Grok是xAI的王牌,是馬斯克押注未來的核心資產。今年7月發佈的Grok 4,被他稱為“世界上最聰明的人工智慧”,並宣稱已在綜合能力上超越包括OpenAI o3、Gemini 2.5 Pro、Claude 4 在內的主流頂級模型。更關鍵的是,xAI在訴狀中明確表示:如果洩露的Grok相關技術被競爭對手(例如OpenAI)採用,對方可能獲得“壓倒性優勢”。換句話說,這不是普通的資訊洩露,而是可能讓競爭對手直接跳躍數年的研發周期,從而改寫整個行業格局,並對xAI造成滅頂之災。‌因此,保密關乎安危,在AI軍備競賽中是“基礎軍紀”。一方面,AI技術本身就具有極高的敏感度。模型架構、訓練資料、最佳化演算法等核心資產全部是“純數位化”的,無需攜帶硬體即可被複製、外傳。一旦流出,複製成本接近於零,而造成的競爭損害卻幾乎不可逆。李學宸案、Palantir案以及輝達–法雷奧案之所以最終走上法庭,正是因為相關企業評估後認為:這些洩密可能帶來的損失巨大到無法承受——甚至動搖公司的核心護城河,因此只能通過法律手段儘可能阻斷影響、降低損害。另一方面,人才流動正在放大洩密風險。從前述三起矽谷訴訟案可以清楚看到,幾乎所有洩密事件都源自人員變動——工程師離職、跳槽、甚至跨界合作,都可能成為技術外流的缺口。這也促使各家公司把“離職環節的風險管控”提升到前所未有的高度。隨著中國大模型競爭全面提速,AI競爭進入深水區,中國科技公司也必將向矽谷看齊:保密不是制度選項,而是生存底線。 (華商韜略)
蔚小理大洗牌,何小鵬拿下第一,徹底起飛
“蔚小理”的時代結束了。眾所周知,中國三大造車新勢力,被大家稱之為“蔚小理”,分別指的是蔚來、小鵬、理想。三家各憑本事,掘金市場。十年風雨,市場格局早已悄然生變,曾經的“蔚小理”,如今或許該讓位於“小理蔚”了。這場所謂的新勢力“三國殺”,越來越有意思了。小鵬汽車股價大漲,開始翻盤前不久,小鵬女機器人IRON邁著貓步驚豔亮相,讓全網為之震撼,熱度和討論度齊飛。這款機器人瞬間顛覆了網友對機器人的想像,也振奮了市場。2025年11月10日美股收盤,小鵬汽車股價大漲16.15%,最新市值達到248.22億美元。11日港股收盤,小鵬汽車股價大漲17.93%,報108.500港元/股,最新市值2072億港元。圖源:百度股市通這個資料超越了吉利汽車的1833億港元。同一時間,理想汽車最新市值為1608億港元,蔚來最新市值為1353億港元。圖源:百度股市通市值,作為市場對企業綜合實力和未來發展潛力的一種量化體現,在一定程度上可以反映投資者對企業的品牌認可度。從市值這個維度來看,小鵬汽車已經坐上了“蔚小理”的頭把交椅。今天,“小鵬汽車大漲超16%”的話題還沖上了微博熱搜。圖源:微博熱搜除了市值,汽車交付數量也是一個可以參考的資料。今年10月,小鵬汽車共交付新車42013台,同比增長76%,環比增長1%,單月交付量創下歷史新高,並連續2個月交付量超過4萬台;蔚來交付了40397輛汽車,創下新的月度紀錄,同比增長 92.6%;理想汽車交付新車31767輛。就最新交付量而言,小鵬汽車也展現了不小的實力,在“蔚小理”之中佔據第一的位置。當然了,市場唯一不變的就是變化本身,新能源汽車市場更是如此。我們也不能因為小鵬汽車目前在市值和交付量上的領先,就斷言“小理蔚”的格局能夠走到最後。新能源汽車市場是一個充滿變數和挑戰的領域,技術更新換代快,消費者需求也在不斷變化,小鵬、理想、蔚來的角逐遠遠沒有到結束的時候。至於這“三兄弟”未來發展如何,誰也說不準。小鵬女機器人震驚全網接下來,我們重新回到小鵬汽車身上。那麼,小鵬汽車股價為何快速拉升?原因恐怕跟那位能走貓步的女機器人脫不了關係。近日,在小鵬科技日上,小鵬汽車發佈了小鵬第二代VLA大模型、小鵬Robotaxi、全新一代IRON人形機器人、匯天飛行汽車四項“物理AI”應用。其中,全新一代IRON人形機器人引發了市場的高度關注。這位機器人邁著優雅的貓步緩緩走來,步態輕盈絲滑,酷似真人。何小鵬現場表示:“在過去的7年時間,我們為了讓走路輕盈、姿態優美,做出了無數的努力。”全新一代IRON人形機器人就因為太像“人”了,還引發了網友的質疑。彼時,“小鵬機器人會走貓步太像人了”的話題沖上熱搜,不少網友斷言,“絕對是真人”。還有人逐幀分析視訊畫面,盯著細節較真,“你看它臀部有肌肉起伏,衣服還有自然褶皺,絕對是真人扮演的!”圖源:微博熱搜還有網友分析:頭部能看到耳朵輪廓;0.5倍放慢動作,會翹腳尖、重心偏移。“這麼像人,怎麼可能是機器?”總之,各種猜測都有。後面還逼得何小鵬“扒衣”自證。視訊中,何小鵬先讓IRON機器人走了幾步貓步,隨後把機器人衣服扒開,可以看到內部是白色背板,中間是孔洞設計以及不停閃爍的紅燈。圖源:何小鵬小紅書何小鵬在視訊裡無奈地感慨,“總有人不相信這個世界變化得這麼快”,他還專門展示了機器人在零下10度的低溫條件下運行的場景,強調“真人根本沒法在這種極端的環境里長時間裸皮工作。”何小鵬的澄清視訊“打臉”了網友。不過主編認為,有一位網友的話說對了,“當你質疑機器人裡面是真人的時候,小鵬就已經贏了。”那麼,這個機器人有何特殊之處?據介紹,新一代人形機器人IRON首發應用全固態電池,並搭載3顆圖靈晶片和物理世界大模型。除此之外,全新一代IRON擁有仿人的脊椎、仿生肌肉、全包覆柔性皮膚的人形機器人,支援不同身材體型定製;同時,應用全固態電池技術,實現輕量化、超高能量密度與安全,為人形機器人長續航與複雜環境下的安全運行提供保障。何小鵬表示,機器人項目早在七年前就已啟動研發,小鵬的目標是在2026年底實現規模量產高階人形機器人。同時,小鵬將開放機器人IRON的SDK,與全球開發者共建人形機器人應用生態。不可否認,小鵬汽車最新發佈的人形機器人IRON確實驚豔了市場。有業內人士分析,“小鵬汽車股價顯著上漲,主要受益於市場對機器人技術及其商業應用前景的樂觀預期。尤其是小鵬發佈的人形機器人,在展示出流暢自然的動作與先進的人工智慧後,獲得了市場的廣泛關注和投資者的認可。這直接促成了股價的積極反應。”消息稱,摩根士丹利、德意志銀行、花旗、中金公司等多家頭部機構紛紛發佈報告強推小鵬汽車。另外,據高盛最新發佈的調研報告,中國人形機器人供應商已啟動“產能先行”策略,正在中國及海外積極規劃產能,以支援潛在的人形機器人大規模生產。時間點方面,供應鏈共同預期大規模量產的爆發點或在2026年下半年。另外,小鵬汽車X9超級增程也已經正式開啟預售。對此,何小鵬表示,“小鵬不僅僅是一家純電車公司了。”可以說,小鵬汽車蓄勢待發,迎來了關鍵節點。不過,從潛在風險角度來看,小鵬汽車依然面臨著不少挑戰。小鵬汽車的新業務要實現全面商業化和技術普及,仍需克服許多技術挑戰,競爭也非常激烈。另外,增程新產品同樣面臨眾多對手。至於財報資料,目前,小鵬汽車仍處虧損狀態。對於何時實現由虧轉盈,小鵬汽車預計,2025年第四季度將有望實現盈利。理想、蔚來機遇與挑戰並存說完小鵬汽車,再來看看理想和蔚來。今年,理想i8絕對是李想押注的重點,在發佈前的很長一段時間中,理想都在認真為理想i8預熱。李想本人也頻頻在社交平台中發聲、乘坐理想i8在蘇超比賽中現身,還登上了央視的《對話》欄目。李想曾稱i8在純電六座SUV市場“無對手”,但理想很豐滿,現實很骨感。理想i8上市後未公佈大定數量,引發市場對其“遇冷”的猜測,同時因一段與乘龍卡車的對撞測試視訊陷入輿論爭議。另外,2025年的六座純電市場,問界M8、領克900、特斯拉Model Y L紛紛上陣,已經高手雲集。而且李想還有其他的麻煩。前不久,上海理想MEGA無故起火事件引發廣泛關注。10月31日,理想汽車對事故發生進行了道歉,並且發佈公告稱,自2025年11月7日起,將召回生產日期從2024年2月18日至2024年12月27日的理想MEGA 2024款汽車,共計11411輛。總之,李想今年過得不是太順利。再來看看蔚來,李斌今年最大的目標就是在四季度實現盈利,他說,“對於現在的蔚來而言,活下去是最重要的。”在產品方面,除了全新ES8,樂道L90也成為了爆款。對於盈利目標,李斌表示,今年銷量和毛利率都不錯,比原來的車要好。四季度沒有新車沒有 NIO Day,花錢的事第三季度都搞完了,所以都是有機會的。李斌還開玩笑稱:“但調門也不能搞太高,大家如果每年還想見我,就多幫賣點車吧,哈哈。”三家企業都在為了爭奪市場份額而全力以赴。總的來說,在這場激烈的競爭中,誰能夠持續創新、精準把握市場需求、不斷提升使用者體驗,誰才有可能在這場新勢力“三國殺”中笑到最後。 (網際網路頭條)
聽說字節要造機器人,月薪開12萬
宇宙廠要造機器人?據科創板日報、第一財經等多家媒體報導,字節跳動旗下的火山引擎團隊,正以高達9.5萬至12萬的月薪招聘操作演算法資深專家(具身智能)。按照職位描述,這個崗位主導研發“人形具身機器人”的操作演算法,包括但不限於演算法架構設計,抓取演算法,VLA模型研發,靈巧手等方向的工作。職位描述中的五大核心職責,包括“主導研發人形具身機器人的操作演算法”、“參與具身大模型的預訓練與部署”以及“推動演算法在硬體上的系統整合與部署”等。這份對人才的要求,勾勒出字節跳動意在打造一個整合先進大模型、具備複雜操作能力的具身智能體。除了操作演算法資深專家,字節跳動同時也在招聘具身智能資料開發工程師、具身智能推理性能最佳化工程師、運動控制演算法資深專家等具身領域相關崗位。開這麼高的工資,說明不是“端側小應用”,而是面向通用具身智能棧的投入。字節造機器人不是新鮮事,只不過之前造的是輪式物流機器人。據“晚點LatePost”披露,字節跳動的機器人探索始於 2020 年,2023年7月時已有50人團隊。到2025年已累計量產超千台。今年開始在具身智能發力。7月,字節跳動Seed團隊今日發佈通用機器人模型GR-3。這是一款VLA模型,也就是機器人的大腦,能讓機器人理解指令、操作柔性物體,甚至雙手協同幹活。同樣是7月,發佈高自由度靈巧手ByteDexter,具備20個自由度,可以通過遙操作等輔助裝置實現人手的靈巧操作。9月, Seed 團隊發佈最新的機器人研究成果——Robix,一個旨在提升機器人思考、規劃與靈活互動能力的“機器人大腦”。據“機器之心”報導,搭載 Robix 的機器人已展現出一系列過去難以實現的複雜互動能力。比如,在做飯時,它不僅能根據菜名(如“魚香肉絲”)準備食材,還能主動發現缺少配料並詢問是否需要補齊。10月,火山引擎還與賽力斯集團旗下重慶鳳凰技術有限公司簽署具身智能業務合作協議,合作範圍包括“面向多模態雲邊協同的機器人決策、控制與人機協作技術”。字節提供AI技術支援——包括AI演算法、算力、多模態模型等;賽力斯提供產業場景和落地經驗——包括真實的產業需求、測試環境,並負責將技術最終落地到汽車、機器人產品中。如果把機器人“拆”開來,字節跳動已經在機器人的大腦、手、腿、演算法、場景等都開始各自有所進展了。為什麼現在又要招人做完整的機器人?字節跳動的優勢在於多模態大模型與流量分發。而具身智能需要長時程、閉環互動資料(視覺-觸覺-動作-語言)。把機器人引入“倉配/門店/內容生產”多場景,能產生高價值對齊資料,反哺其Agent與VLA模型。“未來程式碼局”則認為,全球網際網路的線上使用者增長和使用時長都已見頂,“線上流量”枯竭了。新的流量在物理世界。具身智慧型手機器人是終極的資料採集終端。它擁有視覺、聽覺、觸覺,它在現實世界中24小時不間斷地與環境互動、收集資料。這些資料是訓練更強大AI的“完美燃料”。對於字節來說,佈局具身智能,不僅是開闢新業務,更是為了獲取“下一代流量”——物理世界的資料流,從而延續其“資料-演算法-產品”的核心優勢。另外,由前字節跳動財務投資部負責人楊潔創立的錦秋基金(字節跳動為其出資方之一),正在深度佈局具身智能產業鏈正在深度佈局具身智能產業鏈,已投了星塵智能、樂享機器人、首形科技等機器人公司。 (鉛筆道)
特斯拉世界模擬器亮相ICCV!VP親自解密端到端自動駕駛技術路線
特斯拉世界模擬器來了!這些看似真實的駕駛場景,全都是用模擬器生成:這個模擬器在今年的電腦視覺頂會ICCV上亮相,由特斯拉自動駕駛副總裁Ashok Elluswamy親自講解。網友看了之後表示,這個模型實在是泰褲辣。同時,Elluswamy也首次揭秘了特斯拉的自動駕駛技術路線圖,表示端到端才是智能駕駛的未來。世界模擬器生成自動駕駛場景除了開頭看到的多場景駕駛視訊,特斯拉的世界模擬器還可以為自動駕駛任務生成新的挑戰場景。比如右側的車輛突然連並兩條線,闖入預設的駕駛路徑。也可以讓AI在已有的場景中執行自動駕駛任務,躲避行人和障礙物。模型生成的場景視訊,除了讓自動駕駛模型在裡面練手,也可以當成電子遊戲,供人類玩耍體驗。當然除了駕駛相關,對其他具身智能場景——比如特斯拉的柯博文機器人——也同樣有用。與這個模型一同被揭秘的,還有特斯拉在自動駕駛上的一整套方法論。特斯拉VP:端到端才是自動駕駛的未來ICCV演講中,特斯拉自動駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術細節,同時還在X上發表了文字版本。Ashok首先明確,端到端AI才是自動駕駛的未來。特斯拉利用端到端神經網路實現自動駕駛,這個端到端神經網路會利用來自各個攝影機的圖像、運動訊號(例如車速)、音訊、地圖等資料,生成驅動汽車的控制指令。與端到端相對的另一種方法是採用大量感測器的模組化駕駛,這類系統的優勢是在初期更容易開發和偵錯,但相比之下,端到端的優勢更加明顯:將人類價值觀規則化極其困難,但從資料中學習則容易;模組化方法中感知、預測和規劃之間的介面定義不明確,但在端到端中梯度從控制一直流向感測器輸入,從而整體最佳化整個網路;端到端方法可輕鬆擴展以處理現實世界機器人的繁重和長尾問題;端到端具有確定性延遲的同質計算。Ashok舉了一些例子,比如車輛行駛過程中發現前方路面存在積水,此時有兩種策略,一是直接從積水上開過,二是借用對向車道繞過積水。駛入對向車道是危險的,但在這個具體場景中視野開闊,在避開水坑所需的路程之內對向車道沒有車輛,借用對向車道避開水坑是一種可行的選擇。這種權衡取捨就很難用傳統的程式設計邏輯來表達,而對於人類來說,這在觀察場景時卻相當簡單。基於以上考慮及其他因素,特斯拉採用了端到端的自動駕駛架構,當然,端到端系統也仍有許多挑戰需要克服。特斯拉如何解決端到端自動駕駛困難端到端自動駕駛面臨的困難,其中之一就是評估。特斯拉推出的世界模擬器,也正是針對這一難題。該模擬器使用特斯拉篩選出的同樣的海量資料集進行訓練,其功能並非預測給定狀態下的行動,而是根據當前狀態和下一步行動來合成未來狀態。這樣的狀態可以與智能體或策略AI模型連接起來,以閉環方式運行,從而評估性能。同時,這些視訊並不侷限於評估,它還可以用於閉環大規模強化學習,從而實現超越人類的表現。除了評估之外,端到端自動駕駛還面臨“維數災難”,以及可解釋性和安全性保證的問題。在現實世界中,想讓自動駕駛系統安全運行,就需要處理高影格率、高解析度、長上下文輸入。假設輸入資訊包括7個攝影機×36FPS×5 百萬像素×30秒的場景畫面、未來幾英里的導航地圖和路線、100Hz的運動資料,以及48KHz的音訊資料,大約會有20億輸入Token。神經網路需要學習正確的因果對應,將這20億個Token精簡為2個,即車輛的下一個轉向和加速動作。在不學習虛假相關性的情況下學習正確的因果關係是一個極其棘手的問題。為此,特斯拉通過龐大的車隊,每天收集相當於500年駕駛總和的資料,並使用複雜的資料引擎篩選最高品質的資料樣本。使用這樣的資料進行訓練,就能讓模型獲得極高的泛化能力,從而應對極端情況。對於可解釋和安全性問題,如果車輛的行為不符合預期,端到端系統的偵錯可能就會變得很困難,但模型也可以生成可解釋的中間Token,可以根據情況用作推理Token。特斯拉的生成式高斯潑濺就是這樣一項任務,它具有出色的泛化能力,無需初始化即可建模動態物體,並可與端到端模型聯合訓練。其中所有的高斯函數都是基於量產車配置的攝影機生成的。除了3D幾何之外,推理還可以通過自然語言和視訊背景進行。該推理模型的一個小版本已經在FSD v14.x版本中運行。更多技術細節,可以到Ashok的文章和原始演講視訊當中一探究竟。端到端自動駕駛兩大路線:VLA還是世界模型?雖然端到端被視為自動駕駛的未來,但在業界,具體的軟體演算法路線也一直存在VLA和世界模型之爭。以國內為例,華為和蔚來都是世界模型路線的代表,元戎啟行和理想則選擇VLA路線,另外也有一些玩家認為應該將兩者結合。VLA玩家認為,該範式一方面可以應用網際網路已有的海量資料,積累豐富常識,進而理解世界。另一方面模型通過語言能力實際上是具備了思維鏈能力,能夠理解長時序資料並進行推理。更尖銳的觀點認為,有些廠家不用VLA是因為算力不夠,帶不動VLA模型。世界模型玩家們則堅持世界模型更接近問題本質,例如華為車BU CEO靳玉志認為“VLA這樣的路徑看似取巧,並不能真正走向自動駕駛”。而現在,特斯拉的方案之所以備受關注,也正是因為在自動駕駛發展歷程中,馬斯克從未有過“選錯”。特斯拉選什麼路線,VLA還是世界模型,關於端到端自動駕駛兩大技術路線的歷史性決戰。你看好VLA,還是世界模型?參考連結:[1]https://x.com/Tesla/status/1982255564974641628[2]https://x.com/aelluswamy/status/1981644831790379245 (量子位)
高盛-中國人形機器人的實地調研
2025年5月19-20日,高盛拜訪了北京/深圳的8家仿人機器人企業,並於5月21日在上海舉辦了一場與3家機器人行業公司(創始人/研究主管)的小組討論(總計7家私人初創企業,6位C級管理層)。大多數行業參與者一致認為,機器人必須將通用智能與實際應用相結合,才能實現規模化發展。實現這一目標依賴於四項核心技術:演算法、資料、計算能力和硬體。儘管中國在硬體供應鏈方面仍保持強大優勢,但初創企業已開始致力於開發仿人機器人的“大腦”。在各企業中,視覺-語言-行動(VLA)模型被認為是一種可行的解決方案,而高品質的現實世界資料也越來越重要,以實現與物理世界的一致性和任務精準性。企業正在投資建設資料工廠,以大規模收集真實機器人互動資料,我們拜訪的一家公司估計需要1,000萬小時的資料才能達到通用(L3)能力,這需要1億至2億美元的投資。在計算能力方面,輝達的Jetson Orin仍然佔據主導地位,但中國企業開始探索與華為的合作。硬體開發的一個日益重要的重點領域是靈巧手,配備觸覺和力反饋感測器,因為精細運動控制和借助攝影機進行物理資料收集的重要性。就實際應用而言,工業用例(如物料搬運和分揀)通常被提及為早期商業機會,而消費類應用由於除了技術要求外,還有額外的安全和監管障礙,因此仍顯得遙不可及。就定價而言,仿人機器人的價格差異很大,根據功能規格,從1.5萬美元到10萬美元不等,人們普遍預期隨著規模生產和零部件最佳化,成本將會降低。總體而言,我們對仿人機器人技術的進步和行業的長期前景留下了積極的印象。我們維持我們對行業的預測,即2025年預計全球出貨量為2萬台,2035年預計為140萬台。在我們看來,與資料收集相關的供應鏈股票可能是新的受益者。值得關注的關鍵事件是:8月15-17日在北京舉行的全球仿人機器人運動會,包括(1)13項體育和表演項目,如田徑、自由體操、足球比賽、獨舞/群舞;(2)6項基於應用的項目,包括在工廠環境中搬運和整理材料,在醫療環境中分揀藥品和拆包,在酒店環境中互動接待和清潔。我們注意到,與2025年4月19日在北京舉行的仿人機器人半程馬拉松(主要展示硬體的可靠性和耐久性以及運動控制能力)相比,這一活動將提供更全面的仿人技術展示(特別是在智能、泛化水平和敏捷性方面)。詳細要點:仿人機器人參與者認為,為了實現仿人機器人的商業化,它們必須具備通用智能,同時能夠執行實際任務。為了實現這一目標,四項核心技術是必不可少的:(1)演算法,(2)資料,(3)計算能力,(4)硬體。硬體和軟體都是不可或缺的,發展通常呈螺旋式迭代——硬體的進步推動軟體的改進,反之亦然。儘管人們普遍認為中國在硬體供應鏈方面具有強大優勢,但在這次行程中,我們聽到初創企業越來越多地致力於增強仿人機器人的“大腦”研發。演算法——VLA模型被認為是一種可行的解決方案在生成式人工智慧中,大型語言模型(LLM)是通過對大量文字資料進行分析來輸出最相關的文字。而視覺-行動-語言(VLA)的核心架構與標準的大型語言模型並無本質區別。不同之處在於,輸入內容變為視覺和行動的整合,而輸出則是機器人預期執行的動作。VLA結構是大多數公司普遍接受的基礎,而一些公司還將觸覺資訊作為另一種類型的輸入進行整合。一家公司的管理層評論稱,該演算法結構可能比美國的研究質量落後0.5-1年,但在中國也在迅速發展。儘管VLA被視為一個成功的早期發展方向,但一家初創企業的首席執行官也指出,它可能並非最終解決方案,並提到了深度學習中的早期循環神經網路(RNN)——在基礎架構方面很重要,但隨著架構的成熟,可能會被取代。儘管如此,目前在VLA方面的工作對於實現未來模型的突破至關重要,預計該領域將經歷3-4次重大迭代。資料——高品質資料最為關鍵使用資料訓練模型通常有三個步驟:■ 通過人類工作視訊進行預處理:向模型傳授常識性知識和任務結構,例如,教機器人逆時針方向擰開水瓶蓋。■ 監督式微調(SFT)使用通過遠端操作收集的資料或模擬資料來微調演算法,提高精度。■ 帶人類反饋的強化學習(RLHF)是在現實世界的複雜情境中真正實施預期動作,並最佳化行為。儘管對於那種資料最為有效存在一些爭論,但基於上述訓練機制,目前使用了三種類型的資料——二維視訊、遠端運算元據和模擬資料。根據我們的交流,我們注意到對於那種資料最適合訓練具身人工智慧系統,目前仍存在爭議。一些人認為模擬資料最佳,因為它具有可擴展性和低成本;而另一些人則強調現實世界資料的重要性,因為它更好地捕捉了物理一致性,即遵循現實世界的物理規律。此外,擁有多樣化資料集也很重要,以便在各種情況下測試動作。此外,建構模擬環境中的多樣化環境也並不一定更便宜。總體而言,大多數人同意需要一種資料配方,即三種類型資料的有效混合,而高品質的現實世界資料最為關鍵,因為它具有:1)精準性——動作與物理現實的匹配程度;2)多樣性——環境、物體類型和動作的多樣性。為達到L3等級通用自主能力,一家初創公司首席執行官估計需要1,000萬小時的真實世界機器人資料,這相當於10,000台機器人或操作員2年的努力,需要1億至2億美元的投資,從而催生了“資料工廠”概念:多家公司如今將資料收集基礎設施——“資料工廠”——視為一項戰略投資。對於從一個機器人收集的資料能夠多大程度上應用到另一個機器人上,存在不同意見。一些人評論稱,通常情況下將“動作輸出”從一個機器人轉移到另一個機器人是相對容易的。另一些人則表示,儘管他們最終希望建構一個能夠適用於不同形態機器人的視覺-語言-行動(VLA)模型,但目前資料必須與硬體緊密結合,因為模型仍處於早期階段。即使在遠端運算元據中,也有幾種不同類型的資料收集方法:■ 基於視覺的系統(攝影機或虛擬現實):這是最便宜且最具可擴展性的方法,但精度最低(在釐米到分米等級)。■ 慣性測量單元(IMU)感測器:安裝在關節處,精度可達毫米等級,但存在漂移/累積誤差問題。■ 光學運動捕捉:由Luster的子公司FZ Motion(股票程式碼:688400.SS)提供的解決方案,使用多個攝影機和反游標記,能夠實現小於0.1毫米的高精度。政府提供了基礎模型補貼和一些資料補貼。對於政府支援的資料收集中心,即使政府共享開源資料集,這可能有助於某些預訓練,但對於垂直領域的微調或任務級掌握可能還不夠。由於邊緣計算的限制,公司採用“快速+慢速”系統:在訓練或執行更複雜任務時,仍然需要像4090/3090這樣的高端GPU。他們使用邊緣裝置Jetson(Orin、Thor)來運行VLA,用於車載感知、規劃和輕量級推理。但一些本地初創企業正在與華為合作,表明在地緣政治風險下,正在努力建構國內計算基礎設施。幾乎所有公司都指出,靈巧手在他們為未來資料收集準備產品以及在中長期內在工廠中處理更複雜、更靈活的任務中發揮著關鍵作用。鑑於供應商數量的增加和行業努力,仿人機器人的其他元件(例如減速齒輪、電機和螺釘)越來越容易獲得,儘管這些元件的耐用性、可靠性和散熱性能仍有待改進。也就是說,靈巧手是一個關鍵障礙,主要是因為:(1)不同的機械設計使得在承載能力、靈活性和成本之間取得平衡非常困難;(2)觸覺感測器的性能和成本競爭力不夠理想,而觸覺感測器對於通過收集各種物理參數(如力、扭矩、溫度、紋理、摩擦力)來訓練和改進機器人AI模型至關重要。我們與一家國內觸覺感測器公司交談後瞭解到,他們正試圖引入一個明確的資料標準,以幫助通過靈巧手簡化資料收集、處理和訓練,並通過在設計、演算法和材料方面的創新降低感測器成本,其感測器平均售價目前比海外同行的同類產品低50%以上。仿人機器人公司經常提到,鑑於其在不同行業中廣泛且普遍的需求以及對任務性能(尤其是精度和效率)的相對較高容忍度,工廠中的物料搬運是早期商業機會。一家公司提到,他們的仿人機器人在物料搬運方面已達到95%的精度,另一家公司表示,他們的機器人在這一任務上的速度比人工勞動快30%(如果機器人每天工作兩班,則為60%),預計2025-2026年開始小規模採用。分揀是另一個經常被提及的應用,需求甚至更大(即不僅在工廠,還在零售環境,例如藥店),儘管其對速度的要求比物料搬運更高。公司還討論了托盤化/去托盤化和裝卸任務的巨大需求(例如,一家大型電動汽車公司有20,000名工人從事這些任務),但許多技術瓶頸仍有待解決(例如,識別小物體或顏色相似的物體)。此外,儘管仿人機器人製造商對長期消費類應用需求(例如做家務)持樂觀態度,但他們指出,鑑於消費者環境的高度多樣性,技術要求極高,更不用說監管和安全/隱私問題了。此外,商業仿人機器人已經在引導和互動接待角色中得到部署,這些角色對視覺-語言-行動(VLA)性能的要求相對較低。據一家初創公司稱,這些用例的出貨量超過了他們今年的預期。我們拜訪的公司提供的仿人機器人的平均售價從1.5萬美元到10萬美元不等,這主要是由於規格不同。行業共識表明,目前還沒有一種通用設計能夠滿足所有應用需求。低端定價的仿人機器人嵌入的智能/AI能力非常有限,只有基本的硬體規格(自由度有限,沒有靈巧手或視覺感測器)。這些低規格產品能夠快速進行基本運動(例如行走、揮手)和預程式設計的動作(例如跳舞),主要用於向大學和AI實驗室出售以供研究用途,以及向企業和政府出售用於接待或娛樂。另一方面,高規格的仿人機器人通常在手臂中使用諧波(而不是行星)減速齒輪,以及使用滾珠/滾柱絲槓(而不是連桿)代替,並配備多種感測元件,如視覺攝影機、力/扭矩感測器以及帶有觸覺感測器的靈巧手,旨在工廠環境中執行精細或重型任務,並具備AI/自主功能。大多數公司預計2025年的年出貨量將達到數百台機器人。展望未來,每家公司都看到了仿人機器人成本大幅降低的潛力,這將由生產最佳化(例如專用裝置和生產線)和更高的生產量推動,從而降低單位折舊和前期開發成本(例如研發和模具),這將為製造客戶帶來更好的投資回報率(ROI)。 (行業報告研究院)