#Apollo
輝達開源最新VLA,能否破局L4自動駕駛?
隨著大模型深度融入汽車行業,行業競爭正從功能實現轉向高階智駕能力的比拚,而VLA(Vision-Language-Action Model,視覺語言行動模型)被視為下一代技術競爭的關鍵變數。圖片由AI生成當地時間12月1日,輝達(NVIDIA)宣佈正式開源其最新自動駕駛“視覺—語言—行動”(VLA)模型 Alpamayo-R1,該模型能夠同時處理車輛攝影機畫面、文字指令,並輸出行車決策,已在GitHub和Hugging Face平台開源,並同步推出Cosmos Cookbook開發資源包。這是行業內首個專注自動駕駛領域的開源VLA模型,輝達此舉旨在為L4級自動駕駛落地提供核心技術支撐。值得注意的是,輝達Alpamayo-R1相較於傳統黑盒式自動駕駛演算法,主打“可解釋性”,能夠給出自身決策的理由,有助於安全驗證、法規審查與事故責任判定。而輝達同時發佈“Cosmos Cookbook”等配套工具,能夠支援企業和開發者快速訓練、評估與部署。業內認為,輝達試圖通過開放核心技術,降低自動駕駛開發門檻,加速軟體棧標準化,打破原來Robotaxi昂貴的“全端自研”模式,從而轉變為可快速組裝的“Android式”生態。不過也有業內人士向筆者表示,此次輝達Alpamayo-R1開源與百度Apollo開源類似,對自動駕駛領域的入門選手來說有價值,但對專業公司來說意義不大。目前,VLA正成為智能駕駛領域公認的下一代核心技術,相關企業都在加碼佈局。國內理想汽車、小鵬汽車、長城汽車(已搭載於魏牌藍山)、元戎啟行等都已在VLA上實現量產落地。解決傳統“端到端”模型痛點傳統的端到端模型像一個“黑盒”,可能“看得見但看不懂”,在面對違規左轉、行人闖入等長尾場景時容易“翻車”。而相較於傳統“端到端”模型,VLA通過引入語言模態作為中間層,將視覺感知轉化為可解釋的邏輯鏈,從而具備了處理長尾場景和複雜突發狀況的潛力,讓機器像人類一樣“觀察、推理、決策”,而不僅僅是海量資料的簡單對應。自動駕駛領域的VLA(視覺-語言-動作)大模型,代表了將視覺感知、語言理解與決策控制深度融合的技術方向。它能直接輸出車輛的駕駛動作,其核心好處是,讓機器有了更強的環境理解與推理能力、更高效的一體化決策、更強大的長尾場景應對、更透明的人機互動與信任建構、更自然的車控方式等。此次輝達開放原始碼的VLA模型Alpamayo-R1,基於全新的 “因果鏈”(Chain of Causation, CoC) 資料集訓練。每一段駕駛資料不僅標註了車輛“做了什麼”,更註明了“為什麼這樣做”。例如,“減速並左變道,是因為前方有助動車等紅燈,且左側車道空閒”。這意味著模型學會的是基於因果關係的推理,而非對固定模式的死記硬背。同時,基於模組化VLA架構,輝達Alpamayo-R1將面向物理人工智慧應用預訓練的視覺語言模型Cosmos-Reason,與基於擴散模型的軌跡解碼器相結合,可即時生成動態可行的規劃方案;以及多階段訓練策略,先通過監督微調激發推理能力,再利用強化學習(RL)最佳化推理質量——借助大型推理模型的反饋,並確保推理與動作的一致性。輝達公佈的資料顯示:Alpamayo-R1在複雜場景下的軌跡規劃性能提升了12%,近距離碰撞率減少25%,推理質量提升 45%,推理-動作一致性增強37%。模型參數從0.5B擴展至7B的過程中,性能持續改善。車載道路測試驗證了其即時性表現(延遲99毫秒)及城市場景部署的可行性。也因此,輝達Alpamayo-R1有望給L4自動駕駛帶來能力的躍遷,Robotaxi有望安全地融入真實、混亂的公開道路。成為自動駕駛賽道的“Android”從這次開源Alpamayo-R1,可以再次看出輝達在自動駕駛領域的野心,已經不滿足於只是“硬體供應商”,而是要做成自動駕駛賽道的“Android”。其實,早在今年10月份,輝達就對外低調發佈了Alpamayo-R1大模型。而在華盛頓GTC大會上,輝達發佈了自動駕駛平台——NVIDIA DRIVE AGX Hyperion 10。Hyperion 10被認為是輝達自動駕駛的“身體”,而Alpamayo-R1則是自動駕駛的大腦。值得注意的是,Hyperion 10實現了“從模擬到實車”的閉環:在雲端,DGX超級電腦使用DRIVE Sim生成高保真模擬資料,用於訓練DRIVE AV模型;在車端,Hyperion 10的感測器資料與Thor晶片無縫對接。因此,如果一家車企想快速推出具備L4級能力的車型,不需要再分別組建龐大的硬體整合、軟體演算法和資料訓練團隊,採用輝達的整套方案可以快速實現上車。同時,輝達也在建構一個“Android式”的Robotaxi生態,並對外公佈了明確的落地時間表:2027年起部署10萬輛Robotaxi。目前,輝達已宣佈與Uber、奔馳、Stellantis、Lucid等公司合作,共同打造“全球最大L4級自動駕駛車隊”。截至2025年10月,輝達的雲端平台已積累超過500萬小時的真實道路資料。輝達的入場,正在將Robotaxi的競爭從單一的技術比拚,引向生態模式的對決。封閉模式除了導致重複的研發投入,更深刻的弊端是形成了“資料孤島”。Waymo的美國道路經驗難以惠及中國車企,每個玩家都在獨立而緩慢地跨越技術曲線。輝達的開放生態,有機會在確保資料隱私和安全的前提下,推動生態內玩家共享經過匿名化處理的特徵資料。例如,A車企在特定路口遇到的極端場景資料,可以轉化為脫敏後的訓練特徵,幫助B車企的模型更快地識別類似風險。如果輝達能夠成為自動駕駛領域的“Android”,將有望帶動整個生態的技術迭代速度從線性轉變為指數級提升。這不僅是技術共享,更是成本共擔。共同應對長尾場景這一行業最大難題的邊際成本,將隨著生態的擴大而持續降低。元戎啟行CEO周光預測,VLA帶來的可能是 “斷層式的領先”,並成為下一代競爭的關鍵變數。DeepWay深向CTO田山告訴筆者,VLA是目前自動駕駛行業非常火的一項技術,研究者眾多,能極好地提高自動駕駛模型的泛化能力及推理能力,輝達開源Alpamayo-R1,使得這項很火且很有前途的自動駕駛技術有更多的人可以參與研究並做出貢獻,能積極推進VLA技術的發展和落地,而這項技術也能應用在具身智能等物理AI的場景中。隱形門檻仍在前方不過,Alpamayo-R1目前要滿足車規級時延,還需要在RTX A6000 ProBlackwell等級的卡上運行——這張卡的INT8算力高達4000T,是Thor的6倍左右。輝達的商業模式決定了,其開源是為了更好地銷售其硬體和全端解決方案。Alpamayo-R1模型與輝達的晶片(如Thor)及開發平台(如Drive)深度繫結,能實現更高的算力利用率。這意味著,選擇輝達生態在獲得便利的同時,也意味著在核心算力上與其深度繫結。另外,DeepWay深向CTO田山向筆者指出,VLA是不是最佳的自動駕駛技術,目前還在實踐過程中,而Alpamayo-R1模型工具鏈基於輝達的平台,對很多開發者來說也是一種限制,所以也有很多其他的技術和其他的計算平台在推進自動駕駛技術發展。在田山看來,多數公司應該更聚焦技術落地,也就是技術的工程化實現,解決實際場景的問題,早日實現智駕技術的商業化閉環更有益於行業的長久健康發展。此外,L4自動駕駛的落地或者說Robotaxi的規模化商業化,還與政策與法規息息相關。同時,如何在合規框架內營運、如何通過安全評估、如何在資料利用與隱私保護間取得平衡,這些能力的重要性,並不亞於技術本身。輝達的黃仁勳一直將Robotaxi視為“機器人技術的首個商業化應用”,輝達一直要做的不是一輛無人計程車,而是讓所有玩家都能做出無人計程車的技術底座。如今,他正試圖通過開源VLA,為這個應用打造一條可以快速複製的生產線。但最終能否通過開源降低准入門檻,加速推動L4自動駕駛到來,讓技術的潮水湧向更廣闊的商業海岸,輝達Alpamayo-R1模型的開源,只是遊戲的開始,後面還有門檻要邁,還需要市場來驗證。 (鈦媒體AGI)
Google支援的Apptronik擬融資4億美元,估值衝至50億美元!| News
人形機器人賽道競爭日益激烈。在人形機器人賽道全面升溫的當下,一家來自德州的初創公司Apptronik正悄悄站上資本風口。據悉,公司正在推進新一輪融資,目標募資至少4億美元,投後估值預計達到約50 億美元。這一輪將由B Capital領投,而Google將參與投資並提供AI技術支援。這家成立9年的機器人公司,以其雙足雙臂的人形機器人Apollo成功闖入主流視野,並成為全球資本追逐的熱門標的。資本強勢入場最新融資完成後,Apptronik的累計融資將突破8.5億美元。值得注意的是,Google並非早期投資方,但會參與本輪融資,並通過旗下DeepMind團隊為 Apollo 提供 AI 模型支援。雙方分工極其明確:Apptronik負責硬體、系統與感知控制;Google DeepMind則專注於打造機器人的“智能大腦”——通用 AI 模型。資本狂熱的背後,是整個行業對“類人機器人即將進入工業規模化應用”的強烈預期。初創基因Apptronik的創始團隊自帶 “硬核基因”:創始人傑夫・卡德納斯、尼克・潘恩均畢業於德克薩斯大學奧斯汀分校,聯合創始人路易斯・森蒂斯教授更是該校以人為中心的機器人實驗室負責人。其中尼克・潘恩曾參與NASA在2015年DARPA機器人挑戰賽中的項目,該賽事聚焦人形機器人的災害響應能力測試。公司最初以研發固定軀幹機器人、輪式機器人為主,客戶涵蓋汽車製造商、NASA 等機構。2023 年,Apptronik正式發佈面向量產的人形機器人Apollo,完成了從定製化產品到標準化量產產品的關鍵轉型,也為此次估值暴漲奠定了基礎。(圖片來源:Apptronik)資本強勢入場Apptronik的崛起,恰逢人形機器人賽道的爆發期。全球科技公司與創業者紛紛入局,展開全方位競爭:特斯拉CEO埃隆·馬斯克此前公開表示,Optimus機器人未來將涉足醫療護理、打擊犯罪、消除貧困等領域,儘管今年已放棄數千台的量產目標。中國車企小鵬上周發佈最新版人形機器人,計畫率先應用於辦公室接待、銷售助理等崗位。創業公司Figure AI上個月推出第三代人形機器人,視訊中其流暢完成家務勞動的場景引發熱議。Android系統創始人安迪・魯賓也跨界成立初創公司,專攻人形機器人技術。而Apptronik已率先實現商業化落地:Apollo機器人目前已在梅賽德斯-奔馳的工廠、GXO物流的倉庫以及捷普集團的生產車間投入使用,這三家企業同時也是其投資方與客戶。機遇與挑戰人形機器人被寄予厚望的核心原因,在於人類社會的環境設計本就圍繞人體結構展開,這讓雙足雙臂形態的機器人具備天然適配優勢。但要真正替代人類勞動,行業仍面臨諸多技術難關。最核心的挑戰之一是模擬人類手部的複雜機械結構,這也是制約人形機器人精準完成精細操作的關鍵。為解決這一問題,Apptronik選擇與專注於假肢研發的Psyonic合作,為Apollo配備專業仿生手,這一設計在其與GoogleDeepMind的合作宣傳視訊中已正式亮相。此外,機器人的動力系統、平衡控制、成本控制等都是需要持續攻克的難題。特斯拉調整量產目標的案例也證明,人形機器人從實驗室走向規模化應用,仍有較長的路要走。 (創新觀察局)
Palantir到底是幹什麼的?
Palantir的發言人曾經表示:“我們自豪於支援美國政府,尤其是我們的戰機的運作”,並強調公司“自創立之初就始終圍繞‘支援西方、賦能全球最關鍵機構’這一使命,從未動搖。”在巨量資料時代的黎明時期,在大量專業術語和市場宣傳背後,Palantir 賣的是一套幫助客戶(既包括商業公司,也包括非營利組織和政府機構)“理清資料”的工具。它與其他科技公司的最大不同,在於產品的規模和覆蓋面。根據2022 年的銷售話術,客戶只要買一套系統,就可能替換掉十幾種儀表盤或軟體。關鍵在於,Palantir 並不重新布線“企業的管道”。換句話說,它不改變資料如何被採集、如何在組織內部流轉,而是像一張技術創可貼:直接覆蓋在客戶原本雜亂的系統之上,無需動底層架構就能整合併分析資料。理論上,這使得 Palantir 特別適合那些仍在用上世紀 60 年代程式語言的政府機構——它們既想跑最新軟體,又不可能徹底推倒重來。2010 年代,Palantir 開始起勢,當時企業界言必稱“Big Data”。數以百計的初創公司承諾,利用智慧型手機和聯網感測器帶來的海量資訊——從全球貨運軌跡到大學生的社媒習慣——顛覆市場。這讓傳統企業,尤其缺乏技術底蘊的老字號,面臨“不升級軟體就會被當成恐龍”的巨大壓力。但升級幾十年前部署的電腦系統既非易事,也不便宜。企業更想要一種“直接糊在現有系統上”的解決方案,這正是 Palantir 的切入點。軟體為非技術使用者而生,Palantir 的設計思路是讓非技術人員也能用。它不要求專業資料團隊寫程式碼,而是讓組織裡任何人——只要登錄 Foundry(面向商業使用者)或 Gotham(面向執法與政府使用者)——就能直接獲得洞察。此外,公司還提供:Apollo:像控製麵板一樣,負責給 Foundry 或 Gotham 推送自動更新;AIP人工智慧平台:一套可嵌入 Foundry/Gotham 的 AI 工具。Foundry和Gotham兩者都負責“接入資料並給人協作的整潔平台”,區別在於資料來源。Foundry 側重幫企業做庫存管理、監控產線、跟蹤訂單;Gotham 則是面向警方和政府客戶的調查工具,把“人、地點、事件”串在一起。Gotham 接入的是政府或執法機構已有的資料——犯罪報告、拘留記錄、向社交媒體公司調取的資料等——Palantir 不額外提供資料,只負責把客戶已有的資料“榨乾吃盡”。 (壹號講獅)