#VLA | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#VLA

架構即優勢，小鵬憑藉VLA2.0重回T0梯隊

“ L2，就是一個縫合怪。”“好的智駕應該像坐電梯一樣，按下啟動鍵，就能夠從家裡到達公司。”“我們的第二代VLA重構的模型範式直奔L4的終局。”“3年甚至不用3年，我們的汽車一定要能夠自己可以開。”……3月2日，在小鵬第二代VLA媒體體驗日上，小鵬汽車董事長何小鵬放出了一系列豪言。而諸多已經體驗產品的媒體、KOL、KOC也已經按捺不住，在社交媒體大讚進步巨大、小鵬智駕進入T0梯隊。自成立以來，小鵬就以智駕為突出賣點，但在領先車企都加碼智駕之後，小鵬智駕的競爭力不再明顯。但此次小鵬以第二代VLA為框架，大膽喊出跨越L3、直奔L4，以及做“國民智駕”，“讓媽媽都愛開”，體現出超強的技術自信。搭載同一技術的小鵬Robotaxi已開啟公開道路測試，今年內小鵬Robotaxi將開啟試營運。這意味著小鵬將繼特斯拉之後，成為全球用一套系統跑乘用車和Robotaxi的車企。汽車智能化之後，競爭規則徹底改變。在智駕方面，技術範式革命帶來的提升，遠勝於埋頭苦幹。不僅於此，技術範式選擇的正確或錯誤，可能導向天堂與地獄。01 第二代VLA支持下，媽媽都敢開智駕了在第二代VLA媒體體驗日之前，小鵬汽車邀請了一批食堂阿姨——大部分是小鵬員工的媽媽來體驗。何小鵬解釋說，這個想法來自於他自己的體驗。何小鵬的媽媽一開始乘坐輔助駕駛車輛時，非常擔心，到了現在，才感覺到真正是絲滑，放心。“如果L4或者Robotaxi應該是所有的人，不管你開車還是不開車，不管你擅長開車或者是一個新手司機，都敢開。”何小鵬也在發佈會上說，要做“媽媽也能安心開的國民智駕”。之所以強調這一點，何小鵬表示，是針對此前L2輔助系統的三大痛點，首當其衝就是不安心，另外兩個是使用場景受限、效率不高。何小鵬總結了四大不安心的智駕場景，包括異形車輛能否識別繞行；路邊車輛突然開門能否避讓，顛簸路段或減速帶能否舒適通過；以及夜間行人或障礙物能否及時發現。在測試視訊中，這些場景第二代VLA版智駕都已經能夠做到。尤其值得一提的是，在夜間顛簸的爛路，第二代VLA版智駕也能夠自動繞行。這意味著以視覺為中心的小鵬智駕，對於負高度地形也能夠很好的理解並做出決策。智駕的安心感還和智駕的舒適度緊密相關。為此，小鵬汽車還特意開發了一個小程序“灑了嗎”來評估智駕體驗。第二代VLA肯定用這一小程序測試了。何小鵬介紹，第二代VLA和此前的智駕輔助系統相比，舒適度大幅提升。比如，基本消除了重剎、急加速、頓挫；安全接管減少60%；另外路面障礙物識別能力、側後車輛識別能力、前車軌跡預測能力、夜間決策能力都大幅提升。L2級輔助駕駛第二大痛點是使用場景受限。而第二代VLA已經沒有了場景限制，甚至連鄉村土路，乃至暴雨道路都能開。不過，何小鵬也坦言，並不是所有場景的體驗都一樣好。“在城區裡面，其他的輔助駕駛大概是70分，我們可能是99分；但是在小路的情況下，可能他們開的是10分，而我們開的是75分；在停車場的情況下他們可能是0分，我們可能是60分……但是我非常有信心的是在今年年內，我們所有的道路都會跟城市主幹道一樣，開到99分。”L2級輔助駕駛第三大痛點是效率不夠高，老司機嫌智駕開得太肉。“我們的第二代VLA在通行效率上，已經初步比肩老司機人駕了，我講的還是初步，因為我相信今年我們還有巨大的提高。”何小鵬說。他舉了一個測試例子，在廣州小鵬第二代VLA的智駕從A點到B點，用時43分鐘，比導航預估時間少1分鐘，而L2級輔助駕駛需要48分鐘，至於L4的Robotaxi，用了49分鐘。從綜合行車效率而言，第二代VLA提升了23%。何小鵬還表示，第二代VLA不僅開得好，而且還開得很聰明。他播放了兩段視訊，第一個視訊中，第二代VLA的車型會主動靠邊避讓後方過來的救護車。在第二個視訊中，第二代VLA的車型碰到查酒駕的交警，能夠自動停車和啟動。這兩個片段呈現出AI模型的“湧現”特徵，第二代VLA可能會未經訓練地、不可預測地習得某些能力，令人驚喜。何小鵬在活動上介紹的這些第二代VLA的能力，部分已經被早期體驗的一些媒體、KOL、KOC所確認。小鵬汽車計畫3月下旬，將逐步面向使用者開始全量推送第二代VLA。在售車型中，同一天發佈的X9純電版以及此前的超級增程版的Ultra和Ultra SE版本，P7 Ultra、G7 Ultra（純電）將首批推送。4月份，其他車型的Ultra和Ultra SE版本也將全量推送。不出意料地話，第二代VLA的搭載，將給小鵬產品在智駕層面的競爭力帶來一次明顯提升。如何小鵬所說，“它是小鵬和其他的自動駕駛企業拉開差距的一個起點，它也可能是目前中國最好用的自動駕駛。”02 智駕一號位，“輪”到劉先明在何小鵬之後，劉先明登上了活動的講台。他是小鵬汽車通用智能中心負責人，如今小鵬智駕的一號位。小鵬智駕開發，歷經傳統的自動駕駛開發理念，從地圖、規控、軟體，發展到規控+模型的混合。而劉先明代表的，則是完全不一樣的技術路線。劉先明在活動後的採訪中，解釋小鵬的路線和其他車企的不同時說，“問題核心就是你是做自動駕駛還是AI？”劉先明明確說：“我們做的是一個AI，不是專門只是用來做自動駕駛。”所謂做AI，指的是用AI的規模法則，來開發自動駕駛所需要的物理世界模型。而規模法則，就是L4能力=模型x算力x資料x本體。在模型層面，第二代VLA是原生多模態物理世界大模型。關於模型，智駕行業有VLA、世界模型的不同表述。劉先明表示，“概念之爭沒有必要。世界模型本質上是對世界3D空間的理解、運動規律的理解，最終以一種形式展現出來，這個和VLA本質沒有什麼太大的區別。”正因為如此，小鵬的第二代VLA，不僅是自動駕駛模型，還可以應用在Robotaxi、飛行汽車和人形機器人上。在算力層面，劉先明強調“有效算力”的概念。有效算力的提升，需要將晶片-編譯器-模型做聯合最佳化。小鵬堅持的軟硬一體研發，不僅自研了圖靈晶片，而且根據晶片定製化圖靈結構的模型，還自研了自動化編譯體系，使基座模型的編譯效率提升12倍，大幅最佳化算力利用率，降低模型推理時延。劉先明稱，最終，單顆圖靈晶片的有效算力接近於10顆輝達Orin-X。在資料層面，第二代VLA累計使用50PB訓練資料，每秒處理約53億字節視覺資訊，每版模型的訓練資料達到4兆Tokens。基於領先的AI基礎設施，自2025年科技日以來小鵬汽車開發了468版模型。這樣的迭代速度確實聞所未聞。不過，這也契合劉先明以AI方式開發的邏輯，對比其他自動駕駛的架構，第二代VLA迭代速度有了質變。“我們現在追求的是不僅跑得快，加速度還在持續變大。”和VLA1.0相比，VLA2.0最大變化是，把此前視覺（V）—語言（L）—動作（A）流程，簡化為從視覺訊號-直接輸出車輛控制指令（轉向/油門/剎車），去掉了“語言轉譯”這一環節，延遲從200ms降低到80ms，安全冗餘提升。另外，小鵬汽車智駕的VLA和智艙的VLM大模型將實現跨域融合，讓汽車進化為能同時為使用者提供主、被動能力組合的超級智能體。在體驗層面，小鵬座艙助手會類似於特斯拉Grok，車主可以通過語音，下達駕駛指令，甚至其他和駕駛、出行無關的指令，智能座艙都能執行。劉先明負責的通用智能中心，業務涵蓋智駕和智艙。他個人的核心任務之一，也是打通智駕和智艙。劉先明在小鵬汽車受到重用，也是當今自動駕駛開發的趨勢。不少企業的技術架構乃至組織模式，也在取代為“AI native”（AI原生）的架構，比如，取消規控團隊，將智駕智艙融合等等。而且，技術領頭人也開始變為AI、機器人、電腦科學方面的頂級人才。當然，毫無疑問地是，小鵬汽車不僅這麼做，而且做得早，做得堅決，也已經在呈現結果。03 架構即優勢，小鵬再領跑第二代VLA在手，何小鵬如今也是信心滿滿。在汽車領域，他和劉先明打賭，劉先明要在8月將小鵬智駕的中國表現提升到特斯拉在美國灣區的水平，否則劉先明要在金門大橋裸奔。同時，第二代VLA也將覆蓋小鵬幾乎所有車型。而且在出海方面，小鵬第二代VLA即將開啟全球路測，並計畫於2027年開啟全球交付。此外，大眾將成為小鵬第二代VLA的首發客戶。在Robotaxi方面，目前，搭載小鵬第二代VLA的Robotaxi已開啟公開道路測試，今年內小鵬Robotaxi將開啟試營運。小鵬GX的L4級測試車而且，今年小鵬還要實現人形機器人量產、飛行汽車的量產，兩者也都將應用第二代VLA的成果。在領先行業的技術架構引領下，小鵬智能化優勢一時間呈現大爆發之勢，不僅是中國在售車型的競爭力，而且擴展到海外，還有商業模式的創新，更有多智能物種的協同。類似於特斯拉，小鵬佈局晶片、作業系統、基座模型，不僅在打智能汽車的仗，還佈局Robotaxi、人形機器人、飛行汽車。從這些角度，小鵬是唯一能和特斯拉正面PK的中國選手。在中國而言，小鵬智駕也將重新成為智駕領先者，引領技術範式的遷躍，乃至消費者認知的重大變革。 (電動汽車觀察家)

充電比加油還快？底盤比肩法拉利？2025年最強技術都有誰？

2025年，國內新能源乘用車滲透率首次突破50%，創下了史無前例的里程碑。多數人願意認可並身體力行的購買新能源車，其背後必定是技術進步推動產品力提升，所帶來的結果。那麼，在過去1年時間裡，究竟那些技術正在成為新的風向標？01. 半固態電池代表品牌：蔚來、智己、MG等眾所周知，全固態電池是動力電池界公認的“終極答案”。但就目前來看，受制於生產工藝、可靠性、充電倍率、原材料成本等諸多因素，距離全固態電池真正落地量產上車，還有著相當長的距離。相比之下，作為從液到固 “中間態”的混合固液電池（半固態電池），落地難度就要簡單不少了。2025年，不僅有諸如蔚來ET7、名爵MG4等車型真正實現了混合固液電池的量產上車。同時在國家標準層面，也開始區分液態電池、混合固液電池、全固態電池的判定標準，避免廠家借固態電池為由，在宣傳上打擦邊球的情況。相比全固態電池，混合固液電池的電解質可以是類似“果凍狀”的凝膠，也可以是“水泥狀”的懸濁膏體。核心材料方面，固態電解質含量佔比在90-95%，大多數為鋰鑭鋯氧(LLZO)或鋰鑭鈦氧(LLTO)之類的氧化物，同時可混合PEO等聚合物；電解液依舊保留了5-10%。由於固液電解質可塑性強，可以大大緩解最令全固態電池頭疼的“介面問題”，同時因為有電解液的存在，使電解質的整體導電率並不差，可以兼具一定的快充性能。不過除此之外，固液電池最明顯的優勢在於，相比液態電池更不易自燃。這樣帶來的好處在於，一是可以一定程度上減少原本電池包需要防範自燃做的冗餘結構，從而提升電池包整體的體積能量密度；二是可以在正負極材料應用上更激進一些，提高電池本身的能量密度。在生產製造方面，愈發成熟的“原位固化技術”，使得企業可以在原本液態電池產線的基礎上進行改造，不需要大規模的推倒重來，成本相對可控。這或許也是為什麼，名爵MG4將半固態電池的購入門檻，已經壓低至10萬元等級。綜合來看，隨著固液電解質規模化爬升，未來固液電池有望逐步代替液態電池，成為新的動力電池主流產品。02. 兆瓦閃充代表品牌：比亞迪、寧德時代去年3月份，比亞迪重磅發佈了“超級e平台”，將兆瓦閃充技術首次帶入了大家的視野裡，並官宣搭載在新車漢L和唐L上。其理論充電倍率可提高到10C，5分鐘可補能400公里，可以說比市面上大部分車型的在充電速度上都拉開了一個檔次。可能有些人對1兆瓦的功率大小有多恐怖，沒有具體的概念。按照一家3-5口人的普通家庭來算，1兆瓦相當於要把將近200戶人家的用電量，都要給同一輛車充電，簡直就是“帝王般”的待遇。從另一個角度來看，如果不加任何措施，兆瓦閃充對電網的瞬時衝擊是相當大的。這時，就必須要配套儲能的充電站做支撐了！有了儲能系統作為“蓄水池”，相當於變相對電網進行了擴容，兆瓦閃充站就不會突然把電網榨乾了。之所以能做到這麼高的充電功率，其背後是更耐高壓的碳化矽功率器件做的底層支撐。就比如，比亞迪就自研了1500V碳化矽功率器件，使整車電壓平台提升到了1000V。根據功率P=UI，以及發熱量Q=I²Rt可知，同充電功率下，電壓越高，產生的熱損耗也就越低。因此，支援兆瓦閃充的車型即便是插普通國網樁，沒法發揮“滿血”的超充實力，其理論上充電速度也會比一般的車要更快一些的。同時也可以看到，去年諸如極氪、嵐圖等品牌，也開始建設兆瓦級功率的充電樁，為後續配套車型鋪路。隨著未來越來越多更大功率充電樁的鋪設，兆瓦閃充車型的前瞻性優勢會逐步顯現出來。屆時，真正的“油電同速”時代將會到來！03. VLA動作語言大模型代表品牌：理想、小鵬早在2024年初，特斯拉憑藉FSD V12，用神經網路取代冗長的邏輯程式碼，徹底將輔助駕駛拉入了“端到端”時代。經過2024年一整年的時間，幾乎所有玩家都完成了端到端的跟進。不過到了2025年，一些廠家逐漸發現了端到端的一些讓人頭疼的漏洞：整套演算法模型是難以解釋的黑箱，出現問題只能靠喂大量資料來修正，且不確定投喂多少資料才能修正過來。為瞭解決這一難題，在輔助駕駛端到端路線上，開始出現了分道揚鑣，出現了兩種有針對性的改進路線。其中一種，就是VLA動作語言大模型。簡單來說，VLA就是在原本端到端架構的基礎之上，中間加了個類似ChatGPT之類的生成式語言工具，讓原本從視覺直接生成車輛控制動作，變成了通過視覺轉化為可視化語言，再生成車輛控制動作，更接近人類的思考邏輯。就比如，理想在開啟AD輔助駕駛功能之後，可以在中控屏上顯示根據拍攝的畫面，轉化成的文字思考過程，非常直觀。VLA架構最主要的優勢，需要解決問題時，工程師就可以直接對生成的文字進行動手修改，相當於把“黑箱”變成了“白箱”，最佳化起來非常高效可控。對使用者來說，最直觀的體驗就是可以通過座艙語音對話，來指揮輔助駕駛的行車動作，互動感進一步增強。此外，由於VLA的整個思維邏輯更擬人，使其獨立解決諸如大型施工路段的長線問題的能力進一步增長。理論上來說，VLA模型的上限是極高的，未來有能力考慮每個動作對未來將會產生的影響，類似於有獨立思考能力的AI生命體。比如，把車停在這裡會不會影響店家的生意？這樣加塞會不會讓旁邊的車不開心？……諸如此類。不過從另一個角度來說，由於VLA在結構上比端到端更複雜，理論上會使得系統反應時間延長。如何儘可能降低延遲，將是接下來VLA路線需要重點最佳化的問題。04. WA世界模型代表品牌：華為、蔚來WA世界模型和前面提到的VLA動作語言大模型一樣，同樣是為瞭解決傳統端到端架構存在的“黑箱問題”，衍生出的一條輔助駕駛技術路線。不過WA世界模型的解決邏輯，並不是將圖像翻譯成可理解的語言，而是通過大量模擬訓練，讓系統學習並理解三維物理世界的空間運動規律、物體互動規則，從而對行車動作進行規劃和預判。因此，WA世界模型最顯著的特點，就是對於物理世界的運動規律，有著強大的分析能力，讓AI擁有類似人類的物理時空理解能力。雖然無法像VLA那樣，將黑箱變成白箱，但WA世界模型可以讓系統變成可以修飾的“灰箱”。一旦出現問題，就可以通過場景模擬進行反向演算，再配合上內建的“注意力熱圖”系統，就能起到回溯問題根源的目的。相比VLA來說，WA世界模型更聚焦於雲端訓練。可以通過位於雲端的世界引擎（WE），在虛擬世界中模擬創造出各種奇葩的極端碰撞事故資料。這些資料不僅各種參數可調，而且資料想要多少就有多少。這樣一來，就可以讓輔助駕駛應對極端複雜場景的能力加速進化。車端系統，往往採用的是小模型，更低的算力消耗，有利於會進一步降低系統延遲，提高危急時刻的反應速度。同時由於在感知到動作輸出的過程中，WA世界模型加入了一個根據不同場景的危險度“預判”機制。因此，理論上WA世界模型的運行速度，是要快於VLA動作語言模型的，甚至還要快於傳統端到端。總結下來，WA世界模型是一套可解釋性更高，運行延遲更低，且針對特定危險場景避險效果更好的“端到端PLUS”。不過，由於WA路線的車端模型，需要及時判斷場景呼叫模組，同時還需要雲端訓練作為支援，所以對網速要求更高。從長期來看，如何提高晶片頻寬、降低網路延遲，將很大程度上決定其能力上限。05.磁流變減振器代表品牌：長安深藍除了最惹人注目的電動化和智能化以外，底盤領域也是汽車技術進步不可忽視的環節之一。這就要說說，個人認為2025年底盤領域最有代表性的突破——磁流變減振器了。現代汽車的懸掛系統中，彈簧和減振器可謂最最重要的兩個核心部件。二者的能力與配合默契度，直接決定了汽車遭遇顛簸坑窪時，能否帶來良好的運動反饋。其中，雖說主要負責吸收顛簸衝擊是彈簧，但彈簧需要“彈”好多下，才能徹底把顛簸消除掉。這時，減振器就要發揮作用了。它能夠將彈簧積蓄的能量釋放掉，通過“拉住”彈簧，減少車身上下跳動的幅度和頻次，從而將能量平順地消散掉。民用車上最普通最常見的一檔，就是液壓減振器，可以利用減振器內阻尼油固有的“粘性”，通過活塞將機械能轉化為熱能。不過，傳統液壓減振器阻尼力的變化曲線，始終是固定不變的。後來，一些喜歡“雞蛋裡挑骨頭”的工程師們就考慮，能不能讓懸架需要操控的時候變硬，需要舒適的時候變軟呢？於是，就誕生了CDC連續可變阻尼減振器。其原理就是在傳統液壓減振器的基礎之上，將活塞變成了一個電控可變開度的閥門。這就像注射器的針口一樣，閥門開度越大，阻尼液的流動速度就越快，減振器的阻尼就越小。反之，則會變大。雖然CDC減振器已經也可做到阻尼連續可調，但在某些極端場景下，調節得還不夠快。CDC的響應時間大概在10-100毫秒，而車輪壓到了一顆小石塊，力從車輪傳遞到懸架彈簧的時間，往往是低於10毫秒的。在這種情況下，很可能CDC連續可變阻尼減振器還沒來得及調節軟硬，就已經對車輛懸架形成了衝擊。這也是為什麼，不少車型即便配備了CDC連續可變阻尼減振器，某些時候依舊會感覺到路面的顛簸。於是，調節速度更快的電磁減振器就應運而生了，而磁流變減振器就是電磁減振器的一種。其原理是將傳統液壓減振器中的阻尼液，換成了一種可以通過通電，直接改變液體粘度的磁流變液，從而起到調節減振器阻尼的目的。相比CDC減振器來說，磁流變減振器最顯著的優勢就是響應快，響應速度僅需0.5-10毫秒，僅為CDC的1/10。此外，由於磁流變減振器減少了閥門等機械電子器件，可以降低因機械磨損導致的失效機率。理論上磁流變減振器的使用壽命，是比CDC減振器要高的。以往，磁流變減振器一直是法拉利599 GTB Fiorano這類頂級超跑的標誌性配置。後來，凱迪拉克逐漸把它的門檻拉低到了30-40萬級，但依然只有頂配車型才能擁有。到了去年，深藍L06的上市，首次將搭載磁流變減振器車型的入手門檻降低到了15萬元等級。也就意味著，今年磁流變減振器有機會在更多車型上迎來普及。其背後，是一家名為“京西智行”的國產供應商實現技術和產業化突破帶來的結果。 (電動車公社)

輝達兩篇論文，帶來了VLA之後具身智能的新範式

2025年，具身智能領域最火的詞就是VLA（視覺-語言-動作模型）。它成了一種席捲全行業的共識，一個關於具身基礎模型的標準答案。在過去的一年裡，資本和算力瘋狂湧入這條賽道，基本上所有的模型大廠，都在用這套範式。但很快，現實的物理世界給所有從業者潑了一盆冷水。因為VLA在物理動作執行上很弱。它能懂極其複雜的文字指令。但當機械臂真正去抓取時，它可能連如何調整手腕姿態以避開杯柄的阻擋都做不好，更別提讓它去執行解開鞋帶這種涉及複雜物理形變的動作了。VLA的另一個致命痛點是泛化。本來之所以大家要做模型更新，為的就是不用為每個特殊環境程式設計，看重的正是大模型的泛化能力。結果現在，任何超越訓練規定環境的動作，VLA基本都無法泛化，甚至出了訓練環境類似的環境都做不了。整個行業把泛化的無力，歸結於資料的不足。大廠們開始投入億萬資金，用各種方式去採集資料，試圖用海量的模擬演示來填補VLA的常識空缺。但2026年初，輝達（NVIDIA）發佈了兩篇論文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》兩篇論文，建構了一套全新的具身智能基礎模型範式，打破了資料內卷的僵局。它們一起，給出了一個完全從視訊裡學習，Zero-shot（零樣本）就能泛化執行不同工作的具身模型的可能。01 VLA缺的不是資料，而是世界模型要理解DreamZero和Dream Dojo的顛覆性，必須先從底層剖析VLA的系統性缺陷。VLA的最大問題，就是缺乏世界模型。VLA的底層架構限制了它的認知方式。從譜繫上看，VLA和LLM的親緣更強，反而和純視覺、純物理的親緣較弱。它通過交叉注意力機制（Cross-Attention）將圖像的像素塊對應到文字的語義空間中，在這個空間裡，它理解了杯子和桌子的概念，理解了它們在二維畫面中的相對位置。但物理世界不是二維的語義切片。物理世界是連續的，充滿了質量、摩擦力、重力和幾何碰撞。VLA對物理動作和世界的理解相對較弱，因為它本質上是一個「翻譯器」。我們可以用物理學中的狀態轉移方程來解釋。一個完整的世界模型，本質上是在學習一個條件機率分佈。它能在給定當前世界的狀態（視覺觀測）和機器人即將執行的動作，預測世界下一秒會變成什麼樣。VLA從來沒有學過這個方程。VLA學習的是靜態視覺觀測+語言指令直接對應到可執行動作的函數關係；卻沒被系統性地訓練去預測動作後果、做反事實試錯。所以一旦環境、材質、約束關係稍微變形，性能就會斷崖式下滑。這就好比讓一個人在不理解幾何原理的情況下，去死記硬背一萬道幾何題的答案。遇到原題，他能快速寫出完美答案；遇到條件稍微變動的新題，他就徹底當機。VLA的泛化，本質上只是高維語義空間中的插值。當物理形態超出訓練集的包絡面時，插值就會失效。與之對比的，是視訊生成模型。在Veo3、Sora 2和最近大火的Seedance 2生成的物理互動畫面已經相當逼真，流體、剛體、柔性材料的動作如此連貫，幾乎與現實世界難以區分。這說明，大規模視訊生成模型在海量的網際網路視訊中，很可能已經隱式地壓縮並內化了物理世界的基礎運行規律，形成了一些世界模型。即使強大如斯，視訊生成之前仍然主要被用在給VLA提供模擬資料，而不是整合進機器人的工作流中。其實，大家想利用視訊生成模型來控制機器人的念頭並不是從此開始的。在DreamZero之前，學術界和工業界也提出了多個解決方法。但這些方法無一例外地陷入了工程和邏輯的死胡同。比如 LVP（大規模視訊規劃器）。它的思路是從一張圖和一句話，直接生成應該如何完成任務的未來視訊計畫。再把視訊中的人手運動重建成 3D 軌跡。是用視訊預訓練，而不是語言預訓練，作為機器人基礎能力的主軸。第二種則是類似輝達自己的DreamGen這種，生成視訊後，再反推動作。這是之前被寄予厚望的路線。它把整個基礎模型的架構切分為兩半，上半部分是一個視訊模型，負責預測未來；下半部分是一個獨立訓練的IDM網路，負責看著預測出來的視訊，反推並輸出動作。以上兩種分階段的模式，最大的問題就是動作和視訊生成對不齊。動作那塊要求特別精準，但視訊生成很難完美。一旦它產生的未來畫面帶有微小的像素偽影或物理幻覺，那不管是IDM或者點追蹤，都直接懵圈，成倍放大錯誤。視訊裡機器人的手指位置偏了一微米，現實中機器人就根本什麼都抓不住了。魯棒性極差。第三種是Unified Video-Action（UVA，聯合視訊-動作生成）。這算是最先進的方法了，它嘗試把視訊和動作放在同一個擴散模型裡的潛空間裡學習，兼顧了視訊預測和動作預測。而推理時又通過「解碼解耦」跳過視訊生成，以保證速度。但它的架構使用了雙向擴散（Bidirectional Diffusion）架構。為了匹配語言指令的長度，必須對生成的視訊序列進行大幅壓縮。這種做法徹底扭曲了原生的視訊時間流。時間都扭曲了，動作指令與視覺畫面的對齊幾乎就不可能了，所以這種方式的泛化性自然極差。除此之外，這些方法都有一個致命的共同缺陷，就是太慢。視訊擴散模型需要多步迭代去噪，生成幾秒鐘的動作往往需要幾十秒的計算。要是一個機器人把碗放進碗櫃要5分鐘，你怕是在邊上看著都得急瘋。因此在2026年前所有新具身智能企業中，幾乎只有前一陣剛推出家用機器人的1X Technologies在嘗試這種視訊預測的方法。他們利用海量的“影子模式”（Shadow Mode）資料，即在人類遙操作時，讓模型在後台同步運行預測，用這種極高品質的配對資料去硬生生訓練那個脆弱的IDM。但一時的失敗，並不意味著方向被否定。在去年的機器人大會上，我採訪了很多國內的具身智能學者。彼時正是Google Veo 3和 Genie 3剛剛發佈不久之時。大多數學者都對此印象深刻，意識到了視訊生成模型的世界理解能力。因此在交流中，他們幾乎是以一種共識的口吻，提出生成可能是後續具身智能最靠譜的路徑。這比在模擬環境下（Simulation）產生資料要可能性更高。模擬器（如Isaac Gym或MuJoCo）受限於人類硬編碼的物理引擎，永遠無法窮盡真實世界材質的複雜性、光影的多變性和接觸力的非線性。而吸收了全人類視訊資料的生成模型，才是那個真正包含了萬物物理法則的超級模擬器。但當時，這個思維還是停留在「資料」這個層面上，視訊生成取代VLA這個講法，基本還沒進入視野。但輝達的研究，很可能就是讓這個想法，第一次變成有效的工程化路徑的轉折點。02 DreamZero，以世界模型為基地的具身智能前面已經講了，過去利用視訊生成模型去建構機器人動作所面對的三個主要問題。一是分步導致的對齊問題。二是合一模式太差，沒法用的問題。三是太慢的問題。針對於此，輝達先用DreamZero，給出了一條解決方法。首先，DreamZero採用了視訊和動作預測同步端到端訓練的方式。這就解決了過去分階段模式的不對齊問題。其次，針對UVA的時空錯亂問題，DreamZero徹底拋棄了早期的雙向架構，轉而建構了一個14B參數的自回歸 Diffusion Transformer (DiT)。這是目前標準的視訊生成模型架構。它像語言模型生成文字一樣，嚴格按照時間順序，從左到右預測視訊和動作。在同一次擴散前向裡，同時預測視訊與動作。這帶來了兩個好處。第一，保留了原生影格率，動作和畫面在時間軸上實現了絕對對齊。第二，它利用了KV Cache（鍵值快取）技術。模型不需要每次都從頭計算歷史畫面，極大地節省了算力。之後，為瞭解決自回歸導致的“誤差累積”和幻覺問題。DreamZero還引入了真實觀測注入。模型預測出未來1.6秒的畫面和動作，機器人執行完畢。而在動作執行完的瞬間，獲取攝影機拍下的絕對真實的當前物理世界畫面，直接編碼並塞入KV Cache，覆蓋、替換掉模型剛才生成的假畫面。這一步，瞬間斬斷了誤差積累的因果鏈。模型被迫永遠站在絕對真實的物理基石上，去思考下一步。最後，也是最重要的一步，是解決生成慢的問題。為了達到機器人控制需要的頻率，DreamZero發明了DreamZero-Flash技術。擴散模型慢，是因為推理時需要走完漫長的去噪鏈。如果強行減少步數（比如只用1步去噪），生成的動作質量會斷崖式下跌，因為畫面還處在充滿噪點的模糊狀態，模型無法從中提取精確的動作。DreamZero-Flash的解法是「解耦噪聲調度」。在訓練時，它不再讓視訊和動作處於相同的噪聲等級。它強制模型看著極度模糊、充滿高強度噪聲的視覺畫面，去預測完全乾淨、精準的動作訊號。這等於是在訓練模型在看不清未來的情況下，憑藉物理直覺做出正確反應。對於人來講，這是不可能的任務，看不清就是做不了動作。但對模型來講，這似乎完全行得通。經過這一訓練，到了推理階段，模型只需要進行僅僅1步去噪就能生成精準動作。推理時間從350毫秒瞬間壓縮到了150毫秒。這使得系統能夠以7Hz的頻率輸出動作塊，結合底層控製器，實現了相對平滑的即時執行。經過了這一系列改造。DreamZero展現出了視訊生成世界模型的恐怖潛力。最突出的是泛化能力。在AgiBot雙臂機器人的測試中，研究人員拋出了訓練集裡完全沒有見過的任務解開打結的鞋帶、從假人模型頭上摘下帽子、拿著刷子畫畫。讓從頭訓練的VLA來做，任務進度幾乎為零，開始的地方都做不好。但DreamZero的平均任務進度達到了39.5%，某些特定任務（如摘帽子）甚至高達85.7%。這是因為DreamZero的學習過程是顛覆性的。在訓練時聯合預測視訊和動作，它被迫在潛空間中建立事物演變的因果鏈條。它知道如果不鬆開夾爪，被夾住的物體就不會掉落；它知道如果向前推倒一杯水，水會灑出來。因為預設了基於視訊的世界模型，WAMs擁有了物理直覺。當遇到未見過的任務時，它不是在記憶庫裡搜尋類似的動作，而是在腦海中模擬出了動作的物理後果。只要這個物理後果符合語言指令的語義目標，它就能直接湧現出執行動作。這就是為什麼它能在Zero-shot的情況下完成解鞋帶這種複雜任務。更讓人震撼的是跨機體（Cross-Embodiment）能力。在傳統的VLA範式下，你要讓一台新形態的機器人幹活，就必須僱人去給這台機器人錄製專屬的遙運算元據。但在DreamZero中，研究人員只讓模型觀看了人類視角的錄影（純視訊，沒有任何電機動作參數），僅僅看了12分鐘。模型在未見任務上的表現就實現了42%的相對提升。隨後，他們把在AgiBot上訓練的模型，直接遷移到一台完全不同的YAM機器人上。僅僅給它喂了30分鐘的非結構化「玩耍資料」（Play Data），模型就完成了軀體適應，並且完美保留了零樣本泛化執行複雜指令的能力。這就是世界模型的降維打擊。物理規律是通用的，它只需要極少的資料去微調自己對新軀體運動學邊界的認知。VLA最大的問題，DreamZero這樣預設了世界模型的動作模型 WAM（World Action Model）完美解決了。它不需要海量的機器人資料訓練就能達成很好的泛化。但我們必須保持清醒。基於視訊生成的工程化路徑，其實依然有很多卡點。相對於VLA動輒在消費級顯示卡上跑出20Hz、30Hz的驚人速度，DreamZero拼盡全力最佳化後的7Hz依然很慢。並且，它對硬體要求更高，依賴於H100或GB200這樣的頂級晶片組成的計算叢集來進行平行推理。對於邊緣端部署的獨立機器人來說，這在目前的算力成本下是不可接受的。不過，算力成本的下降服從摩爾定律，而演算法架構的物理認知上限則是天花板。用昂貴的算力去換取原本根本不存在的泛化能力，這筆交易在技術演進的長期視角下是絕對划算的。DreamZero的成功，意味著從VLA轉向視訊世界模型，不再是一個學術幻想，而是一個已經跑通的可能。03 世界模型需要的資料，和VLA不一樣在 DreamZero 的實驗中，輝達發現了一個反直覺的結論。我們通常認為資料越多越好。如果機器人學不會，那就再採集一萬小時資料。但在世界模型的語境下，這個定律失效了。DreamZero 揭示了新的法則資料多樣性 > 資料重複量。研究人員做了一組對照實驗，準備了兩份資料，總時長都是 500 小時。● 資料集 A（重複組）：包含 70 個任務，每個任務有大量重複的演示，位置和環境變化很小。這是傳統 VLA 喜歡的“刷題”模式。● 資料集 B（多樣組）：包含 22 個不同環境、數百個任務，資料極其雜亂，幾乎不重複。結果使用雜亂資料訓練的 DreamZero，在未見任務上的泛化成功率達到了 50%。而使用精美重複資料訓練的模型，成功率只有 33%。為什麼？這是因為 VLA 和 WAM 的學習邏輯根本不同。 VLA 是在背誦。WAM 是在學物理。DreamZero 證明了對於學習物理規律而言，看 1 次在火星上煎蛋，比看 1000 次在廚房裡煎蛋更有價值。因為前者提供了新的物理邊界條件，而後者只是在通過重複增加冗餘。世界模型需要的是覆蓋率，而不是重複率。04 下一步，是把世界模型訓練的更好DreamZero 的意義，是證明了WAM這條路完全能走通，還能非常好的泛化。但想要持續提升DreamZero這樣模型的能力，我們還需要對它加以訓練。儘可能強化它基於視訊生成的世界模型，最好還有個更嚴格的後驗裁判，能夠指導它在後訓練中持續提升精準性。這就是另一篇論文中 Dream Dojo 的作用。DreamZero 造出了引擎，DreamDojo 煉出了持續最佳化這個引擎的燃油。正如其名，它像是一座道場，要把世界模型訓練這件事，從DreamZero這種一次性的科研 demo，豐富成一套可重複的工業流程。這套流程涵蓋了從資料攝入、表徵對齊，到滾動預測、誤差診斷的全生命周期。在 DreamDojo 出現之前，VLA（視覺-語言-動作）模型在資料上總是碰壁，面臨三重死穴。1. 標籤稀缺：網際網路視訊浩如煙海，但只有畫面，沒有動作資料（Action Labels）。2. 工程地獄：機器人的身體千奇百怪。不同的自由度（DOF）、不同的控制頻率、不同的介面格式。試圖統一這些資料，是工程師的噩夢。3. 不可控：很多模型生成的視訊看著像，但在物理因果上是錯的。如果動作和後果不對齊，模型就無法進行反事實（Counterfactual）推演。無法推演，就無法規劃。但現在，因為有了視訊生成模型，這些就都不是問題了。DreamDojo 不是從零做 world model，它是站在「視訊基礎模型已經把世界的視覺與時空規律學到一定程度」的台階上，再強化對於具身智能來講，至關重要的互動因果和可控性。既然人類視訊裡沒有電機資料，那我們就不要電機資料了。DreamDojo 不再執著於感測器裡的讀數，而是去尋找動作的物理本質。動作，本質上就是一種讓世界狀態發生改變的力。DreamDojo 設計了一個自監督編碼器，專門盯著視訊的前後幀看。它在不斷地問自己一個問題，到底是什麼力量，讓上一幀變成了下一幀？機器自動提取出來的這個答案，就是連續潛在動作。DreamDojo 不再記錄絕對的關節姿態。因為絕對姿態在高維空間裡太稀疏、太難學。它記錄的是變化量。每一幀都以當前狀態為基準歸零。這讓動作的分佈變得更窄、更集中，模型更容易學會向左移一點這種通用的物理規律，而不是死記坐標。這就好比不需要知道一個人用了那塊肌肉（感測器資料），只要看他揮手砸杯子，杯子碎了，模型提取出揮手擊碎這個潛在動作的整個過程。同時，為了增強可控性。DreamDojo 不把整段動作軌跡當作全域條件灌進去，而是把連續 4 個動作拼成 chunk，只注入到對應的 latent frame。通過這樣的拆分，模型被強制要求理解是這一個微小的動作切片，導致了下一刻的畫面變化。讓世界模型不會造成因果混淆。視訊模型在這個過程中，把訓練目標從預測未來像不像，推向動作改變未來的方向與幅度是否一致。這徹底打通了不同具身體之間物種隔離。不同身體、不同場景做同一種動作，潛動作會趨於相近。模型不再需要知道手肘電機轉動 30 度，它只需要知道這個潛在動作會導致杯子被拿起。而因為這個潛空間的動作規律對誰都一樣，不存在空間異構，不存在資料格式不通。DreamDojo 在視訊生成這個世界模型的基礎上，用連續潛在動作這個數學上的通用語，把全人類的視訊資產轉換成了機器人可以理解的經驗。為了達成這個目標，輝達團隊建構了一個 DreamDojo-HV（加上 In-lab 與 EgoDex）的資料集，是一個約 44,711 小時的第一視角人類互動混合資料集，覆蓋極其廣的日常場景與技能分佈。包含上萬級場景、數千級任務、數萬級對象的長尾分佈。這個規模，比之前最大的機器人世界模型資料集大了 15 倍，場景豐富度高了 2000 倍。結果 DreamDojo 在沒見過任何真機器人的情況下，僅憑看人類視訊預訓練，就能在極少量的微調後，操控真機器人完成從未見過的任務。再通過蒸餾技術，他們把這個龐大的世界模型壓縮到了能跑 10 FPS 的即時速度。至此，結合Dream Dojo和DreamZero，這套建立在世界模型上的具身智能的閉環終於合上了。它的底座是視訊生成模型，因為它懂物理。構架是DreamZero 代表的世界動作模型（WAM），它能通過預測未來來決策，而且讓可執行與低延遲夠薄，能用。而其進步的燃料，是DreamDojo 把物理與可檢驗性做厚，讓全網的人類視訊，通過潛在動作轉化為機器人的經驗。我們不再需要讓幾萬個博士去遙操作機器人了。只要讓機器人坐在那裡，日夜不停地看人類幹活的視訊，它就能學會關於物理世界的一切。05 這，很可能是具身智能的範式轉變DreamZero的出現，敲響了具身智能純VLA時代的喪鐘。這場範式的轉變可能，將深刻地重塑整個行業的生態。首先是資料採集哲學的顛覆。在VLA範式下，從業者陷入了遙運算元據的囚徒困境，認為只有花重金採集幾萬小時的精準動作配對資料，機器人才能變聰明。但DreamZero展示了跨機體學習的恐怖潛力，僅僅通過觀看人類行為的純視訊，模型就能汲取物理策略。而Dream Dojo則意味著，YouTube、TikTok上那數以百億計的人類生活視訊，那座原本被認為缺乏動作標籤而對機器人無用的資料金礦，將被徹底解鎖。從高成本的實體遙操作，轉向低成本的網際網路視訊挖掘，這是獲取常識的降維打擊。最重要的是，我們對機器智能的認知正在發生根本性轉移。VLA時代，我們試圖通過教會機器認字來讓它幹活，結果得到了一個笨拙的翻譯官。現在，我們開始教會機器做夢，在腦海中生成、預測、模擬物理世界的演變。當一台機器不再是機械地復讀資料，而是能夠在內部建構一個符合物理定律的微縮宇宙，並在其中推演自己的行為後果時，我們就已經站在了通用具身智能的真正起點上。這是一條更陡峭的路徑，但也必定通往更廣闊的未來。 (騰訊科技)

【CES 2026】物理AI的ChatGPT時刻！輝達“內驅”無人駕駛汽車將至，發佈首個鏈式思維推理VLA模型

輝達宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1。該模型旨在打造能在意外情況下"思考"解決方案的車輛，採用 100 億參數架構，使用視訊輸入生成軌跡和推理過程。黃仁勳稱，首款搭載輝達技術的汽車將第一季度在美上路。輝達還發佈了多個開源模型、資料和工具，如用於代理AI的輝達Nemotron家族、用於物理AI的Cosmos平台、用於機器人的輝達Isaac GR00T以及用於生物醫學的輝達Clara。輝達在無人駕駛領域邁出關鍵一步，宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1，這一舉措旨在加速安全的自動駕駛技術開發。該模型通過類人思維方式處理複雜駕駛場景，為解決自動駕駛長尾問題提供新路徑。美東時間1月5日周一，輝達CEO黃仁勳在拉斯維加斯舉行的CES展會上發佈了Alpamayo平台，使汽車能夠在真實世界中進行"推理"。黃仁勳表示，首款搭載輝達技術的汽車將於第一季度在美國上路。輝達免費開放Alpamayo模型，允許潛在使用者自行對模型進行重新訓練。該模型旨在打造能在意外情況下"思考"解決方案的車輛，例如交通訊號燈故障等場景。車載電腦將分析來自攝影機和其他感測器的輸入，將其分解為步驟並提出解決方案。這一開源舉措獲得了行業廣泛支援。包括捷豹路虎（JLR）、Lucid、Uber以及加州大學伯克利分校DeepDrive深度學習自動駕駛產業聯盟（BDD）在內，多家移動出行領軍企業和研究機構表示，將利用Alpamayo開發基於推理的自動駕駛技術堆疊，推動L4級自動駕駛部署。首個開源推理VLA模型發佈輝達此次發佈的Alpamayo家族整合了三大基礎支柱：開源模型、模擬框架和資料集，建構了一個完整的開放生態系統供任何汽車開發者或研究團隊使用。Alpamayo 1是業界首個為自動駕駛研究社區設計的思維鏈推理VLA模型，現已在Hugging Face平台發佈。該模型採用100億參數架構，使用視訊輸入生成軌跡及推理軌跡，展示每個決策背後的邏輯。開發者可以將Alpamayo 1改編為更小的執行階段模型用於車輛開發，或將其作為自動駕駛開發工具的基礎，例如基於推理的評估器和自動標註系統。黃仁勳表示：“物理AI的ChatGPT時刻已到來——機器開始理解、推理並在真實世界中行動。無人計程車是首批受益者。Alpamayo為自動駕駛汽車帶來推理能力，使其能夠思考罕見場景，在複雜環境中安全駕駛，並解釋其駕駛決策——這是安全、可擴展自動駕駛的基礎。”輝達強調，Alpamayo模型並非直接在車內運行，而是作為大規模教師模型，供開發者微調並提取到其完整自動駕駛技術堆疊的骨幹中。未來該家族的模型將具有更大的參數規模、更詳細的推理能力、更多的輸入輸出靈活性以及商業使用選項。推理VLA技術原理解析推理VLA是一種統一的AI模型，將視覺感知、語言理解和動作生成與逐步推理整合在一起。這類模型整合了明確的AI推理功能，在傳統視覺-語言-動作模型的基礎上建構。AI推理是AI逐步解決複雜問題並生成類似於人類思維過程推理痕跡的能力。這些系統對一系列網際網路規模的任務進行預訓練，包括語言生成和視覺連接，以發展通用知識和感知基礎。與將視覺輸入直接對應到動作的標準VLA模型不同，推理VLA模型將複雜的任務分解成可管理的子問題，並以可解釋的形式闡明其推理過程。這使模型能夠更準確地解決問題或執行任務，還能對模型正在進行的操作提供一定程度的反思。建構推理VLA模型需要三種基本AI功能：視覺感知、語言理解以及動作和決策制定。視覺感知處理來自攝影機、毫米波雷達或雷射雷達等感知感測器的即時資料；語言理解通過自然語言處理解釋命令、上下文提示和對話輸入；動作和決策制定則使用融合的感官和語言資訊來計畫、選擇和安全地執行任務，同時生成可解釋的推理痕跡。在自動駕駛場景中，推理VLA可以對交通狀況進行逐步推理。例如，接近一個十字路口時，系統可能會進行如此推理："我看到一個停止標誌，左邊有車輛駛來，還有行人正在過馬路。我應該減速，完全停下來，等待行人通過人行橫道，安全時再繼續前進。"完整開放生態系統支援開發除Alpamayo 1模型外，輝達還發佈了配套的模擬工具和資料集，建構完整的開發生態系統。AlpaSim是一個完全開放原始碼的端到端模擬框架，用於高保真自動駕駛開發，現已在GitHub平台發佈。它提供真實的感測器建模、可配置的交通動態和可擴展的閉環測試環境，實現快速驗證和策略最佳化。輝達還提供了面向自動駕駛最多樣化的大規模開放資料集，包含超過1700小時的駕駛資料，涵蓋最廣泛的地理位置和條件範圍，覆蓋罕見且複雜的真實世界邊緣案例，這對於推進推理架構至關重要。這些資料集可在Hugging Face平台獲取。這些工具共同為基於推理的自動駕駛技術堆疊建立了一個自我強化的開發循環。開發者可以利用這些資源在專有車隊資料上微調模型，將其整合到基於輝達DRIVE AGX Thor加速計算建構的輝達DRIVE Hyperion架構中，並在商業部署前通過模擬驗證性能。業界領軍企業表達支援據輝達介紹，多家移動出行領域的領軍企業對Alpamayo表示了濃厚興趣。Lucid Motors高級駕駛輔助系統和自動駕駛副總裁Kai Stepper表示："向物理AI的轉變凸顯了AI系統對真實世界行為進行推理能力的日益增長的需求，而不僅僅是處理資料。先進的模擬環境、豐富的資料集和推理模型是這一演進的重要元素。"捷豹路虎產品工程執行總監Thomas Müller表示："開放、透明的AI開發對於負責任地推進自動移動出行至關重要。通過開源Alpamayo等模型，輝達正在幫助加速整個自動駕駛生態系統的創新，為開發者和研究人員提供新工具，以安全地應對複雜的真實世界場景。"Uber全球自動移動出行和配送負責人Sarfraz Maredia表示："處理長尾和不可預測的駕駛場景是自動駕駛的決定性挑戰之一。Alpamayo為行業創造了令人興奮的新機遇，可以加速物理AI、提高透明度並增加安全的L4級部署。"加州大學伯克利分校DeepDrive聯合主任Wei Zhan表示："Alpamayo組合的推出代表著研究社區的一次重大飛躍。輝達決定公開這一技術具有變革意義，因為其存取權和能力將使我們能夠以前所未有的規模進行訓練——為我們提供了將自動駕駛推向主流所需的靈活性和資源。"跨行業AI模型全面開放本周一，輝達還發佈了推動各行業AI發展的多個新開源模型、資料和工具。這些模型涵蓋用於代理AI的輝達Nemotron家族、用於物理AI的輝達Cosmos平台、用於機器人的輝達Isaac GR00T以及用於生物醫學的輝達Clara。輝達還提供了開源訓練框架和全球最大的開放多模態資料集合之一，包括10兆語言訓練標記、50萬個機器人軌跡、45.5萬個蛋白質結構和100TB的車輛感測器資料。輝達代理式AI基礎模型Nemotron發佈了語音、多模態檢索增強生成（RAG）和安全相關的新模型。Nemotron Speech包含業界領先的開源模型，為即時字幕和語音AI應用提供即時、低延遲語音識別。Nemotron RAG包含新的嵌入和重排序視覺語言模型，提供高度精準的多語言和多模態資料洞察。在物理AI和機器人領域，輝達發佈了Cosmos開放世界基礎模型，為加速物理AI開發和驗證帶來類人推理和世界生成能力。Isaac GR00T N1.6是一個開放推理VLA模型，專為人形機器人打造，實現全身控制，並使用輝達Cosmos Reason實現更好的推理和上下文理解。輝達稱，博世（Bosch）、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和Uber等科技業的領頭羊正在採用並基於輝達的開源模型技術進行開發。輝達的開源模型、資料和框架現已在GitHub和Hugging Face平台發佈，並可通過一系列雲、推理和AI基礎設施平台以及build.nvidia.com獲取。這些模型中的許多還以輝達NIM微服務的形式提供，可在從邊緣到雲端的任何輝達加速基礎設施上進行安全、可擴展的部署。 (invest wallstreet)

輝達開源最新VLA，能否破局L4自動駕駛？

隨著大模型深度融入汽車行業，行業競爭正從功能實現轉向高階智駕能力的比拚，而VLA（Vision-Language-Action Model，視覺語言行動模型）被視為下一代技術競爭的關鍵變數。圖片由AI生成當地時間12月1日，輝達（NVIDIA）宣佈正式開源其最新自動駕駛“視覺—語言—行動”（VLA）模型 Alpamayo-R1，該模型能夠同時處理車輛攝影機畫面、文字指令，並輸出行車決策，已在GitHub和Hugging Face平台開源，並同步推出Cosmos Cookbook開發資源包。這是行業內首個專注自動駕駛領域的開源VLA模型，輝達此舉旨在為L4級自動駕駛落地提供核心技術支撐。值得注意的是，輝達Alpamayo-R1相較於傳統黑盒式自動駕駛演算法，主打“可解釋性”，能夠給出自身決策的理由，有助於安全驗證、法規審查與事故責任判定。而輝達同時發佈“Cosmos Cookbook”等配套工具，能夠支援企業和開發者快速訓練、評估與部署。業內認為，輝達試圖通過開放核心技術，降低自動駕駛開發門檻，加速軟體棧標準化，打破原來Robotaxi昂貴的“全端自研”模式，從而轉變為可快速組裝的“Android式”生態。不過也有業內人士向筆者表示，此次輝達Alpamayo-R1開源與百度Apollo開源類似，對自動駕駛領域的入門選手來說有價值，但對專業公司來說意義不大。目前，VLA正成為智能駕駛領域公認的下一代核心技術，相關企業都在加碼佈局。國內理想汽車、小鵬汽車、長城汽車（已搭載於魏牌藍山）、元戎啟行等都已在VLA上實現量產落地。解決傳統“端到端”模型痛點傳統的端到端模型像一個“黑盒”，可能“看得見但看不懂”，在面對違規左轉、行人闖入等長尾場景時容易“翻車”。而相較於傳統“端到端”模型，VLA通過引入語言模態作為中間層，將視覺感知轉化為可解釋的邏輯鏈，從而具備了處理長尾場景和複雜突發狀況的潛力，讓機器像人類一樣“觀察、推理、決策”，而不僅僅是海量資料的簡單對應。自動駕駛領域的VLA（視覺－語言－動作）大模型，代表了將視覺感知、語言理解與決策控制深度融合的技術方向。它能直接輸出車輛的駕駛動作，其核心好處是，讓機器有了更強的環境理解與推理能力、更高效的一體化決策、更強大的長尾場景應對、更透明的人機互動與信任建構、更自然的車控方式等。此次輝達開放原始碼的VLA模型Alpamayo-R1，基於全新的 “因果鏈”（Chain of Causation， CoC）資料集訓練。每一段駕駛資料不僅標註了車輛“做了什麼”，更註明了“為什麼這樣做”。例如，“減速並左變道，是因為前方有助動車等紅燈，且左側車道空閒”。這意味著模型學會的是基於因果關係的推理，而非對固定模式的死記硬背。同時，基於模組化VLA架構，輝達Alpamayo-R1將面向物理人工智慧應用預訓練的視覺語言模型Cosmos-Reason，與基於擴散模型的軌跡解碼器相結合，可即時生成動態可行的規劃方案；以及多階段訓練策略，先通過監督微調激發推理能力，再利用強化學習（RL）最佳化推理質量——借助大型推理模型的反饋，並確保推理與動作的一致性。輝達公佈的資料顯示：Alpamayo-R1在複雜場景下的軌跡規劃性能提升了12%，近距離碰撞率減少25%，推理質量提升 45%，推理－動作一致性增強37%。模型參數從0.5B擴展至7B的過程中，性能持續改善。車載道路測試驗證了其即時性表現（延遲99毫秒）及城市場景部署的可行性。也因此，輝達Alpamayo-R1有望給L4自動駕駛帶來能力的躍遷，Robotaxi有望安全地融入真實、混亂的公開道路。成為自動駕駛賽道的“Android”從這次開源Alpamayo-R1，可以再次看出輝達在自動駕駛領域的野心，已經不滿足於只是“硬體供應商”，而是要做成自動駕駛賽道的“Android”。其實，早在今年10月份，輝達就對外低調發佈了Alpamayo-R1大模型。而在華盛頓GTC大會上，輝達發佈了自動駕駛平台——NVIDIA DRIVE AGX Hyperion 10。Hyperion 10被認為是輝達自動駕駛的“身體”，而Alpamayo-R1則是自動駕駛的大腦。值得注意的是，Hyperion 10實現了“從模擬到實車”的閉環：在雲端，DGX超級電腦使用DRIVE Sim生成高保真模擬資料，用於訓練DRIVE AV模型；在車端，Hyperion 10的感測器資料與Thor晶片無縫對接。因此，如果一家車企想快速推出具備L4級能力的車型，不需要再分別組建龐大的硬體整合、軟體演算法和資料訓練團隊，採用輝達的整套方案可以快速實現上車。同時，輝達也在建構一個“Android式”的Robotaxi生態，並對外公佈了明確的落地時間表：2027年起部署10萬輛Robotaxi。目前，輝達已宣佈與Uber、奔馳、Stellantis、Lucid等公司合作，共同打造“全球最大L4級自動駕駛車隊”。截至2025年10月，輝達的雲端平台已積累超過500萬小時的真實道路資料。輝達的入場，正在將Robotaxi的競爭從單一的技術比拚，引向生態模式的對決。封閉模式除了導致重複的研發投入，更深刻的弊端是形成了“資料孤島”。Waymo的美國道路經驗難以惠及中國車企，每個玩家都在獨立而緩慢地跨越技術曲線。輝達的開放生態，有機會在確保資料隱私和安全的前提下，推動生態內玩家共享經過匿名化處理的特徵資料。例如，A車企在特定路口遇到的極端場景資料，可以轉化為脫敏後的訓練特徵，幫助B車企的模型更快地識別類似風險。如果輝達能夠成為自動駕駛領域的“Android”，將有望帶動整個生態的技術迭代速度從線性轉變為指數級提升。這不僅是技術共享，更是成本共擔。共同應對長尾場景這一行業最大難題的邊際成本，將隨著生態的擴大而持續降低。元戎啟行CEO周光預測，VLA帶來的可能是 “斷層式的領先”，並成為下一代競爭的關鍵變數。DeepWay深向CTO田山告訴筆者，VLA是目前自動駕駛行業非常火的一項技術，研究者眾多，能極好地提高自動駕駛模型的泛化能力及推理能力，輝達開源Alpamayo-R1，使得這項很火且很有前途的自動駕駛技術有更多的人可以參與研究並做出貢獻，能積極推進VLA技術的發展和落地，而這項技術也能應用在具身智能等物理AI的場景中。隱形門檻仍在前方不過，Alpamayo-R1目前要滿足車規級時延，還需要在RTX A6000 ProBlackwell等級的卡上運行——這張卡的INT8算力高達4000T，是Thor的6倍左右。輝達的商業模式決定了，其開源是為了更好地銷售其硬體和全端解決方案。Alpamayo-R1模型與輝達的晶片（如Thor）及開發平台（如Drive）深度繫結，能實現更高的算力利用率。這意味著，選擇輝達生態在獲得便利的同時，也意味著在核心算力上與其深度繫結。另外，DeepWay深向CTO田山向筆者指出，VLA是不是最佳的自動駕駛技術，目前還在實踐過程中，而Alpamayo-R1模型工具鏈基於輝達的平台，對很多開發者來說也是一種限制，所以也有很多其他的技術和其他的計算平台在推進自動駕駛技術發展。在田山看來，多數公司應該更聚焦技術落地，也就是技術的工程化實現，解決實際場景的問題，早日實現智駕技術的商業化閉環更有益於行業的長久健康發展。此外，L4自動駕駛的落地或者說Robotaxi的規模化商業化，還與政策與法規息息相關。同時，如何在合規框架內營運、如何通過安全評估、如何在資料利用與隱私保護間取得平衡，這些能力的重要性，並不亞於技術本身。輝達的黃仁勳一直將Robotaxi視為“機器人技術的首個商業化應用”，輝達一直要做的不是一輛無人計程車，而是讓所有玩家都能做出無人計程車的技術底座。如今，他正試圖通過開源VLA，為這個應用打造一條可以快速複製的生產線。但最終能否通過開源降低准入門檻，加速推動L4自動駕駛到來，讓技術的潮水湧向更廣闊的商業海岸，輝達Alpamayo-R1模型的開源，只是遊戲的開始，後面還有門檻要邁，還需要市場來驗證。 (鈦媒體AGI)

開除！字節打響“AI軍紀”第一槍

11月12日下午，字節跳動一則短短的人事消息，在科技圈炸開了鍋。任某某，字節跳動大模型團隊（Seed）的研究員，因洩密遭到公司開除。據澎湃新聞、證券時報等多家媒體證實，當事人已於11月11日辦完離職，距離通報僅隔一天。任某某是機器人系統整合的專家。作為擁有8.6萬粉絲的大V，他曾在知乎上透露，自己深度參與了字節機器人操作大模型GR-3的研發。而這一事件的意義遠不止於普通的人事處罰——這是中國大廠首次因洩密解僱AI核心研發人員，也象徵著字節跳動率先打響了大廠內部整頓“AI軍紀”的第一槍。據任某某在知乎帳號上展示的資訊，他於2015年畢業於浙江大學機電工程專業，2019年在義大利獲得機器人學博士學位，隨後回國進入機器人行業。▲來源：知乎入職字節跳動之前，任某某先後在山東的機器人公司珞石科技擔任機電工程師，之後加入小米公司，任高級研發工程師。2023年，他再次跳槽，進入字節跳動的Seed團隊，主要負責機器人系統整合相關研究。在字節期間，他很快接觸到新一代 Vision-Language-Action（VLA）模型——GR-3項目。今年7月，他曾對外詳細解讀過該項目的技術原理。不過，大皖新聞11月17日報導稱，據接近字節的知情人士透露，任某某的洩密行為是多次接受諮詢機構的付費訪談，洩露商業保密資訊，此事與他在知乎上的技術分享沒有關係。事實上，對資訊安全的重視在字節早已有跡可循。今年9月，字節跳動企業紀律與職業道德委員會發佈二季度員工違規處理情況，100名員工因觸犯公司紅線被辭退。通報中特別提到，有10名員工因違規參與外部付費訪談、洩露公司保密資訊而受到處罰。字節專門提醒員工，對外部諮詢公司以“專家訪談”“行業研究”等名義發起的有償邀約務必提高警惕，避免洩露機密。從任某某的處理結果可以看出，字節跳動在人工智慧領域的資訊保密機制正變得更加系統化，對單點洩密事件的容忍度也在不斷降低。對於觸碰紅線的行為，字節態度明確：絕不姑息。類似因為員工洩密而遭開除的案例，在其他大廠同樣出現過。今年9月，小米中國區市場部總經理王騰被辭退。小米集團職業道德委員會通報稱：“（王騰）洩露公司機密資訊，且存在利益衝突等嚴重違規違紀行為。”雖然並未披露具體洩露內容，但足以體現小米對資訊安全的重視。米哈游也在同月宣佈，對傳播《原神》《崩壞：星穹鐵道》未公開內容的洩密者採取刑事強制措施，並對多名參與“解包”的人員申請訴中行為禁令，要求立即停止侵權。各家大廠一向高度重視內部資訊安全。據澎湃新聞報導，阿里巴巴在2016年發佈的《員工紀律制度》中明確規定，“任何非對外公開資訊”都屬於保密範疇，員工若洩露，無論是否造成後果，均將被辭退。即便是公司內部網路資訊，也在被禁止洩露之列。2021年8月，第一財經即援引彭博社消息稱，阿里巴巴將開除對外洩露內部網路文章的10名員工，不過對於此事阿里並未回應。洩密嚴重者可能還會涉及司法。2025年1月16日，騰訊集團發佈“反舞弊通報”，公開點名了21人，其中就包括S3-CSIG人力資源中心方某，由於向外部人員洩露公司內部保密資訊，涉嫌犯罪被移送公安機關處理，騰訊已將其列入黑名單，永不錄用。目前，大廠雖鮮少公開專門針對AI的保密制度，但在2025年這一技術躍遷期，關鍵技術與模型細節成為核心競爭力，其安全性的重要性無需多言。字節跳動首次因洩密而開除AI高級研發人員，也意味著中國大廠正式吹響了整頓“AI軍紀”的第一槍。在全球AI競爭最激烈的矽谷，各大科技公司更是早將資訊安全視為核心防線，對洩密行為極度敏感，並建立了相對成熟、系統化的AI保密與應對機制。面對核心技術，包括涉及模型架構、訓練資料、演算法細節、推理框架、硬體最佳化方案或部署策略等關鍵環節資訊洩密事件的零容忍，已經成為矽谷公司行業共識，一旦發現員工洩密，輕則將其開除，重則都是——毫不猶豫地提起訴訟。今年備受關注的案例之一，是馬斯克旗下的xAI起訴前核心工程師李學宸的案件。李學宸是華人，他從xAI離職、套現約700萬美元股票後，便即刻加入了OpenAI。8月，xAI向加州聯邦法院提起訴訟，指控這位曾深度參與Grok聊天機器人訓練與開發的工程師，在離職前暗中拷走公司的核心商業機密——從模型原始碼、訓練資料，到未來數年的技術路線圖，幾乎涵蓋了一個大模型的命門。該案件目前還在初步訴訟階段，但法院已經對李學宸下達了臨時禁止令，禁止他在OpenAI參與任何與生成式AI技術相關的工作或交流。這起事件被媒體稱為今年最“狗血”的商戰案例——頂級工程師跳槽最直接的競爭對手、離職前涉嫌拷走大模型機密、臨走前還順手套現巨額股票，幾乎把矽谷最敏感、最戲劇化的元素一次性點滿。今年10月，巨量資料分析公司Palantir也爆出一樁重量級“AI商戰案”。公司將兩名前資深AI工程師告上紐約聯邦法院，指控他們在離職前擅自訪問並帶走了Palantir的“皇冠明珠”——包括核心演算法原始碼、模型架構，以及涉及政府與大型企業客戶的資料資產。更戲劇性的是，這兩人隨後成立了名為Percepta AI的新公司，被Palantir視為“對標產品”，幾乎是正面避險。Palantir的訴求十分激烈：禁止新公司繼續使用相關技術，並要求巨額賠償。目前風頭正盛的輝達，也因為洩密事件成了被告。2021年，法雷奧（Valeo）的一名前工程師跳槽至輝達後，在一次視訊會議中，意外洩露了法雷奧的智能泊車和高級駕駛輔助系統原始碼及相關文件。法雷奧隨後提起訴訟，指控輝達利用被洩露的技術加速自身研發，並要求巨額賠償。據報導，該工程師曾複製約27,000個檔案、6GB程式碼，其中涵蓋感測器融合、泊車任務、緊急剎車等核心模組。目前，案件仍在美國加州聯邦法院審理中，法院認為存在足夠的間接證據支援法雷奧的指控。但輝達方面否認故意利用對方商業秘密，並稱發現問題後已進行內部調查和清理。無論是李學宸案，還是Palantir案、輝達案，其本質都是生成式AI軍備競賽中的技術爭奪戰——一旦演算法、資料和核心人才三條線被同時撬動，對任何企業來說都如同被人掏空了根基，自然是無法容忍的。一些公司甚至對發表不當言論的員工，也會直接將其開除。2022年，公開聲稱Google大模型LaMDA對話式人工智慧具有感知能力的工程師Blake Lemoine，就因觸犯了公司禁忌而被問責。他關於“AI已經像人類一樣擁有情感和靈魂”的言論引發業內廣泛討論，有人認為他對AI潛在“感知”能力的敏感揭露了未來風險，也有人批評他的結論是主觀臆斷。但Google不管那麼多，立即以“違反保密協議”為由將其解僱。Google發言人在給媒體的一封郵件中證實了這次解僱：“我們希望Lemoine一切順利。”或許有人會覺得，矽谷對員工洩密的反應過於苛刻？但在很多公司高管的認知中，目前對洩密的懲處都還是太輕了。在大模型競賽中，每一次關鍵迭代都意味著巨額投入。一旦核心技術或訓練資料外洩，對企業來說不僅是經濟損失，更可能動搖其技術護城河，帶來災難性後果。比如GPT-4的訓練成本，曾被科技媒體和研究機構估算為約7800萬美元；而Google的Gemini Ultra，據多家分析報告推算，其單次訓練成本甚至達到1.91億美元的量級。arXiv上的論文《前沿AI模型訓練成本持續上漲》（The rising costs of training frontier AI models）進一步指出，前沿模型的訓練費用正以接近指數級的速度攀升，按照其趨勢估算，到2027年，單次訓練一次頂級模型的成本可能突破10億美元。在這種背景下，馬斯克對李學宸洩密事件如此震怒，也就不難理解了。Grok是xAI的王牌，是馬斯克押注未來的核心資產。今年7月發佈的Grok 4，被他稱為“世界上最聰明的人工智慧”，並宣稱已在綜合能力上超越包括OpenAI o3、Gemini 2.5 Pro、Claude 4 在內的主流頂級模型。更關鍵的是，xAI在訴狀中明確表示：如果洩露的Grok相關技術被競爭對手（例如OpenAI）採用，對方可能獲得“壓倒性優勢”。換句話說，這不是普通的資訊洩露，而是可能讓競爭對手直接跳躍數年的研發周期，從而改寫整個行業格局，並對xAI造成滅頂之災。‌因此，保密關乎安危，在AI軍備競賽中是“基礎軍紀”。一方面，AI技術本身就具有極高的敏感度。模型架構、訓練資料、最佳化演算法等核心資產全部是“純數位化”的，無需攜帶硬體即可被複製、外傳。一旦流出，複製成本接近於零，而造成的競爭損害卻幾乎不可逆。李學宸案、Palantir案以及輝達–法雷奧案之所以最終走上法庭，正是因為相關企業評估後認為：這些洩密可能帶來的損失巨大到無法承受——甚至動搖公司的核心護城河，因此只能通過法律手段儘可能阻斷影響、降低損害。另一方面，人才流動正在放大洩密風險。從前述三起矽谷訴訟案可以清楚看到，幾乎所有洩密事件都源自人員變動——工程師離職、跳槽、甚至跨界合作，都可能成為技術外流的缺口。這也促使各家公司把“離職環節的風險管控”提升到前所未有的高度。隨著中國大模型競爭全面提速，AI競爭進入深水區，中國科技公司也必將向矽谷看齊：保密不是制度選項，而是生存底線。 (華商韜略)

蔚小理大洗牌，何小鵬拿下第一，徹底起飛

“蔚小理”的時代結束了。眾所周知，中國三大造車新勢力，被大家稱之為“蔚小理”，分別指的是蔚來、小鵬、理想。三家各憑本事，掘金市場。十年風雨，市場格局早已悄然生變，曾經的“蔚小理”，如今或許該讓位於“小理蔚”了。這場所謂的新勢力“三國殺”，越來越有意思了。小鵬汽車股價大漲，開始翻盤前不久，小鵬女機器人IRON邁著貓步驚豔亮相，讓全網為之震撼，熱度和討論度齊飛。這款機器人瞬間顛覆了網友對機器人的想像，也振奮了市場。2025年11月10日美股收盤，小鵬汽車股價大漲16.15%，最新市值達到248.22億美元。11日港股收盤，小鵬汽車股價大漲17.93%，報108.500港元/股，最新市值2072億港元。圖源：百度股市通這個資料超越了吉利汽車的1833億港元。同一時間，理想汽車最新市值為1608億港元，蔚來最新市值為1353億港元。圖源：百度股市通市值，作為市場對企業綜合實力和未來發展潛力的一種量化體現，在一定程度上可以反映投資者對企業的品牌認可度。從市值這個維度來看，小鵬汽車已經坐上了“蔚小理”的頭把交椅。今天，“小鵬汽車大漲超16%”的話題還沖上了微博熱搜。圖源：微博熱搜除了市值，汽車交付數量也是一個可以參考的資料。今年10月，小鵬汽車共交付新車42013台，同比增長76%，環比增長1%，單月交付量創下歷史新高，並連續2個月交付量超過4萬台；蔚來交付了40397輛汽車，創下新的月度紀錄，同比增長 92.6%；理想汽車交付新車31767輛。就最新交付量而言，小鵬汽車也展現了不小的實力，在“蔚小理”之中佔據第一的位置。當然了，市場唯一不變的就是變化本身，新能源汽車市場更是如此。我們也不能因為小鵬汽車目前在市值和交付量上的領先，就斷言“小理蔚”的格局能夠走到最後。新能源汽車市場是一個充滿變數和挑戰的領域，技術更新換代快，消費者需求也在不斷變化，小鵬、理想、蔚來的角逐遠遠沒有到結束的時候。至於這“三兄弟”未來發展如何，誰也說不準。小鵬女機器人震驚全網接下來，我們重新回到小鵬汽車身上。那麼，小鵬汽車股價為何快速拉升？原因恐怕跟那位能走貓步的女機器人脫不了關係。近日，在小鵬科技日上，小鵬汽車發佈了小鵬第二代VLA大模型、小鵬Robotaxi、全新一代IRON人形機器人、匯天飛行汽車四項“物理AI”應用。其中，全新一代IRON人形機器人引發了市場的高度關注。這位機器人邁著優雅的貓步緩緩走來，步態輕盈絲滑，酷似真人。何小鵬現場表示：“在過去的7年時間，我們為了讓走路輕盈、姿態優美，做出了無數的努力。”全新一代IRON人形機器人就因為太像“人”了，還引發了網友的質疑。彼時，“小鵬機器人會走貓步太像人了”的話題沖上熱搜，不少網友斷言，“絕對是真人”。還有人逐幀分析視訊畫面，盯著細節較真，“你看它臀部有肌肉起伏，衣服還有自然褶皺，絕對是真人扮演的！”圖源：微博熱搜還有網友分析：頭部能看到耳朵輪廓；0.5倍放慢動作，會翹腳尖、重心偏移。“這麼像人，怎麼可能是機器？”總之，各種猜測都有。後面還逼得何小鵬“扒衣”自證。視訊中，何小鵬先讓IRON機器人走了幾步貓步，隨後把機器人衣服扒開，可以看到內部是白色背板，中間是孔洞設計以及不停閃爍的紅燈。圖源：何小鵬小紅書何小鵬在視訊裡無奈地感慨，“總有人不相信這個世界變化得這麼快”，他還專門展示了機器人在零下10度的低溫條件下運行的場景，強調“真人根本沒法在這種極端的環境里長時間裸皮工作。”何小鵬的澄清視訊“打臉”了網友。不過主編認為，有一位網友的話說對了，“當你質疑機器人裡面是真人的時候，小鵬就已經贏了。”那麼，這個機器人有何特殊之處？據介紹，新一代人形機器人IRON首發應用全固態電池，並搭載3顆圖靈晶片和物理世界大模型。除此之外，全新一代IRON擁有仿人的脊椎、仿生肌肉、全包覆柔性皮膚的人形機器人，支援不同身材體型定製；同時，應用全固態電池技術，實現輕量化、超高能量密度與安全，為人形機器人長續航與複雜環境下的安全運行提供保障。何小鵬表示，機器人項目早在七年前就已啟動研發，小鵬的目標是在2026年底實現規模量產高階人形機器人。同時，小鵬將開放機器人IRON的SDK，與全球開發者共建人形機器人應用生態。不可否認，小鵬汽車最新發佈的人形機器人IRON確實驚豔了市場。有業內人士分析，“小鵬汽車股價顯著上漲，主要受益於市場對機器人技術及其商業應用前景的樂觀預期。尤其是小鵬發佈的人形機器人，在展示出流暢自然的動作與先進的人工智慧後，獲得了市場的廣泛關注和投資者的認可。這直接促成了股價的積極反應。”消息稱，摩根士丹利、德意志銀行、花旗、中金公司等多家頭部機構紛紛發佈報告強推小鵬汽車。另外，據高盛最新發佈的調研報告，中國人形機器人供應商已啟動“產能先行”策略，正在中國及海外積極規劃產能，以支援潛在的人形機器人大規模生產。時間點方面，供應鏈共同預期大規模量產的爆發點或在2026年下半年。另外，小鵬汽車X9超級增程也已經正式開啟預售。對此，何小鵬表示，“小鵬不僅僅是一家純電車公司了。”可以說，小鵬汽車蓄勢待發，迎來了關鍵節點。不過，從潛在風險角度來看，小鵬汽車依然面臨著不少挑戰。小鵬汽車的新業務要實現全面商業化和技術普及，仍需克服許多技術挑戰，競爭也非常激烈。另外，增程新產品同樣面臨眾多對手。至於財報資料，目前，小鵬汽車仍處虧損狀態。對於何時實現由虧轉盈，小鵬汽車預計，2025年第四季度將有望實現盈利。理想、蔚來機遇與挑戰並存說完小鵬汽車，再來看看理想和蔚來。今年，理想i8絕對是李想押注的重點，在發佈前的很長一段時間中，理想都在認真為理想i8預熱。李想本人也頻頻在社交平台中發聲、乘坐理想i8在蘇超比賽中現身，還登上了央視的《對話》欄目。李想曾稱i8在純電六座SUV市場“無對手”，但理想很豐滿，現實很骨感。理想i8上市後未公佈大定數量，引發市場對其“遇冷”的猜測，同時因一段與乘龍卡車的對撞測試視訊陷入輿論爭議。另外，2025年的六座純電市場，問界M8、領克900、特斯拉Model Y L紛紛上陣，已經高手雲集。而且李想還有其他的麻煩。前不久，上海理想MEGA無故起火事件引發廣泛關注。10月31日，理想汽車對事故發生進行了道歉，並且發佈公告稱，自2025年11月7日起，將召回生產日期從2024年2月18日至2024年12月27日的理想MEGA 2024款汽車，共計11411輛。總之，李想今年過得不是太順利。再來看看蔚來，李斌今年最大的目標就是在四季度實現盈利，他說，“對於現在的蔚來而言，活下去是最重要的。”在產品方面，除了全新ES8，樂道L90也成為了爆款。對於盈利目標，李斌表示，今年銷量和毛利率都不錯，比原來的車要好。四季度沒有新車沒有 NIO Day，花錢的事第三季度都搞完了，所以都是有機會的。李斌還開玩笑稱：“但調門也不能搞太高，大家如果每年還想見我，就多幫賣點車吧，哈哈。”三家企業都在為了爭奪市場份額而全力以赴。總的來說，在這場激烈的競爭中，誰能夠持續創新、精準把握市場需求、不斷提升使用者體驗，誰才有可能在這場新勢力“三國殺”中笑到最後。 (網際網路頭條)

聽說字節要造機器人，月薪開12萬

宇宙廠要造機器人？據科創板日報、第一財經等多家媒體報導，字節跳動旗下的火山引擎團隊，正以高達9.5萬至12萬的月薪招聘操作演算法資深專家（具身智能）。按照職位描述，這個崗位主導研發“人形具身機器人”的操作演算法，包括但不限於演算法架構設計，抓取演算法，VLA模型研發，靈巧手等方向的工作。職位描述中的五大核心職責，包括“主導研發人形具身機器人的操作演算法”、“參與具身大模型的預訓練與部署”以及“推動演算法在硬體上的系統整合與部署”等。這份對人才的要求，勾勒出字節跳動意在打造一個整合先進大模型、具備複雜操作能力的具身智能體。除了操作演算法資深專家，字節跳動同時也在招聘具身智能資料開發工程師、具身智能推理性能最佳化工程師、運動控制演算法資深專家等具身領域相關崗位。開這麼高的工資，說明不是“端側小應用”，而是面向通用具身智能棧的投入。字節造機器人不是新鮮事，只不過之前造的是輪式物流機器人。據“晚點LatePost”披露，字節跳動的機器人探索始於 2020 年，2023年7月時已有50人團隊。到2025年已累計量產超千台。今年開始在具身智能發力。7月，字節跳動Seed團隊今日發佈通用機器人模型GR-3。這是一款VLA模型，也就是機器人的大腦，能讓機器人理解指令、操作柔性物體，甚至雙手協同幹活。同樣是7月，發佈高自由度靈巧手ByteDexter，具備20個自由度，可以通過遙操作等輔助裝置實現人手的靈巧操作。9月， Seed 團隊發佈最新的機器人研究成果——Robix，一個旨在提升機器人思考、規劃與靈活互動能力的“機器人大腦”。據“機器之心”報導，搭載 Robix 的機器人已展現出一系列過去難以實現的複雜互動能力。比如，在做飯時，它不僅能根據菜名（如“魚香肉絲”）準備食材，還能主動發現缺少配料並詢問是否需要補齊。10月，火山引擎還與賽力斯集團旗下重慶鳳凰技術有限公司簽署具身智能業務合作協議，合作範圍包括“面向多模態雲邊協同的機器人決策、控制與人機協作技術”。字節提供AI技術支援——包括AI演算法、算力、多模態模型等；賽力斯提供產業場景和落地經驗——包括真實的產業需求、測試環境，並負責將技術最終落地到汽車、機器人產品中。如果把機器人“拆”開來，字節跳動已經在機器人的大腦、手、腿、演算法、場景等都開始各自有所進展了。為什麼現在又要招人做完整的機器人？字節跳動的優勢在於多模態大模型與流量分發。而具身智能需要長時程、閉環互動資料（視覺-觸覺-動作-語言）。把機器人引入“倉配/門店/內容生產”多場景，能產生高價值對齊資料，反哺其Agent與VLA模型。“未來程式碼局”則認為，全球網際網路的線上使用者增長和使用時長都已見頂，“線上流量”枯竭了。新的流量在物理世界。具身智慧型手機器人是終極的資料採集終端。它擁有視覺、聽覺、觸覺，它在現實世界中24小時不間斷地與環境互動、收集資料。這些資料是訓練更強大AI的“完美燃料”。對於字節來說，佈局具身智能，不僅是開闢新業務，更是為了獲取“下一代流量”——物理世界的資料流，從而延續其“資料-演算法-產品”的核心優勢。另外，由前字節跳動財務投資部負責人楊潔創立的錦秋基金（字節跳動為其出資方之一），正在深度佈局具身智能產業鏈正在深度佈局具身智能產業鏈，已投了星塵智能、樂享機器人、首形科技等機器人公司。 (鉛筆道)