#端到端
特斯拉世界模擬器亮相ICCV!VP親自解密端到端自動駕駛技術路線
特斯拉世界模擬器來了!這些看似真實的駕駛場景,全都是用模擬器生成:這個模擬器在今年的電腦視覺頂會ICCV上亮相,由特斯拉自動駕駛副總裁Ashok Elluswamy親自講解。網友看了之後表示,這個模型實在是泰褲辣。同時,Elluswamy也首次揭秘了特斯拉的自動駕駛技術路線圖,表示端到端才是智能駕駛的未來。世界模擬器生成自動駕駛場景除了開頭看到的多場景駕駛視訊,特斯拉的世界模擬器還可以為自動駕駛任務生成新的挑戰場景。比如右側的車輛突然連並兩條線,闖入預設的駕駛路徑。也可以讓AI在已有的場景中執行自動駕駛任務,躲避行人和障礙物。模型生成的場景視訊,除了讓自動駕駛模型在裡面練手,也可以當成電子遊戲,供人類玩耍體驗。當然除了駕駛相關,對其他具身智能場景——比如特斯拉的柯博文機器人——也同樣有用。與這個模型一同被揭秘的,還有特斯拉在自動駕駛上的一整套方法論。特斯拉VP:端到端才是自動駕駛的未來ICCV演講中,特斯拉自動駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術細節,同時還在X上發表了文字版本。Ashok首先明確,端到端AI才是自動駕駛的未來。特斯拉利用端到端神經網路實現自動駕駛,這個端到端神經網路會利用來自各個攝影機的圖像、運動訊號(例如車速)、音訊、地圖等資料,生成驅動汽車的控制指令。與端到端相對的另一種方法是採用大量感測器的模組化駕駛,這類系統的優勢是在初期更容易開發和偵錯,但相比之下,端到端的優勢更加明顯:將人類價值觀規則化極其困難,但從資料中學習則容易;模組化方法中感知、預測和規劃之間的介面定義不明確,但在端到端中梯度從控制一直流向感測器輸入,從而整體最佳化整個網路;端到端方法可輕鬆擴展以處理現實世界機器人的繁重和長尾問題;端到端具有確定性延遲的同質計算。Ashok舉了一些例子,比如車輛行駛過程中發現前方路面存在積水,此時有兩種策略,一是直接從積水上開過,二是借用對向車道繞過積水。駛入對向車道是危險的,但在這個具體場景中視野開闊,在避開水坑所需的路程之內對向車道沒有車輛,借用對向車道避開水坑是一種可行的選擇。這種權衡取捨就很難用傳統的程式設計邏輯來表達,而對於人類來說,這在觀察場景時卻相當簡單。基於以上考慮及其他因素,特斯拉採用了端到端的自動駕駛架構,當然,端到端系統也仍有許多挑戰需要克服。特斯拉如何解決端到端自動駕駛困難端到端自動駕駛面臨的困難,其中之一就是評估。特斯拉推出的世界模擬器,也正是針對這一難題。該模擬器使用特斯拉篩選出的同樣的海量資料集進行訓練,其功能並非預測給定狀態下的行動,而是根據當前狀態和下一步行動來合成未來狀態。這樣的狀態可以與智能體或策略AI模型連接起來,以閉環方式運行,從而評估性能。同時,這些視訊並不侷限於評估,它還可以用於閉環大規模強化學習,從而實現超越人類的表現。除了評估之外,端到端自動駕駛還面臨“維數災難”,以及可解釋性和安全性保證的問題。在現實世界中,想讓自動駕駛系統安全運行,就需要處理高影格率、高解析度、長上下文輸入。假設輸入資訊包括7個攝影機×36FPS×5 百萬像素×30秒的場景畫面、未來幾英里的導航地圖和路線、100Hz的運動資料,以及48KHz的音訊資料,大約會有20億輸入Token。神經網路需要學習正確的因果對應,將這20億個Token精簡為2個,即車輛的下一個轉向和加速動作。在不學習虛假相關性的情況下學習正確的因果關係是一個極其棘手的問題。為此,特斯拉通過龐大的車隊,每天收集相當於500年駕駛總和的資料,並使用複雜的資料引擎篩選最高品質的資料樣本。使用這樣的資料進行訓練,就能讓模型獲得極高的泛化能力,從而應對極端情況。對於可解釋和安全性問題,如果車輛的行為不符合預期,端到端系統的偵錯可能就會變得很困難,但模型也可以生成可解釋的中間Token,可以根據情況用作推理Token。特斯拉的生成式高斯潑濺就是這樣一項任務,它具有出色的泛化能力,無需初始化即可建模動態物體,並可與端到端模型聯合訓練。其中所有的高斯函數都是基於量產車配置的攝影機生成的。除了3D幾何之外,推理還可以通過自然語言和視訊背景進行。該推理模型的一個小版本已經在FSD v14.x版本中運行。更多技術細節,可以到Ashok的文章和原始演講視訊當中一探究竟。端到端自動駕駛兩大路線:VLA還是世界模型?雖然端到端被視為自動駕駛的未來,但在業界,具體的軟體演算法路線也一直存在VLA和世界模型之爭。以國內為例,華為和蔚來都是世界模型路線的代表,元戎啟行和理想則選擇VLA路線,另外也有一些玩家認為應該將兩者結合。VLA玩家認為,該範式一方面可以應用網際網路已有的海量資料,積累豐富常識,進而理解世界。另一方面模型通過語言能力實際上是具備了思維鏈能力,能夠理解長時序資料並進行推理。更尖銳的觀點認為,有些廠家不用VLA是因為算力不夠,帶不動VLA模型。世界模型玩家們則堅持世界模型更接近問題本質,例如華為車BU CEO靳玉志認為“VLA這樣的路徑看似取巧,並不能真正走向自動駕駛”。而現在,特斯拉的方案之所以備受關注,也正是因為在自動駕駛發展歷程中,馬斯克從未有過“選錯”。特斯拉選什麼路線,VLA還是世界模型,關於端到端自動駕駛兩大技術路線的歷史性決戰。你看好VLA,還是世界模型?參考連結:[1]https://x.com/Tesla/status/1982255564974641628[2]https://x.com/aelluswamy/status/1981644831790379245 (量子位)
高盛:AI敘事的五大核心爭議
一、爭議1:消費端 AI 使用現狀如何?使用者習慣是否在重構?消費端AI 呈現 “高滲透、低 monetization” 特徵,使用者行為分化明顯,2026 年將成商業化關鍵節點:使用者規模爆發,使用場景分化消費級AI 工具使用者增長迅猛,OpenAI 2025 年 7 月資料顯示 ChatGPT 周活躍使用者達 7 億,較上線初期翻倍;但不同平台功能定位差異顯著 ——ChatGPT 非工作場景佔比 70%(如資訊查詢、創意寫作),Anthropic 的 Claude 則 36% 用於編碼 / 計算類技術任務,體現 “場景細分” 趨勢。此外,90% 企業員工會用個人 AI 工具處理工作,但僅 40% 企業採購官方大模型訂閱,形成 “影子 AI 經濟”。商業化滯後,2026 年迎突破當前消費AI monetization 仍依賴專業訂閱(如 ChatGPT Plus),廣告與電商場景尚未規模化。貝恩資料顯示,2030 年 AI 企業需實現 2 兆美元年收入才能覆蓋算力成本,但預計存在 8000 億美元缺口。不過 2025 年 Q3 已出現商業化突破訊號:OpenAI 推出 “ChatGPT 即時結帳” 功能,支援使用者在對話中直接購買 Etsy、Shopify 商品;Google與 PayPal 合作打造 “智能代理電商”,AI 可自動完成比價、下單,預計 2026 年廣告與電商相關收入佔比將超 30%。頭部平台壟斷,使用者粘性差距大全球AI 聊天機器人市場集中度高,ChatGPT 在全球與美國市場 MAU(月活使用者)均居首,Gemini 憑藉Google管道優勢位列第二,但使用者規模僅為 ChatGPT 的 50%;Claude、Perplexity 等平台 MAU 不足 ChatGPT 的 10%,且使用者集中在技術圈層。從日活(DAU)看,ChatGPT 全球 DAU 是 Gemini 的 2 倍,使用者粘性優勢顯著。二、爭議2:企業端 AI 部署進展如何?內部效率與外部創收差距顯著企業AI 呈現 “內部效率提升快、外部收入轉化慢” 的特點,僅 5% 企業實現可衡量的 P&L 影響,大型企業轉型領先:內部應用:降本增效成核心,頭部企業已見成效企業內部AI 部署聚焦 “減少營運摩擦”,如內容生成、軟體開發周期縮短(平均縮短 30%)、廣告創意自動化等。IBM 2025 年資料顯示,其內部 AI 工具實現 35 億美元年化效率節省,包括 HR 諮詢工具 AskHR 解決 94% 員工問題、IT 支援人員配比從 1/400 最佳化至 1/4000;Salesforce、Workday 等 SaaS 廠商也披露 AI 相關 ARR(年化經常性收入),其中 Workday 2025 年 Q2 AI ARR 達 1.5 億美元。但整體看,僅 5% 企業能通過 AI 實現財務層面的正向影響,多數仍停留在試點階段。外部應用:收入轉化滯後,廣告與電商是突破口企業AI 外部創收(如客戶服務、產品創新)進展緩慢,過去 18 個月僅 10% 企業通過 AI 實現市場份額提升。但部分行業已出現突破:廣告領域,Google Performance Max、Meta Advantage + 等 AI 工具正在替代傳統廣告代理功能,全球 1610 億美元廣告代理利潤池面臨重構;電商領域,AI 驅動的個性化推薦使轉化率提升 15%-20%,但中小平台因缺乏獨特庫存,面臨被 AI 購物助手 “繞過” 的風險(如使用者直接通過 AI 查詢商品而非訪問平台)。SaaS 廠商加速 AI 整合,併購補短板企業AI 工具依賴 SaaS 生態落地,2025 年頭部廠商通過 “自研 + 併購” 完善能力:微軟在 Build 大會升級 CoPilot 與 Power Automate 的整合,解決此前使用者反饋的 “功能割裂” 問題;ServiceNow 收購 MoveWorks 以補強 AI 客服能力。但當前 AI 收入佔比仍低,Workday AI ARR 僅佔總營收的 3%,Salesforce AI 相關收入佔比不足 5%,尚未成為核心增長引擎。三、爭議3:AI 支出當前規模與未來展望如何? hyperscalers 主導,2027 年支出將達 1.4 兆美元AI 支出呈現 “短期供需缺口、長期依賴利潤池重構” 特徵, hyperscalers(超大規模科技公司)是投資主力:2025 年支出爆發, hyperscalers 佔比超 70%全球AI 基礎設施支出 2025 年迎來拐點,美國五大 hyperscalers(亞馬遜、微軟、Google、Meta、甲骨文) capex(資本支出)合計達 3810 億美元,同比激增 68%;其中甲骨文與 OpenAI 的 5 年 300 億美元合作、輝達對 OpenAI 100 億美元投資(含晶片供應)成為標誌性事件。當前支出主要集中在算力基建(GPU 採購、資料中心建設),雲廠商 AI 訂單積壓規模達 800 億美元,若全部兌現,將支撐未來 2-3 年營收複合增長 15%+。2025-2027 年支出將破 1.4 兆美元,需利潤池支撐高盛預測,2025-2027 年全球 AI 相關 capex 將達 1.4 兆美元,但如此大規模支出需依賴 “行業利潤池重構” 才能可持續:目前僅廣告行業(1610 億美元代理利潤池)、企業效率(186 美元 / 人 / 月的 “無效工作” 成本節約,HBR 資料)有明確收益,未來需拓展至醫療、金融等領域(如 AI 輔助診斷、智能風控),若 2030 年未能開闢新利潤池,部分項目可能面臨回報不及預期風險。區域佈局分化,新興市場成增量hyperscalers 加速全球佈局,2025 年公告顯示:亞馬遜計畫 2029 年前在澳大利亞投資 200 億澳元建資料中心,在智利投資 40 億美元;微軟承諾 2028 年前向英國 AI 基建投入 300 億美元;輝達在英國投資 110 億英鎊,新興市場支出佔比從 2023 年 10% 升至 2025 年 25%,成為重要增量。四、爭議4:支撐 AI 長期部署需多少電力與基建?2030 年電力需求翻倍,60% 需新建發電設施AI 算力擴張帶來 “電力剛需”,2030 年全球資料中心電力需求將激增 165%,電網投資缺口達 7800 億美元:電力需求爆發,相當於新增一個“全球前十用電國”2025 年 Q2 全球資料中心電力需求為 62GW,其中 AI workload 佔 13%;預計 2027 年需求達 92GW(AI 佔比 28%),2030 年進一步增至 137GW,較 2023 年增長 165%,相當於新增一個德國的年度用電量。美國是核心需求國,60% 的電力需求需新建發電設施,預計新增 72GW 裝機容量,其中天然氣佔 60%、太陽能 25%-30%、風電 10%-15%。電網投資加碼,2030 年需 7800 億美元電力基建成為AI 落地關鍵瓶頸,2025 年 7 月高盛將 2030 年全球電網投資預期從 7200 億美元上調至 7800 億美元,重點投向配電網路(如智能電表、微電網)與輸電線路(以適配偏遠地區的資料中心)。當前制約因素並非電力成本,而是裝置供應(如變壓器交貨周期延長至 18 個月)、審批流程(美國新建輸電線路平均耗時 7 年)與勞動力短缺,可能導致部分 AI 資料中心投產延期。hyperscalers 主動佈局能源,降低依賴為緩解電力約束,科技巨頭開始垂直整合能源供應鏈:Google投資30 億美元改造賓夕法尼亞州水電站,為資料中心供電;Meta 在阿拉巴馬州資料中心配套建設太陽能電站;亞馬遜與沙烏地阿拉伯公司 HUMAIN 合作打造 “AI 能源特區”,整合太陽能、儲能設施,預計 2030 年頭部廠商 30% 的電力需求可自供。五、爭議5:當前 AI 行業是否處於泡沫?對比 1990 年代,估值更低、盈利支撐更強當前AI 行業雖有泡沫特徵(如主題集中、私有市場估值高),但核心指標未達泡沫水平,系統性風險可控:估值:納斯達克100 PE 較網際網路泡沫低 46%2025 年 10 月 3 日資料顯示,納斯達克 100 動態 PE 為 37 倍,而 1999 年底網際網路泡沫峰值時達 68.4 倍,當前估值折讓 46%;從個股看,AI 龍頭 “Magnificent 7”(輝達、微軟等)24 個月前瞻 PE 為 26.8 倍,僅為 2000 年科技泡沫龍頭(52 倍)的一半(參考高盛此前報告資料),且淨利潤率達 29%,遠超泡沫時期的 16%,盈利支撐更強。資本活動:IPO 數量少但規模大,私有市場更成熟1998-2000 年網際網路泡沫期間,美國 AI 相關 IPO 達 892 家,平均募資規模 1.76 億美元;2023-2025 年 YTD 僅 22 家 IPO,但平均募資 2.54 億美元(經通膨調整後),體現 “少而精” 特徵。此外,當前私有市場更成熟,2022 年全球 VC 行業 AUM 達 9950 億美元,是 2000 年(1430 億美元)的 7 倍,企業可在私有市場完成多輪融資,減少對 IPO 的依賴,降低上市後估值波動風險。宏觀環境:利率更寬鬆,但政策約束更強1999-2000 年美國 10 年期國債收益率平均為 6.0%,2024-2025 年平均為 4.3%,且高盛預測 2025 年 10 月、12 月將各降息 25BP,流動性環境更友好;但當前存在更強的政策約束,如歐盟《AI 法案》對高風險 AI 應用的限制、美國對 AI 晶片出口的管控,一定程度上抑制了 “非理性投機”。六、總結:AI 行業三大核心結論與投資啟示短期看消費端商業化,長期看企業端效率釋放:2026 年重點關注 ChatGPT、Google等平台的廣告 / 電商收入落地,2027 年後企業端 AI(如 SaaS+AI、工業 AI)將成增長主力;電力基建是關鍵瓶頸:優先佈局資料中心供電相關領域(如天然氣發電、智能電網),規避電力短缺地區的AI 算力項目;當前非泡沫,但需分散配置:估值與盈利匹配度優於歷史泡沫時期,但市場集中度高(前10 大 AI 相關公司佔全球股市 25%),建議搭配非美市場(如歐洲工業 AI、日本機器人 + AI)與傳統行業 AI 轉型標的(如 AI + 醫療、AI + 製造)。 (資訊量有點大)
全球 AI 百強全景解讀:贏家分層,而非贏家通吃
一|榜單全貌:AI 進入多極化競爭新階段2025 年 8 月,a16z 發佈「全球 Top100 消費級 GenAI 應用榜單」。這是迄今最全面的消費級 AI 流量圖譜。Top100 中,美國和中國合計佔據前 16 席,形成‘雙極主導’格局;ChatGPT 依舊穩居全球第一;Google Gemini 牢牢佔據第二;中國 AI 力量全面崛起,DeepSeek、豆包、夸克、Kimi、通義千問均入圍前 20;Grok 借助新模型和 AI 伴侶頭像高速逆襲。👉金句:AI 不再是“百模大戰”,而是“百強分層”。二|移動端 vs 網頁端:不同的戰場移動端榜單:更貼近 C 端流量入口。豆包拿下全球第 4,美圖、百度 AI 搜尋等齊聚前列,顯示中國團隊在工具類與場景類 AI的優勢。網頁榜單:更偏向 AIGC 重度使用者。DeepSeek 全球第 3,Kimi、通義千問齊聚前列,顯示中國在長文字對話與知識增強 AI上快速突破。👉金句:移動端看使用者量,網頁端看使用深度。三|中國力量:從追隨到並肩網頁榜 Top20:中國公司佔 5 席,DeepSeek、豆包、Kimi、夸克、通義千問。移動榜 Top20:豆包全球第 4,美圖系貢獻五席,百度 AI 搜尋進入前 10。特色:偏重場景化突破 + 視訊圖像方向優勢。👉金句:在移動網際網路缺席的賽道,中國 AI 正在用“場景優勢”彌補“底層差距”。四|Google流量曲線:矩陣打法浮現a16z 公佈的 Google AI Properties Traffic 資料,為我們提供了一個動態的流量切片。不同產品之間,形成了一個類似“投資組合”的矩陣:Gemini:月活突破6 億,穩居全球第二。定位全能旗艦,是Google的藍籌股。NotebookLM:從零到2 億,代表知識管理 + 學術工具的爆發需求。屬於高成長股。Google Labs:半年內快速爬升至3 億,作為實驗性入口,承擔孵化與前沿試錯功能,相當於遠期期權。AI Studio:流量不足5000 萬,主要面向開發者群體。雖然不是大眾流量池,但作為底層基建,具備戰略必需性。📊投行邏輯解讀Google的 AI 佈局,不再依賴單一產品突破,而是形成了 “藍籌 + 成長 + 期權 + 基建” 的完整組合。它既能穩住基本盤(Gemini),又能捕捉未來潛在爆發點(NotebookLM、Labs),同時為生態提供底層工具(AI Studio)。👉金句:Google的 AI 戰略,不是單點爆破,而是投資組合。這與 ChatGPT 的‘單點爆破’形成鮮明對照。五|新概念崛起:氛圍程式設計與 AI 伴侶氛圍程式設計(Vibe Coding):Lovable、Replit 入榜,代表“寫程式碼”開始被“氛圍式生成”替代。AI 伴侶:Grok 借 AI 頭像功能突圍,Character.ai、JanitorAI 等穩定在前列。👉金句:AI 不只是生產力工具,也在成為“情緒入口”。六|“全明星”公司:連續五期未缺席的十四家在 a16z 發佈的五期 Top50 網站榜單中,有 14 家公司從未缺席,被稱為“全明星陣容”:ChatGPT、Gemini、Perplexity、Claude、Character.ai、Suno等。這些公司已經構成全球消費者 AI 行為的底層習慣,它們的地位類似投行邏輯裡的“核心資產池”。👉金句:判斷未來格局,先看“誰從未掉隊”。七|結語:贏家分層,而非贏家通吃AI 百強告訴我們:單點爆破(ChatGPT、DeepSeek)與矩陣打法(Google系)、場景突圍(豆包、美圖、百度 AI 搜尋)正在並存。👉金句:未來格局不是一家獨大,而是不同類型玩家在不同層級並存:有人是藍籌,有人是成長,有人是期權。贏家,不再是通吃,而是分層。 (方到)
【上海車展】本田官宣,中美日德系頂級車廠,把選票都給了Momenta
Momenta 又傳來好消息,這次是本田。4 月 23 日,上海國際車展上,本田宣佈與 Momenta 達成深度戰略合作,共同研發基於端到端大模型打造的量產輔助駕駛解決方案。兩重資訊點:一是本田加速中國本土化佈局;二是 Momenta 成為最強輔助駕駛助攻。說實話,這個組合並不讓人意外。畢竟,國際大廠選擇與 Momenta 合作,已經不是新鮮事。今天 Momenta 的合作版圖,已經集齊了中、美、日、德系的頂級車企,是名副其實的「國際大廠收割機」。某種程度上,一家中國供應商能獲得國際頂級大廠們的集體選票,在中國汽車供應鏈史上非常少見,也實屬不易。由此,Momenta 為行業提供了一個值得借鑑與參考的正向樣本。01本田輔助駕駛,疊上了 Momenta 的強 buff智能化浪潮,本田其實不算掉隊。本田在國內已佈局兩子,東風本田與廣汽本田。兩家合資企業也都先後發佈智能純電車型,東風本田 S7 與廣汽本田 P7,並定下「19.99-24.99 萬元」的一口價。值得一提的是,兩款車型在輔助駕駛領域,搭載的均為本田自研的 Honda SENSING 360+智能系統,面向中階輔助駕駛,支援高速領航輔助和智能泊車輔助功能。顯然,智駕內卷的風口下,中階輔助駕駛的敘事已經不夠性感。同為日系車企,豐田、日產都已經與 Momenta 定點合作,將智能化水平提升到第一梯隊,而本田同樣需要 Momenta 充當智能化的加速劑。具體而言,Momenta 會給本田帶來兩方面助力:一是提升技術質能。基於 Momenta 一段式端到端大模型,本田能在演算法層面補齊端到端能力,將輔助駕駛場景擴寬至城區領航輔助駕駛、自動泊車輔助、記憶泊車領航輔助等功能面。二是增加量產效能。一般而言,像本田這類的國際大廠,自研輔助駕駛系統要麼進展緩慢,要麼與中國城市道路情況水土不服。特斯拉 FSD 入華後不守交通規則就是一個例證。因為在感測器適配、資料採集上缺乏經驗,這些車企單靠自研,智能化水平很難在國內短時間飛速提升,如果從底部開始重新建資料地基,又會對人力財力資源造成巨大消耗。既然不適合重複造輪子,本田就選擇借一個輪子,Momenta 的「資料飛輪」成為了一個最佳選項。目前,Momenta 資料飛輪已經迭代至第五代,積累了億級資料,在城區輔助駕駛領域,Momenta 還分走了最大的市場蛋糕。最新資料是,Momenta 已經與全球超 15 家車企或 Tier 1 建立了深度合作,定點車型已經超過了 140 款。由此,本田選擇 Momenta,意味著能憑藉其成熟的量產經驗極大縮短功能研發與落地周期,配合本土化戰略佈局。大眾汽車乘用車品牌中國 CEO 孟俠就對 Momenta 的本土優勢表示過肯定,他稱,Momenta 無圖輔助駕駛方案專為中國路況最佳化,複雜城區也能從容應對,是幫助大眾執行「在中國,為中國」關鍵戰略的有力助手。可見,技術先進、量產經驗、本土優勢,都成為了本田這類國際大廠選擇 Momenta 的重要原因。02Momenta 的版圖,集齊中美日德系大廠放眼目前國內輔助駕駛供應鏈市場,各家核心目標其實都是爭量產,打爆款。按照車企類型劃分,與國際大廠建立合作的含金量無疑最高。它不僅讓供應商獲得更多爆款車型的定點機會,也意味著其能夠借國際大廠聲譽,在全球市場打開品牌知名度,但國際大廠的供應商准入門檻極高,大門並不好敲,甚至根本敲不到。如果想要贏得合作機會,供應商需要花費 5 年以上的功夫。過去,國際大廠的「朋友圈」,只容納同樣擁有百年內功積累的國際供應商。現在到了智能化時代,國際大廠必須要關注中國市場。當然,目前只有頭部供應商能進入國際大廠合作行列。像奧迪選擇與華為合作,將其乾崑 ADS 方案搭載在 Audi Q6L e-tron、Audi A5L 等車型上;大眾攜手卓馭,其全新全新探岳 L 搭載了卓馭的高階智能輔助駕駛方案,可實現 L2+級輔助駕駛。但這些供應商也只能獲得一家,或者少數國際大廠的青睞。而 Momenta 的投票箱,卻已經集齊了奔馳、大眾、通用、豐田、本田等多家國際大廠的選票。原因在於,Momenta 符合國際大廠的品質認證,即高標準、高品質、高安全性。具體看兩點:一是技術領先,能跟上國際大廠的發展節奏。Momenta 在輔助駕駛領域不是跟隨者,而是引領者。比如 Momenta 早期就提出了資料飛輪的概念,在成熟的資料驅動體系下,在業內領先實現一段式端到端大模型;以及在資料訓練架構上,開創性採用「長期記憶+短期記憶」相結合的模式,模擬人腦「直覺推理+邏輯分析」的問題處理機制。在這一機制下,大模型的訓練成本被大幅降低,並能有效處理各類極端情況與長尾問題。可以說,Momenta 不僅在 L2+層級技術成熟,還為車企實現 L3 級輔助駕駛鋪好了路。二是安全保證,能通過國際法規的嚴苛監管。國際大廠往往將安全定為核心議題,尤其聚焦對於資料安全的把控。在這點上,Momenta 確定了全球資料戰略,將資料儲存於「原產地」,嚴格保護資料的儲存與訪問。並且,由於率先實現「無圖」技術,因此不會受到「高精地圖獲取敏感資訊」的困擾。因此,國際大廠選擇與 Momenta 合作,實際是在詮釋強強聯合下,為市場創造出更多智能化產品。03定點背後,打造輔助駕駛的「Android」生態超 140 款定點車型的結果,明確指向了 Momenta 強大的適配能力。這種適配能力,同樣成為國際大廠垂青 Momenta 的核心要素。這就好比Android系統,由於軟體與硬體解耦,國際車企可以無負擔地實現硬體自由,即在感測器、晶片等硬體選擇上不受軟體限制。同時,由於採用Android式開放架構,車企可以按照整車戰略,選擇與 Momenta 建立不同層級的協作模式。於是在 Momenta 與國際大廠們的一眾定點項目中,我們得以窺見多種可能性。一是在技術方案交付外,聯合開啟深度定製的合作模式。比如這次 Momenta 與上汽通用別克合作量產輔助駕駛解決方案,就深入到底層架構層面,Momenta 作為技術方案提供商,深度介入從晶片選型到功能驗證的全流程,上汽通用則發揮其在整車整合、製造、供應鏈管理方面的傳統優勢,雙方協作重新定義起合資品牌價值。二是契合國際大廠產品定義,給品牌增加高端價值。比如全新奔馳 CLA 採用輝達 Drive Orin 晶片,就搭載了 Momenta 的端到端大模型,具備資料驅動的深度學習規劃能力,可以支援城區領航輔助駕駛、自動泊車輔助等輔助駕駛功能量產。實際上,在智能化供應鏈體系中,經常會出現一種矛盾,即車企往往想要建立差異化、個性化壁壘,但供應商卻希望借標準化平台來降低適配成本。但 Momenta 化解了這點。根源在於其打造的資料驅動演算法平台足夠先進,不是被動地因甲方要求陷入適配難點,而是主動引領車企打造出更多最佳化功能。實際上,Momenta 做輔助駕駛產品,不是單純的堆砌技術,而是根據不同場景,對各種產品先進行定義,然後再針對每個具體場景,明確所需的智能駕駛功能。比如在城市道路場景中,需要車輛具備識別交通訊號燈、避讓行人與非機動車、應對複雜路口轉向等功能。這樣做可以力求涵蓋所有可能出現的駕駛場景,包括極端罕見場景。通過大量的實際道路資料採集、模擬模擬等手段,精準定義每個場景的邊界和特徵。例如,對於暴雨天氣下的駕駛場景,要明確雨量達到何種程度會影響車輛感測器性能,以及在該情況下車輛應如何調整行駛速度、保持安全車距等。從使用者角度看,這樣打造出來的功能往往契合使用者出行場景,會更符合使用者對於輔助駕駛功能的期待。總而言之,輔助駕駛的巨輪還在滾滾向前,淘汰賽也依然在持續。Momenta 創始人曹旭東最近又在採訪中強調,這兩年競爭過後,只有少數玩家能留下來。規模效應與先發優勢,讓輔助駕駛註定成為贏家通吃的市場。但可以確定,Momenta 這位量產領域的「隱形冠軍」,已經用國際大廠們的選擇,先贏得了通向智能化終局的船票。 (汽車之心)
什麼是端對端自動駕駛?
一、 引言端到端是近期非常熱門的話題,尤其在自動駕駛、具身智慧等領域。去年UniAD的發佈,給大家普及了端到端的網路設計,帶動了產業的發展。產業界,特斯拉FSD Beta V12效果驚豔,近期理想也推出了雙系統的E2E自動駕駛系統。一時間,大家都朝著這個方向發展。那端到端是什麼?有那些好處?這裡面涉及了那些技術?今天跟大家聊一聊。二、什麼是端到端端到端的實現路徑並不統一,各家都有自己的定義。一般,端到端的定義可分為廣義與狹義:廣義的E2E,強調資訊無損傳遞,不因人為定位的介面而產生資訊損耗,可以實現資料驅動的整體最佳化。狹義上的E2E,強調一個神經網路模型,即直接從感測器輸入對應到規控輸出。以下是比較主流的三種方案:1. 感知認知模型化以華為ADS3.0為代表,整個模型分為感知與預決策規劃兩個階段,串聯二者做訓練。感知部分採用GOD網路,預決策規劃採用PDP網路實現端對端一張網。2. 模組化端到端以上海人工智慧實驗室的UniAD為代表,將感知預測規劃等模組串聯在一起,利用跨模組的梯度傳導取代人工定義的資料介面,來實現全域最佳化。3. 單一大模型以Wayve的GAIA-1和LINGO-2為代表,直接利用一個神經網路模型完成從感測資料輸入到規控指令(軌跡)輸出的對應。三、為什麼要端到端相較於傳統模組化的自動駕駛架構,端到端的提出解決了什麼問題呢?前文在介紹時說到,端到端強調資訊的無損傳遞。傳統的自動駕駛架構通常分為感知、預測、決策、規劃與控制等模組,模組間的資訊傳遞主要是透過人工設計的資料介面,這在前期很有效,但現在也逐漸成為瓶頸所在。通過端到端,通過神經網路的原生資料表示,資訊高效傳遞,這也決定了系統的上限會更高。另外從工程迭代方面講,傳統方案中模組內的演算法最佳化和模組間的系統最佳化是兩個分離的過程,它們相互關聯影響系統的效能。採用端到端,將兩者統一起來,也會提高整個系統的迭代效率,主要包括以下幾個面向:1. 減少錯誤傳遞  - 傳統架構中,感知模組的錯誤會直接影響規劃與控制(如誤檢障礙物導致急剎)。     - 端到端模型經過全域最佳化,降低局部錯誤對整體的影響。2. 處理複雜場景- 長尾場景(如臨時施工、動物穿行)難以用規則覆蓋,端到端模型透過海量資料自主泛化。3. 提升效率與體驗 - 系統延遲從模組化的300ms降至100ms以內,決策更擬人化(如平順變道、擁堵跟車)。4. 降低成本- 減少對高精地圖、雷射雷達的依賴(如特斯拉純視覺方案),硬體與開發成本降低30%+。四、端對端自動駕駛中的關鍵技術1. 基礎神經網路架構現有大模型多以Transformer結構為基礎。 Transformer是以注意力機製為核心的編解碼器結構,其主要結構為注意力、位置編碼、殘差連接、層歸一化模組。 Transformer被廣泛應用於NLP、CV、RL等領域的大模型。2. 大模型預訓練與微調技術預訓練是使大模型獲得通用知識並加速模型在微調階段收斂的關鍵步驟。根據序列建模的方式,語言模型可以分為自回歸語言模型和自編碼語言模型。自回歸語言模型使用Transformer的解碼器結構,根據前文預測下一個詞,從而對序列的聯合機率進行單向建模。自編碼語言模型則利用Transformer的編碼器結構,透過預測序列中的某個字詞來雙向建模序列的聯合機率。微調是指將預訓練好的大模型在下游任務中進行調整,使其與具體任務更適配。微調後的大模型與預訓練大模型相比,在下游任務中效能通常會大幅提升。隨著模型規模不斷增大,微調所有參數變得十分困難,因此近年來出現了多種高效微調方法,包括Vanilla Finetune、Prompt Tuning以及Reinforcement Learning from Human Feedback(RLHF)等方法。3. 模型剪枝與壓縮訓練好的大模型需要部署在算力和記憶體受限的系統上,因此需要對大模型進行剪枝和壓縮,減小模型中的冗餘結構和資訊,使其能夠在受限的計算資源上進行快速推理,同時儘量減小對模型精度的影響。大模型的壓縮方法主要包括模型剪枝、知識蒸餾和量化。4. 車雲協同的資料閉環由一定規模具有網聯功能的車輛進行眾包資料採集,資料清洗和篩選之後上傳至雲控計算平台;利用雲控平台的充足算力,生成海量模擬駕駛資料;融合虛實資料進行場景建構,利用自監督學習、強化學習、對抗學習等方法對自動駕駛大模型進行線上迭代載車最佳化;5、總結:端到端的未來與挑戰優勢:高效率、泛化性強、成本低,推動L2+向L3/L4級躍遷。挑戰:可解釋性:黑盒模型決策邏輯難以追溯,需強化安全冗餘設計。資料需求:依賴超大規模高品質資料,長尾場景仍需手動干預。趨勢:2025年後,端到端架構或成為智慧駕駛主流方案,結合車路雲協同朝向完全自動駕駛演進。 (智慧型駕駛派)