從規則到神經:特斯拉FSD的端到端之路與自動駕駛勝負手

特斯拉FSD從最初的「感知—預測—規劃—控制」模組化範式,一步步演進到以大規模視訊神經網路驅動的端到端單棧,其核心動因是以資料與算力驅動對複雜長尾場景進行聯合最佳化,這使得系統從工程堆疊轉向以學習為主的「軟體2.0」形態,成為走向規模化與泛化能力的必然選擇,同時也倒逼產業在可解釋、安全驗證與監管論證上建立新的方法論與工具鏈以匹配範式變化的風險與不確定性。就勝負判斷而言,面向無安全員的Robotaxi賽道,Waymo憑藉多城營運與合規累積最可能率先擴大商業規模;面向乘用車「有人監管→逐步放權」的量產路徑,依託全球最大上路資料閉環和端到端單棧迭代能力的特斯拉勝率更高,而在中國市場,華為/小拳/百度系列的本地組合,預計在高地與城市模式

回望“前世”,特斯拉在與Mobileye分手後堅定走上以攝影機為主的視覺路線,逐步弱化至移除雷達,並通過向量空間表達與佔據網路解決異形障礙和遮擋問題,打下了以視覺為核心統一感知表達的基礎,從而為“單棧融合”提供了架構前提與介面統一,這一階段引入的關鍵節點包括佔據網路的高速/量化佔據網路的想法將環境重建為體素化可佔據機率分佈,能夠將不可見與不確定區域納入保守策略中,並以此對無保護左轉、狹窄會車、路口遮擋等難題建立了比傳統目標框檢測更穩健的安全邊界,為後續以視訊為核心的端到端學習提供了高資訊密度的中間表示土壤。

進入“今生”,FSD V12以端到端視訊網路替代大量手寫規則,核心是通過模仿學習與世界模型化的方式,讓系統直接從攝影機幀序列學習“看見之後應該如何控制”,從而把“感知—決策—控制”的聯動誤差納入單體目標函數里統一最佳化,並將隱式行為風格與社交駕駛2024年起,城市道路上的端到端已成為FSD Supervised的預設範式,隨後擴展至高速,形成城市/高速/泊車逐步貫通的全域單棧,版本如12.3、12.5.x、12.6在不同硬體平台(HW3/HW4)上陸續下發能力並廣泛路測並廣泛地恢復了實際體驗提升能力與提升能力的持續性提升能力。產業分析普遍注意到,端到端後工程程式碼量驟減而訓練—部署的吞吐與頻率顯著提升,外界甚至以「數十萬行C++縮至數千行」描述其迭代結構性變化,雖然具體內部實現不可見,但從Ashok在CVPR等場合披露的思路與學術界的端到端統一Transformer 趨勢相互印證了這一範式。

端到端之所以“必要”,在於真實道路是無窮多“長尾中的長尾”,任何顯式規則樹和分段式代價函數都難以在分佈外情形保持魯棒且不割裂,人類駕駛中的隱性規範、互動禮讓、社會訊號與非結構化線索,天然更適合通過大規模視訊學習在聯合目標中吸收與遷移,端到端到廣泛的跨域上限。同時,端到端縮短了工程鏈路,訓練目標可以直接對齊閉環品質指標(如軌跡舒適度、干預率、乘客主觀評分代理等),配合自動標註、模擬資料增強與資料引擎,形成“采—訓—評—發”的高速飛輪,這恰是資料可得、算力可得時代的最優解 。

但端到端的短板也十分現實:首先是可解釋性不足帶來的安全論證難題,黑箱內部表徵與監管可讀證據鏈之間存在鴻溝,這要求在架構外側疊加可解釋監控、故障檢測與安全圍欄以滿足功能安全與審計需求;其次是分佈漂移、對抗魯棒性與極端場景覆蓋範圍的驗證成本,迫使組織從開放式環狀指標同時依賴於運行邊界的跨實驗環境測量,迫使產業界定式測試從工程與合規的角度看,端到端的“好用”並不直接等於“可信”,可信還需要可驗證、可追責與可保險的體系化佐證工具鏈與流程,這正在學術界與產業界並進建構。

相較之下,模組化的價值主要在於可解釋與可驗證路徑更清晰,易於滿足功能安全標準與分項驗證,疊加高精地圖與冗餘感測器的約束,尤其適合地理圍欄明確、營運流程完備的L4 Robotaxi模式,典型代表就是Waymo的工程路徑;但其瓶頸在跨城擴展速度、維護成本與聯車規模上的結構性規模,使其具有跨城性規模這也解釋了當下產業技術路線的「二元」:Robotaxi側模組化+高精地圖在若干城市先跑通商業;量產乘用車側端到端+弱地圖/免地圖在廣域鋪量獲得規模優勢,兩者在各自目標函數下各取所長。

放眼競品格局,Waymo在Robotaxi層面憑藉多年無安全員營運經驗與監管溝通能力,2025年獲得擴展至聖何塞的批覆並在加州持續擴區,成為合規與信任的標竿,雖然擴城速度仍受制於地圖與政策節奏,但整體領先優勢確立。 Cruise在2023年事故後經歷系統性整改,2024年起以有安全員的分階段復航重建品質與社會信任,目標在2025年恢復部分收費與更廣闊的無人化嘗試,短中期仍處爬坡恢復期。 Mobileye的路線以SuperVision (L2+/L2++)與Chauffeur (L3)面向車企供貨為主,依託REM眾包地圖與感測器融合的成熟工程棧,並在CES與行業路線中明確了向更高等級自動駕駛演進的產品規劃,具備在成本與規模上的獨特優勢。中國市場方面,華為ADS從BEV+Transformer與GOD/PDP等技術演進到端到端大模型方向,並透過強本地服務網路與多感測器冗餘在城市NOA快速落地,展現出技術與體驗的雙線推進能力;同時,小鵬在城市擴張NGP的覆蓋範圍與“免高精地圖”迭代中很好,解決路徑中可在全國擴展和低路徑運行版本,均強調本土二精在本土圖」。百度Apollo Go憑藉在北京、武漢等地的政策協同與車路協同優勢,持續擴大Robotaxi試點與訂單規模,並探索在香港等地的合規測試,形成中國L4商業化路徑的關鍵樣本。 Wayve代表端到端「具身智慧」的前沿路線,2024年獲超10億美元融資,驗證了在弱/免高精地圖條件下的通用化潛力,雖處較早階段,但為行業提供了重要外部參照 。在合規層面,賓士Drive Pilot的L3在內華達州與加州的先行落地則提示了「限定工況—嚴格論證—漸進放權」的乘用車路徑,成為監管與產業互動的現實樣板。底層算力生態方面,NVIDIA DRIVE平台持續迭代並被多家車企與方案商採用,支撐了以Transformer與視訊建模為核心的端到端與模組化混合範式的在車與雲兩端的訓練與推理需求。

在架構優劣的細化對比上,端到端的訓練目標可以直接對齊閉環質量,如最小化控制誤差、乘坐舒適度代理或安全干預率,使系統學到人類駕駛的隱性規則與社互動動,從而在長尾中具備更好的恢復與協同能力;而模組化的各級任務最優並不等於看裂,經常出現全域最優的現象,經常出現對現象的典型現象。資料與算力方面,端到端極度依賴海量視訊資料與高效訓練基礎設施,但一旦訓練—部署飛輪建立,跨域泛化成本遞減;模組化雖然單模組資料更可控,但地圖/標註/驗證的綜合成本在擴城時邊際上升明顯。在工程與安全上,端到端需要外部可解釋監控與安全圍欄來補足黑箱驗證的短板,模組化則更利於滿足功能安全與審計,但在多模組整合與維護上複雜度更高、演進速度更慢。

基於上述分析,Robotaxi賽道更可能由Waymo率先實現更大規模的無安全員商業擴張,原因在於其冗餘感測器體系、高精地圖與穩健的營運與合規記錄所構成的信任護城河,這一點在加州擴區批覆與多城推進中得到持續驗證。乘用車的「有人監管→逐步放權」路徑,端到端單棧疊加全球規模化資料閉環與高頻OTA的能力,使特斯拉更有希望率先在量產車上達成可感知的體驗躍遷與干預率下降,並不斷向更高放權等級推進,V12系迭代與跨域擴展的節奏已經在2024—2025年的版本。中國市場則將呈現多極領先格局:華為/小鵬在全國可用與本地服務網路深耕中快速迭代,百度在Robotaxi與政策協同中持續擴大試點,預計在區域內形成各自的領先樣板並逐步融合「端到端+安全圍欄」的混合範式。供應鏈型玩家方面,Mobileye透過方案供貨與路線圖穩步前推,可能成為最早實現「規模盈利」的技術提供商之一,在L2+/L3的性價比與車企整合效率上具備顯著優勢 。

展望未來五年,主流範式將走向「端到端為主、外部可解釋監控與安全圍欄兜底」的混合架構,以平衡工程效率、閉環性能與可審計性,既順應視訊大模型與統一Transformer的趨勢,也兼顧監管對證據鏈的剛性要求。世界模型、生成式模擬與資料引擎將成為收斂速度與長尾覆蓋的分水嶺,誰能做到「資料發現—資料合成—行為最佳化」的高吞吐閉環,誰就能跑出更陡峭的能力—成本曲線;同時,車規算力平台與雲端訓練的持續演進,將決定叢集在合規層面,「限定工況的L3—區域放權—跨域擴張」的路徑會更加清晰,梅賽德斯在美的L3落地與加州對Waymo的擴區批覆,提供了以工況限定與營運能力為抓手的監管協同樣板,疊加各州與各國的試點與許可清單,行業可驗證、功能演示「可因此,真正的勝負手不在某一個單點模型,而在「資料—模型—算力—工程—合規—營運」的完整飛輪耦合效率裡,在這套飛輪中,端到端是驅動帶,模組化與規則安全是必要的齒輪,兩者的融合才是自動駕駛規模化與可信化的現實路徑。 (穩中求勝君)