【北京車展】2024年,自動駕駛會迎來質的改變嗎?


一文讀懂端對端自動駕駛。(封面圖由AI生成)


89.2萬人次,這是今年北京國際汽車展覽會(以下簡稱「北京車展」)的觀眾人數,而上一屆北京車展的觀眾人數是53萬人次。

「甲子光年」在現場觀察到,相較於前幾屆車展燃油車和新能源汽車大戰的場景,今年北京車展完全沒有能源類型的競爭,幾乎所有車企都在推出新能源車型。

大模型是本次車展的重要主題,許多廠商都把大模型上車作為一個宣傳亮點。而自從特斯拉開啟了端到端自動駕駛潮流,端到端已經成為自動駕駛領域必須攻克的高地。

元戎啟行、商湯科技、小鵬汽車都在車展上展示了其最新的端到端自動(智慧)駕駛方案。 5月20日,小鵬汽車的AI天璣系統將全量推送覆蓋小鵬X9、G6 、G9 、P7i四款車型所有的Pro和Max版本。

小鵬汽車董事長何小鵬在北京車展期間接受媒體群訪時表示,原先智慧駕駛需要大量程式碼制定規則,即使達到一萬行,可能也只能實現50%的規則能力。「2025年智慧駕駛會發生質的改變。現在看甚至提前一年,因為技術比我想像中更快。」何小鵬說,隨著端到端技術的出現,我們僅需投入數十億(元)的訓練費用,便可以在一年內大幅提升產品性能,這將極大加快自動駕駛技術在實際應用中的普及速度

但也有人把特斯拉的端對端大模型方案奉為圭臬,認為必須按照特斯拉的方案,即感測器資料和車輛狀態資訊輸入單一大模型後直接輸出車輛控制指令,才是真正的端到端自動駕駛方案。

這種爭議在機器人領域也有,例如人形機器人Figure 01宣稱的「端對端神經網路」就引發了討論。

出門問問創始人、CEO李志飛認為,原理上,Figure看起來類似於Google在2023年3月發佈的PaLM-E和RT-1的pipeline組合,而不是Google於2023年7月發佈的端到端模型RT-2。

「『端到端』這個事,不同人的理解不一樣。」北京大學電腦學院助理教授、博士生導師董豪告訴「甲子光年」,「有的人認為RT-2這種直接輸出action的才叫'端到端',但是那種方法缺點很明顯,呼叫大模型的頻率比較高,算力消耗特別大,而且很難做到比較高的決策速度。不是指直接輸出action,而是由高頻的模型來輸出action。

那麼端對端自動駕駛技術是什麼?端到端大模型是否是自動駕駛最優解?本文,「甲子智庫」將帶來大模型在自動駕駛領域的應用與發展方向分析。


1.自動駕駛技術的迭代與大模型應用

縱觀自動駕駛技術的發展歷程,人工智慧的不斷突破顯著提升了自動駕駛的感知性能。從摺積神經網路(CNN)的引入,到循環神經網路(RNN)的應用,再到結合鳥瞰圖(BEV)與Transformer模型的創新,每一次的技術進步都在增強自動駕駛的精確度與安全性。

特別是基於Transformer的BEV感知模型,已經獲得了業界的廣泛認可。大模型技術不僅加速了自動駕駛技術的演進,也為城市導航輔助系統(NOA)的普及和深入應用打下了堅實的基礎,極大地提高了智慧駕駛產品的使用者滿意度。



當前主流自動駕駛方案的核心在於「感知-決策規劃-控制」的模組化結構,其中「感知」是前置模組且至關重要。它確保車輛能夠即時、精確地掌握周圍環境,是實現安全無人駕駛的關鍵前提。

自動駕駛感知技術的發展已經經歷了幾個關鍵階段:

  • 摺積神經網路(CNN):憑藉在圖像識別上的卓越性能,CNN成為自動駕駛感知的起點,可以有效整合圖像與雷達材料,提升對道路和交通元素的識別能力;
  • 循環神經網路(RNN)與生成對抗網路(GAN):RNN擅長處理時間序列資料,而GAN能創造逼真的合成資料,兩者結合,增強了自動駕駛系統在行為預測和路徑規劃方面的能力;
  • 鳥瞰圖(BEV):BEV透過將三維資料投影到二維平面,提供了清晰的環境檢查,最佳化了路徑規劃和避障決策;
  • BEV與Transformer的結合:BEV+Transformer大模型結合了Transformer的序列資料處理能力和BEV的環境概覽,實現了更精細的環境理解和更全面的預測能力。此外,特斯拉在2023年進一步推出了佔用網路模型,進一步提升了對三維環境的感知精度。

基於Transformer的BEV感知大模型已成為自動駕駛領域的主流技術趨勢,它推動了「重感知、輕地圖」的技術路徑,並加速了城市導航輔助系統(NOA)的量產與規模化應用,進而實現「全國都能開」。 AI大模型無疑是自動駕駛產業發展的強大助推器。



事實上,在OpenAI推出ChatGPT之前,Transformer架構就已在自動駕駛感知領域得到推廣與使用,並隨著資料量增長與穩定性提升實現了相關產品的規模化部署。

整體而言,自動駕駛中大模型技術的運用可分為雲端和車端兩大類:

  • 自動資料標註:通過大模型的自監督預訓練,結合少量人工微調,實現視訊資料的自動標註,提升標註精度,減少人工覆審,大幅提高效率。
  • 資料探勘:利用大模型的泛化能力,挖掘長尾資料,如CLIP模型透過文字描述進行圖像檢索。
  • 知識蒸餾:大模型學習豐富特徵後,透過知識蒸餾技術傳遞給小模型,提升後者效能與精準度。
  • 場景重建與資料產生:採用NeRF技術進行場景隱式儲存與渲染監督學習,實現場景重建與產生高真實感資料。


車端

  • 模型合併:整合處理各類子任務的小模型為一個綜合性“大模型”,通過聯合推理提升感知演算法的精確度和響應速度。
  • 物體檢測:使用大模型進行固定物體檢測,如車道線、交通燈等,其檢測性能不受外部條件如天氣、時間變化的影響。
  • 車道拓撲預測:基於BEV的feature map,運用自回歸編解碼網路將BEV特徵解碼為結構化拓撲點序列,實現車道拓撲的預測。

在資料驅動的新時代背景下,自動駕駛技術正在經歷一場深刻的技術變革。大模型技術的應用已經從雲端延伸到車端延伸,涵蓋了自動資料標註、資料探勘、目標感知乃至車道拓樸預測等關鍵領域。這些應用凸顯了大模型技術在自動駕駛領域的關鍵地位,並展示了其對該行業的深遠影響。

在主機廠與自動駕駛廠商對感知模型的開發與訓練中,Transformer大模型早已不是新客,並且已經開始在感知模組以外的其他領域嘗試使用。隨著大模型技術的進步與模型訓練方式的進一步革新,端到端大模型為自動駕駛技術的進一步發展提供了新的思路。


2.端到端大模型謀劃上車

繼BEV+Transformer與OCC佔用網路之後,端到端自動駕駛技術開始受到廣泛關注。特斯拉作為業界的先鋒,推出的FSD V12系統就是端對端自動駕駛技術的典範。那麼端對端自動駕駛和模組化自動駕駛有什麼不同?



從高精地圖到無圖的“全國都能開”,從高速NOA到城區NOA,AI大模型的應用已經幫助行業L2++等級的自動駕駛功能量產上車並投入規模化使用,不斷衝擊著L3的界限。但如何從L2++真的跨越到L3/L4,始終是橫亙在自動駕駛從業者面前的難題。

在ChatGPT的成功之後,由“大算力+大模型+巨量數據”驅動創造的“智能湧現”,為自動駕駛帶來了新的路徑選擇。

現階段已經上車的智慧駕駛產品,絕大多數採用了「感知-規劃-控制」串聯的模組化架構。攝像機、雷達、IMU、雷射雷達等傳感器採集到的資訊先交由感知模組進行空間感知計算;感知模型輸出結果後,再交由基於規則的規劃模組,進行相應的決策與路徑規劃;控制模組再根據決策規劃的結果,最終產生車輛轉向角、煞車力道、油門/電門等動作。

在目前的自動駕駛技術發展中,深度學習演算法與大模型仍主要集中在提升「感知」模組的效能。出於對行車安全的考慮,決策規劃模組目前仍然依賴基於規則的方法。然而,這種基於規則的決策模型在應對城市復雜交通環境和不斷出現的極端情況(corner case)時仍顯不足,這導致高等級的自動駕駛在實際運行中難以保證完全不需要人工幹預。

而端到端架構則有所不同,它比模組化的系統架構更簡潔。狹義的端到端模型並不拆分感知、規劃、控制等模組。相反地​​,端到端模型是一體化的,傳感器信號作為模型的輸入,輸出則直接用於車輛執行器的加減速與轉向的指令。在足量優質資料與充沛算力的加持下,進行統一訓練。隨著自動駕駛領域資料量的持續增長,為訓練更為先進的決策模型提供了條件,使得端到端的自動駕駛模型成為可能,為未來徹底解決人工接管問題打好基礎。

特斯拉今年3月在北美地區全面推送FSD Beta V12.3版本,此次升級的最大亮點是引入了特斯拉CEO埃隆·馬斯克(Elon Musk)引以為傲的「端到端神經網絡」技術,這一變革被譽為「改變遊戲規則的技術」。

特斯拉介紹,FSD Beta V12.3將城市街道駕駛堆棧升級為一個在數百萬視頻片段上訓練的端到端神經網絡,取代了超過30萬行的顯式C++代碼。這意味著汽車操控邏輯已經實現交由神經網路處理,而不是由程式設計師編寫的程式碼。

國內一些領先的企業也正在跟進這項技術的研發與部署。剛剛結束的北京國際汽車展覽會也印證了這一點:商湯科技、元戎啟行等國內AI企業的端到端智能駕駛量產方案在北京車展亮相,“端到端大模型上車”成為熱議話題。元戎啟行展出了基於端到端模型的量產智慧駕駛方案DeepRoute IO,商湯絕影也在現場展示了面向量產的端到端自動駕駛解決方案UniAD (Unified Autonomous Driving) 的道路測試表現。



從開發的角度來看,「端到端」概念的引入是革命性的。主流的規劃方案仍基於手寫規則,高度依賴提前設計的先驗規則與傳統演算法的優劣,遇到bad case時需要持續不斷新增規則,以打補丁的方式實現模型調優。

相較之下,沒有進行任務分割的端對端自動駕駛則摒棄了傳統自動駕駛中感知、規劃、控制各大模組及下邊的各類子任務,能夠實現輸入傳感器資料可直接輸出車輛動作控制。

整體來看,端到端的優點包括但不限於:

  • 數據驅動:用於模型訓練的數據規模與數據品質是影響最終產品性能的主要因子,僅需要少量的人工編碼。透過擴大優質訓練資料的規模,可以不斷提升系統的能力上限,並透過資料驅動的方式不斷響應長尾場景下的資料回傳,更新模型參數,大幅降低甚至完全消除對人工編碼的需求。
  • 整體最優: 端到端旨在服務整體目標,而不是每個模組單獨一個目標,提煉並壓縮優質駕駛資料的經驗,實現「老司機」般絲滑的駕駛體驗。
  • 消除誤差:一體化的模型結構可以減少各模組之間的資訊傳遞延遲,且全端神經網絡的上下層之間可以傳遞全量的資訊,消除累計誤差,讓自動駕駛系統反應更加敏捷和精確。

3.端到端大模型面臨的挑戰

端到端自動駕駛系統的優勢日益明顯,其藉助大型模型技術的深入應用,為自動駕駛技術的進一步發展提供了高效率的途徑。然而,端到端是否成為自動駕駛未來發展的唯一道路,目前仍存在一些疑問。

當前端到端自動駕駛系統的開發和實施正面臨一系列挑戰。



首先,端到端大模型的解釋性不足,這對於將安全性放在首位的自動駕駛領域是一個亟待解決的問題。當端到端系統出現問題時,它不像模組化系統那樣能夠逐步分析中間結果,從而定位問題源頭。在文字和圖像生成等場景中,大模型的容錯成本較低,但在自動駕駛領域,一旦出錯,代價卻極為昂貴。這成為了端到端系統通過驗證測試並實現產業化的關鍵障礙。

其次,端到端自動駕駛大模型,類似於大語言模型,其核心在於對海量優質駕駛視頻片段的學習和提煉,這需要極大的高質量數據集。

以特斯拉的FSD V12系統為例,它需要神經網絡學習數百萬的影片片段。這不僅涉及資料採集的挑戰,還包括從海量資料中篩選和清洗出高品質資料的難題。FSD是特斯拉的選裝功能,但由於價格過高,FSD的選配率常年在低位徘徊。即便在比例較高的美國,FSD的選裝率也不足20%。為了加強FSD的吸引力,幫助特斯拉獲得更多訓練資料,特斯拉FSD的美國售價已經快速「腰斬」:2023年9月,FSD套餐價格從15,000美元降至12,000美元,又在今年4月降至8,000美元;月訂閱價格也在4月從199美元/月降至99美元/月。

而在北京車展上,極越宣佈將於2026年量產上車輝達1000TFLOPS高性能計算平台Thor,滿足未來全場景端到端的智駕需求,「為用戶帶來安全、先進的智慧移動出行體驗」。而對於端到端大模型的資料問題,極越CEO夏一平今年3月曾對「甲子光年」表示,大模型訓練比較核心的東西不是資料比誰多,而是比誰有更多的高品質資料,“數據品質很重要。數據品質不好,訓練出的模型可能就是有缺陷的。”

最後,大模型的訓練需要龐大的投資,包括高品質視訊資料的採集和算力資源的大幅增加。馬斯克曾提出,到2024年底,特斯拉的訓練算力將達到100EFLOPS,這是一個令人震驚的目標。對於國內企業來說,算力資源的累積問題將變得更加突出。

儘管如此,端到端技術以其創新的理念,為實現完全無人駕駛的目標提供了新的可能性。隨著技術的不斷進步和行業的共同努力,這些挑戰有望被逐一克服。特斯拉計畫推出的robotaxi產品,展現了其在自動駕駛領域的雄心壯志,預示著技術正朝著更高級的階段邁進。同時,商湯科技、元戎啟行、毫末智行等國內企業的積極參與,也展現了中國在自動駕駛技術領域的潛力與決心。

「2024年誰還沒落地'智駕全國都能開',誰就會掉隊。」這是夏一平今年3月受訪時的表達的觀點。

不過,何小鵬在北京車展期間談到端到端技術應用時也很明確地指出:「目前,許多企業聲稱他們能在全國範圍內提供服務,但實際上他們仍然依賴於高精地圖,看起來速度快但高精地圖目前僅覆蓋全國公路的不到1%。 ,才能在雜場景下得到應用。

如同今年初汽車業的價格戰一樣,接下來,主機廠及供應商在自動(智慧)駕駛方面的競爭勢必會更加激烈。

別忘了,馬斯克前段時間來了北京,特斯拉FSD在中國落地或許就在不遠的將來。 END. (甲子光年)