特斯拉帶火的端到端，能被理想發揚光大嗎？

2024/09/13

•

端到端究竟該怎麼做，至今業界沒有答案

短短一年時間內，智慧駕駛的主旋律從高速公路挺進城區道路，而近來車企高頻宣傳的“端到端”，又讓參賽者捲入到新的賽道之中。

「端到端」之所以備受推崇，則要歸功於特斯拉的FSD V12（特斯拉研發的自動駕駛系統）。其智駕的系統能力在短短數月間超越了過去數年的累積。憑藉這一質的飛躍，「端到端」也被認為是邁向完全自動駕駛的分水嶺。

實際上，端到端的第一端是感知端，如車輛的攝影機、激光雷達輸入環境資訊部分；第二端則是控制端，當車輛收集到環境資訊後，要做出決策並對車輛行駛軌跡進行控制，讓車輛依環境進行加減速或避讓等。因此，環境感知、決策規劃、控制執行，三個模組形成了自動駕駛的底層操作邏輯。

但三者相對獨立，只能依靠固定的語言和格式傳達訊息，在處理上有些死板，特別是在決策層方面，其各種決策依靠的是工程師提前設想和寫下來的規則，如果出現沒有提前寫下來的規則，決策層可能就會出現決策錯誤。另外，資訊在三個模組之間傳輸始終是有延遲的，並且有可能在資訊傳輸的過程中導致資料缺失，從而帶來一些安全隱患。

如今眾玩家比拼的端到端，則是透過大模型將感知、規劃和控制三個模組整合起來，消除三者之間的界限，讓它們成為一體。

在將三者整合之後，工程師不再需要寫規則告訴系統什麼是車道線、紅綠燈、交通規則等，直接拋棄規則，並運用大模型技術在大量的駕駛數據中學習人怎麼開車，尋找駕駛的規律。相較於先前工程師寫下的規則，大模型學習之後能夠迅速找到更符合場景的應對策略，讓車輛更像真人駕駛。

然而，當中國各路選手翻開特斯拉給出的端到端習題時，卻沒有任何參考答案和提示。對於智駕科技架構的摸索，大多數團隊都是從2023年才剛開始的。

在眾多參賽玩家中，理想是少數的激進派。其採用「4D One Model」的一體化決策網絡,即把感知決策合而為一的「一段式端對端」技術方案。此方案可以實現從資料輸入到路徑輸出只經過一個模型。而華為、小鵬等企業所採用的則是「分段端到端」的漸進式發展路線。

為了在智慧駕駛領域拔得頭籌，從9月10日起，理想的部分車型正式升級為新一代智慧駕駛技術方案，即「端到端+VLM（視覺語言模型）」。

「從端到端開始，大家真正用人工智慧的方式去做自動駕駛了，我相信或早或晚，頭部玩家一定都會做這個方向的。」理想汽車智慧駕駛研發副總裁郎咸朋向我們表示。

01 從“城市NOA”轉向“端到端+VLM”

和華為、小鵬等智駕頭部玩家相比，理想一直處於追趕狀態。理想汽車董事長兼CEO李想曾放出豪言，其自研智駕系統在2022年完全可以和華為、特斯拉正面較量，但其智慧駕駛無論是在規劃能力還是橫向控制方面，一直定位在L2級，遠未達到L2++水平。

為了補足智駕短板，理想從2023年開始集中發力。從去年年初公司決定力推城市NOA年內落地。

儘管身為新勢力銷冠，但當華為在2023年9月宣佈年底推出全國都能開的無圖方案後，一直徘徊在月銷數千輛的問界在短短一個月後便銷量破萬，年底更是衝上月銷3 萬輛大關。這讓理想高層再次把智慧駕駛的策略提升了一個層級。在2023年第三季財報電話會上，公司高層表態稱，有信心在2024年上半年成進入「經過市場驗證的第一梯隊」。

不過，在奮起直追的過程中，理想一直在變換智駕路線。

在2023年4月的上海車展上，理想提出了「年內百城通勤NOA」的目標。此後不久，不只是理想，一眾車企不但直接宣布做到了量產，還比上了開城速度，宣稱年底就能在幾十城、上百城，甚至全國使用。但在去年的成都車展上，理想言之鑿鑿的城市NOA（針對城市交通環境開發的駕駛輔助系統）卻變成了以通勤NOA（可以讓用戶設定自己的通勤路線，並通過日常通勤時的自動化訓練累積特徵）來實現。

和通勤NOA這種在限定路線範圍內的智駕方案相比，城市NOA要面對更複雜的路段、更多不確定的因素。在此之前，全產業的城市NOA基本上都停留在demo（樣本）階段，許多車企連ODD區域（全名為OperationalDesignDomain，即運行設計域，是指針對自動駕駛及相關功能專門設計的運作條件，包括但不限於道路類型、行車區域、速度、環境等）都沒跑明白。「如果只是在全國道路上吭吭咔咔咔地開起來，沒什麼難度，ACC（自適應巡航控制系統）可以，LCC（車道居中輔助系統）也可以，但如果想讓城市NOA在全國道路上開得好，那很難。

從2023年開始，國內智駕頭部車企的競爭轉向傳統的模組化技術架構下，以人海戰術比拼開城速度。過程中，新造車企業的智駕團隊無一例外地擴充到千人規模，星夜兼程地訓練、測試、驗證，並攻克極端情況。

城市NOA之所以能成為產業爆點，並演變為一場激烈的開城大戰，很大程度上是因為智駕已成為消費者購買決策的主要因素之一。市場研究機構JDPower君迪發布的《2023中國新車購買意願研究》顯示，智慧化體驗在購車決策中的影響權重上升到14%，成為繼汽車品質和性能之後的第三大決策因素。

當然，理想狂補智駕作業不僅是為了刺激銷量，也與李想本人對人工智慧的執念有關。

在2023年初的內部信中，李想提到公司的願景是「到2030年成為全球領先的人工智慧企業」。久未露面的李想，在出席今年6月舉辦的中國汽車重慶論壇時，也分享了自動駕駛技術路線的新思考。

他認為，如果自動駕駛團隊每天做的活都是靠人工去調試各種各樣的cornercase（極端情況），那麼人越多，cornercase就越多，離真正的自動駕駛就越遙遠。而端對端+VLM+生成式的驗證系統，將會是未來整個實體世界機器人最重要的技術架構與技術體系。

在7月召開的智慧駕駛夏季發表會上，理想首次公開展示了這款全新的自動駕駛架構。此架構主要由端對端模型、VLM視覺語言模型、世界模型三部分共同構成。為此，理想臥薪嘗膽了一年，一邊繼續用NPN減少對高精地圖的依賴，兌現去年“百城NOA”的承諾；一邊研發“無圖NOA”，同步進行端到端的預研。

今年7月，理想汽車向1,000位內測車主推送了基於端到端車型+VLM的智駕版本。該版本可以達到L2+++的智駕水平，甚至足以支援L3級（有需要時駕駛員要接管）、L4（無需接管的自動駕駛）級自動駕駛產品。

在不到1個月的時間裡，千人內測的城市NOA總行駛里程達到21.1萬公里，單日城市NOA駕駛最長里程為391公里，單次城市NOA零接管最長里程81.6公里。過程中，系統對於駕駛駕駛資料的學習，讓對於環島、超車的處理能力明顯提升。在8月成都車展上，理想又同步開啟了萬人內測，顯然是期冀於全新自動駕駛技術架構成為彎道超車的利器。

回溯理想汽車的智駕技術路線，從高精地圖方案到NPN（神經先驗網絡），再到無高精地圖方案，再到如今的“端到端+VLM”，短短3年內，智駕團隊嘗試了多種方案。然而在技術架構快速更迭的過程中，智駕體驗雖然更好了，但係統到底運用了司機掌握的那些技巧和規則，端到端的不可解釋屬性，讓工程師和使用者還無從得知。

在L4級自動駕駛（高度自動駕駛）真正實現之前，坐在駕駛位置的還是人，因此安全、可靠、穩定，才是使用者對目前智慧駕駛的檢驗標準。如何印證技術的安全性與先進性，是所有玩家無法迴避的核心問題。

02 激進派PK保守派

智駕時代上半場，系統能力的上限取決於產品的設計能力，例如下匝道、超車變換車道、走ETC等能力，這需要逐一拆解和細化。進入到智駕時代下半場，端到端的應用能讓系統能力的上限更高，在一些關鍵場景的表現更加擬人，更加靈活自如，摒棄了傳統智能駕駛系統的生硬的「規則感」。

郎咸朋稱，他們在訓練了80萬個資料量時，系統還不能通過環島，但是在訓練了100萬條後，驚喜地發現系統可以做到了。

理想方面認為，端到端是真正用人工智慧的方式去做自動駕駛了。只要用更多資料訓練模型，系統就會不斷變強，表現可能超過人類駕駛。

雖然端到端進化速度很快，但畢竟屬於「黑盒」模式，對於其能力的評估和測試是不確定性的，很難測試和驗證。當大模型遇到很多沒學明白的地方時，就容易出現下限問題。例如特斯拉車主就遭遇過危險時刻，當十字路口的直行道排隊較長，特斯拉的autopilot（自動駕駛）直接拐到左轉道，然後紅綠燈一亮，直接又加速斜插回直行道。差點和直行車撞上。所幸，駕駛一腳踩住了煞車。

因此，類似場景既需要演算法覆蓋，用優質的資料強化訓練，讓系統學會安全的駕駛習慣，同時還要有兜底的手段，例如駕駛者打算進行180°的急轉向，理想智駕的控制模組就會對其進行約束。

為了讓智駕的安全性得到保證，理想設置了安全兜底模組，確保系統有絕對的下限。今年7月，理想汽車正式推播全自動緊急轉向AES（自動緊急轉向）。 AES在自動緊急煞車系統AEB（自動緊急煞車）的基礎上，將一維的縱向制動，升級到了二維的製動及轉向，規劃多條躲避路徑並選擇其中最優的進行避撞。「用演算法、冗餘一起來解決安全問題，是在最極端的情況下，最兜底的一種保證絕對安全的方式。」郎鹹朋表示。

據了解，小鵬、極越等保守派玩家採用的是兩段式端對端，即感知和規控分為兩個模型來做。以小鵬汽車為例，其技術方案是感知神經網路XNet+規劃神經網路XPlanner+著重場景理解的視覺語言模型XBrain。

對此，激進派認為分段式端到端仍然沒有擺脫傳統方案的範疇，儘管感知與規劃都實現了神經網絡化，但一個關鍵點沒有改變，即連接兩個神經網絡的仍然是人類定義的接口，這意味著資訊損失，以及大量人工標註，整個流程不利於全局最優，也不利於自動化。

不過，分段式端到端的優點也同樣在此，有人類定義的接口，意味著會輸出人類能看懂的中間結果，便於檢查、定位問題，不至於牽一發而動全身。例如，感知出問題了不用把整個網路都重新訓練一遍。更重要的是，分段式端到端更容易保住智駕表現的下限。

理想選擇的一段式端到端，則是用感測器輸入，模型推理完畢後直接給到軌跡規劃用來控車的一體化端到端模式。

其對於堅持採用一段式端到端的解釋是，這種方式能夠解決中間訊息的損失。倘若中間增加了人為的資訊消化過程，分段端對端的效率可能會所有降低，能力上限也會受到約束。

對於能力下限的解決方案，理想設計了一套多系統結構，即以端到端為基礎，整合具備兜底和泛化能力的VLM視覺語言大模型和用於驗證和強化學習的世界模型。

VLM視覺語言大模型擅長的是邏輯推理，能夠去執行複雜的分析，在駕駛中為「端到端」系統提供更符合邏輯、精確的駕駛決策。例如當車輛行駛到一個複雜的路段，同時又遇到一個水坑，這時候其會調用大腦系統2工作，處理複雜邏輯並推演，兩個系統實時運行，相互配合協同，目的是讓車輛更擬真人駕駛。

世界模型是智駕產業找到的最新方法論。它透過學習海量真實駕駛場景視頻，可以預測並生成未來一定時間內的駕駛場景視頻，做出正確的駕駛決策，本質上就是時空推演。在2023年人工智慧頂級會議CVPR上，特斯拉展示了世界模型的研發成果。

使用世界模型比目前的端到端更進一步的是，它的核心任務不僅僅是給出規劃路徑，更有「預測駕駛場景的像素變化」。這個難度極高的任務，會逼迫模型不僅學習優秀駕駛員的行為，還必須廣泛地學習交通知識與物理常識。

理想的世界模型是透過擴散模型技術和3DGS技術（即三維高斯濺鍍技術，是一種先進的三維建模和視覺化技術），把曾經遇到過錯題以及遇到的場景，舉一反三地形成模擬題，實現不斷測試模型能力，不斷優化各個城市表現。它相當於是一套題庫，來源有兩種：

一種是根據真實車主的數據，產品和整車的主觀評價團隊，與內部司機共同製訂“老司機標準”，然後給理想車主的駕駛行為進行打分。如果在安全、法規等維度存在不安全、不合規的情況，模型就無法交付給使用者。

另一種方式類似“錯題庫”，在正常的測試和開車過程中，用戶的接管和退出就是“錯題庫”。

真題庫和錯題庫都有了，理想還會再生成一些模擬題，根據現有的資料舉一反三，比方說有個匝道總是出問題，那麼匝道的場景，理想都會進行訓練，再生成一些匝道的內容，這就是模擬題。

03 標配免費，理想能否堅持到底？

2024年1月，特斯拉開始大規模推送的FSD V12，帶火了“端到端”，也讓智慧駕駛迎來了ChatGPT時刻。一時間，彷彿L4等級的智慧駕駛呼之欲出。

相較於特斯拉，以理想、蔚來、商湯、元戎為代表的科技公司，其技術路線向端對端轉移大多是從2023年底才開始。這意味著無論是模型的建立還是資料訓練，中國車企與特斯拉之間始終存在著一定差距。

去年，理想對於智駕技術的判斷是，只落後特斯拉半年。今年，這個差距可能會再小一點。在郎鹹朋看來，理想的技術架構和特斯拉相比代差不大，甚至更有優勢，“因為我們有VLM，有系統2，特斯拉只是有系統1，端到端。”

郎咸朋表示，理想提出端對端+VLM的系統架構後，業界許多企業也開始提及雙系統理論的好處，無論是對理想車來說，或是對特斯拉來說，其實都是在向雙系統方向發展。

從訓練算力和訓練資料來看，中國企業的相關佈局也更勝一籌。「特斯拉應用資料的合規性會受到一些約束，訓練算力的部署搭建也還需要時間。」郎咸朋認為，從這個層面來看，國內車企跟特斯拉的整體差距不會越拉越大。

目前，理想有80萬車主、超過12億公里的數據，五千張A100、A800等同的訓練卡數量，訓練算力達5.39EFLOPS，在業界都屬於頭部。但這是一場昂貴的競賽，招兵買馬、購買GPU、訓練模型，這是巨額開支，需要有健康的利潤來提供支持。

但外界認為，理想的智駕業務很激進，商業策略卻相對保守。

李想在重慶汽車論壇上誓言，端到端+VLM會在3年內實現L4級自動駕駛。但理想不但沒有想過Robotaxi這門生意，甚至到目前為止仍沒有表露出對智駕收費的興趣。

從公司成立第一天開始，標配和免費就是理想進入智慧駕駛就制定的策略。未來，「有監督的自動駕駛對所有AD Max的車主也是不收費的。」郎咸朋告訴我們，公司目前的交付量比較好且企業經營穩健，也有足夠的資源投入智駕研發。

與小鵬、蔚來不同，理想的智駕KPI並不是取得經營收入，而是為銷售服務。過去一年，理想直面鴻蒙智行，銷量承壓。而鴻蒙智行的最大賣點，就是華為的ADS智駕能力。理想免費的AD MAX智駕可以在最大程度上幫助搶下更多訂單。

根據理想汽車發布的數據顯示，該公司7月-8月交付量達5.1萬輛和4.8萬輛，較去年同期成長49.4%、37.8%。展望第三季度，理想汽車預計季度交付量達到14.50萬輛至15.50萬輛，年增38.0%至47.5%；收入總額預計達394億元至422億元，年增13.7%至21.6%。根據指引，9月理想汽車將維持5萬輛交付，並在10月實現累積交付百萬輛。

郎咸朋表示，無圖NOA全量推播之後，門市的試駕量和銷售量都有大幅的提升。近兩個月，專門進店試駕AD Max的數量增加了一倍。其中30萬元以上的車型，AD Max超過AD Pro，佔比提高到70%，理想L9 AD Max佔比甚至達到90%以上。

如今，中國汽車產業已全面進入智駕時代，淘汰賽已然開始，智駕業務的燒錢程度很難再讓新勢力們一直保持「交個朋友」的狀態。一張訓練卡的成本10萬元起跳，智駕千人團隊的人力成本每年10億元起步，理想汽車的端到端智駕最終能否收穫同等回報，還需要等到全面交付時再下定論。 ( 財經汽車)