端到端究竟該怎麼做,至今業界沒有答案
短短一年時間內,智慧駕駛的主旋律從高速公路挺進城區道路,而近來車企高頻宣傳的“端到端”,又讓參賽者捲入到新的賽道之中。
「端到端」之所以備受推崇,則要歸功於特斯拉的FSD V12(特斯拉研發的自動駕駛系統)。其智駕的系統能力在短短數月間超越了過去數年的累積。憑藉這一質的飛躍,「端到端」也被認為是邁向完全自動駕駛的分水嶺。
實際上,端到端的第一端是感知端,如車輛的攝影機、激光雷達輸入環境資訊部分;第二端則是控制端,當車輛收集到環境資訊後,要做出決策並對車輛行駛軌跡進行控制,讓車輛依環境進行加減速或避讓等。因此,環境感知、決策規劃、控制執行,三個模組形成了自動駕駛的底層操作邏輯。
但三者相對獨立,只能依靠固定的語言和格式傳達訊息,在處理上有些死板,特別是在決策層方面,其各種決策依靠的是工程師提前設想和寫下來的規則,如果出現沒有提前寫下來的規則,決策層可能就會出現決策錯誤。另外,資訊在三個模組之間傳輸始終是有延遲的,並且有可能在資訊傳輸的過程中導致資料缺失,從而帶來一些安全隱患。
如今眾玩家比拼的端到端,則是透過大模型將感知、規劃和控制三個模組整合起來,消除三者之間的界限,讓它們成為一體。
在將三者整合之後,工程師不再需要寫規則告訴系統什麼是車道線、紅綠燈、交通規則等,直接拋棄規則,並運用大模型技術在大量的駕駛數據中學習人怎麼開車,尋找駕駛的規律。相較於先前工程師寫下的規則,大模型學習之後能夠迅速找到更符合場景的應對策略,讓車輛更像真人駕駛。
然而,當中國各路選手翻開特斯拉給出的端到端習題時,卻沒有任何參考答案和提示。對於智駕科技架構的摸索,大多數團隊都是從2023年才剛開始的。
在眾多參賽玩家中,理想是少數的激進派。其採用「4D One Model」的一體化決策網絡,即把感知決策合而為一的「一段式端對端」技術方案。此方案可以實現從資料輸入到路徑輸出只經過一個模型。而華為、小鵬等企業所採用的則是「分段端到端」的漸進式發展路線。
為了在智慧駕駛領域拔得頭籌,從9月10日起,理想的部分車型正式升級為新一代智慧駕駛技術方案,即「端到端+VLM(視覺語言模型)」。
「從端到端開始,大家真正用人工智慧的方式去做自動駕駛了,我相信或早或晚,頭部玩家一定都會做這個方向的。」理想汽車智慧駕駛研發副總裁郎咸朋向我們表示。
01 從“城市NOA”轉向“端到端+VLM”
和華為、小鵬等智駕頭部玩家相比,理想一直處於追趕狀態。理想汽車董事長兼CEO李想曾放出豪言,其自研智駕系統在2022年完全可以和華為、特斯拉正面較量,但其智慧駕駛無論是在規劃能力還是橫向控制方面,一直定位在L2級,遠未達到L2++水平。
為了補足智駕短板,理想從2023年開始集中發力。從去年年初公司決定力推城市NOA年內落地。
儘管身為新勢力銷冠,但當華為在2023年9月宣佈年底推出全國都能開的無圖方案後,一直徘徊在月銷數千輛的問界在短短一個月後便銷量破萬,年底更是衝上月銷3 萬輛大關。這讓理想高層再次把智慧駕駛的策略提升了一個層級。在2023年第三季財報電話會上,公司高層表態稱,有信心在2024年上半年成進入「經過市場驗證的第一梯隊」。
不過,在奮起直追的過程中,理想一直在變換智駕路線。
在2023年4月的上海車展上,理想提出了「年內百城通勤NOA」的目標。此後不久,不只是理想,一眾車企不但直接宣布做到了量產,還比上了開城速度,宣稱年底就能在幾十城、上百城,甚至全國使用。但在去年的成都車展上,理想言之鑿鑿的城市NOA(針對城市交通環境開發的駕駛輔助系統)卻變成了以通勤NOA(可以讓用戶設定自己的通勤路線,並通過日常通勤時的自動化訓練累積特徵)來實現。
和通勤NOA這種在限定路線範圍內的智駕方案相比,城市NOA要面對更複雜的路段、更多不確定的因素。在此之前,全產業的城市NOA基本上都停留在demo(樣本)階段,許多車企連ODD區域(全名為OperationalDesignDomain,即運行設計域,是指針對自動駕駛及相關功能專門設計的運作條件,包括但不限於道路類型、行車區域、速度、環境等)都沒跑明白。 「如果只是在全國道路上吭吭咔咔咔地開起來,沒什麼難度,ACC(自適應巡航控制系統) 可以,LCC(車道居中輔助系統) 也可以,但如果想讓城市NOA在全國道路上開得好,那很難。
從2023年開始,國內智駕頭部車企的競爭轉向傳統的模組化技術架構下,以人海戰術比拼開城速度。過程中,新造車企業的智駕團隊無一例外地擴充到千人規模,星夜兼程地訓練、測試、驗證,並攻克極端情況。
城市NOA之所以能成為產業爆點,並演變為一場激烈的開城大戰,很大程度上是因為智駕已成為消費者購買決策的主要因素之一。市場研究機構JDPower君迪發布的《2023中國新車購買意願研究》顯示,智慧化體驗在購車決策中的影響權重上升到14%,成為繼汽車品質和性能之後的第三大決策因素。
當然,理想狂補智駕作業不僅是為了刺激銷量,也與李想本人對人工智慧的執念有關。
在2023年初的內部信中,李想提到公司的願景是「到2030年成為全球領先的人工智慧企業」。久未露面的李想,在出席今年6月舉辦的中國汽車重慶論壇時,也分享了自動駕駛技術路線的新思考。
他認為,如果自動駕駛團隊每天做的活都是靠人工去調試各種各樣的cornercase(極端情況),那麼人越多,cornercase就越多,離真正的自動駕駛就越遙遠。而端對端+VLM+生成式的驗證系統,將會是未來整個實體世界機器人最重要的技術架構與技術體系。
在7月召開的智慧駕駛夏季發表會上,理想首次公開展示了這款全新的自動駕駛架構。此架構主要由端對端模型、VLM視覺語言模型、世界模型三部分共同構成。為此,理想臥薪嘗膽了一年,一邊繼續用NPN減少對高精地圖的依賴,兌現去年“百城NOA”的承諾;一邊研發“無圖NOA”,同步進行端到端的預研。
今年7月,理想汽車向1,000位內測車主推送了基於端到端車型+VLM的智駕版本。該版本可以達到L2+++的智駕水平,甚至足以支援L3級(有需要時駕駛員要接管)、L4(無需接管的自動駕駛)級自動駕駛產品。
在不到1個月的時間裡,千人內測的城市NOA總行駛里程達到21.1萬公里,單日城市NOA駕駛最長里程為391公里,單次城市NOA零接管最長里程81.6公里。過程中,系統對於駕駛駕駛資料的學習,讓對於環島、超車的處理能力明顯提升。在8月成都車展上,理想又同步開啟了萬人內測,顯然是期冀於全新自動駕駛技術架構成為彎道超車的利器。
回溯理想汽車的智駕技術路線,從高精地圖方案到NPN(神經先驗網絡),再到無高精地圖方案,再到如今的“端到端+VLM”,短短3年內,智駕團隊嘗試了多種方案。然而在技術架構快速更迭的過程中,智駕體驗雖然更好了,但係統到底運用了司機掌握的那些技巧和規則,端到端的不可解釋屬性,讓工程師和使用者還無從得知。
在L4級自動駕駛(高度自動駕駛) 真正實現之前,坐在駕駛位置的還是人,因此安全、可靠、穩定,才是使用者對目前智慧駕駛的檢驗標準。如何印證技術的安全性與先進性,是所有玩家無法迴避的核心問題。
02 激進派PK保守派
智駕時代上半場,系統能力的上限取決於產品的設計能力,例如下匝道、超車變換車道、走ETC等能力,這需要逐一拆解和細化。進入到智駕時代下半場,端到端的應用能讓系統能力的上限更高,在一些關鍵場景的表現更加擬人,更加靈活自如,摒棄了傳統智能駕駛系統的生硬的「規則感」。
郎咸朋稱,他們在訓練了80萬個資料量時,系統還不能通過環島,但是在訓練了100萬條後,驚喜地發現系統可以做到了。
理想方面認為,端到端是真正用人工智慧的方式去做自動駕駛了。只要用更多資料訓練模型,系統就會不斷變強,表現可能超過人類駕駛。
雖然端到端進化速度很快,但畢竟屬於「黑盒」模式,對於其能力的評估和測試是不確定性的,很難測試和驗證。當大模型遇到很多沒學明白的地方時,就容易出現下限問題。例如特斯拉車主就遭遇過危險時刻,當十字路口的直行道排隊較長,特斯拉的autopilot(自動駕駛)直接拐到左轉道,然後紅綠燈一亮,直接又加速斜插回直行道。差點和直行車撞上。所幸,駕駛一腳踩住了煞車。
因此,類似場景既需要演算法覆蓋,用優質的資料強化訓練,讓系統學會安全的駕駛習慣,同時還要有兜底的手段,例如駕駛者打算進行180°的急轉向,理想智駕的控制模組就會對其進行約束。
為了讓智駕的安全性得到保證,理想設置了安全兜底模組,確保系統有絕對的下限。今年7月,理想汽車正式推播全自動緊急轉向AES(自動緊急轉向)。 AES在自動緊急煞車系統AEB(自動緊急煞車)的基礎上,將一維的縱向制動,升級到了二維的製動及轉向,規劃多條躲避路徑並選擇其中最優的進行避撞。 「用演算法、冗餘一起來解決安全問題,是在最極端的情況下,最兜底的一種保證絕對安全的方式。」郎鹹朋表示。
據了解,小鵬、極越等保守派玩家採用的是兩段式端對端,即感知和規控分為兩個模型來做。以小鵬汽車為例,其技術方案是感知神經網路XNet+規劃神經網路XPlanner+著重場景理解的視覺語言模型XBrain。
對此,激進派認為分段式端到端仍然沒有擺脫傳統方案的範疇,儘管感知與規劃都實現了神經網絡化,但一個關鍵點沒有改變,即連接兩個神經網絡的仍然是人類定義的接口,這意味著資訊損失,以及大量人工標註,整個流程不利於全局最優,也不利於自動化。
不過,分段式端到端的優點也同樣在此,有人類定義的接口,意味著會輸出人類能看懂的中間結果,便於檢查、定位問題,不至於牽一發而動全身。例如,感知出問題了不用把整個網路都重新訓練一遍。更重要的是,分段式端到端更容易保住智駕表現的下限。
理想選擇的一段式端到端,則是用感測器輸入,模型推理完畢後直接給到軌跡規劃用來控車的一體化端到端模式。
其對於堅持採用一段式端到端的解釋是,這種方式能夠解決中間訊息的損失。倘若中間增加了人為的資訊消化過程,分段端對端的效率可能會所有降低,能力上限也會受到約束。
對於能力下限的解決方案,理想設計了一套多系統結構,即以端到端為基礎,整合具備兜底和泛化能力的VLM視覺語言大模型和用於驗證和強化學習的世界模型。
VLM視覺語言大模型擅長的是邏輯推理,能夠去執行複雜的分析,在駕駛中為「端到端」系統提供更符合邏輯、精確的駕駛決策。例如當車輛行駛到一個複雜的路段,同時又遇到一個水坑,這時候其會調用大腦系統2工作,處理複雜邏輯並推演,兩個系統實時運行,相互配合協同,目的是讓車輛更擬真人駕駛。
世界模型是智駕產業找到的最新方法論。它透過學習海量真實駕駛場景視頻,可以預測並生成未來一定時間內的駕駛場景視頻,做出正確的駕駛決策,本質上就是時空推演。在2023年人工智慧頂級會議CVPR上,特斯拉展示了世界模型的研發成果。
使用世界模型比目前的端到端更進一步的是,它的核心任務不僅僅是給出規劃路徑,更有「預測駕駛場景的像素變化」。這個難度極高的任務,會逼迫模型不僅學習優秀駕駛員的行為,還必須廣泛地學習交通知識與物理常識。
理想的世界模型是透過擴散模型技術和3DGS技術(即三維高斯濺鍍技術,是一種先進的三維建模和視覺化技術),把曾經遇到過錯題以及遇到的場景,舉一反三地形成模擬題,實現不斷測試模型能力,不斷優化各個城市表現。它相當於是一套題庫,來源有兩種:
一種是根據真實車主的數據,產品和整車的主觀評價團隊,與內部司機共同製訂“老司機標準”,然後給理想車主的駕駛行為進行打分。如果在安全、法規等維度存在不安全、不合規的情況,模型就無法交付給使用者。
另一種方式類似“錯題庫”,在正常的測試和開車過程中,用戶的接管和退出就是“錯題庫”。
真題庫和錯題庫都有了,理想還會再生成一些模擬題,根據現有的資料舉一反三,比方說有個匝道總是出問題,那麼匝道的場景,理想都會進行訓練,再生成一些匝道的內容,這就是模擬題。
03 標配免費,理想能否堅持到底?
2024年1月,特斯拉開始大規模推送的FSD V12,帶火了“端到端”,也讓智慧駕駛迎來了ChatGPT時刻。一時間,彷彿L4等級的智慧駕駛呼之欲出。
相較於特斯拉,以理想、蔚來、商湯、元戎為代表的科技公司,其技術路線向端對端轉移大多是從2023年底才開始。這意味著無論是模型的建立還是資料訓練,中國車企與特斯拉之間始終存在著一定差距。
去年,理想對於智駕技術的判斷是,只落後特斯拉半年。今年,這個差距可能會再小一點。在郎鹹朋看來,理想的技術架構和特斯拉相比代差不大,甚至更有優勢,“因為我們有VLM,有系統2,特斯拉只是有系統1,端到端。”
郎咸朋表示,理想提出端對端+VLM的系統架構後,業界許多企業也開始提及雙系統理論的好處,無論是對理想車來說,或是對特斯拉來說,其實都是在向雙系統方向發展。
從訓練算力和訓練資料來看,中國企業的相關佈局也更勝一籌。 「特斯拉應用資料的合規性會受到一些約束,訓練算力的部署搭建也還需要時間。」郎咸朋認為,從這個層面來看,國內車企跟特斯拉的整體差距不會越拉越大。
目前,理想有80萬車主、超過12億公里的數據,五千張A100、A800等同的訓練卡數量,訓練算力達5.39EFLOPS,在業界都屬於頭部。但這是一場昂貴的競賽,招兵買馬、購買GPU、訓練模型,這是巨額開支,需要有健康的利潤來提供支持。
但外界認為,理想的智駕業務很激進,商業策略卻相對保守。
李想在重慶汽車論壇上誓言,端到端+VLM會在3年內實現L4級自動駕駛。但理想不但沒有想過Robotaxi這門生意,甚至到目前為止仍沒有表露出對智駕收費的興趣。
從公司成立第一天開始,標配和免費就是理想進入智慧駕駛就制定的策略。未來,「有監督的自動駕駛對所有AD Max的車主也是不收費的。」郎咸朋告訴我們,公司目前的交付量比較好且企業經營穩健,也有足夠的資源投入智駕研發。
與小鵬、蔚來不同,理想的智駕KPI並不是取得經營收入,而是為銷售服務。過去一年,理想直面鴻蒙智行,銷量承壓。而鴻蒙智行的最大賣點,就是華為的ADS智駕能力。理想免費的AD MAX智駕可以在最大程度上幫助搶下更多訂單。
根據理想汽車發布的數據顯示,該公司7月-8月交付量達5.1萬輛和4.8萬輛,較去年同期成長49.4%、37.8%。展望第三季度,理想汽車預計季度交付量達到14.50萬輛至15.50萬輛,年增38.0%至47.5%;收入總額預計達394億元至422億元,年增13.7%至21.6%。根據指引,9月理想汽車將維持5萬輛交付,並在10月實現累積交付百萬輛。
郎咸朋表示,無圖NOA全量推播之後,門市的試駕量和銷售量都有大幅的提升。近兩個月,專門進店試駕AD Max的數量增加了一倍。其中30萬元以上的車型,AD Max超過AD Pro,佔比提高到70%,理想L9 AD Max佔比甚至達到90%以上。
如今,中國汽車產業已全面進入智駕時代,淘汰賽已然開始,智駕業務的燒錢程度很難再讓新勢力們一直保持「交個朋友」的狀態。一張訓練卡的成本10萬元起跳,智駕千人團隊的人力成本每年10億元起步,理想汽車的端到端智駕最終能否收穫同等回報,還需要等到全面交付時再下定論。 ( 財經汽車)
