學特斯拉做端到端 可能死得更快?


端對端吹響了智駕淘汰賽

去年八月,工作重心從特斯拉挪開很久的馬斯克,罕見地坐著自家的車,在矽谷進行了一場直播。

嚴格意義上,直播的主角不是矽谷鋼鐵人本人,也不是車,而是車輛搭載的最新版智駕軟體,採用端到端架構的FSD V12 Beta。在他口中,FSD V12是一張神經網路包打一切,”photon-to-control(輸入光子,輸出駕駛指令)“的科技魔法。

儘管在全球圍觀下,FSD V12首秀就闖了一次紅燈,但還是有國內車企緊急成立了端到端團隊。一年之後,端到端的風已經席捲了中國智駕行業。


這次摸著特斯拉過河的集體運動,似乎和過去兩年致敬特斯拉開發Transfomer+BEV、OCC沒什麼不同,但難度與門檻在變得越來越高。一些智駕從業者篤信的價值、賴以生存的崗位,也在經歷瓦解與重構。

01   “端到端就是scaling law”

與過去兩年發生在智駕領域的技術更迭浪潮一樣,端到端也不是什麼新東西。除開過於久遠且簡單的ALVINN,此前比較出名的例子有兩個。


卡耐基梅隆大學1988年提出的ALVINN,端到端自動駕駛鼻祖

2016年,輝達發佈了一篇名為 “End to End Learning for Self-Driving Cars”的論文,以CNN搭建了一套端到端自動駕駛方案。這篇被引5000餘次的論文在學術上取得了不小反響,但未能防止輝達日後在與奔馳的自動駕駛合作中焦頭爛額。

2016年,知名駭客Hotz創辦的comma.ai開源了端到端輔助駕駛方案Openpilot,計算平台使用的是一部搭載高通晶片的手機。儘管這套方案在2020年美國消費者報告的評測中獲得了最高分,但comma.ai對器件可靠性和功能安全不屑一顧的方案,還是讓車企嗤之以鼻。

過去這些年在工業界中,幾乎所有的智駕企業在量產時,都選擇了與端到端相對的另一條路徑:模組化。

模組化結構將智能駕駛系統拆解為多個功能子模組,各模組上下游連接,接力完成整個智駕任務。隨著技術的進步和經驗的積累,這些模組又不斷吸收融合,逐漸形成了“感知-規劃-控制”三大模組。


智駕的端到端與模組化方案

到今天,市面上絕大部分智駕系統,是一個人工和智能兩分天下的混搭系統:感知依靠神經網路,規劃控制則使用人類手動設計的演算法(極少數企業融入了一些神經網路)。這一系統的好處在於,利於分工,出了bug也便於分模組檢查、解決。

但問題是,模組化的智駕系統在相對簡單的駕駛任務上表現不錯,但在複雜的駕駛任務面前,它的天花板肉眼可見。

在使用者的體驗中,到了2024年,智能駕駛還是不夠智能。就算是號稱遙遙領先的城市高階智駕功能,依然會有機械感,也會在匯入快速路、通過大型路口時當機。

智駕工程師們則沒空跟消費者們共情,因為他們快要淹死在碎片化任務的海洋裡。

在目前的混搭式智駕系統中,感知神經網路要向下游規控模組給出目標級的識別結果。這就需要感知模組的工程師不斷定義,“什麼是道路上值得被關注的”,往白名單裡不斷增添物體,訓練神經網路認出它們——

從前是車道線、紅綠燈、汽車、行人、自行車,後來是各種小動物、拉著一棵樹的貨車、撐了遮陽傘的摩托;再往後可能是印在公車上的董明珠和廣告牌上的蘇炳添。


更難過的是規控模組的工程師,他們要日復一日面對不同場景寫if else。其實規控工程師的工作沒有那麼低級,規控領域有不少對各種場景有概括能力的傳統演算法。然而這些演算法的泛用性敵不過現實的複雜度,在deadline壓力下,工程師們不得不頭痛醫頭腳痛醫腳,針對各種疑難場景打規則補丁。

不幸的是,這樣的規則越多,規則之間相互打架的可能性就越大,整個模組的可維護性就越差。同時,疑難場景源源不斷,工程師焚膏繼晷地寫if else,意味著智駕的規控最佳化成了一項愚公移山式的勞動密集型作業。

而在智駕企業管理層的視野中,如果要在當下的智駕競賽中勝出,人海戰術尤其是往規控模組堆人力是必要的,但投入產出比又是不可持續的。比如華為車BU的智駕團隊,規控部門有上千位工程師[1]。以相當保守的平均50萬年薪計,這一部門僅人力成本就超過5億元。華為ADS智駕系統此前在終端的實際落地價是6000元。

如此演進下去,高階智駕有滑向三輸局面的危險,即使是領頭的特斯拉也不例外。但2022年末,Open AI一聲炮響,給智駕送來了端到端的復興。

這年橫空出世的ChatGPT讓一種AI方法論成為了顯學:海量吸收人類的文字資訊,通過以預測下一個字元(token)為目標,讓神經網路學習文字中蘊含的知識。

當年12月,特斯拉的智駕工程師Dhaval Shroff 向馬斯克進言,拋掉那些手寫的規則,搭建一張神經網路,讓它大量觀看人類司機的駕駛視訊,要求它輸出正確的行駛軌跡。在反覆訓練中,這張神經網路可能會習得與人類相仿的駕駛知識。

作為這個世界上與OpenAI淵源最深的人之一,馬斯克當即指示,就這麼辦。

2024年1月,經過一年的研發,採用端到端架構的FSD V12向北美使用者推送。這一版本號稱用單個端到端的神經網路,幹掉了30萬行C++程式碼。

端到端的作用當然不只是替代程式設計師們精心堆砌的屎山,在多個維度上,它表現出了對傳統模組化方法的超越。

在智駕系統的資訊傳遞中,感知不再為了與規控對齊顆粒度而被迫丟失資訊,系統決策獲得的參考資訊更全面,更可能達成全域最優;

從實際體驗來看,端到端的FSD開起來更加擬人、絲滑。何小鵬上個月剛剛送出“友商CEO認證”,他在加州體驗FSD最新版本時說,FSD比他作為加州新手司機開得更好;

在AI離不開的資料標註上,由於不依賴人類定義的識別結果,對各種物體、場景進行人工標註的工作量將進一步減少;

而在已經捲到瘋狂的演算法迭代速度上,由於規控模組也變成了神經網路,可以24小時工作的GPU們將開足馬力訓練,能將智駕OTA的周期推至周更乃至日更;

在人力成本上,理想汽車CEO李想的說法則是,不再需要幾千人的團隊去解決Corner Case。


何小鵬怒贊FSD V12

毫不意外地,端到端由此成為2024年中國智駕企業競相爭奪的技術(有時更多是宣傳)制高點。

今年7月,華為與小鵬的兩段式端到端智駕方案將推送給車主,理想、蔚來正在加班加點推進端到端下半年上車的計畫,Momenta、元戎啟行、商湯絕影的端到端方案也會相繼在今明年登上量產車。

國內一位智駕公司高層評論,端到端就是Scaling Law。商湯絕影事業部總裁王曉剛說,端到端是今天被驗證成功的唯一路徑。

在端到端的架構下,智駕將從人力密集型倒向算力密集、資料密集型,智駕有望真正走上大力出奇蹟的道路,這是過去兩年大語言模型的成功經驗。

02    摸著特斯拉 就能趟過端到端的河?

ChatGPT誕生以後,諸多大小企業摸著OpenAI過河,大語言模型風起雲湧,國外GoogleGemini緊追不捨,Meta靠Llama建起了開源生態,國內文心一言、通義千問、星火大模型、盤古大模型等等各領風騷。

如果端到端架起了智駕通向Scaling Law的橋樑,理論上類似的創新成果迅速擴散的局面也會在智駕領域發生。

但在辰韜資本日前舉行的端到端研討會上,光輪智能CEO、前蔚來模擬負責人謝晨潑了盆冷水:摸著特斯拉前進,結果不一定是過河,也可能是掉坑。

大語言模型的格局演變,不宜直接套用到智駕上。

眾所周知,人工智慧的三要素是演算法、資料與算力。在端到端至關重要的資料環節,國內企業目前還沒看到特斯拉的尾燈。

與大語言模型可以在網際網路上爬取海量文字資料用於訓練不同,端到端智駕需要的視訊資料獲取成本和難度極高。

此前全球最大的自動駕駛公開資料集Nuplan的規模為1200小時,且不是為端到端準備。國內上海AI lab 浦駕團隊蒐羅了整個Youtube,最終搭建了一個2000小時的資料集OpenDV-2K。


OpenDV篩選、處理了240+個城市的駕駛資料

特斯拉則在端到端神經網路開發之初,就向其投喂了1000萬個經過篩選的人類駕駛視訊片段,即使以每段15秒計,這也是超過4萬小時的高畫質視訊。這是2023年初馬斯克透露的資料。

當時特斯拉每天可供進一步篩選的人駕視訊以1600億幀/天的速度增加,大約是148萬小時,大部分國內車企今天比去年的特斯拉資料量少兩到三個數量級,更不用說智駕供應商。如果持續上傳,僅這些資料的頻寬和儲存費用,就足以拖垮一家小規模智駕公司。

問題不僅僅是資料數量,由於駕駛視訊成了端到端系統直接的老師(監督訊號),對視訊資料的質量要求也在提升。

視訊收集的觸發機制是否合理,關鍵場景是否完整,是否收集到了老司機而不是菜鳥的駕駛行為,視訊資料又是不是足夠多元···每一個細節的問題都有各自的know-how,其中一些特斯拉也沒能妥善解決。

不久前, 馬斯克在推特上解釋了FSD V12.4.2推遲的原因,該版本投喂了大量需要接管的複雜場景資料進行訓練最佳化,但在簡單場景的駕駛平順性反而倒退了。這是模型訓練中容易出現的災難性遺忘,需要對神經網路採取一些權重固化措施後重新訓練。


國內此前最受歡迎的智駕崗位是演算法工程師,但端到端的競賽是資料驅動的競爭,資料團隊的重要性將越來越顯性。一家智駕企業的研發負責人認為,若要轉向端到端,國內智駕資料團隊最緊急的任務應該是補齊閉環模擬的能力,這是以低成本方式對端到端進行驗證測試的關鍵。

與資料層面的差異相似,國內智駕企業在算力儲備上與特斯拉的差距肉眼可見。

今年年底,特斯拉預計將擁有100exaflops雲端算力,國內相關企業紙面參數最高的是商湯的12eflops,但分配給商湯絕影用於智駕神經網路訓練的算力未知。在智駕投入上最激進的華為,用於智駕訓練的算力今年剛達到3.5eflops。


特斯拉為容納H100正在建設的資料中心

算力與資料的制約又會顯著影響演算法的發展,況且,這一次特斯拉沒有留下演算法的石頭給後來的過河者。

2021-2022年,特斯拉兩次召開AI Day,公開了智駕部分技術細節與進展。儘管沒有公開放原始碼,但這兩次AI Day事實上起到了引領行業風向的作用,AI Day上提出的Transfomer+BEV架構和Occupancy佔用網路如今都成為高階智駕的基石演算法。

但2023年,意識到有競爭對手在“逐幀研究PPT”後,馬斯克叫停了AI Day的舉辦。這讓其他企業對標學習的難度陡增。

關鍵時刻,國內學術界提出的端到端自動駕駛模型UniAD斬獲2023年CPVR最佳論文獎,為國內企業提供了可以參考的方向。但是在開環驗證體系、小體量樣本資料下開發的UniAD,上車還需要一定時間的工程化改造和大規模資料訓練。


UniAD 演算法結構

在包括但不限於演算法、算力、資料等多方面差距的制約下,國內智駕企業對端到端的開發實際上還處於踩坑階段,一旦過於冒進(或者根本沒條件冒進),就有翻車的風險。

因此智駕企業對標特斯拉端到端的時候,往往是在對標兩個不同的特斯拉:宣傳上對標今天的特斯拉,實際工程進度上對標一年前或者兩年前的特斯拉。

03     神經網路在整合,團隊和行業亦然

作為國內智駕開發進度最靠前的兩家企業,小鵬與華為在端到端的競賽中並沒有表現出在智駕開城大戰中的激進。他們的端到端技術方案均採用兩段式,由感知神經網路與規劃神經網路相連。


華為ADS 3.0的兩段式端到端

這在行業一些人士看來不是經典意義上的端到端,更像是完成了智駕演算法的神經網路改造。獨立於兩家企業的智駕人士認為,這種“兩段式端到端“是一種過渡形態,可能會存在與傳統方案相似的資訊損失問題,但它對算力和資料的要求更低,量產進度更快,對智駕系統問題的溯源和解決更方便。

另一個可能的原因是,智駕企業轉向端到端,必然要經歷人員與組織架構的調整,歷史包袱越重,調整阻力越大。

在這個過程中一個不容忽視的矛盾是,理論上對智駕表現最終負責的是規控負責人,但由於技術分工的歷史沿革,大多數智駕企業中更懂神經網路的往往是感知負責人。在端到端的趨勢下,以傳統演算法為核心工作的規控部門容易被整合、降權或者最佳化。

特斯拉在轉向端到端方案後,原規控負責人選擇離職。上個月,蔚來的智駕部門感知與規控團隊合併為大模型團隊,團隊負責人為原感知負責人彭超[2]。與前兩者不同,小鵬智駕總負責人李力耘此前是規控團隊負責人,華為則有著國內智駕企業中最龐大、成績也最亮眼的規控部門。

但長期來看,無論是大語言模型的力大磚飛成功經驗,還是智駕現實的商業化壓力,實現一張神經網路解決高階智駕都是行業的共識。曾經為感知神經網路輸出兜底的規控工程師,被神經網路端掉飯碗是大機率事件。

只不過這個過程不會那麼劇烈。

智加首席科學家崔迪瀟認同的一個觀點是,端到端會同時放大智駕系統的上限與下限,因為它是一個神經網路黑箱,在獲取更高上限的過程中讓渡了一部分傳統模組方案具備的可解釋性。

如何在智駕系統中保留可解釋性,將那些不應被踰越的規則(比如別闖紅燈)表徵到神經網路中去,保證端到端能安全地落地應用、進化,將是規控工程師們的重要課題。

這會有點像為混動車型打造混動專用發動機的引擎工程師,核心任務是服務好那些最終會消滅他崗位的電機與電池。

商湯絕影總裁王曉剛則說,現階段智駕行業並不存在一個純神經網路的量產方案,為了給安全兜底,要麼選擇端到端與傳統方案平行,要麼端到端網路後接一些後處理模組或者強安全的程式碼。神經網路的進與規則的退會是一個漸進的過程。

只是如果說人才還可以流通、轉型,那麼“所有人都在虧錢”的智駕行業,可能會被端到端更快推到一個整合臨界點。

上述智駕企業研發負責人感慨,眼下高階智駕企業”都活著但又都活得不好“的重要原因,是採用了上一代模組化的技術架構,人力成本下不去,資料飛輪轉不起來。

而端到端的高門檻和高效率意味著,不需要也不會有太多車企與智駕供應商掌握端到端。在這場逼近的淘汰賽中,大企業要迎戰自身的內耗,小企業只能死磕認知與效率的領先。 (財經汽車)