在2022的Q4財報會議上,馬斯克曾自信地宣稱在自動駕駛領域特斯拉處於遙遙領先的絕對第一,“拿望遠鏡都找不到第二名”,彼時特斯拉的自動駕駛已經跳票6年,《華爾街日報》委婉地表示不再相信馬斯克……
一年後,特斯拉在2024年初開始在一定範圍內推送FSD V12,並於同年3月將FSD Beta改名為FSD Supervised,特斯拉智駕團隊負責人AShok Elluswamy在X(推特)上發文稱基於“端到端”(“end-to-end”)的FSD V12在數月的訓練時間內,已經完全超過了數年積累的V11。
同時FSD V12的推出很快得到了業界的積極回應,輝達CEO黃仁勳在接受外媒採訪時高度評價“特斯拉在自動駕駛方面遙遙領先。特斯拉第12版全自動駕駛汽車真正具有革命性的一點是,它是一個端到端的生成模型。”;Michael Dell (戴爾科技集團董事長兼CEO)在X上表示“全新的V12版本令人印象深刻,它就像人類司機一樣”;Brad Porter(曾任Scale AI首席技術官、亞馬遜機器人副總裁)同樣稱“FSD V12就像是ChatGPT 3.5到來的時刻一樣,它並不完美,但令人印象深刻,你可以看出這是完全不同的東西,迫不及待地期待它進化到GPT4那樣”;就連曾經對特斯拉“劍拔弩張”的小鵬汽車董事長何小鵬,在試駕完FSDV12後也在微博上評價“FSD V12.3.6表現極好,要向其學習”,並且他還表示“今年的FSD和以前的Tesla自動駕駛從能力上完全是兩個,我非常讚賞”。
那究竟是什麼樣的改動,讓FSD V12如醍醐灌頂般在短短幾個月的時間就超越了過去數年的積累?這一切都要歸因於“端到端”的加入,而要想系統地瞭解特斯拉FSD V12前後版本翻天覆地的變化,則要從自動駕駛的基本框架以及FSD V12的前世講起。為了讓大家讀完本文都能有所收穫,我力爭降維到小學生模式,在保證專業度的同時增加可讀性,用通俗易懂的表達將自動駕駛的基本框架概念、FSD V12的前世今生講清楚,讓沒有任何專業背景知識的小學生也能輕鬆搞懂。
讀完本文後,你會對當下自動駕駛行業最火且達成共識的“端到端”以及曾經爆火的“模組化”、“BEV鳥瞰圖 +Transformer”、“Occupancy 佔用網路”等相關概念有清晰的認知。除此之外,你還會瞭解特斯拉V12為何是突破性的、為何自動駕駛的ChatGPT時刻即將到來,同時你也會對當下自動駕駛行業發展到那一步形成初步的判斷。
1.1 自動駕駛分級
在正式開始前,我們需要對自動駕駛的整體框架有一個瞭解:目前被國內外廣泛接受的自動駕駛分級標準是SAE(國際汽車工程學會)的分級,從L0-L5共6個等級,隨著等級的上升,車輛對駕駛員手動應急接管的需求越來越小,自動駕駛系統的功能也越來越齊全,到了L4、L5等級後便不再需要駕駛員接管駕駛(理論上在這兩個階段,方向盤、踏板都無需安裝)。
L0級:無自動化
L1級:“部分解放司機雙腳”輔助駕駛
L2級:“部分解放司機雙手”(部分自動化)當前發展階段
L3級:“部分解放司機雙眼”(有條件自動化)當前發展階段
L4級:“解放司機大腦”(高度自動化)
L5級:“無人”(完全自動化)
1.2 自動駕駛設計理念:模組化 vs 端到端
瞭解清楚自動駕駛分級的基本框架後,我們便需要進一步瞭解車輛是怎樣實現自動駕駛的。自動駕駛的設計理念可以分為兩類,分別是傳統的模組化設計和端到端設計。在2023年特斯拉的標竿作用下,現在端到端自動駕駛已經逐漸成為了行業和學術界的共識。(2023 年 CVPR 最佳論文獎的 UniAD便採用的端到端,體現學術界對該設計理念的認同;自動駕駛行業中,繼特斯拉後,華為、理想、小鵬、蔚來等多家智駕公司紛紛跟進端到端,代表業界對該理念的認同。)
1.2.1模組化
在比較兩個設計理念的優劣前,我們首先來拆解下什麼是模組化設計:它包含感知、決策規劃、執行控制三大模組(如圖4所示),研究人員可以通過偵錯每個模組的參數來使車輛適應各種場景。
感知模組:負責收集和解釋車輛周圍環境的資訊,通過各種感測器(比如攝影機、激光雷達、雷達、毫米波等)檢測和識別周圍物體(比如其他交通參與者、訊號燈、道路標誌)——感知模組是自動駕駛的核心,在端到端上車之前大部分的技術迭代都集中在感知模組,核心目的就是讓汽車的感知水平達到人類水平,讓你的汽車能夠像你在開車時一樣注意到紅燈、加塞車輛甚至是馬路上的一條狗。
註:在給車輛提供感知資訊的部分還包括定位部分,比如有些企業會使用高精地圖來確定車輛在環境中的精確位置(但高精地圖成本高、且精確資料的獲取有很大難度,不易推廣)。
決策規劃模組:基於感知模組輸出的結果,預測其他交通參與者的行為和意圖,並制定車輛的行駛策略,確保車輛能到安全、高效、舒適地到達目的地。這個模組就像是車輛的大腦(前額葉部分),隨時根據已輸入的程式碼規則(Rule based)思考著最佳的行駛路徑、何時超車/變道、面對加塞車輛時是讓還是不讓、在感受到紅綠燈時是走還是不走、在看到外賣小哥佔道行駛時是超還是不超等問題。——在這部分車輛是基於程式碼規則來進行決策的,舉一個最簡單的例子,車輛的程式碼寫入紅燈停綠燈行、見到行人要讓行的指令,那麼在對應的場景下,我們的汽車便會根據提前寫好的程式碼規則進行決策規劃,但如果出現沒有寫進規則的情況,那麼我們的車便不知該如何應對了。
控制模組:執行決策模組輸出的行駛策略,控制車輛的油門、剎車和轉向。如果說決策模組是大腦軍師的話,那麼控制模組就是聽從軍令的士兵,“指那打那”。
模組化的優缺點
● 優點:可解釋、可驗證、易偵錯
■ 因為每個模組都是相對獨立的,所以當我們的車輛出現問題時我們可以回溯究竟是那個模組出現了問題;在出現問題後,我們只需要在原有程式碼規則的基礎上調整對應的參數即可,簡單來說“比如我們自動駕駛的車輛在面對其他車輛加塞時,剎車過猛,那我們只需要調整加塞情況下,車輛的速度、加速度該如何變化即可”。
● 缺點:傳遞過程中資訊損耗、任務多且散導致低效、存在復合誤差、規則難以窮盡導致建構和維護成本高。
■ 資訊在傳遞過程中存在損耗:感測器的資訊從進入感知模組再到控制模組輸出,中間經歷了多個環節,資訊在傳遞過程中除了效率變低以外不可避免地會有資訊的損耗;舉一個簡單的例子比如在傳話遊戲中,第一個人說的是“你好”,經過中間幾個人的傳遞後,到最後一個人那裡可能變成風馬牛不相及的“李吼”。
圖5.傳話遊戲示意圖
■ 規則難以窮盡導致建構和維護成本高:大家如果理解了模組化的基本邏輯後,便知道模組化是基於規則的,車輛在道路上做的所有決策背後都是一條一條的規則,而規則的背後則是一條一條的程式碼,程式設計師提前將道路上的規則以程式碼的形式寫好,車輛在對應情況的時候便根據寫好的規則遍歷所有可能選出最優解,進行決策進而採取相應的行為。
說到這裡大家可能覺得沒什麼,我們直接把類似於紅燈停、綠燈行的這些規則都寫進去不就好了,然而工程師很難窮盡路上的所有情況,因為真實的物理世界是一直在變化的,有無數種排列組合,我們只能預期到常規的事情並把它寫進規則中,但是小機率的極端事件也是會發生的(比如道路上突然出現一隻猴子在和人打架),所以依靠程式碼堆疊規則到最後只能苦嘆一聲“人力有時窮”。
1.2.2 端到端
講完了模組化,我們接下來就看下目前行業最認可的端到端究竟是怎麼一回事兒。所謂端到端(End-to-End)就是資訊一頭進入一頭輸出,中間沒有各個模組傳輸來傳輸去,一站式搞定。
也就是基於統一的神經網路從原始感測器資料輸入直接到控制指令輸出的連續學習與決策過程,過程中不涉及任何顯式的中間表示或人為設計的模組,不再需要工程師人為寫無窮盡的程式碼了,除此之外;其另一個核心理念就是無損的資訊傳遞(原來可能是多人傳話遊戲,端到端就變成了你說我聽)。
我列舉兩個例子來給大家講解模組化和端到端的區別:模組化設計理念下的車輛就好像是在駕校學車的、沒有自主意識、且不會主動模仿學習的新手司機,教練說做什麼他就做什麼(編寫程式碼規則),教練跟它說紅燈要停下來、遇到行人要禮讓,它就按照教練的說法做,如果遇到教練沒說過的事兒,它就愣在那裡不會處理了(武漢“芍蘿蔔”)。而端到端設計理念下的車輛則是一個擁有自主意識並且會主動模仿學習的新手司機,它會通過觀察別人的駕駛行為來學習,最開始它就像一個菜鳥一樣,什麼也不會,但是它是個好學的孩子,在給它觀看了成百上千萬的優秀老司機怎麼開車的視訊後,它慢慢就變成了真正的老司機,然後它的表現只能用一個字來形容,那就是“穩”!
如圖7所示,基於一條一條程式碼規則驅動的模組化設計理念的車輛,讀到大學就無法再往上進修了,而基於資料驅動(給車輛看的老司機開車的視訊就是所謂的資料)的端到端雖然初期是在小學,但它具備很強的成長性和學習性(強化學習和模仿學習),可以很快地進修到博士。(就像余承東評價“Fsd下限低,上限高那樣”,但只要你有足夠多的資料,給予它足夠多的老司機駕駛的視訊,它不便不會停留在低水平太長時間)。
當然,目前圍繞端到端的基本定義仍然存在爭議,“技術原教旨主義者”認為,市面上很多公司宣傳的“端到端”並不是真正的端到端(比如模組化的端到端),他們認為真正的端到端應該是全域端到端,從感測器輸入到最後控制訊號輸出,中間所有步驟都是端到端可導的,可進行全域最佳化;而“實用主義者”則認為只要基本原理符合,能讓自動駕駛車輛的性能表現提升就可以。
端到端的三大劃分
有的朋友看到這裡可能有些懵,端到端也有不同劃分?是的沒錯,目前端到端主要可以劃分成三類(目前存在多種不同劃分,為了便於大家理解,本文只列舉輝達GTC大會的劃分),如圖8所示可以分成顯式端到端、隱式端到端、基於大語言模型的端到端。
顯式端到端
顯式端到端自動駕駛將原有的演算法模組以神經網路進行替代,並連接形成端到端演算法。該演算法包含可見的演算法模組,可以輸出中間結果,當進行故障回溯時可以一定程度上進行白盒化調整。在這個情況下,便不再需要工程師一行一行去敲程式碼來撰寫規則了,決策規劃模組從手寫規則向基於深度學習的模式進行轉變。
看起來有些抽象難懂,我們用大白話來講的話就是端到端了但又沒有完全端到端(也叫做模組化的端到端),而所謂的白盒其實是相對於黑盒而言的,在後面隱式端到的部分我會用新手司機的例子來展開講,這裡看不懂不要緊可以先行跳過。
獲得2023年CVPR最佳論文的UniAD模型就是採用的顯式端到端,如下圖所示,我們能夠明顯觀察到各個感知、預測規劃等模組採用了向量的方式進行連接。
註:顯示端到端需要結合隱式端到端一起理解,不要孤立開;顯式端到端還可以劃分為感知端到端、決策規劃端到端
隱式端到端
隱式的端到端演算法建構整體化的基礎模型,利用海量的感測器接收的外部環境資料,忽略中間過程,直接監督最終控制訊號進行訓練。“技術原教旨主義者”認為如圖9這樣的感測器資訊一頭進入另一頭直接輸出控制訊號的端到端才是真正的端到端,中間沒有任何額外模組。
前面我們提過顯式端到端,通過比較圖8和圖9,能夠看出明顯的區別就是:隱式一體化的全域端到端中間沒有各個模組,只有神經網路存在(感測器就是它觀看世界的方式,中間的端到端系統就是它的完整的大腦,方向盤、剎車油門就是它的四肢);而顯式端到端不同的地方在於它把中間完整的大腦按照模組化的方式給分開了,雖然它不再需要編寫程式碼去學習各種各樣的規則,已經逐漸可以通過觀看老司機視訊的方式學習,但是,它依舊是分模組去做的,所以批評的聲音會認為其不是真正意義上的端到端。
但這樣做也有它的好處,我們在前面提到過顯式端到端在一定程度上是白盒的,這是因為當我們的車輛通過學習湧現出一些我們不期望的糟糕行為時,我們可以回溯究竟是那個模組的端到端出現了問題,而作為黑盒模型的隱式端到端則無從下手,因為它是完全一體化的,創造它的人也不知道它為什麼會這樣做(這就是大家老在網上聽到的黑盒的大概意思)。
生成式AI大模型的端到端
ChatGPT為自動駕駛帶來了極大的啟發。它運用無需標註且成本低廉的海量資料進行訓練,還具備人機互動以及回答問題的功能。自動駕駛可以效仿這種人機互動的模式,輸入環境方面的問題,它直接輸出駕駛決策,通過基於大語言模型的端到端來完成這些任務的訓練運算。
AI大模型的主要作用有兩點,一是可以低成本生成海量接近真實的、包含Corner Case(自動駕駛過程中很少出現但可能導致危險的異常情況)的多樣化訓練視訊資料,二是採用強化學習的方法來達到端到端的效果,從視訊感知到直接輸出駕駛決策。其核心就是模型可以通過自然資料自己推理學習因果,不再需要標註,模型整體的泛化能力得到大幅度提升,類似ChatGPT那樣,以自回歸的方式從上一個場景預測下一個場景。
讓我們用更簡單的話來講一下大模型對於端到端的重要性:
目前自動駕駛資料庫的價值極低:通常包括兩種資料,一種是正常行駛情況,千篇一律,佔公開資料約 90%,如特斯拉影子模式。馬斯克承認這種資料價值較低,有效性可能僅萬分之一甚至更低。另一種就是事故資料即錯誤示範。用其做端到端訓練,要麼只能適應有限工況,要麼會出錯。端到端是黑盒子,無法解釋、只有相關性,需高品質、多樣化的資料,訓練結果才可能好點。
端到端需先解決資料問題,靠外界採集不太可行,因為成本高、效率低且缺乏多樣化和互動(自車與其他車輛、環境的互動,需昂貴人工標註),因此引入生成式AI大模型,它能製造海量多樣化的資料,減少人工標註,降低成本。
除此之外大語言模型端到端的核心邏輯是預測未來發展,本質是習得因果關係。當前神經網路與人類有差距,神經網路是機率輸出,知其然而不知其所以然;人類可通過觀察及無監督互動學習物理世界運行常識,能判斷合理與不可能,通過少量試驗學習新技能並預測自身行為後果。而生成式AI端到端大模型就是希望神經網路也具備像人類這樣舉一反三的能力。
舉個例子來說:我們人類司機肯定會遇到一些沒有見過但可能有危險的情況,雖然沒有經歷過,但是通過往的經驗我們可以推斷出這個情況做什麼才能保住小命(比如我們可能都沒有經歷過路上出現一個霸王龍的現象,但當霸王龍真的出現後,我們肯定會抓緊開車逃跑),通過過往經驗推測並判斷行為合理與否,這就是我們希望大語言模型端到端做的事情,希望我們的車輛真正地像人一樣開車。
目前由於特斯拉還未召開第三次AI Day,所以我們暫時不清楚特斯拉端到端的具體網路架構,但是根據特斯拉自動駕駛負責人Ashok在2023CVPR以及馬斯克本人的一些回覆,可以推測特斯拉的端到端模型很有可能是基於大語言模型的端到端(World model)。(期待特斯拉的第三次AI Day)
端到端的優缺點
● 優點:無損的資訊傳遞、完全由資料驅動、具備學習能力更具范化性
■ 隨著感知、決策規劃端到端自動駕駛路徑逐漸清晰,端到端為邁向L4無人駕駛提供了想像空間。
● 缺點:不可解釋、參數過大,算力不足、幻覺問題
■ 如果你用過ChatGPT之類的大語言模型,那你就會知道有些時候它會一本正經的胡說八道(也就是幻覺問題),聊天時胡說八道無關痛癢,但是!如果在馬路上,你的車輛一本正經的胡亂開,可是會要人命的!而且因為黑盒問題,你還沒辦法回溯原因所在,這是便是目前端到端急需解決的問題,目前常見的解決方案便是加入安全冗餘。
■ 除此之外,端到端落地同樣還面臨著算力和資料的巨大需求,根據辰韜資本的報告顯示,儘管大部分公司表示 100 張大算力 GPU 可以支援一次端到端模型的訓練,但這並不意味著端到端進入量產階段只需要這一數量級的訓練資源。大部分研發端到端自動駕駛的公司目前的訓練算力規模在千卡等級,隨著端到端逐漸走向大模型,訓練算力將顯得捉襟見肘。而算力的背後就是錢(並且由於美國禁止向中國實體出售高端晶片使這一困境加劇),就像理想汽車的郎咸朋說的那樣,“智能駕駛未來一年10億美元只是入場券”。
講到這裡,我們便把自動駕駛最基礎的一些框架性內容講完了(因為篇幅有限,故只包含了一小部分),從歷史的眼光回頭看,自動駕駛的進步基本上就是沿著特斯拉既定的路線往前走的(這中間各個廠商會在其原有路線的基礎上有所創新,但本質並未偏離),從某種程度上來說,或許能跟住特斯拉本身就是一種能力。接下來,我將會從模組化和端到端的發展給大家展開講一下特斯拉FSD V12的前世今生。
2.1特斯拉FSD V12的前世
特斯拉智能駕駛的發展史在一定程度上反應了自動駕駛行業最重要的一條路線的發展史,在2014年時,特斯拉發佈第一代硬體Hardware 1.0,軟硬體均由Mobileye(一家以色列的汽車科技公司)提供,然而整體合作隨著2016年特斯拉“全球首宗自動駕駛致命事故”而結束(這裡的核心原因在於Mobileye提供的是封閉黑盒方案,特斯拉不能修改其中的演算法,而且還不能與Mobileye共享車輛資料)。
2016到2019則是特斯拉的自研過渡期。在2019年Hardware升級到了3.0版本,並且採用第一代自主研發的FSD1.0晶片,增加了影子模式功能,幫助特斯拉收集大量的自動駕駛資料,為其純視覺路線打下基礎。
2019到2024FSD V12.0大範圍推廣前,是其全面自研時期,2019年演算法架構向神經網路升級提出HydraNet九頭蛇演算法,2020開始聚焦純視覺-,並在2021和2022的AI Day上接連公佈了BEV和Occupancy網路架構,在北美驗證了BEV +Transformer+Occupancy的感知框架,國內廠商開始紛紛跟進(這中間差了1-2年左右)。我們在前面提到過,模組化智能駕駛設計理念中最核心的部分就是感知模組,也就是我們要如何讓車輛更好地理解感測器(攝影機、雷達、毫米波等)輸入的資訊,而上面所提的一堆概念以及特斯拉在FSD V12版本之前做的大部分事情都是在讓感知模組變得更智能,從某種程度上可以理解為讓感知模組走向端到端,因為要想讓車能夠自動駕駛,第一步就是讓它真實客觀地感受這動態變化的物理世界。
其次才是給它制定行駛規則(決策規劃模組),而決策規劃模組較為傳統,採用蒙特卡洛樹搜尋+神經網路的方案(類似GoogleAlphaGo下圍棋的方案),快速遍歷所有可能性找出勝率最高的那條路徑,其中包含了大量人為輸入的程式碼規則,即根據大量預先設定的人為規則來在道路中設想並選擇最佳的軌跡(遵守交規且不碰撞其他交通參與者),而控制模組更多是油門剎車方向盤等硬體層面的事情。
因為感知模組是進步變化最核心的部分,接下來我會儘量用通俗易懂的話講解其中包含的這些概念的基本作用,以及它們分別解決了什麼問題(因為文字篇幅有些,所以有所精簡)。
2.1.1特斯拉FSD感知側的進化
2017年,之前在斯坦福任教的Andrej Karpathy加入特斯拉,標誌著特斯拉感知側端到端的進化拉開序幕:
(1)HydraNet九頭蛇演算法—2021年特斯拉AI DAY公佈
HydraNet是特斯拉開發的一種複雜的神經網路,用來幫助汽車“看見”和“理解”周圍的環境。HydraNet這個名字來源於希臘神話中的九頭蛇“Hydra”。這個網路系統也像多頭蛇一樣,有多個“頭”可以同時處理不同的任務。這些任務包括物體檢測、紅綠燈識別、車道預測等。而它的三大優點就是特徵共享、任務解耦、能快取特徵更高效微調。
特徵共享:通俗來講就是基於HydraNet的主幹網路backbone處理最基本的資訊,然後再把處理過的資訊共享給它的不同小腦袋(head),好處在於每個“小腦袋”不用重複處理相同的資訊,可以更高效地完成各自的任務。
任務解耦:將特定任務與主幹分離,能夠單獨微調任務;每個“小腦袋”專門負責一種任務,比如一個負責識別車道線,另一個負責識別行人,等等。這些任務之間互不干擾,各自獨立完成。
能快取特徵更高效微調:通過限制資訊流動的複雜度,確保只有最重要的資訊傳遞給各個“小腦袋”,這個“瓶頸”部分能夠快取重要特徵,並加速微調過程。
(2)BEV(Birds’Eye View鳥瞰視角+Transformer)—2021年特斯拉AI DAY公佈
平面圖像走向3D鳥瞰空間
HydraNet幫自動駕駛的車輛完成了識別的工作,而對於車輛周圍環境的感知則由BEV(Birds’Eye View鳥瞰視角)+ Transformer完成,兩者的結合幫助特斯拉完成了將八個攝影機捕捉到的2維平面圖片轉換為3D向量空間的工作(也可以由激光雷達完成,但激光雷達的成本要遠遠高於攝影機)。
鳥瞰圖是一種從上往下俯視的視角,就像你在高空中俯視地面一樣。特斯拉的自動駕駛系統使用這種視角來幫助汽車理解周圍的環境。通過將多個攝影機拍攝到的圖像拼接在一起,系統可以生成一個完整的道路和周圍環境的平面圖(2D)。
而Transformer能將來自不同攝影機和感測器的資料有效融合,像一個超級聰明的拼圖高手,將不同角度的圖像拼成一個完整的環境檢視。將這些平面視角資料融合成一個統一的3D視角的鳥瞰圖景。這樣,系統可以全面、精準地理解周圍的環境(如圖14所示)。
而且BEV+Transformer可以消除遮擋和重疊,實現“局部”端到端最佳化,感知和預測都在同一個空間進行,輸出“平行”結果。
(3)Occupancy Network佔用網路——2022年特斯拉AI DAY公佈
Occupancy佔用網路的加入讓BEV從2D變成了真正意義上的3D(如圖16所示),並且在加入時間流資訊(基於光流法)之後,完成了由3D向4D的過度。
Occupancy Network佔用網路引入了高度資訊,實現了真正的3D感知。在之前的版本中,車輛可以識別訓練資料集中出現的物體,但對於未見過的物體則無法識別,而且即使認識該物體,在BEV中也只能判斷其佔據一定程度的方塊面積,而無法獲取實際形狀。Occupancy網路通過將車輛周圍的3D空間劃分成許多小方塊(體素),實現了對每個體素是否被佔據的判斷(其核心任務不在於識別是什麼,而是在於判斷每一個體素中是否有東西被佔據)。
這就像你在迷霧中開車,雖然看不清楚前面是什麼,但你大概知道前面有障礙物,你需要繞過去。
Occupancy Network也是通過Transformer來實現的,最終輸出Occupancy Volume(物體所佔據的體積)和Occupancy flow(時間流)。也就是附近的物體佔據了多大的體積,而時間流則是通過光流法來判斷的。
光流法假設構成物體的像素亮度恆定且時間連續,通過對比連續兩幀圖像中的像素位置變化,最終帶來了4D投影資訊。
(4)特斯拉引領感知技術收斂,國內頭部廠商陸續跟隨
大家讀到這裡可能沒有很直接的觸感,但我給大家列舉幾個直觀資料
● 2021年FSD V9,第一屆AI Day公佈BEV網路,國內2023年BEV架構開始上車。
● 2022年第二屆AI Day特斯拉公佈Occupancy Network佔用網路,2023-2024年國內Occupancy佔用網路開始上車。
● 2023年特斯拉宣佈FSD V12採用端到端技術,2024年國內廠商紛紛跟進(採用模組化的端到端)。
BEV+Transformer解決了自動駕駛車輛對高精地圖依賴的問題:高精地圖和我們日常用的高德、百度地圖不一樣(如圖20所示),它精確到釐米等級並且包括更多資料維度(道路、車道、高架物體、防護欄、樹、道路邊緣類型、路邊地標等資料資訊)。它的成本是很高的,需要時時刻刻保證地圖釐米等級的精確性,然而道路的資訊總是會有變化的(比如臨時施工),所以就需要長時間進行採集測繪工作。而想依靠高精地圖實現所有城市場景的自動駕駛,是不現實的。大家現在應該可以在一定程度上理解BEV帶來的貢獻了(註:特斯拉Lane神經網路同樣是擺脫高精地圖的關鍵演算法,由於篇幅限制,這裡不做過多闡述)
Occupancy Network佔用網路解決障礙物識別率低的問題:將識別的物體變成4D,無論車輛周圍有什麼東西,無論它認識與否,它都可以將其識別出來,避免碰撞問題。而在此之前,車輛只能識別訓練資料集中出現過的物體。Occupancy Network佔用網路一定程度上帶領自動駕駛上實現了依靠神經網路的感知側端到端,意義重大。
2.2特斯拉FSD V12的今生
在文章開頭我們提到:特斯拉智駕團隊負責人AShok Elluswamy在X(推特)上發文稱基於“端到端”(“end-to-end”)的FSD V12在數月的訓練時間內,已經完全超過了數年積累的V11。
AShok Elluswamy在X(原推特)上發文
再結合業內一眾大佬對FSD V12的高度肯定,可以看出FSD V12和V11可以說是兩個東西,因此我以V12為分界線將其分為前世今生。
根據表1可以看出自從,FSD V12上車之後,其迭代速度遠遠快於之前,30多萬行的C++程式碼縮減到幾千行,可以在社交媒體上看到消費者、從業者都頻繁表示特斯拉FSD V12的表現更像人了。
特斯拉究竟是如何實現的蛻變我們不得而知,但是從AShok Elluswamy在2023 CVPR的演講上或許可以推斷其端到端的模型很有可能是在原有的Occupancy的基礎上建構的。“Occupancy模型實際上具有非常豐富的特徵,能夠捕捉到我們周圍發生的許多事情。整個網路很大一部分就是在建構模型特徵。”
從整體思路來看,國內模組化的端到端可能和特斯拉建構的大模型端到端存在一定差別。
由於前文已經大致講過什麼是端到端,因此我們這裡不再過多贅述,接下來我想要跟大家聊下為什麼說在這場自動駕駛的競賽中,特斯拉目前是處於領先的位置,我們可以通過客觀資料來進行對比。
開啟端到端時代後,車企端到端的智駕水平主要由三大因素決定:海量的高品質行車資料、大規模的算力儲備、端到端模型本身,與ChatGPT類似,端到端自動駕駛也遵循著海量資料×大算力的暴力美學,在這種暴力輸入的加持下,可能突然湧現出令人驚豔的表現。
由於不知道特斯拉是如何實現其端到端的,所以我們這裡只討論資料和算力
2.2.1特斯拉建構的算力壁壘
FSD的發展史可以說是其算力積累的發展史,2024年初,馬斯克在X(原推特)上表示算力制約了FSD功能的迭代,而3月開始,馬斯克表示算力不再是問題了。
Dojo晶片投入量產後,Tesla由原先A100叢集不到5EFLOPS的算力規模迅速提升到全球算力前5水平,並有望於今年10月達到100EFLOPS的算力規模,約30萬張A100的水平。
再對比國內廠商的算力儲備(如圖24所示),可以看到在各種現實因素限制下,中美智能駕駛算力儲備方面的差距還是較為明顯的,國內廠商任重道遠。
當然算力的背後還意味著巨大的資金投入,馬斯克在X(原推特)上表示今年將在自動駕駛領域投資超100億美元,也許真像理想汽車智能駕駛副總裁郎咸朋說的那樣,“未來一年10億美元只是入場券”。
2.2.2特斯拉的高品質資料
端到端的智能駕駛就像一個潛力極高的小天才,你需要給它投喂大量高品質的老司機駕駛視訊,才能讓它快速地成長成開車領域的博士生,而這又是一個大力出奇蹟的過程。
馬斯克在財報會中提到訓練模型所需的資料:“100萬個視訊 Case 訓練,勉強夠用;200萬個,稍好一些;300萬個,就會感到Wow;到了1000 萬個,就變得難以置信了。”而訓練仍需要優質的人類駕駛行為資料,得益於特斯拉自身的影子模式,數百萬輛量產的車輛可以幫助特斯拉收集資料,並且特斯拉在2022AI Day時便公佈其建立了全面的資料訓練流程:涵蓋了資料採集、模擬模擬、自動標註、模型訓練和部署等環節。截至2024年4月6日,FSD使用者的累計行駛里程已超10億英里。而國內任何一家廠商使用者的累積行駛里程都較其相差甚遠。
而資料質量和規模要比參數更能決定模型的表現,Andrej Karpathy曾經表示過特斯拉自動駕駛部門將3/4的精力用在採集、清洗、分類、標註高品質資料上,只有1/4用於演算法探索和模型建立。由此可見資料的重要性。
特斯拉正一步步探索自動駕駛的“無人區”,將規模和能力推向極致。
當然,最終效果還是要看車輛的實際上路表現。特斯拉 V12 運行的區域主要集中在美國,而那裡整體的道路交通狀況較好,不像國內,行人、電動車隨時可能突然竄到馬路上。不過從技術角度而言,一個能在美國熟練開車的人,沒道理到中國就不會開了。何況學習能力是其核心特點之一,或許初步落地時表現不如在美國本土那般出色,但參考FSD V12.5 之前的迭代時間,可能半年到一年後它就能適應中國的道路情況了。
這對國內廠商的影響頗為重大,就看眾多智駕企業將如何應對特斯拉這個已在美國得到驗證的 FSD V12 了。 (騰訊科技)