“端到端”求L4，無異緣木求魚

2024/10/18

•

端到端做L4的神話，該結束了。

永徽六年（公元655年）九月的某天，唐高宗召集長孫無忌、李勣、於志寧、褚遂良（著名書法家），於內殿議事。

而這四個人心裡也清楚，這是要“廢王立武”。一開場，唐高宗表情有些不安，視線飄忽不定，用略顯尖利的聲音說到，“皇后無子，吳昭儀有子，因而朕欲立昭儀為後，眾卿以為如何？”

這是《則天武後》描述的名場面。而這句話，也拉開了屬於女皇武則天的時代序幕。

而這一天過去1369年後的九月初九重陽節，一個“歪果仁”的無冕之王開了一場“We, Robot”的發佈會，此前還宣稱“這將是載入史冊的一天。”但是，讓人奇怪和失望的是，發佈會19分鐘草草收場。

特別讓人詫異的是，這位國內俗稱“老馬”的特斯拉CEO伊隆·馬斯克同樣“表情有些不安，視線飄忽不定”。馬斯克沒了往日的淡定和自信，臉色潮紅、聳肩撇嘴、眼神飄忽，身體語言出賣了他，整場發佈會都顯得不在狀態。

原來說好落地的Robotaxi，亮了個相而已，時間拖到了2026年。雖說談到成本會降低5倍，從1美元/英里降到0.2美元/英里，然而很明顯，“畫餅”後的股價掉了4700億人民幣。

有位智駕大牛侯曉迪說過，馬斯克10月份的發佈會，Robotaxi還是“做不出來”。這就像是一句讖語，徹底戳破了馬斯克的“神話”。而馬斯克欲引領業界的“端到端”，也許，永遠也到不了L4的彼岸。

01 神話不再

那麼，用“端到端”做Robotaxi到底是不是個“坑”、一場L4的“騙局”呢？

“端到端”是在特斯拉公佈後火起來的，發展到今年，甚至沒有搞“端到端”的車企，出門都不好意思跟人打招呼。

不過，被“神話”的特斯拉在Robotaxi上，自己也掉“坑”裡了。今年，在發佈二季度財報的同時，馬斯克正式宣佈其Robotaxi的產品發佈會將從8月初推遲至10月初。連續跳票後的發佈會有草草收場，讓我們看到了馬斯克的囧境。

問題是，馬斯克此前的成功，讓相信馬斯克、追隨馬斯克的人很難相信他會失敗，這也是創投圈的“政治正確”。而且，馬斯克以一套不可證偽的話術，完美地把自己的技術差距說成是資料和算力的差距，資料、算力不夠，正好就請投資人繼續投資嘛！這就形成完美的閉環。

如今，完美的閉環眼看著要斷裂。比如，離開圖森未來、在美國成立新公司Bot.Auto的侯曉迪，就預言馬斯克Robotaxi“做不出來”，“Robotaxi現在的性能和真正的L4差太遠了。”

國內也有人開始反思馬斯克的“端到端”，余承東也講過馬斯克的智駕上限和下限的問題。所以，在這些異見者看來，Robotaxi不是靠解決一兩個Bug，延期兩個月就能發佈的。

此前侯曉迪接受採訪時還預言：10月10日（原定）仍然不會是Robotaxi真正發佈的時機，甚至明年都不是它可以應用的時間點。今年10月份頂多公佈關於何時真正發佈Robotaxi的線索。

11日的發佈會印證了侯曉迪的預言。整場發佈會沒有細節，選擇的地點也是環球影城的電影棚，你說巧合也行，說“演”也行，反正是挺應景的。且在體積與Model 3相當的Cybercab裡，只放置了兩個座位，說它是Robotaxi吧，卻損失了車輛運力，且不會帶來炫目外觀之外的任何好處。

不出意外，另外Waymo和百度的兩個“蘿蔔”可能會反超過去。這讓我們懷疑，馬斯克是不是就像蔡崇達的《命運》裡說的，“被卡住了”。就像現在那個著名的L4的“車輛突然卡死在十字路口影響交通”的問題無解一樣。

不過，國內的百度“蘿蔔快跑”，作為早期站在聚光燈下的推動者，在武漢投放400輛無人車後，未來能達到什麼規模的投放，還是個疑問。至少目前業內沒有人有大規模推廣的能力，這也是無人駕駛需要解決的技術產品化問題。

還有，認為無人駕駛明天就能實現的奢望，這是高估了短期突破的體現。就像艾倫·凱（2003年圖靈獎得主）說的，“人們總是高估短期技術的短期突破，但是會低估技術的長期影響。”

所以，對於專業智駕人士來說，路漫漫其修遠兮，L4是做限定場景的，而特斯拉是為了在全世界賣車，那就該老老實實地說自己的FSD是L2+的水平，而不是通過行銷讓大眾混淆，最終南轅北轍，搬起石頭砸自己的腳。

02 “不可解釋性”是BUG

為什麼馬斯克的“端到端”可能會“觸礁”？我們就來分析一下。

業內也有人包括馬斯克本人相信，L2能漸進發展成L4。但L2功能做得再好，最多隻完成L4的三成功能。從這點來說，特斯拉就是L2+公司，而不是L4公司，畢竟，它的很多設計不是出於安全或冗餘的目的。

“L4必須有可解釋性，不能僅依賴說不清楚的資料黑盒子。”這是侯曉迪的原話。這也揭示了端到端的BUG所在。“端到端”是個黑盒子，充滿不可解釋性。

在2024中國汽車論壇——高階智駕論壇上，地平線智駕產品市場總監劉文堯演講時也講到，“端到端的技術路線由於是資料驅動的，在上限上的表現會更高，它能明顯在更複雜的場景當中有更好的體驗。

但是，由於它是一個不可解釋的黑盒的模式，完全放棄規則驅動（Rule-based），意味著它的下限就會不可控，很可能出現人都無法解釋的詭異的駕駛安全行為。而且在這個行為出現的情況下，你很難對它做一個快速的Bad Case的迭代，因為你自己都解釋不出來它為什麼這麼做，根因是很難找到的。”

而從國內的智駕現狀來說，過去數年，幾乎所有的智駕企業選擇的都是可解釋的“模組化”的路線。在模組化的結構中，智駕系統被拆解、融合為“感知-規劃-控制”三大模組，像華為、小鵬的端到端大模型，就更近似於模組化方案演變、融合後的結果。

當然，模組化結構一直存在的“硬傷”是，儘管模組數已經變少，但感知端為了保證規控端的平穩運行，仍有可能出現被迫丟失資訊的情況。而系統的決策又需要獲取足夠全面的資訊，才有可能達到全域最優。這是避不開的、最為矛盾的一環。

所以，為瞭解決近乎無窮的“Corner case”，大家又一股腦地投入“端到端”的熱潮中去。

而從基於規則的Rule based，到基於深度學習Learning based，所謂“資料驅動”，通過海量的資料支援，來歸納求解，這是業內車企競相選擇端到端大模型的重要因素之一。泛化能力雖然更強，但海量的資料並不一定能夠對系統產生正向的提升。

當下最極端的論點是，無人駕駛距距離攻克也就是幾千萬公里的Corner case，以及大量的算力。這是典型的圍繞“資料驅動”、“端到端”創造出來的願景，兩者相輔相成，智駕領域的投資泡沫就是這麼來的。

問題是，從技術角度來看，“端到端”極其依賴於大模型內部的神經網路結構，而神經網路本身又具備不可解釋性，所以業內關於端到端的應用和界定一直是各執一詞。

眾所周知，人工智慧的三大流派——連接主義、行為主義和符號主義，雖然當下連接主義成為主流，但這三大流派各有強項，且連接主義採用的是深度學習，是個歸納、統計型的演算法，這種“連接主義解決一切”的想法能不能實現？是個問題。

歸根究底，成功落地、實現量產，提高駕駛安全性和便捷度，才是智駕的核心。所以，用一個主義解決全部問題是不太可能的，需要兼容並蓄。

這方面，我贊同侯曉迪說的，對於內行人來說，現在“端到端”不是一個學術概念，而是一個情緒載體，“很容易把機器學習領域沒有完成的夢想和未竟的事業都寄託到‘端到端’這個具體技術概念裡。”

03 One Model，Two Model，World Model

質疑馬斯克的，不僅有侯曉迪，也包括小馬智行CTO樓天城和輕舟智航 CTO 侯聰。

侯聰對於馬斯克和Robotaxi的看法是，“Robotaxi 這個事情他有點吹牛了，低估了事情的難度。”而樓天城的一個結論是，L2做得越厲害，它離L4越遠。反之也是如此。一個越好的L4公司，它離L2越遠。

為什麼？因為，輔助駕駛就是一個助手，它的成本和覆蓋區域很重要，跟人類互動很重要。而L4的駕駛主體是機器，所有事情都要機器端解決，不能交給別人。那怕稍微慢一點，安全性100%一定要保證。

而特斯拉做Robotaxi的邏輯是通過L2輔助駕駛的資料不斷積累實現L4級的Robotaxi，這無異於緣木求魚。這也是幾位反共識的“異見者”的結論。

而且，有意思的地方在於，當初馬斯克是為數不多堅持通過L2資料積累不斷實現L4的人，在當時被外界認為是異類。如今反過來了。

換句話說，通過L2的漸進式路線做不出L4。L2的駕駛主體是人，L4的駕駛主體是機器；L2關注的核心是成本、覆蓋範圍和體驗，L4更關注的是安全。所以，L2和L4的產品設計出發點都不同。

所以，2024杭州雲棲大會上，小鵬汽車董事長何小鵬對於特斯拉的盲目崇拜和盲目自信就很讓人擔心，“端到端的模型下限能力有望在明年快速提高，一旦提高後，不用2年時間，在全球範圍內就可以做到超越 L4 標準的能力。”

問題在於，L2級智能輔助駕駛背後有人類司機兜底，但是L4的Robotaxi不行，要做到更好的商業化，做到車內無人，沒有人給系統兜底，車輛的駕駛權屬於系統，責任屬於企業。所以系統就要無限提高安全上限。這是難點所在。

當然，就當下的情況而言，要達到“端到端”的目的需要不斷有突破性的手段。最近的動向是關於世界模型的。

現在是Two Model、World Model、One Model三部曲思路。因為，儘管端到端上車如火如荼，但目前大部分中國車企並未實現理論上的“One Model”。通行的做法是，將端到端模型的智駕應用分為兩個階段：

第一個階段是“Two Model”，由一個端到端的感知和一個端到端的規控組成，這是目前比較主流的一個方向。第二階段才是“One Model”，一個大模型解決資訊輸入到決策輸出，但業內預估要3~5年之後才會有一些規模化的應用。

此外，蔚來、理想等車企都發佈了自研的“世界模型World Model”，供應商中有地平線、小馬智行等。像樓天城就認為，“World Model”是目前最佳最重要的東西，將其理解為通往自動駕駛的唯一解。

所謂世界模型，可以理解為對真實世界的模擬與建模，可以真實精準地還原比如十字路口等場景的變化。同時，世界模型還是一個評分體系，對自動駕駛系統的表現做出評價，能夠得知A系統和B系統相比誰更好。

蔚來自動駕駛副總裁任少卿表示：“相比於常規的端到端的模型，新的世界模型有三個我們認為主要的優勢。第一個是在空間理解上，通過生成式模型，從重構感測器的方式，更加泛化地抽取了資訊。第二個，通過自回歸模型，自動建模長時序環境。第三個，萬千世界需要更多資料，通過自監督的方式，無須人工標註，它是一個多元自回歸生成模型結構，讓我們學得更好。”

此外，地平線也在感知上引入了“World Model”的概念。地平線認為，通過World Model的演算法訓練可以解決場景的泛化、功能的連續性以及體驗的一致性的問題。不過，在規控演算法上，保留了Rule-based的鏈路。

世界模型的作用能有多大，還屬於未知。但是，說到底，Rule-based（基於規則）或者說Principle-based是不能放棄的，妄圖完全依靠端到端的“黑盒子”來解決問題，包括特斯拉、華為、小鵬等頭部車企正在做的事情，都得當心，正在做不等於有結果。

L4的核心是如何完成一個穩定的系統，尤其是用不穩定的模組去完成一個穩定系統。L4需要的是智慧，而不僅僅是資本和算力、資料、智商。在這點上，即使強如馬斯克也同樣如此。根本的辦法還是，通過架構層創新來保證系統的安全性，做好安全冗餘。

反觀當下各個企業喧囂的“端到端”宣傳，更多的目的還是打造差異化、把車賣出去。那麼多的“心大了”的智駕事故，已經很說明問題。這是我們應該心裡“門清”的。 (C次元)