一、 引言端到端是近期非常熱門的話題,尤其在自動駕駛、具身智慧等領域。去年UniAD的發佈,給大家普及了端到端的網路設計,帶動了產業的發展。產業界,特斯拉FSD Beta V12效果驚豔,近期理想也推出了雙系統的E2E自動駕駛系統。一時間,大家都朝著這個方向發展。那端到端是什麼?有那些好處?這裡面涉及了那些技術?今天跟大家聊一聊。二、什麼是端到端端到端的實現路徑並不統一,各家都有自己的定義。一般,端到端的定義可分為廣義與狹義:廣義的E2E,強調資訊無損傳遞,不因人為定位的介面而產生資訊損耗,可以實現資料驅動的整體最佳化。狹義上的E2E,強調一個神經網路模型,即直接從感測器輸入對應到規控輸出。以下是比較主流的三種方案:1. 感知認知模型化以華為ADS3.0為代表,整個模型分為感知與預決策規劃兩個階段,串聯二者做訓練。感知部分採用GOD網路,預決策規劃採用PDP網路實現端對端一張網。2. 模組化端到端以上海人工智慧實驗室的UniAD為代表,將感知預測規劃等模組串聯在一起,利用跨模組的梯度傳導取代人工定義的資料介面,來實現全域最佳化。3. 單一大模型以Wayve的GAIA-1和LINGO-2為代表,直接利用一個神經網路模型完成從感測資料輸入到規控指令(軌跡)輸出的對應。三、為什麼要端到端相較於傳統模組化的自動駕駛架構,端到端的提出解決了什麼問題呢?前文在介紹時說到,端到端強調資訊的無損傳遞。傳統的自動駕駛架構通常分為感知、預測、決策、規劃與控制等模組,模組間的資訊傳遞主要是透過人工設計的資料介面,這在前期很有效,但現在也逐漸成為瓶頸所在。通過端到端,通過神經網路的原生資料表示,資訊高效傳遞,這也決定了系統的上限會更高。另外從工程迭代方面講,傳統方案中模組內的演算法最佳化和模組間的系統最佳化是兩個分離的過程,它們相互關聯影響系統的效能。採用端到端,將兩者統一起來,也會提高整個系統的迭代效率,主要包括以下幾個面向:1. 減少錯誤傳遞 - 傳統架構中,感知模組的錯誤會直接影響規劃與控制(如誤檢障礙物導致急剎)。 - 端到端模型經過全域最佳化,降低局部錯誤對整體的影響。2. 處理複雜場景- 長尾場景(如臨時施工、動物穿行)難以用規則覆蓋,端到端模型透過海量資料自主泛化。3. 提升效率與體驗 - 系統延遲從模組化的300ms降至100ms以內,決策更擬人化(如平順變道、擁堵跟車)。4. 降低成本- 減少對高精地圖、雷射雷達的依賴(如特斯拉純視覺方案),硬體與開發成本降低30%+。四、端對端自動駕駛中的關鍵技術1. 基礎神經網路架構現有大模型多以Transformer結構為基礎。 Transformer是以注意力機製為核心的編解碼器結構,其主要結構為注意力、位置編碼、殘差連接、層歸一化模組。 Transformer被廣泛應用於NLP、CV、RL等領域的大模型。2. 大模型預訓練與微調技術預訓練是使大模型獲得通用知識並加速模型在微調階段收斂的關鍵步驟。根據序列建模的方式,語言模型可以分為自回歸語言模型和自編碼語言模型。自回歸語言模型使用Transformer的解碼器結構,根據前文預測下一個詞,從而對序列的聯合機率進行單向建模。自編碼語言模型則利用Transformer的編碼器結構,透過預測序列中的某個字詞來雙向建模序列的聯合機率。微調是指將預訓練好的大模型在下游任務中進行調整,使其與具體任務更適配。微調後的大模型與預訓練大模型相比,在下游任務中效能通常會大幅提升。隨著模型規模不斷增大,微調所有參數變得十分困難,因此近年來出現了多種高效微調方法,包括Vanilla Finetune、Prompt Tuning以及Reinforcement Learning from Human Feedback(RLHF)等方法。3. 模型剪枝與壓縮訓練好的大模型需要部署在算力和記憶體受限的系統上,因此需要對大模型進行剪枝和壓縮,減小模型中的冗餘結構和資訊,使其能夠在受限的計算資源上進行快速推理,同時儘量減小對模型精度的影響。大模型的壓縮方法主要包括模型剪枝、知識蒸餾和量化。4. 車雲協同的資料閉環由一定規模具有網聯功能的車輛進行眾包資料採集,資料清洗和篩選之後上傳至雲控計算平台;利用雲控平台的充足算力,生成海量模擬駕駛資料;融合虛實資料進行場景建構,利用自監督學習、強化學習、對抗學習等方法對自動駕駛大模型進行線上迭代載車最佳化;5、總結:端到端的未來與挑戰優勢:高效率、泛化性強、成本低,推動L2+向L3/L4級躍遷。挑戰:可解釋性:黑盒模型決策邏輯難以追溯,需強化安全冗餘設計。資料需求:依賴超大規模高品質資料,長尾場景仍需手動干預。趨勢:2025年後,端到端架構或成為智慧駕駛主流方案,結合車路雲協同朝向完全自動駕駛演進。 (智慧型駕駛派)