太瘋狂了！特斯拉刪除99%程式碼，FSD卻更好用了！智駕的終極答案竟然是它？

2024/08/07

•

前段時間，特斯拉“完全自動駕駛”FSD，推送了最新的V12版本。

這次更新對整個智能駕駛行業發展來說，絕對算得上一次里程碑式的革命！

一般的智駕更新，基本上都是在原有的基礎上增加幾行程式碼，或是最佳化個參數，主打一個小修小補。

特斯拉倒好，不僅沒在基礎上做加法，反而大砍一刀：把FSD原本30多萬行的C++程式碼砍到只剩3000行，縮減了99%！

你想想，假如一個人突然發生意外，掛掉了99%的腦細胞，即便能僥倖活下來，大機率也會變成植物人。

可反常理的是，只剩3000行程式碼的FSD V12，非但沒有變成人工智障，反而比之前任何一個版本都要聰明！

在國外，不少長測FSD的博主都表示：“剎車和轉向的停頓感減輕了很多，前所未有的舒適和絲滑，決策上也特別自信，就和真人開車一個樣。”

就比如在兩邊有大車遮擋視野的時候，老版本FSD會直接大膽地通過，有鬼探頭了再來一腳AEB急剎；現在則會提前減速，像極了老司機的防禦性駕駛。

再比如遇到多車通行的複雜路口，以前會直接剎停等待，直到路口人車沒那麼複雜再前進。現在則會不斷低速蠕行，找到交通流中的一條縫隙再小心地鑽縫通過。

開著FSD路上突然碰見一隻貓，車還會和貓博弈爭奪路權——先緩慢接近，直到貓咪跑開，它才會繼續前進。

包括以前處理不好的環島和掉頭路段，現在也可以更絲滑的處理。甚至手動把車開到一個比較尷尬的複雜路段，再開啟FSD，系統都可以做到正確接管。

中國自主品牌智駕頭牌CEO之一的何小鵬，在聽聞FSD這波史詩級更新之後，毅然決然的跑到美國親自試駕了一波，完後發微博用“極好”二字對新版FSD讚歎不已。

雖說這次FSD更新相比老版本而言有了很明顯的進步，但新的問題也隨之而來——

有時候系統會顯得有些“聰明過頭”了，會自己隨機產生一些意料之外的想法。

比如該按照導航直行的路段，車卻自己並線到了左轉車道，還順利執行了左轉。

再比如，有時候車會把用於警示作用的持續閃爍的紅燈，錯誤的識別成紅綠燈而剎停，即使有車從旁邊經過也無動於衷。

不過讓人匪夷所思的是，第二天同樣還是遇到持續閃爍的紅燈，車在剎停之後，前面的施工工人在朝車招了招手，示意可以向前開之後，車就像是讀懂了工人的手勢一樣，竟然開始前進通過路口了！

現階段FSD V12版本確實還存在不少BUG，就像薛定諤的貓一樣神秘莫測。但總體上來說，新版本的表現要更加出色，有些時候還會展現出和人一樣的決策能力。

可別忘了，新版本FSD的程式碼只有3000多行，和80年代“小霸王”上的熱門遊戲《坦克大戰》的程式碼行數幾乎一樣！

雖說現在的智駕領域，已經不是程式碼越多越複雜、程式碼越多功能越強的年代了，畢竟還有一種叫做“祖傳屎山程式碼”的東西。

但特斯拉只靠重建程式碼就能獲得近乎完美的智駕體驗，這確實大大出乎了所有人的想像。他們到底是怎麼做到的？

這就不得不提到一個，最近在智駕圈子裡炒的很熱的一個新名詞了——“端到端”。這也被很多業內人士認為，是智能駕駛的終極答案。

我第一次聽說“端到端”這個詞的時候，以為就是字面意思，“從A端到B端”，畢竟這是我認為自動駕駛的終極目標嘛。

後來才發現，端到端完全不是這個意思。

端到端的英文名叫“end to end”，如果指的是起點到終點，那應該叫“start to end”。

實際上，端到端指的是：根據攝影機等感測器的圖像資料，直接生成車輛的轉向、剎車和加速度訊號去控制車輛，即“感知決策執行一體化”。

這個詞有點晦澀，我再給大家打個比方。以前是三個人打配合，一個瞭望手負責看路，一個指揮官負責決策，一個操舵手負責駕車。

而特斯拉這次的FSD V12，不需要分三個人了，一個人就能全搞定！

看到這可能有人會說，現在車企做智駕不都是這個路數嗎？其實不是的。

目前絕大部分智駕廠商，採用的都是序列的結構框架，也就是好幾個人打配合的方案。

即先通過攝影機、雷達獲取感知圖像，再把感知圖像處理成機器能看懂的數字訊號，再把數字訊號傳送到智駕晶片做邏輯運算，處理成加減速、轉向訊號，再傳遞給電機和轉向機執行控制，每一個環節都是由一個獨立的模組去控制的。

具體來說，現在大部分頭部智駕廠商，從感知到決策這一階段，主流的都是用的BEV鳥瞰圖+ Occupancy佔用網路+ Transformer模型的組合。

BEV鳥瞰圖，就是把雷達和圖像訊號，從正檢視轉化成俯檢視的一種技術，為的是能更清楚地確定車的方位，也就是瞭望手站得更遠，看得更清楚。

Occupancy佔用網路，就是把二維的圖像訊號，轉化成小方塊狀的三維空間，有點類似於《我的世界》，用來防止車輛磕碰障礙物。

Transformer，算是大模型的一種，前幾年爆火的ChatGPT中的“T”，其實指的就是Transformer。

它的作用是能讓機器在處理訊號時，能篩選出重點資訊重點計算，而不是一股腦的全部計算，提升算力的效率，也就是讓指揮官更聰明、決策更快。

在串聯式架構，配合上BEV+Occupancy+ Transformer，就構成了我們現在能接觸到的所謂“高階智駕”。

不過，現在這種主流的智駕方案，有幾個難以規避的弊端。

首先，串聯式架構這三個人傳話本身是需要消耗時間的，會導致系統整體的反應速度偏慢，反映到智駕體驗上就是感覺車會猶猶豫豫的。

畢竟從感知到決策再到執行，很可能要零點幾秒甚至更久一些，在瞬息萬變的車流中很難立刻進行調整，這就是很多智駕“不敢頻繁變道”的根本原因。

其次，傳話從第一個傳到最後一個，很可能話在中途就變了味，也就是資訊失真。尤其在複雜場景下，會增大事故的機率。

再有就是，傳統智駕方案中，想要讓系統更精確的應對更複雜的場景，採用的方式一般都是“做加法”，比如在原有的基礎上多寫幾行if、else之類的邏輯程式碼。

久而久之，整套智駕系統就會變得越來越繁雜，就像你的手機系統，用久了肯定會卡。

而且即使加了越來越多複雜的判定邏輯，也沒辦法照顧周全，因為總有極端複雜到機器無法處理的場景。

真遇到這樣的場景，就算把晶片算力拉滿了也搞不定，有可能就直接把系統干崩潰了，也就是智駕圈子裡常說的“corner case”。

相比之下，端到端智駕把感知、決策、執行這三個環節都整合到一個大模型中去做，只要輸入攝影機和雷達訊號，就能直接生成控制訊號，控制車轉向和加減速，省去了原本的邏輯判斷過程。

可以簡單認為，端到端智駕相當於把智駕系統的分析判斷變成了和老司機一樣的“本能行為”。就像是刷了無數遍題的學霸一樣，只要把題讀完就能寫出正確答案。

前面所提到的FSD V12的3000行程式碼，其實並不是普通的程式碼，而是3000行神經網路程式碼。

它有點像動物的神經元細胞，能產生神經反射這樣的快速響應。因此端到端智駕的運行速度，是遠高於傳統智駕方案的。

換句話來說，端到端更像生物的運行邏輯。人類在開車的時候，眼睛看到的圖像本質上是二維的，但並不妨礙我們做出正確的駕駛操作，並不需要在腦子裡先把“正檢視”轉化成“俯檢視”，再做個“2D轉3D”。這樣太複雜了。

本質上來說，端到端智駕演算法的橫空出世，是對傳統BEV+Occupancy演算法的徹底顛覆，也是另一種形式的降維打擊。

傳統智駕系統需要精確識別並標記車、人、車道線、障礙物等元素；而端到端智駕會更注重識別宏觀場景，比如天氣好壞、鬼探頭盲區等等，都會納入到識別範圍。

畢竟，傳統智駕靠的是死板的邏輯，端到端智駕靠的是巨量資料喂出來的經驗。

既然靠的是經驗，那麼想要保證智駕系統做出正確的抉擇，就需要像“海量刷題”一樣，將大量“行車視訊+人類開車動作”的資料，投喂到大模型訓練之中。

所以說，在端到端智駕時代，資料比碼農要重要得多！

這也解釋了為什麼前段時間特斯拉在全球範圍內大規模裁員，而理想在正式宣佈進軍端到端智駕的同時，也對原本的智駕部門人員進行了大刀闊斧的“最佳化”。

相比之下，算力就成了非常重要的資源，馬斯克在今年7月份跟輝達手裡又買了35萬張顯示卡，就是為了更快的處理資料。

雖說端到端從定性上來說，比傳統智駕方案顯得更高大上一些，但目前在體驗上還不能保證100%優於傳統智駕方案。

實際上，今年1月份特斯拉剛剛開啟FSD V12版本推送時，其實使用者的吐槽聲是遠多於點讚的，出現了各種各樣以前聞所未聞的BUG。

馬斯克第一次做FSD V12直播測試的時候，還險些闖了紅燈。

直到半年時間更新了好幾個小版本，特斯拉FSD V12才逐步展現出威力，給使用者感覺FSD像自己在開車一樣。

畢竟訓練FSD端到端大模型的資料來源本身，就來源於全球海量的特斯拉車主。所以表面上是FSD在開車，實際上是自己在開車，是全球特斯拉使用者的集合在開車。

當然，這可能也是FSD V12有時候會隨機產生“獨立想法”的原因，畢竟人開車有時候也會犯錯，投喂了“不乾淨”的資料，智駕模型也會變蠢。

這時，端到端智駕相比傳統智駕方案的一大劣勢，就會暴露出來。

以前靠修改程式碼就能修改的BUG，現在發現了問題沒法及時修正，因為大模型本身就是個充滿未知數的“黑盒子”，只能通過投喂更多資料的方式，儘可能的修正錯誤，降低犯錯的機率。

雖說端到端起步比傳統智駕更弱，但進化速度更快，理論上能力上限更高。

在大量資料堆砌下，幾年之後端到端智駕會經過拐點，在能力上超越傳統智駕，能達到無限接近人類駕駛水平的效果。

這也是為什麼小鵬、華為、理想、蔚來等國內一線智駕玩家，都開始不約而同的宣佈進軍端到端。

毫無疑問，特斯拉直接把智駕底層邏輯完全改寫為“端到端”，是非常激進的，這一定程度上可能也會成為FSD在國內“過審”的阻礙。

相比之下，國內已經宣佈進軍端到端智駕的車企，採用的都是“部分端到端”，沒有特斯拉那麼激進。

之所以保留了部分傳統智駕的架構，大都是為了安全性“兜底”，防止系統誤判導致極端事故的發生。

至於這幾家的端到端具體有什麼不同，今天受限於篇幅就不繼續和大家聊了。等到下次，再單開一篇和大家好好分析分析。

寫在最後

記得20年前，諾基亞在手機界一騎絕塵。

而Android剛剛初露頭角的時候，核心程式碼數隻有1000多萬行，僅為塞班系統的1/3。

雖然早期Android應用少、不如諾基亞的塞班好用，但隨著Android應用生態體係指數級膨脹，諾基亞和塞班最終被淘汰，成為了歷史的塵埃。

如今智駕端到端技術的出現，某種程度上預示著智能駕駛也將迎來新一輪的革命。

真正意義上的AI正在車上生根成長，勢頭已然無法阻擋。 (電動車公社)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者