特斯拉大裁員後的豪賭，FSD v12 是如何誕生的

2024/05/08

•

上一次艱難時期的持續投入，成為特斯拉麵對這次艱困時期的武器。

裁員1 萬多人、大幅縮減重要專案4680 電池團隊、負責三電系統的高級副總裁等高階主管離職…特斯拉CEO 伊隆馬斯克在4 月15 日發起的大調整，只是一個序幕。

之後半個月，特斯拉持續裁撤曾經的重點項目：4680 電池項目繼續裁員、北美的超級充電樁團隊完全解散、9000 噸以上一體壓鑄機項目被叫停，相關高管大批離職。接下來的6 月，特斯拉還會在加州和得州兩地裁員超過6,000 人。

馬斯克的新賭注是全自動駕駛。無人計程車（Robotaxi）計畫被拔到最高優先級。馬斯克宣布將在8 月8 日發布產品，今年投入百億美元採購GPU、研發車用晶片，用於改善自動駕駛系統。他曾多次說過，只要持續迭代這套系統，就會實現無人駕駛，讓特斯拉成為10 兆美元市值公司。

在特斯拉的第二大市場中國，馬斯克也期望用這套系統翻盤。 4 月底，馬斯克到訪中國，被政府領導人接見。不久後，他在內部信中說，特斯拉已在中國獲得測試部分輔助駕駛系統的許可。

今年開始大面積推播的FSD v12 自動駕駛系統確實展現出一些不尋常的潛力。車主的回饋都很接近：“就像人開車一樣”，跟上一代相比有進步，狹路會車、超車更從容。

自動駕駛公司元戎啟行CEO 周光今年3 月在美國體驗FSD v12 後，承認還是低估了它的能力：“去之前我認為可能是80 分的東西，但實際做到了90 分。”

一家國內一線新能源企業負責人體驗後相信，特斯拉的自動駕駛會有革命性突破。競爭對手們不敢錯過，僅4 月底北京車展前後，小鵬、華為、長城、商湯絕影等公司宣布將推出類似FSD v12 的自動駕駛系統。同期，軟銀、英偉達和微軟用10.8 億美元投資與特斯拉路線相同的英國自動駕駛公司Wayve。

沿著特斯拉的路線，一場新的自動駕駛競賽正在開啟。這次不僅要解決技術難題，還是一場資源競賽。來中國當天，馬斯克在社交媒體上劃出入局門檻：“任何公司，如果算力投入達不到百億美元...... 就無法參與這一輪競爭。”

原理：砍掉30 萬行程式碼，讓數據決定車子怎麼開

2000 年代，DARPA 在沙漠中舉辦的3 場無人車挑戰賽，是現代無人駕駛技術研發的來源。 Google 招攬了優勝者，趟出可行的方案，將自動駕駛拆成多個環節：

以光達、攝影機等感測器收集車輛周圍環境數據，交給依賴人工標註數據訓練出的模型，辨識出常見的重要目標和各種障礙物（感知模組），再配合高精地圖，讓系統了解道路會怎麼變化，最後依賴工程師用程式碼寫成的規則決定車子怎麼開（預測、規劃模組）。

最初，特斯拉也按照Google 開闢的路徑去做自動駕駛，為了節省成本和迅速擴大使用範圍，他們開發依賴攝像頭，而不是昂貴的激光雷達和高精地圖的方案。推出v12 前，特斯拉的自動駕駛系統工作流程大概是：

負責感知的視覺模組先工作，處理攝影機等感測器捕捉的路況數據，識別出路上有什麼東西，大概怎麼分佈，哪些是動的，哪些是不動的，哪些是車道線，可以行車的區域有哪些等等。
接著是預測規劃控制模組，呼叫感知模型處理過的信息，預測場景中人、車等動態目標接下來幾秒如何行動，結合模型和工程師提前寫入的規則，規劃安全的行車路線，再控制方向盤、加速或煞車踏板，照路線行駛。

為了盡可能應對路上遇到的各種情況，特斯拉數百名工程師寫了30 萬行C++ 程式碼制定規則——相當於早期Linux 作業系統程式碼量的1.7 倍。

這不是人學會開車的方式，人不需要認出一條路上可能出現的大量物體到底是什麼，也不需要為每個複雜場景提前製定各種規則，就能開車上路。

這樣做出來的自動駕駛系統，很難保證絕對安全。真實世界千變萬化，再多的工程師也難以窮盡。現在商業化的無人出租車，只能在有限區域運營，車內沒有安全員，只不過是運營方把他們轉移到雲端，遠端盯著。

直到2021 年，在路上遇到一排交通錐，Google 無人駕駛子公司Waymo 的無人車還是有可能停下來拒絕行駛。此時Google 已經帶著整個產業投入上千億美元。一批公司在那兩年關停已經耗資數十億美元的無人駕駛項目。

「付出20% 的努力，就能獲得80% 的能力。」小鵬原自動駕駛AI 負責人劉蘭個川去年在一場學術活動上說，傳統自動駕駛方案開發簡單，但繼續提升困難。現在他加入英偉達智慧汽車團隊。

特斯拉FSD v12 學開車更像人。最大的改變是用了「端到端」架構：一端輸入攝影機等感測器所獲得的數據，另一端直接輸出車該怎麼開。

訓練這套系統時，機器從大量車輛行駛影片和人類駕駛在不同環境下打方向盤、踩加速踏板的資料中學習怎麼開車。

在FSD v12 中，特斯拉工程師們寫的規則幾乎全被消滅，30 萬行規則碼只剩2000 多行，不到原來的1%。

端到端自動駕駛系統學開車的方式，也只是有一點像人，並沒有系統能像人類一樣真的理解世界。所以人學幾天，就能開車上路安全駕駛，但FSD 要看海量的影片學習。馬斯克去年在財報會上談到數據有多重要：「用100 萬個視訊case 訓練，勉強夠用；200 萬個，稍好一些；300 萬個，就會感到Wow；到了1000 萬個，就變得難以置信了。

“傳統自動駕駛系統就像一個漏斗，資訊一層層丟失。” 一位自動駕駛演算法工程師說，傳統方案的感知階段，工程師通常會設置“白名單”，重點識別行人、車輛、車道線、紅綠燈等重要目標，以節省算力。到了預測規劃環節，工程師會事先設定，根據需求呼叫感知模組輸出的資訊完成工作，資訊會再一次折損。因此傳統方案很難像人一樣用充分的資訊決定怎麼開車，要依賴工程師提前寫的規則。

而端到端方案中，攝影機等感測器所獲得的資訊全部傳遞到決策環節，「資訊無損傳遞，模型可以從感知資料中捕捉更多資訊完成決策，提升系統應對各種複雜場景的能力。」上述自動駕駛演算法工程師說，因為是端到端架構，模型的決策也會直接影響感知環節，讓它之後捕捉更多人意識不到但對駕駛有幫助的數據。

在許多場景，特斯拉FSD v12 都有明顯提升。一位自動駕駛從業者（知乎@EatElephant）告訴我們，他體驗後感覺到，與v11 相比，v12 控制車輛的速度和轉向“很絲滑”，“即使坐在後排，路口轉彎時幾乎感覺不到任何頓挫」。為了確保安全，傳統自動駕駛方案行車時，會不時帶下煞車。

他在一篇文章中寫道，面對右前方有人騎自行車的場景，「v11 會過度小心，規劃出一條非常離譜的大幅繞行路線，v12 從容淡定，繞行幅度接近人類司機的選擇，速度控制和果斷程度也非常合理。

那些難以用規則描述的場景，FSD v12 的因應方式有明顯進步。他舉例，例如遇到路邊開著雙閃的亞馬遜送貨卡車，能迅速判斷對向無車，立即藉道繞行。而傳統的方案大多數情況下都會停下來，或等一段時間才會考慮採取行動。

FSD v12.3 更新推播後，一群車主在YouTube 上傳了車輛從容應對各種複雜的路況的視頻，比如晚間穿越擁擠的紐約第五大道，30 分鐘全程沒怎麼碰方向盤。

面對興奮的車主們，美國公路交通安全管理局在5 月6 日發函要求特斯拉詳細說明，如何防止車主濫用輔助駕駛系統，例如怎麼提醒駕駛「把手放在方向盤上」。

基礎：最難的幾年仍堅持預載硬體、研發晶片、採集數據

2018 年初，特斯拉深陷產能危機、面臨生死考驗時，馬斯克發郵件給OpenAI 管理層，希望OpenAI 併入特斯拉，共同研發「基於大規模神經網路訓練的全自動駕駛方案」。

他認為，AI 研發需要巨資，而OpenAI 需要建立獲利模式才能與巨頭競爭。而特斯拉已經用Model 3 和其供應鏈打造了火箭的“第一級”，如果OpenAI 能夠併入特斯拉，將會加速無人駕駛研發，打造火箭的“第二級”，特斯拉會因此賣出更多車，OpenAI 也會有足夠的收入進行人工智慧研究。

馬斯克的提議被拒絕，最後退出OpenAI 董事會。但在此之前，他就已經從OpenAI 挖來安德烈·卡帕蒂（Andrej Karpathy），負責自動駕駛技術研發，帶領球隊訓練效果更強的模型。

多位自動駕駛從業人員認為，卡帕蒂加入特斯拉是其研發v12 版端對端自動駕駛車型的開端。

1986 年出生的卡帕蒂，是過去十多年人工智慧浪潮的親歷者，也是從中成長的人工智慧科學家。他2011 在史丹佛大學讀博士期間和導師李飛飛一起完善催生AlexNet 的ImageNet 競賽資料集，在各個學術會議上發表數篇電腦視覺論文，在史丹佛大學開設了第一門深度學習課程。博士畢業後，他是最早一批加入OpenAI 的人。

2017 年11 月，卡帕蒂發布著名的《軟體2.0》文章，稱「軟體吞噬世界，而人工智慧為基礎的軟體2.0 正在吞噬軟體」。當時經過大量資料訓練的電腦視覺模型，辨識物體的準確度超過人眼。 AlphaGo 從數據中學到了擊敗人類圍棋冠軍的方法。

他相信，靠著大量數據，人工智慧在大部分有價值的垂直領域，“至少在涉及圖像/ 視頻和聲音/ 語音的領域，比你我能想出的任何代碼都要好。”

在卡帕蒂到來前，特斯拉已經完成了自動駕駛的資料基礎建設。

用大量資料訓練更強的模型，是非常適合特斯拉的技術發展路線。但特斯拉要投入大量資源研發自動駕駛技術，馬斯克從不缺乏冒險的決心。

2016 年開始，每一輛出廠的特斯拉汽車都搭載能運行Autopilot 輔助駕駛系統的硬件，花錢買了軟體才能開啟功能。到現在也沒幾個汽車品牌會這麼做，更常見的做法是把同一輛車分成不同的版本，把搭載自動駕駛硬體車型賣給有興趣的客戶。

標配輔助駕駛的時候，特斯拉啟用「影子模式」（Shadow Mode），就算駕駛不購買Autopilot 功能，這套系統也會在後台運行，記錄行車數據、規劃行車路線。馬斯克當時接受採訪說，它的作用是證明系統比人可靠，為監管機構批准技術提供數據支撐。

卡帕蒂加入後，影子模式成為特斯拉獲得訓練模型資料的核心來源－當系統選擇的路線與駕駛人的選擇有明顯偏差時，就會觸發資料回傳機制，系統會自動記錄攝影機捕捉到的數據、車輛行駛數據等，等到連接WiFi 後上傳到特斯拉的伺服器。到2018 年底，特斯拉就靠這套系統收集16 億公里數據，超過現在絕大多數研發自動駕駛技術的車廠。

特斯拉的自動駕駛團隊把大部分精力放到數據上，搭建了一套數據處理系統，專門分析、篩選收集到的數據，一開始用人、後來絕大部分數據用機器打標籤，然後餵給模型，持續改進自動駕駛系統。為了用大量資料訓練模型，特斯拉在2019 年之前，就採購大量GPU 建造名為Dojo 的算力中心，並持續擴大，到現在已經累積了等同3.5 萬張H100 的算力。

2019 年4 月，特斯拉發表HW 3.0 硬件，搭載兩顆FSD 第一代晶片，算力達到144 TOPS，是當時英偉達車載晶片Xavier 的近7 倍。和過去一樣，不論用戶是否購買輔助駕駛系統，特斯拉都這套硬體裝到每一輛特斯拉車上，而且免費幫買了輔助駕駛系統的老用戶升級。

「不僅讓我們能夠更快地運行當前的神經網路（模型），更重要的是，它允許我們在車上部署更大、計算成本更高的模型。」卡帕蒂說。 HW 3.0 也是特斯拉現在能大規模推行FSD v12 系統的基礎。

特斯拉搭建這套基礎設施的時候，也是它開始量產車以來資金最緊張的一段時間。從2017 年到2019 年初，特斯拉都深陷Model 3 產能危機。

到2019 年3 月，特斯拉的現金儲備只剩22 億美元，只夠再燒不到半年。《馬斯克傳》記錄，當時馬斯克對妻子說，“我們必須籌集到資金，否則就完蛋了。”

馬斯克想了幾夜後，決定針對投資人辦一場活動，也就是特斯拉「自動駕駛日」。他告訴華爾街的投資人，無人駕駛汽車未來能幫特斯拉實現巨額盈利，接下來一年多時間會部署100 萬輛無人出租車，重塑人們的日常生活。

沒人相信特斯拉的無人駕駛很快就會到來。這場活動結束一個多月，特斯拉股價跌了30%。靠著Model 3 產能順利擴大，上海工廠迅速建成，特斯拉才緩了過來。但接下來的5 年，是特斯拉自動駕駛基礎技術進步最快的階段。

實現：從模擬人眼開始，一步步擴展到整個系統

看視訊學開車的道理聽起來很簡單，但中間需要解決無數問題。

2020 年到2022 年，特斯拉每年都會公開一版「感知」模型，每個版本都朝著模擬「人眼」更進一步。

2020 年2 月，卡帕蒂在學術會議上展示了特斯拉訓練48 個神經網路組成的「多任務模型」HydraNet，可以識別1000 多個目標，例如汽車、自行車、車道線、學校區域等。

HydraNet 以微軟亞洲研究院2015 年發布的ResNet 模型當主幹，提取車身週邊8 個攝影機所捕捉畫面的通用特徵，交給不同的演算法分支完成不同的任務。這麼做可以避免用不同的模型重複從相同的畫面提取特徵，節省算力。

這是當時學術界和多數開發大型電腦辨識系統公司的選擇，特斯拉把它做得規模更大，並實現工程化。但這麼做有限制。 HydraNet 只能從不同角度的攝影機捕捉的畫面中各自提取訊息，攝影機可能只會捕捉週邊物體的一部分。就像新手駕駛很難靠後視鏡流暢倒車入庫一樣，自動駕駛系統也很難靠它實現真正的無人駕駛，還得靠各種雷達、高精地圖輔助。

不用光達的卡帕蒂團隊選擇使用一系列演算法，將8 個不同方向的攝影機收集的畫面拼成一個360° 的鳥瞰圖（Bird's Eye View，即BEV）模式，再讓模型“理解世界”，規劃行車路線。但要讓這套系統效果良好，得盡量確保地面是平的，而且車周圍環境要簡單，否則系統就很難準確理解不同攝影機看到的圖片之間有什麼關聯。

「當我們用它實現FSD 時，很快發現達不到預想中的效果。」安德烈·卡帕蒂在 2021 年特斯拉AI Day 上說，他介紹了用Transformer 架構開發的新版模型，能準確地把跨越多台相機的目標拼得更準確、更穩定。

上部三個視角是特斯拉車載攝影機拍攝的畫面。左下是傳統方法拼出來的BEV 道路圖，右下是Transformer 方法拼接、預測的道路。動圖來自特斯拉2021 年的AI Day。

而且利用Transformer 架構做成的模型，輸出的資訊可以直接用到後續的預測規劃模組，也為FSD v12 做成端對端模型打下基礎。

與新模型配合，卡帕蒂還分享了一個名為“Spatial RNN” 的架構，用視頻訓練模型時，模型能獲得短暫的“記憶” 能力，理解周圍的場景如何隨著時間變化，從而具備腦補相機視野盲點、即時建構局部地圖的能力。

這次技術迭代，讓特斯拉的輔助駕駛系統不用高精地圖也能把車開好，再一次推高自動駕駛的能力上限，向人眼靠近。

等到2022 年特斯拉AI Day 舉辦時，卡帕蒂已經離開特斯拉。特斯拉的自動駕駛系統繼續迭代，繼任者阿肖克·埃盧斯瓦米（Ashok Elluswamy）介紹了“佔用網絡”（Occupancy Network），在Transformer 架構基礎上引入“高度” 要素，能把不同角度攝影機捕捉到的畫面還原成3D 場景，計算出物體在空間中佔用多少點，從而推斷出它的形狀。

借助Occupancy Network，特斯拉的自動駕駛系統不用激光雷達，只靠攝像頭收集信息，就可以識別出它沒有見過的障礙物，被視為“純視覺方案” 的勝利。

特斯拉多年研發，終於實現馬斯克多年前提出的第一個要求：人靠雙眼就可以辨識、還原3D 環境，車靠攝影機也應該可以。

特斯拉Occupancy Network 辨識車輛周圍障礙物。圖片來自特斯拉2022 年AI Day。

在這個過程中，特斯拉還在逐步嘗試讓神經網路決定車子怎麼開。在2021 年的AI Day 上，特斯拉就展示了用大量資料訓練出來的“神經網路規劃模型”，當時只是作為輔助，為最終的規劃決策模組提供參考。到v12 版本，神經網路正式接管預測規劃模組，完成端到端拼圖。

問題：自動駕駛現在能不能有Scaling Laws

FSD v12 距離真正的無人駕駛還有距離。像ChatGPT 一樣，它有閃光時刻，但也常犯錯。廣受好評的v12.3 版本上線後，車輛時有撞到馬路牙、損壞輪轂的低級錯誤。而在上一代方案中，很少會出現類似的情況。

特斯拉也沒敢全面依賴v12。一位特斯拉車主從FSD 的軟體包中發現，v12 只適用於城市街道，高速場景還是用v11。

「端到端系統的下限其實很低。」一位自動駕駛工程師說，高速行車速度更快，規則更簡單，經過長期打磨的傳統方案，可能比目前的端到端方案更安全。 “只有把端到端方案下限提上來，處理簡單場景比原本方案更好，才是真正的性能提升。”

端到端需要更多投入才能達到傳統方案效果。圖片來自小鵬原自動駕駛AI 負責人劉蘭個川在去年CVPR 的分享。

「端到端的模型上線之前一定會有『護欄』。它像是未來會成為博士的學生，但成長過程中需要小學、初中老師去帶，需要時間成長。」英偉達汽車事業部負責人吳新宙認為端到端模型成為主流前，還需要和原廠模型配合工作，確保安全。

馬斯克願意更快一點。今年4 月，馬斯克在一季度財報會上說，他們可以看到三、四個月後的模型效果，已經可以稱為FSD v13，「比目前車上的版本更強，但有一些問題需要解決。

他相信特斯拉已經找到適用於自動駕駛的「Scaling Laws」（規模定律）：只要繼續擴大模型參數、投入更多數據和算力，不斷改進模型架構，就會有更好的效果。

過去多年，Scaling Laws 被視為OpenAI 有底氣開發規模更大、效果更好模型的秘訣。而自動駕駛所在的電腦視覺領域，因為訓練模型需要的數據是與物理世界中相關的視頻，需要模型理解更多物理規則，許多研究者擔心，用更多的數據、算力訓練更大的模型，會陷入瓶頸，能力不會提升，反而會下降。

「我們可以根據過去的趨勢估算未來的進展，從過去的數據來看，估算通常都是正確的。」埃盧斯瓦米在財報會上說，特斯拉每週都會訓練數百個能夠生成不同駕駛路線的模型，再拿從用戶和測試人員收集的數百萬視頻片段測試，如果效果更好，就會給專門的路測團隊和員工測試，最後推送給更多用戶，迭代速度會越來越快。

我們了解到，特斯拉的v12 系統目前並不能像GPT-4 等語言大模型那樣，可以解答訓練資料中沒有的問題，還要從大量的資料中學習如何應對複雜場景。

隨著模型能力提升，改進模型所需的數據更多。馬斯克今天說，每10,000 公里的行駛數據，只有1 公里能訓練模型。而且每訓練一遍，都需要消耗大量算力。

這對於特斯拉不是問題。路上數百萬輛特斯拉車可以源源不絕地為它提供各種各樣的數據。特斯拉也正在開發更強的模擬系統，產生各種資料訓練模型。在去年的電腦視覺學術會議CVPR 上，埃盧斯瓦米展示了特斯拉用收集來的數據訓練成的“世界模型”（World Model），它可以根據提示詞和過去的視頻，生成汽車繼續向前開會經歷什麼場景的視頻，例如不同視角的攝像頭中，車道線怎麼延續，路口怎麼變化。

但建立在端到端架構上的自動系統，是一個“黑盒子”，就連它的創造者都搞不清楚它如何把一堆資料變成結果。人們能做的，是給它處理好的數據，讓演算法自己提煉規律，並依此處理新的數據。如果出了問題，就給它更多的數據，讓它自己修正。

這不是自動駕駛獨有的問題，任何使用深度學習的應用程式都一樣。只是人們不那麼在意抖音的算法推給你幾個不感興趣的視頻，也能忍受ChatGPT 有時“胡說八道”，但非常在意2 噸重的汽車為什麼在道路上失常。

「它可能會『無聲地失敗'，當問題爆發出來時，通常難以分析和排查，因為模型已經變得非常龐大。」卡帕蒂在《軟體2.0》文章中談到了缺陷，這會是一個選擇題：“用我們理解的、效果達到90% 的方法。還是我們不理解、效果達到99% 的模型。”

特斯拉已經用行動做出選擇。他們相信，採用端到端神經網路、經過數十億公里現實世界資料訓練的純視覺模型，是實現大規模無人駕駛的正確方法。

馬斯克給自動駕駛團隊下達的命令是，想盡辦法提高FSD v12 不需要人類能夠行駛的距離。他們在辦公室放了一面鑼，每解決一個問題，鑼就會響一次。馬斯克認為，只要有確切的數據證明，自動駕駛比人開車更可靠，就不會有太多監管障礙。

過去幾個月，特斯拉降低FSD 價格、讓美國的車主免費試用，激進地把v12 版本推向市場，一個季度就行駛5 億公里。

從特斯拉開始研發輔助駕駛系統以來，馬斯克就對無人駕駛極為樂觀。 2016 年，特斯拉第一次在車輛周圍放置了8 顆攝像頭，擁有360° 視角，馬斯克就安排團隊精心準備視頻，宣揚無人駕駛即將到來。

之後每隔一兩年，馬斯克就會更新一次無人駕駛即將到來的時間表，然後被證明是過於樂觀。但每次，自動駕駛技術又會往前多走一步。（晚點LatePost）