馬斯克「世界模擬器」首曝,1天蒸餾人類500年駕駛經驗!柯博文同腦進化

【新智元導讀】馬斯克的終極設想,正在成形。今天,特斯拉放出了「世界模擬器」震撼演示。一個神經網路,每天狂吞500年人類駕駛經驗,並在無限的虛擬世界中自我進化。同款AI大腦,柯博文也可共用。

一個神經網路模型,統治了一切。

今天,特斯拉官宣神經網路「世界模型器」,AI可以直接模擬、合成自動駕駛的「孿生世界」。

如下九宮格演示中,特斯拉「世界模擬器」生成了汽車行駛過程中的不同視角。

同時,一些長尾場景,諸如行人橫穿馬路、車輛加塞,AI都可以直接「腦補」生成。

從相同的初始視訊出發,讓模擬中的汽車以對抗性方式形式

以往遇到的挑戰場景,「世界模擬器」能夠在虛擬世界中不斷試煉。

從相同的初始視訊片段(綠色小方塊)開始,模擬會根據新的動作集發散到不同狀態

這種資料的合成,還可以通過像玩遊戲一樣,在模擬的世界中駕駛。

如下所示,神經網路成功合成8個攝影機、24幀/秒的連續畫面,一次直出長達6分鐘的逼真駕駛體驗,細節還原度驚人。

一直以來,馬斯克宣稱,特斯拉所打造「世界模型」是一套共用的AI大腦,並為其配上不同的「身體」——自動駕駛汽車、機器人。

沒錯,這個「世界模擬器」所有合成的環境,同樣可以模擬多種真實場景,訓練柯博文。

柯博文正在特斯拉的神經網路虛擬世界中穿行
柯博文的各種不同動作,都能精準地反映在虛擬世界的模擬當中

這種無限的絕佳試煉場,正是特斯拉讓FSD和柯博文,不斷精進的秘密武器。

那麼,特斯拉「世界模擬器」是如何學習、訓練,並用於測試的呢?

近來,在ICCV 2025主題演講中,特斯拉AI團隊的負責人Ashok Elluswamy揭開了內幕。

一個神經網路大腦,兩個身體

眾所周知,特斯拉利用一個「端到端」的神經網路來實現自動駕駛。

這個端到端網路處理來自多個攝影機、車輛速度等運動學訊號、音訊、地圖及導航資訊,最終生成控制車輛行駛的指令。

選擇「端到端」這條技術路線,意味著什麼?

要理解特斯拉在做什麼,我們首先得知道,自動駕駛領域存在著兩條截然不同的技術路線。

第一條路,也是絕大多數公司選擇的路,可以稱之為「模組化」的方法。這種方法將駕駛任務拆解成幾個獨立的步驟:

  • 感知(Perception):利用雷射雷達、高畫質攝影機等感測器,識別出道路上的所有物體——這是車,那是人,這是一條車道線。
  • 預測(Prediction):利用感知資料,預測這些物體的下一步動向——那輛車可能會變道,那個行人可能會過馬路。
  • 規劃(Planning):根據預測結果,規劃出自己車輛的最佳行駛路徑——應該減速,還是應該繞行。

這種方式的好處顯而易見:分工明確,每個模組都可以獨立開發和偵錯,在項目初期更容易上手。

第二條路,也是特斯拉所選擇的:是「端到端」(End-to-End)神經網路

在特斯拉的系統中,不存在獨立的感知、預測和規劃模組,只有一個龐大而統一的神經網路。

這個網路的「輸入端」,是車輛攝影機捕捉到的原始像素畫面、車輛自身的速度、音訊、地圖導航資訊等一切原始資料;

這也是特斯拉一直以來,所推崇的「純視覺」方案。

而它的「輸出端」,則直接是兩個指令:轉動方向盤的角度,和踩下油門/剎車的力度。

在特斯拉看來,與依賴雷射雷達等昂貴感測器的「模組化」(感知、預測、規劃分立)方案相比,端到端方案擁有根本性優勢:

1. 學習人類價值觀

複雜的現實路況充滿了「迷你電車難題」,這些權衡難以用程式碼規則窮舉,但可以從海量的人類駕駛資料中隱式學習。

舉個栗子,在下面的場景中,AI需要決定是直接碾過前方一大片水窪,還是借道對向車道。

通常來說,突然駛入另一側車道會存在一定的危險。

傳統的「模組化」系統會在這裡陷入邏輯衝突。

它的程序裡可能有兩條寫死的規則:「規則A:絕對不能駛入對向車道」和「規則B:避免駛過障礙物(如此大的水坑)」。

當兩條規則衝突時,系統該如何抉擇?

但眼下能見度足夠高,在可預見的未來未來不會有對向車輛駛來;其次,水坑比較大,最好是避開。

而這種權衡,很難用傳統程式設計邏輯描述出來,但人看一眼就知道該怎麼做了。

這只是經典「迷你電車難題」其中一個案例,現實中,自動駕駛汽車還會遇到各種罕見的問題。

AI不是在執行規則,而是在學習一種更接近人類價值觀的判斷方式。

2. 消除模組間的資訊損失

在傳統方案中,感知、預測和規劃模組之間的介面難以明確界定。

而在端到端系統中,梯度能夠從最終的控制指令一直反向傳播至感測器輸入,從而對整個網路進行整體性最佳化。

如下兩段路況:一個是雞群要過馬路,另一個是鵝群在路中間溜躂。

若在「感知」和「規劃」這兩個模組之間,建立一套明確的判斷規則(本體論ontology)非常困難。

對於模組化系統,「感知」模組可能會給「規劃」模組傳遞這樣的資訊:「識別到一群鳥類」。

但這種資訊是冰冷的。

這群鳥的「意圖」——一種微妙、難以量化的資訊——在模組之間的傳遞過程中很容易丟失。

「規劃」模組無法知道,它應該為這群雞減速讓行,還是可以安全地繞過這群鵝。

一群雞正在路邊,看起來有要過馬路的意圖;FSD停車等待
一群鵝在路邊,但它們只是想待在原地;FSD直接繞行

在「端到端」的網路裡,不存在這種資訊傳遞的壁壘。

整個網路作為一個整體,直接從像素中理解了「雞要過馬路」和「鵝想待著」這兩種不同的「軟意圖」(soft intent),並直接輸出減速或繞行的駕駛行為。

從輸入到輸出,資訊是完整流動的,不存在中間環節的損耗。

正是基於這些原因,特斯拉選擇了「端到端」這條路。當然,也伴隨著巨大的挑戰。

3. 可擴展性與簡潔性

它能更好地處理現實世界中無窮無盡的「長尾問題」,並且計算架構統一,延遲確定。

4. Scaling Law的延續

總體而言,這更符合「苦澀的教訓」(The Bitter Lesson)所揭示的規律——即強大的通用方法和海量算力,最終將超越複雜的人工設計。

正是因為上面這些原因,以及其更多其他的考量,特斯拉才選擇了「端到端」架構來做自動駕駛。

不過話說回來,要打造這樣的系統,還得克服不少難題。

20億token輸入,跳出「維度詛咒」

在真實世界中,一個安全的自動駕駛系統,需要處理高影格率、高解析度、長時間序列的輸入資訊。

特斯拉算了一筆帳:

  • 7個攝影機×36幀/秒×500萬像素×30秒歷史資料
  • 未來幾英里的導航地圖和路線
  • 100 Hz車輛動態資料,如速度、慣性測量單元(IMU)、里程計等
  • 48 KHz音訊資料

如果將這些輸入token拆分成最小的「資訊單元」,比如每個圖像塊是5x5像素,token總數將高達20億個。

神經網路的任務,就是在這20億個輸入資訊單元中,找到正確的因果關係,並最終將其壓縮成2個token——方向盤和加減速。

這是一個極其棘手的問題,AI很容易在如此海量的資料中,學到錯誤的、偶然的「相關性」,而非真正的「因果性」。

特斯拉的解法簡單粗暴:用巨大的資料量來解決問題。

他們坐擁一個資料寶庫,其車隊每天能產生相當於人類500年駕駛時長的海量資料。

負責人Ashok Elluswamy將其稱之為,「Niagara Falls of data」。當然,並非所有資料都有用。

因此,特斯拉建立了一套複雜的「資料引擎」流水線,從海量視訊中自動篩選出最有趣、最罕見、最高品質的學習樣本。

當AI學習了足夠多這樣的「疑難雜症」資料後,它就能展現出驚人的泛化能力。

比如在一個雨天路滑的場景中,AI在前方車輛還未明顯失控時,就提前開始減速。

它理解到:下雨、前車可能打滑、撞上護欄後可能反彈回車道……這種對「二階效應」的預判,只有在見過足夠多複雜情況後才能學會。

FSD思維過程揭開,全憑攝影機

「端到端」系統最大的詬病在於——「黑箱」特性。

如果車輛做出了一個奇怪的舉動,工程師如何知道是那裡出了問題?

Ashok認為,這個「黑箱」其實可以被打開。

特斯拉神經網路在輸出最終駕駛指令的同時,也能輸出可供人類理解的「中間token」(Intermediate Tokens)。

這些token可以被看作是AI的「思考過程」,也是人們常說的CoT。

完整架構與可解釋性輸出

其中一項最直觀的技術,叫做「生成式高斯潑濺」(Generative Gaussian Splatting)。

車輛在行駛過程中,軌跡通常是線性的,導致視角變化不足,用傳統方法重建3D模型質量不高。

尤其是,在新視角下更容易失真。

此外,3D高斯潑濺還需要以來,其他pipeline良好的初始化,整體最佳化時間可能長達數分鐘。

另一方面,它還具備了出色的泛化能力。

無需初始化,全程執行階段間僅約220毫秒,能夠對動態物體進行建模,還能和端到端大模型聯合訓練。

最厲害的是,所有這些高斯點,都基於車上配置的攝影機生成。

特斯拉神經網路生成的高斯潑濺渲染的新視角

此外,AI還能用自然語言解釋它的決策。這套系統已經在FSD v14.x版本中部分運行。

自然語言推理

世界模擬器,AI無限試錯

最後一個,也是最難的挑戰是——評估。

一個訓好的自動駕駛系統,若在真實道路上測試,既危險又緩慢。

即使AI在歷史資料上表現完美,也不意味著它能在真實世界中應對自如。

為此,特斯拉亮出了終極武器:一個完全由神經網路構成的「世界模擬器」。

這個模擬器和駕駛AI一樣,也是用海量真實世界資料訓練出來的。

但它的功能不同:它不是根據當前狀態預測「下一步該怎麼開」,而是根據「當前狀態」和「一個駕駛動作」,來生成「下一秒世界會變成什麼樣」。

這個模擬器能以極高的保真度,即時生成車輛所有攝影機應該看到的畫面。它就像一個由AI創造的、無限逼真的駕駛視訊遊戲。

如前所述,這個「世界模擬器」的威力在於:

  • 閉環評估:可以將新的駕駛AI模型放入這個模擬世界中,讓它自由駕駛,評估其長期表現。
  • 情景再現與修改:可以擷取一段真實發生的危險場景,讓AI在這個模擬世界裡用不同的方式重新應對一次,看看結果是否會更好。
  • 創造對抗性場景:可以人為地在模擬世界中創造出極端、罕見的危險情況,比如讓一輛車突然做出不合常理的舉動),專門測試AI的應對極限。

真正的終局:人形機器人

講到這裡,你會發現,特斯拉的野心早已超越了「造車」。

汽車,只是他們收集資料的觸手,和這套AI系統的第一個應用載體。他們真正打造的,是一套可以解決通用物理世界互動問題的底層AI引擎。

最好的證據是,這套系統已經無縫遷移到了他們的另一個人形機器人項目——柯博文(Optimus)上。

為FSD打造的「世界模擬器」,同樣可以為柯博文生成在工廠裡漫步的場景,測試和訓練它在物理世界中的導航與互動能力。

而這,才是特斯拉自動駕駛故事背後,那個更宏大、也更激動人心的未來。 (新智元)