#駕駛經驗
特斯拉造出“世界模擬器”,一天學完人類500年駕駛經驗
特斯拉人工智慧與自動駕駛軟體副總裁阿肖克·埃盧斯瓦米在ICCV 2025會議上首次公開披露了名為“世界模擬器”的神經網路系統。這一系統並非傳統的遊戲引擎或預程式設計模擬工具,而是一個完全通過海量真實世界資料訓練生成的“數字孿生世界”,能夠以極高保真度模擬車輛行駛中的多視角連續場景,一次可生成長達6分鐘、覆蓋8個攝影機的逼真駕駛視訊。技術核心:端到端神經網路架構特斯拉的“世界模擬器”與其自動駕駛系統FSD共享同一套“端到端”神經網路架構。與行業主流的“模組化”方案(將駕駛任務拆解為感知、預測、規劃三個獨立模組)不同,特斯拉的端到端模型直接從攝影機像素、車輛運動資料、導航資訊等原始資料輸入,一步到位輸出方向盤轉角和油門剎車控制指令。這種設計消除了模組間介面的資訊損耗,使系統能夠整體最佳化。例如,在面對“雞群試圖過馬路”和“鵝群僅在路邊停留”兩種場景時,端到端模型能直接從像素中理解動物意圖的差異,做出停車等待或繞行的不同決策,而無需依賴僵化的規則定義。資料引擎:每天消化500年駕駛經驗端到端模型面臨的核心挑戰是輸入維度極高(特斯拉估算其輸入token總數達20億個),而輸出僅有兩個控制指令。為解決這一“維度詛咒”,特斯拉依託其全球車隊每天產生的相當於人類500年駕駛時長的海量資料,通過“資料引擎”流水線自動篩選最具價值的罕見場景樣本進行訓練。例如,在雨天路滑場景中,FSD可提前5秒預判前車可能打滑撞牆後反彈,主動減速。這種對“二階效應”的預判能力,正是通過海量複雜場景資料訓練所獲得。可解釋性突破:打開AI“黑箱”針對端到端模型決策過程不透明的質疑,特斯拉通過兩項技術提升可解釋性:一是“生成式高斯潑濺”技術,可在220毫秒內根據攝影機視訊即時生成周圍環境的3D動態模型,直觀展示AI“所見”世界;二是引入自然語言推理能力,在FSD v14.x版本中,AI可用語言解釋其決策邏輯(如“施工封路,應向左繞行”)。這些中間輸出層使開發者能夠追溯AI的“思考鏈條”,部分破解黑箱問題。模擬器三大應用:閉環評估、場景復現與對抗測試世界模擬器的核心價值在於為自動駕駛測試提供無限規模的虛擬試煉場:閉環評估:新版FSD模型可直接在模擬器中長期駕駛,評估綜合表現,無需真實路測;場景復現與修改:重現真實危險場景,測試不同應對策略的優劣;對抗性場景生成:主動創造極端罕見情況(如車輛連續變道加塞),壓力測試AI的應急能力。通用AI野心:從汽車到柯博文機器人特斯拉明確表示,世界模擬器並非僅用於自動駕駛,已無縫遷移至人形機器人“柯博文”的訓練中。同一套神經網路在模擬器中同時生成車輛行駛和機器人在工廠內導航的畫面。這印證了馬斯克的終極目標:打造一個理解並互動物理世界的通用AI,汽車與機器人僅是其在不同的“身體”上的應用。特斯拉的世界模擬器不僅是自動駕駛技術的突破,更是其對“通用物理AI”戰略的關鍵佈局。通過端到端架構與虛擬訓練場的結合,特斯拉正試圖用資料與算力暴力破解機器智能的規模化難題。 (MaXTe)