特斯拉世界模擬器來了!
這些看似真實的駕駛場景,全都是用模擬器生成:
這個模擬器在今年的電腦視覺頂會ICCV上亮相,由特斯拉自動駕駛副總裁Ashok Elluswamy親自講解。
網友看了之後表示,這個模型實在是泰褲辣。
同時,Elluswamy也首次揭秘了特斯拉的自動駕駛技術路線圖,表示端到端才是智能駕駛的未來。
除了開頭看到的多場景駕駛視訊,特斯拉的世界模擬器還可以為自動駕駛任務生成新的挑戰場景。
比如右側的車輛突然連並兩條線,闖入預設的駕駛路徑。
也可以讓AI在已有的場景中執行自動駕駛任務,躲避行人和障礙物。
模型生成的場景視訊,除了讓自動駕駛模型在裡面練手,也可以當成電子遊戲,供人類玩耍體驗。
當然除了駕駛相關,對其他具身智能場景——比如特斯拉的柯博文機器人——也同樣有用。
與這個模型一同被揭秘的,還有特斯拉在自動駕駛上的一整套方法論。
ICCV演講中,特斯拉自動駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術細節,同時還在X上發表了文字版本。
Ashok首先明確,端到端AI才是自動駕駛的未來。
特斯拉利用端到端神經網路實現自動駕駛,這個端到端神經網路會利用來自各個攝影機的圖像、運動訊號(例如車速)、音訊、地圖等資料,生成驅動汽車的控制指令。
與端到端相對的另一種方法是採用大量感測器的模組化駕駛,這類系統的優勢是在初期更容易開發和偵錯,但相比之下,端到端的優勢更加明顯:
Ashok舉了一些例子,比如車輛行駛過程中發現前方路面存在積水,此時有兩種策略,一是直接從積水上開過,二是借用對向車道繞過積水。
駛入對向車道是危險的,但在這個具體場景中視野開闊,在避開水坑所需的路程之內對向車道沒有車輛,借用對向車道避開水坑是一種可行的選擇。
這種權衡取捨就很難用傳統的程式設計邏輯來表達,而對於人類來說,這在觀察場景時卻相當簡單。
基於以上考慮及其他因素,特斯拉採用了端到端的自動駕駛架構,當然,端到端系統也仍有許多挑戰需要克服。
端到端自動駕駛面臨的困難,其中之一就是評估。特斯拉推出的世界模擬器,也正是針對這一難題。
該模擬器使用特斯拉篩選出的同樣的海量資料集進行訓練,其功能並非預測給定狀態下的行動,而是根據當前狀態和下一步行動來合成未來狀態。
這樣的狀態可以與智能體或策略AI模型連接起來,以閉環方式運行,從而評估性能。
同時,這些視訊並不侷限於評估,它還可以用於閉環大規模強化學習,從而實現超越人類的表現。
除了評估之外,端到端自動駕駛還面臨“維數災難”,以及可解釋性和安全性保證的問題。
在現實世界中,想讓自動駕駛系統安全運行,就需要處理高影格率、高解析度、長上下文輸入。
假設輸入資訊包括7個攝影機×36FPS×5 百萬像素×30秒的場景畫面、未來幾英里的導航地圖和路線、100Hz的運動資料,以及48KHz的音訊資料,大約會有20億輸入Token。
神經網路需要學習正確的因果對應,將這20億個Token精簡為2個,即車輛的下一個轉向和加速動作。在不學習虛假相關性的情況下學習正確的因果關係是一個極其棘手的問題。
為此,特斯拉通過龐大的車隊,每天收集相當於500年駕駛總和的資料,並使用複雜的資料引擎篩選最高品質的資料樣本。
使用這樣的資料進行訓練,就能讓模型獲得極高的泛化能力,從而應對極端情況。
對於可解釋和安全性問題,如果車輛的行為不符合預期,端到端系統的偵錯可能就會變得很困難,但模型也可以生成可解釋的中間Token,可以根據情況用作推理Token。
特斯拉的生成式高斯潑濺就是這樣一項任務,它具有出色的泛化能力,無需初始化即可建模動態物體,並可與端到端模型聯合訓練。
其中所有的高斯函數都是基於量產車配置的攝影機生成的。
除了3D幾何之外,推理還可以通過自然語言和視訊背景進行。該推理模型的一個小版本已經在FSD v14.x版本中運行。
更多技術細節,可以到Ashok的文章和原始演講視訊當中一探究竟。
雖然端到端被視為自動駕駛的未來,但在業界,具體的軟體演算法路線也一直存在VLA和世界模型之爭。
以國內為例,華為和蔚來都是世界模型路線的代表,元戎啟行和理想則選擇VLA路線,另外也有一些玩家認為應該將兩者結合。
VLA玩家認為,該範式一方面可以應用網際網路已有的海量資料,積累豐富常識,進而理解世界。另一方面模型通過語言能力實際上是具備了思維鏈能力,能夠理解長時序資料並進行推理。
更尖銳的觀點認為,有些廠家不用VLA是因為算力不夠,帶不動VLA模型。
世界模型玩家們則堅持世界模型更接近問題本質,例如華為車BU CEO靳玉志認為“VLA這樣的路徑看似取巧,並不能真正走向自動駕駛”。
而現在,特斯拉的方案之所以備受關注,也正是因為在自動駕駛發展歷程中,馬斯克從未有過“選錯”。
特斯拉選什麼路線,VLA還是世界模型,關於端到端自動駕駛兩大技術路線的歷史性決戰。
你看好VLA,還是世界模型?
參考連結:
[1]https://x.com/Tesla/status/1982255564974641628
[2]https://x.com/aelluswamy/status/1981644831790379245 (量子位)