前幾天,我們寫了一篇分析近期輔助駕駛領域非常時髦的一條技術路線,VLA語言動作大模型的文章
最後挖了個坑,說下一篇要詳細講另一條技術路線WA世界模型。
畢竟,華為智慧汽車解決方案BU CEO 靳玉志曾表示,VLA大模型是一條取巧的技術路線,華為不會選擇,而是會堅定的走WA世界模型路線。
從評論區社友們的回饋來看,催更呼聲很高:
話不多說,咱們今天就來聊聊WA世界模型到底是什麼?它與傳統端到端和VLA技術路線到底有什麼差異?分別有何優勢劣勢?
說起WA世界模型,或許對輔助駕駛領域比較關注的朋友,第一時間會想起華為和蔚來,這兩家都是對外已經官宣走WA世界模型這條路線的典型代表。
尤其是華為,作為現階段公認輔助駕駛界TOP1的存在,「五界」+乾坤智駕基本上涵蓋了將近半個車圈。
所以說,WA世界模型這條技術路線,至少在現階段產品覆蓋度是相當高的。
實際上,和VLA大模型一樣,WA世界模型這個概念最早並不是由華為或蔚來等國內公司首次提出的。追根溯源的話,要比VLA大模型出現得早很多。
其概念最早可追溯到上個世紀40年代,一位名為肯尼斯·克雷克的蘇格蘭心理學家提出的「心智模型」(Mental Model )。
他認為,人類之所以可以預測各種環境的變化,是因為每個人心中都有一套基於自身理解形成的「小型世界模型」。
透過模擬運作小型世界模型,將感官訊息轉化為對物理規律的理解,就可以對世界內部表徵進行推理演算,進而幫助人們做出正確的決策。
例如,我們看到烏雲就會聯想到下雨,看到火就會聯想到熱和燙,聽風聲大概能判斷風有多大。
到了上個世紀80年代,這套理論開始應用於電腦領域。
被譽為「生成式AI之父」的德國電腦科學家於爾根·施密德胡伯,在論文中首次提出了「世界模型」一詞(World Model )。
他嘗試使用神經網路進行情境推演,實現動態環境的預測。
而到了21世紀,隨著電腦效能的突飛猛進,世界模型在AI領域的發展也開始逐漸清晰明朗了起來。
2018年,GoogleAI公司DeepMind的兩位人工智慧科學家,發表了一篇名為《World Models》的論文。
提出了透過「造夢」訓練AI智能體的超前理念,在當時可謂轟動業界。
具體來說,就是使用自動編碼器將現實場景壓縮成資料,再利用神經網路推演各種未來的可能性,最終透過一套精簡的控製器,對機器動作進行控制。
其實有點類似「顱內學習」,像是許多頂級賽車手在實地賽道刷圈之前,會把賽道的每個彎記得清清楚楚。
可以做到閉上眼睛用腦模擬自己實地開車的景象,預演那個地方容易出事故,那個地方可以提速等等。
預演次數夠多、夠細,實際賽道刷圈時的反應就會更靈敏,更容易呈現出「人車合一」的境界。
世界模型「夢境」訓練AI的方式,有點類似「訓狗」。
動作做對了會丟一塊小零食當作獎勵,做錯了會有相應的懲罰,久而久之狗就形成了條件反射,變得聽得懂人話。
在世界模型的「夢境」訓練中,工程師會對AI提出一個基本目標,然後加入真實世界的物理參數,設定「對」和「錯」的框架規則,這樣就能讓AI在不斷試錯中實現進化。
到了2022年,隨著ChatGPT等大模型的出現,借助其序列建模能力和多模態學習等技術,世界模型的模擬推演範圍得以進一步擴大,從原先的2D走向3D,從只能推演單一場景,到可以推演多種因素疊加的複雜場景。
傳統AI是基於大量程式碼的被動式反應系統,能力上限有一定侷限性,無法做到應對複雜場景。
而世界模型則會是基於現實世界中運動、碰撞等運行規則去訓練AI,透過因果邏輯一樣預演行動後果,從而在複雜場景中趨利避害,做出正確的抉擇。
簡單來說,世界模型的目標,就是讓AI擁有類似人類的物理時空理解能力。
有了前面的鋪墊,再來看看WA世界模型是怎麼應用在輔助駕駛系統的。
WA世界模型最顯著的特點,就是對於物理世界的運動規律,有著強大的分析能力。
根據蔚來對於WA世界模型技術的描述,它可以分析前3秒內的行車資料,只需要0.1秒就能推演出長達120秒的模擬路況,同時產生216種場景可能性。
理論上來說,WA世界模型的運行速度,比端到端更快。
因為WA世界模型在端對端感知到動作輸出的過程中,加了一個「預判」環節。
就比方說,打乒乓球水平很高的專業隊選手,速度對抗之快讓人覺得匪夷所思,是因為來球之前他們會根據對手的動作做出預判,從而提前做動作,如果球來了再現反應是來不及的。
除了車端的「快」以外,雲端的模型訓練也是十分重要的部分。
例如,目前華為的ADS 4整套系統就分成了「雲端」和「車端」兩部分。
其中雲端部分被稱為WE(World Engine),即世界引擎,用於對AI模型進行「夢境」訓練。
車端部分被稱為WA(World Action Model),即世界行為模型,用於車輛執行在雲端訓練出的模型。
二者合在一起,並稱為“WEWA”。
實際上和理想、小鵬引入VLA大模型一樣,華為、蔚來之所以引入WA世界模型,同樣是為瞭解決端到端架構的弊端。
傳統端到端架構最讓工程師頭疼的,就是「黑箱問題」,可解釋性差,一旦出了問題難以修改,只能像薛定諤的貓一樣投喂大量資料,祈禱模型早日修正。
VLA大模型給出的解決方法是:透過將圖像訊號轉換成語言,這樣就可以讓問題透過文字視覺化,起到易於修改的目的。
WA世界模型給出的解決方法是:可以透過三維物理世界的空間運動規律、物體互動規則,對出現問題場景進行反向演算,再配合上內建的「注意力熱圖」系統,就能起到回溯問題根源的目的。
比如說,路中間突然跑過去一頭牛,車輛撞了上去,這種現實中較低機率發生的事故,工程師們就可以呼叫世界模型分析事故原因。
到底是沒辨識到牛,還是對牛的行進路線預判失誤,還是預判了牛的路線但沒及時做出煞車動作…
儘管做不到像VLA一樣,把問題轉換為文字那麼清晰,但好歹已經從“黑箱”變成“灰箱”了,能做到具體問題具體分析,可以更有針對性的投喂資料,對症下藥。
找到了問題之後,就需要投喂大量資料進行模型訓練最佳化,俗稱「下猛藥」。
而這,正是WA世界模型相比端到端的另一個主要優勢。
傳統端對端修改問題,需要大量真實資料支撐,但許多極端碰撞事故發生頻率本身就很低,就會造成可用資料十分有限。
而世界模型則可以透過位於雲端的世界引擎,在虛擬世界中模擬創造出各種奇葩的極端碰撞事故資料。這些資料不僅各種參數可調,而且資料想要多少就有多少。
這樣一來,就可以讓輔助駕駛應對極端複雜場景的能力加速進化。
除此之外,WA世界模型在車端佔用的算力,往往比端到端更少。
由於「注意力熱圖」的存在,使得WA在運行過程中不需要像端到端那樣,始終顧及全域,而是根據不同場景呼叫不同的模組。
例如華為ADS4中,就內建了多種「專家模組」。
當車子開到路口時,系統就會呼叫「路口預測專家」模組,將更多算力傾注在監視橫向、對象來車,以及與其他交通參與者的博弈上。
當車子遇到擁擠時,系統就會呼叫「壅塞跟車專家」模組,將更多算力傾注在監視前車急煞車、側方加塞等方面。
更低的算力消耗,有利於會進一步降低系統延遲,提高危急時刻的反應速度。
總結下來,WA世界模型是一套可解釋性更高,運行延遲更低,且針對特定危險場景避險效果更好的「端對端PLUS」。
那麼就可以回答文章開頭提到的問題了,WA世界模型比起VLA語言動作大模型,到底那個比較好呢?
簡單來說,WA世界模型偏向憑藉「肌肉記憶」與「經驗」去開車,而VLA更接近「腦思考」去開車,這造成了兩條技術路線分別有各自擅長的領域。
WA世界模型的優點在於車端系統十分精簡,而VLA大模型多了將影像轉換成語言這個步驟,更擅長處理「鬼探頭」等突發的緊急危險場景。
理論上,WA世界模型的反應速度會比VLA更快。
不過相對的,由於VLA擁有更接近人類的邏輯推理能力,所以對於複雜的臨時施工道路,在繞行路線選擇方面,表現會比WA世界模型「更擬人」。同時在人機共駕時,用語音「使喚」車輛做各種動輒,VLA也會表現得更出色。
理論上,VLA大模型更擅長處理復合場景的「長尾決策」問題。
從長遠來看,WA和VLA兩條技術路線對於硬體的演化需求也有所不同。
VLA需要更頻繁的邏輯推理,因此對車端晶片算力提出了更高的要求。
而WA雖然對於車端算力需求較小,但由於車端模型需要及時判斷場景呼叫模組,同時還需要雲端訓練作為支援,所以對網速要求更高,而晶片頻寬將很大程度上決定其能力上限。
雖然目前市面上的主流輔助駕駛技術路線走到了分水嶺,但放眼更長遠的未來,依舊充滿未知。
正如那句「天下大勢,分久必合合久必分」。
說不定WA和VLA接下來會走向融合,實現優勢互補,亦或是再迸發出更先進的技術架構,從而讓產業走向下一階段的統一。
不論技術如何發展,都真心希望L3、L4級自動駕駛早日落地。 (電動車公社)