11月11日,“AI教母李飛飛”發表長文。表達了對大語言模型,空間模型的看法。核心觀點如下:
李飛飛肯定了大語言模型對人工智慧發展的進步,但她認為大語言模型還遠遠不夠。目前最先進的 MLLM 模型在估計距離、方向、大小等方面的表現跟隨機猜測差不多——它們不能憑空想像物體,不能穿越迷宮、識別捷徑,也無法預測最基本的物理規律。
而且AI 雖然能夠完成閱讀、寫作、研究和資料模式識別等特定任務,但在理解或與物理世界互動時,卻存在根本性侷限。
人類對世界的感知是整體性的,不僅能看到外在本體,還理解它們在空間上的關係、意義以及重要性。同事通過想像、推理、創造和互動來理解世界,而不僅僅是用語言去描述,這是空間智能和語言的本質區別。
這其實就引出了一個最核心的問題,就是大語言模型不具備空間想像和理解能力。沒有這種能力,AI 就無法真正與物理現實建立聯絡。也就無法完成自動駕駛汽車,機器人手術等高難度動作。
這與現實世界的規律呼應,人類每天的行為都與空間智能有關:比如停車時通過想像車頭與路沿間逐漸縮小的距離來判斷位置;接住從任意方向扔來的鑰匙;在人群中穿梭不發生碰撞;或是半睡半醒時不用看就能把咖啡倒進杯子裡。這是因為人的腦子裡有對世界的理解才能完成這些動作。
隨後,李飛飛通過自問自答的方式引出了長文的核心類股,世界模型。
AI怎樣才能像人一樣有條不紊的穿梭於現實世界,並且解決特定問題?
這一切的答案不只是大型語言模型(LLM),而是世界模型(World Models)。也是基於這一理念,李飛飛建立了World Labs。
到這,其實已經能夠體現華為的技術前瞻性判斷了。華為智能汽車解決方案BU CEO靳玉志在接受媒體採訪談到VLA與世界模型的區別時表示:
“走VLA技術路線的企業,認為現在大家是通過Open AI等各種語言大模型,把網上的資訊學了一遍以後,將語言、所有的學習轉換成LM的方式掌握知識。
而VLA在嘗試,在大模型通過LM已經演變得相對成熟的背景下,把視訊也轉化成語言的token進行訓練,再變成action,控制車的運動軌跡。
華為不會走向VLA的路徑。我們認為這樣的路徑看似取巧,其實並不是走向真正自動駕駛的路徑。華為更看重WA,也就是world action,中間省掉language這個環節。
這個路徑目前看起來非常難,但能實現真正的自動駕駛。
WA就是直接通過行為端,或者說直接通過vision這樣的資訊輸入控車,而不是把各種各樣的資訊轉成語言,再通過語言大模型來控制車。這裡的vision只是一個代表,它可能來自於聲音,可能來自於vision,也可能來自於觸覺。”
這也是華為堅持WEWA架構的核心原因,拆解來看就是雲端世界引擎和車端世界行為模型。在車雲兩端都在強調對世界和空間的理解。
李飛飛認為,世界模型必須具備3種能力:
這和華為的WEWA架構具備的能力完全一致。
WE可以理解成一個雲端運行的World Engine世界引擎。利用擴散生成模型技術,能夠高可控地生成各種平時人類司機開車很少遇到的難例場景,比如側前車Cut-in、紅綠燈路口、寵探頭、前車急剎等多種場景及組合場景。
WA則是一個世界行為模型,空間推理能力強,距離位置判斷更精準,模型精幹,參數規模並不大,降低了對車端硬體的依賴,效率高,響應快。此外,WEWA的專用大模型採用MoE多專家架構,在面向不同場景時,只有部分專家會被啟動,這進一步提升了模型的運行效率與響應速度。
拆解來看,完全符合李飛飛談到的世界模型應該具備的生成性,多模態和預測性特徵。
李飛飛也談到,建構世界模型遠比建構語言模型困難,因為世界的維度遠超語言。主要有三大挑戰:
這也是華為在探索的方向,建構新的原生模型架構,通過海量真實資料+模擬合成資料組合得方式增加資料量。
關於世界模型,行業裡其實還有另一種說法,其實大家私底下都認可世界模型的價值,或者直覺上判斷這是一個可以探索的方向,只是沒有華為那麼財大氣粗,沒有足夠的資金和實力去探索,所以只能說自己當下的模型好。
李飛飛認為,世界模型是人工智慧下一個十年值得探索的方向。只有方向正確了,我們距離真正的無人駕駛才會越來越近。 (圓周智行)