AI很會說話,但還不會理解世界。
前幾天,Google的Gemini 3 Pro發佈,朋友圈瞬間刷屏。很多人都在感嘆:Google一出手,就知有沒有。下一代模型,是不是參數更多?能支援更長的上下文?照這麼發展下去,是不是真的要實現AGI(通用人工智慧)了?
但是,著名電腦科學家、美國國家工程院院士、史丹佛大學教授李飛飛卻不這麼認為。11月10日,她就發佈了一則長文,系統闡述了她對目前AI大模型的看法。總結一下,大概是:
目前AI卷參數,卷演算法的方向,可能跑偏了。模型不理解世界,就實現不了真正的智能。
為什麼這麼說?什麼又叫“理解世界”?這和我又有什麼關係?
系統整理了一下我的理解,和你分享。
你一定知道ChatGPT,或者Google的Gemini。你也一定用過DeepSeek、豆包。這些產品背後的核心技術,都是大語言模型(LLM)。
大語言模型做的事情,簡單來說,是“預測下一個詞是什麼”。你問它,“床前明月光”,它就能預測,後邊幾個詞大機率是“疑是地上霜”。
靠著這種看似簡單的“接茬”能力,在吃下了大量資料之後,大模型已經進化到了驚人的地步。它能通過律師資格考試,也能做複雜的奧數題。
那,這樣子下去,是不是很快就有能自主學習、完成任務的通用人工智慧了?
不一定。雖然語言大模型看上去很厲害,但如果問它一些特別簡單的問題,比如,這輛車離那棵樹有幾米?這個箱子能塞進後備箱嗎?它卻大機率會瞎蒙,還會出現“杯子鬆手後飛上天”的情況。
它們雖然懂物理公式,卻不懂物理常識。對此,李飛飛打了個比方。大概意思是,大語言模型,就像黑暗中的秀才(wordsmiths in the dark)。
想像一下。有一位秀才,在一間黑屋子裡,讀過一萬本關於蘋果的書。他知道,蘋果通常和“紅”、“甜”、“圓”出現在一起,他知道,蘋果的化學分子式,牛頓被蘋果砸中的故事。如果讓他寫一篇關於蘋果的論文,他寫得不比專家差。但是,如果你把一個真的蘋果遞到他手裡,他卻不知道這是什麼。
今天,語言大模型的“智慧”,本質上靠的是語言的統計規律,而並非紮根現實。
這也解釋了,為什麼你的AI助手,動不動就會“胡說八道”。因為,如果AI只遵照語法通順,它完全可以認為,太陽會從西邊升起。即便這在物理世界裡,不可能發生。
它讀了萬卷書,卻從未行萬里路。
那怎麼辦?
李飛飛說,這就要讓AI,掌握“空間智能”了。
舉個例子。喝咖啡。
你的大腦在這一瞬間,會處理很多資訊。你的眼睛,要判斷杯子和嘴邊的距離;你的手部肌肉,要根據杯子的重量,精確調整抓握的力度;你的皮膚,要感知杯壁的溫度,防止燙傷;你的手腕,要配合身體的傾斜,保持杯口的水平,防止咖啡灑出來。
在這個過程中,你用到語言了嗎?你有沒有在心裡默念,把肱二頭肌收縮30%,手腕向左旋轉5度?沒有。整個過程,靠的是感知、想像、行動。
這種“不通過語言,理解物理世界,和物理世界互動的能力”,就是空間智能。
而李飛飛也認為,有了空間智能加持的AI,才會通向真正的,智能。因為智能的本質,是能在不確定的世界中持續預測、行動、達成目標。這不能靠大腦憑空產生。
舉個例子。嬰兒是怎麼知道因果關係的?
他坐在地上,把積木推倒,積木嘩啦一下散落在了地上。他覺得好玩,又推了一次。又是嘩啦一聲。一次次的物理互動中,他逐漸建立了一條神經連接:把積木推倒,必然導致“嘩啦”一聲。邏輯的雛形,因此開始。
再舉個例子。沃森和克里克,是怎麼發現DNA雙螺旋結構的?
要知道,當時他們手裡,只有一張像是模糊的“X”的照片。靠這張照片,推導不出DNA結構。
沒辦法,他們只好像搭積木的小孩一樣,用金屬棒和鐵絲,試圖復現DNA的空間結構。直到某個瞬間,他們把模型轉到雙螺旋的角度,咔嚓一聲,一切都對上了。那一刻,他們沒有說話,但他們看到了生命的真相。
偉大的發現,往往先在空間中成型,才被翻譯成語言。
所以,李飛飛才會說:“看”和“動”,不是低級的本能,而是高級智能的基石。大自然花了 5 億年進化“視覺”,只花了最後幾萬年進化“語言”。因為感知世界,遠比描述世界要難得多,也重要得多。
語言可以瞎編,但物理世界不會撒謊。
什麼是,預測下一幀世界?舉個例子。
你手裡拿著一個玻璃杯,然後鬆開了手。現在,你的腦子裡是不是立刻就預測到了:杯子掉下去,砸在地上,摔碎了?你不需要等它真的碎,你的腦子已經預測到了。
這就是“預測下一幀世界”。擁有了這個能力,AI不需要讀萬卷書來記住“火是燙的”,模擬與世界的互動,就能推匯出“手伸進火裡->皮膚燒傷”的物理必然性。
預測下一個詞,遵循的是“語法邏輯”;而預測下一幀世界,遵循的是“物理邏輯”。這就是李飛飛認為,掌握空間智能的AI該做的事情。她把它稱為,世界模型。
之前,如果你讓AI畫一個“凌亂的房間”,它會生成一張像模像樣的圖片。但是,你沒辦法看看桌子底下有什麼,把地上的髒衣服撿起來。但在世界模型生成的房間,你可以蹲下來看床底、拉開抽屜。因為房間裡有重力、有光影,還有遮擋關係。
這和目前的AI視訊,也有本質區別。因為AI視訊,只是“看上去理解了世界”,本質上還是在黑屋子裡,預測下一個像素。
比如,吃漢堡。雖然AI視訊可以預測到,當人的嘴到了漢堡上,漢堡大機率會變形、會缺少一塊,但它並不理解,漢堡為什麼是軟的,以及,人咬下一口之後,那一塊漢堡其實是到了人的嘴裡。它也沒辦法換個位置,看看漢堡的面包底是不是焦了。
預測下一幀世界。理解了。可是,這要怎麼做到?
語言,說白了就是一個詞接著一個詞,是一維的序列訊號。但世界是三維的,甚至還要加時間維度。重力決定了蘋果怎麼掉,原子結構決定了光線怎麼反射。要預測下一幀世界,就得讓語義、幾何、物理規律保持一致,這比處理語言複雜太多了。
李飛飛也很坦率,聊了幾個他們團隊還在死磕的方向。
比如,找公式。
大語言模型之所以成功,是因為找到了一個簡單的任務函數:預測下一個詞。世界模型,也能找到這樣一個簡單優雅的公式嗎?目前還需要努力。
比如,找資料。
要訓練具有空間智能的世界模型,就得找到海量空間資料。去那找?他們正在開發一種,從網際網路上的二維視訊裡,提取空間資訊的演算法。
過去的AI,是在用機率“猜”下一個詞;未來的AI,或許能用物理“算”下一幀世界。
李飛飛的World Labs,已經做出了一款叫Marble的產品。
具體網址:https://marble.worldlabs.ai/。
只要你提供一句描述,一張照片,它就可以生成一個可以探索的空間。
我試著上傳了一張我們新辦公室的照片,沒想到還真能行。
是不是還挺有意思的?幾秒鐘內,它不僅識別出了裡面的桌子、椅子,還腦補出了空間位置。雖然還很粗糙。可能是我只上傳了一張照片的原因。
那麼,如果未來的AI真的如李飛飛所說的那樣,有了空間智能,又意味著什麼?
首先,對於普通人來說,是AI進入現實社會,所帶來的極大便利。
一旦空間智能成熟,離機器人走入家庭,就真的不遠了。它能理解“花瓶是易碎的,要繞著走”;能理解“地上有水,要先拖干”。讓機器人幫你疊衣服、整理雜亂的玩具房、甚至照顧老人起居,將變成現實。甚至再進一步,讓奈米機器人在血管裡送藥。
而當AI基於空間智能,掌握了從現實中抽象出規律的能力,它們或許,就能像牛頓和愛因斯坦一樣,擁有“科學家的直覺”。從而,真正發現規律、進行創新。
接著,對於創業者來說,加持空間智能的AI,可能意味著一些新的機會。
比如,真正“可控”的視訊生成。
現在的視訊AI(比如 Sora),雖然厲害,但還是有點“抽盲盒”。它可以生成一隻貓。但你很難控制貓的走位、光影的角度。這對商業廣告、電影製作來說,就有點難操作。甲方要求臉必須再轉15%,你不能說“AI 隨機生成的我改不了”。
李飛飛在訪談裡就舉了一個例子。他們和索尼的一家虛擬製作公司合作,用了Marble搭建場景,可以自由地選擇拍攝角度,生產效率提升了40倍。
比如,做一些“想像成真”的ToC產品。
例如,裝修。拍一張毛坯房的照片,說改成北歐風,暖色調。幾秒鐘後,你就可以得到一個可以到處走,還能修改沙發位置的虛擬樣板間。例如,3D相簿,給一張老房子的照片,就能得到一個3D空間。你可以看看桌上的擺設,看看牆上的掛曆,再次回到小時候。
李飛飛提到了一個讓我特別意外的場景:心理治療。有團隊找上門,表示想用這個技術,來治療“恐高症”。通過瞬間生成的虛擬懸崖,就能幫病人一步步克服恐懼。
又比如,賣合成資料,給做機器人的公司。
本質上,這就是給機器人,開了一間學校。你不需要造機器人,你只需要生產特定領域的“教材”。比如,專門生產“怎麼修汽車”的資料,賣給修車機器人公司;專門生產“怎麼做手術”的資料,賣給醫療機器人公司。
精確地把“想像”變成看得見、摸得著的“真實”,也許是接下來最大的機會之一。
好了。總結一下。
為什麼AI現在這麼厲害,但還是會犯一些低級錯誤?可能因為,它沒有真正理解世界,而只是在統計規律中找答案。所以未來,AI的發展方向,可能要拐一下,從預測下一個詞,到預測下一幀世界。也就是真正掌握,空間智能。
那,這個方向對不對?會不會通向真正的智能?
我不知道。但至少,這是一個值得嘗試的方向。因為目前的大語言模型,確實遇到了瓶頸。參數越來越大,算力越來越強,但一致性,總也沒有特別好的解決方案。
而且,如果這個方向真的走通了,確實會帶來一些變化。機器人可能真的能進入家庭。甚至,AI可能真的能像科學家一樣,從現實中發現規律,而不只是從資料中總結規律。
當然,這一切都還很早。Marble,還很粗糙。世界模型的“公式”還沒找到,空間資料也還不夠。但至少,通往智能的那個未來,又多了幾分念想。
畢竟,科技進步從來不是一條直線。
繞點遠路,沒啥。 (創業邦)