近期,一篇出自 “AI 教母” 李飛飛教授的萬字長文,在矽谷 AI 圈掀起軒然大波。作為曾掌舵史丹佛 AI 實驗室、憑 ImageNet 項目改寫深度學習視覺領域格局的華人頂尖專家,她此次的發聲格外重磅:“當下的 AI,不過是困在暗室裡的文字高手,能說會道卻脫離現實,本質上就是‘睜眼瞎說’。”
這番話看似犀利,卻精準點破了 AI 光鮮外表下的 “致命缺陷”。如今的大語言模型有多 “能打”?寫律詩、寫論文、聊量子物理,分分鐘模仿李白、杜甫的文風,邏輯縝密到讓人難辨真假。
可一旦跳出文字的舒適區,面對真實的物理世界,AI 就立刻 “露餡”:讓它估算桌子到門的距離,全靠蒙;讓它預測杯子轉 90 度後的模樣,純屬猜;就連那些刷屏的 AI 生成視訊,仔細看全是破綻 —— 人物突然多根手指、物體莫名穿牆而過,說到底,都是 AI 不懂物理規律的必然結果。
李飛飛教授毫不避諱地指出:AI 行業已經走偏了方向。真正的突破口,從不是參數越來越龐大的語言模型,而是連嬰兒都有的 “空間智能”—— 這才是通往通用人工智慧(AGI)的唯一正道。
那 “空間智能” 到底是什麼?其實就是人類理解、互動物理世界的本能。嬰兒靠抓、扔、咬,摸清物體的軟硬、輕重;你半夜摸黑起床倒水,不用開燈也能精準拿到杯子;朋友扔來鑰匙,你不用算拋物線就能穩穩接住。這些看似簡單的動作,背後藏著對空間、距離、物理規律的深層認知。
更關鍵的是,人類文明的諸多重大突破,都離不開 “空間智能”:埃拉托斯特尼觀察影子長短,算出了地球周長;沃森和克里克搭 3D 模型,破解了 DNA 雙螺旋結構;建築師設計摩天大樓、科學家推演星體運動,本質上都是在運用對空間和物理規律的理解。而這些,是只會 “玩文字” 的大語言模型永遠做不到的。
既然空間智能這麼重要,怎麼讓 AI 擁有它?李飛飛給出了核心方案:讓 AI 從 “語言模型” 轉向 “世界模型”。一個合格的世界模型,必須具備三大核心能力:
首先,能生成符合物理定律的虛擬世界,不是天馬行空的虛構,而是遵循重力、摩擦力等基礎規律;其次,能整合文字、圖像、動作等多種資訊,不僅聽得懂你說的,還能看懂你做的;最後,也是最關鍵的,能精準預測互動結果 —— 比如知道推杯子會倒、扔球會落地,這才是 AI “看懂” 世界的關鍵。
要做到這些,比訓練大語言模型難得多。語言是一維的、線性的,可世界是四維的 —— 三維空間加時間,還受無數物理定律約束。但一旦突破這個難關,AI 的能力將實現質的飛躍。
李飛飛團隊早已用實踐證明了空間智能的潛力:他們研發的 “抹布模型”,能讓電影製作人、遊戲設計師僅憑文字描述,就生成可互動的 3D 世界。不用學複雜的建模軟體,普通人也能當 “造物主”,搭建屬於自己的虛擬場景。
這還只是開始。當 AI 真正擁有空間智能,生活將迎來巨變:機器人不再是笨拙的機器臂,能在模擬環境中學會上萬種技能,走進家庭做飯、照顧老人,走進醫院精準手術;教育領域,學生能 “穿越” 到古羅馬街道學歷史,“鑽進” 細胞裡看生物結構;科學探索中,AI 能模擬深海、外太空,幫人類探索無法抵達的領域。
正如李飛飛所說:“AI 的終極目標從不是取代人類,而是為人類賦能。現在的大語言模型只是起點,真正的智能,是讓機器理解物理世界。”
(AI行銷峰雲)