矽谷炸鍋了! AI教母李飛飛萬字長文撕開行業“遮羞布”。

2025/12/01

•

近期，一篇出自 “AI 教母” 李飛飛教授的萬字長文，在矽谷 AI 圈掀起軒然大波。作為曾掌舵史丹佛 AI 實驗室、憑 ImageNet 項目改寫深度學習視覺領域格局的華人頂尖專家，她此次的發聲格外重磅：“當下的 AI，不過是困在暗室裡的文字高手，能說會道卻脫離現實，本質上就是‘睜眼瞎說’。”

這番話看似犀利，卻精準點破了 AI 光鮮外表下的 “致命缺陷”。如今的大語言模型有多 “能打”？寫律詩、寫論文、聊量子物理，分分鐘模仿李白、杜甫的文風，邏輯縝密到讓人難辨真假。

可一旦跳出文字的舒適區，面對真實的物理世界，AI 就立刻 “露餡”：讓它估算桌子到門的距離，全靠蒙；讓它預測杯子轉 90 度後的模樣，純屬猜；就連那些刷屏的 AI 生成視訊，仔細看全是破綻 —— 人物突然多根手指、物體莫名穿牆而過，說到底，都是 AI 不懂物理規律的必然結果。

李飛飛教授毫不避諱地指出：AI 行業已經走偏了方向。真正的突破口，從不是參數越來越龐大的語言模型，而是連嬰兒都有的 “空間智能”—— 這才是通往通用人工智慧（AGI）的唯一正道。

那 “空間智能” 到底是什麼？其實就是人類理解、互動物理世界的本能。嬰兒靠抓、扔、咬，摸清物體的軟硬、輕重；你半夜摸黑起床倒水，不用開燈也能精準拿到杯子；朋友扔來鑰匙，你不用算拋物線就能穩穩接住。這些看似簡單的動作，背後藏著對空間、距離、物理規律的深層認知。

更關鍵的是，人類文明的諸多重大突破，都離不開 “空間智能”：埃拉托斯特尼觀察影子長短，算出了地球周長；沃森和克里克搭 3D 模型，破解了 DNA 雙螺旋結構；建築師設計摩天大樓、科學家推演星體運動，本質上都是在運用對空間和物理規律的理解。而這些，是只會 “玩文字” 的大語言模型永遠做不到的。

既然空間智能這麼重要，怎麼讓 AI 擁有它？李飛飛給出了核心方案：讓 AI 從 “語言模型” 轉向 “世界模型”。一個合格的世界模型，必須具備三大核心能力：

首先，能生成符合物理定律的虛擬世界，不是天馬行空的虛構，而是遵循重力、摩擦力等基礎規律；其次，能整合文字、圖像、動作等多種資訊，不僅聽得懂你說的，還能看懂你做的；最後，也是最關鍵的，能精準預測互動結果 —— 比如知道推杯子會倒、扔球會落地，這才是 AI “看懂” 世界的關鍵。

要做到這些，比訓練大語言模型難得多。語言是一維的、線性的，可世界是四維的 —— 三維空間加時間，還受無數物理定律約束。但一旦突破這個難關，AI 的能力將實現質的飛躍。

李飛飛團隊早已用實踐證明了空間智能的潛力：他們研發的 “抹布模型”，能讓電影製作人、遊戲設計師僅憑文字描述，就生成可互動的 3D 世界。不用學複雜的建模軟體，普通人也能當 “造物主”，搭建屬於自己的虛擬場景。

這還只是開始。當 AI 真正擁有空間智能，生活將迎來巨變：機器人不再是笨拙的機器臂，能在模擬環境中學會上萬種技能，走進家庭做飯、照顧老人，走進醫院精準手術；教育領域，學生能 “穿越” 到古羅馬街道學歷史，“鑽進” 細胞裡看生物結構；科學探索中，AI 能模擬深海、外太空，幫人類探索無法抵達的領域。

正如李飛飛所說：“AI 的終極目標從不是取代人類，而是為人類賦能。現在的大語言模型只是起點，真正的智能，是讓機器理解物理世界。”

(AI行銷峰雲)