圖靈獎得主 Yann LeCun:大模型是“死胡同”,下一步押在那一條路?

2025 年 11 月 19 日,圖靈獎得主 Yann LeCun 宣佈:自己將離開 Meta,轉向創辦一家專注 Advanced Machine Intelligence(AMI)的新公司。

這不是普通的高管跳槽。

(CNBC:Yann LeCun 即將離職,創立自己的初創公司)

這點陣圖靈獎得主沒有選擇加入 LLM 的軍備競賽,而是投身一個被冷落多年的方向:世界模型。

LeCun 用了一個極端詞語:大語言模型是通往人類智能的“死胡同”(dead end)。

在 11 月 23 日的一場題為《Do LLMs Understand?》的公開對談中,他直接指出:LLM擅長語言表達,但缺乏對真實世界的理解。

幾乎同時,OpenAI前首席科學家 Ilya Sutskever 在 11 月 25 日的播客中也提出:“Just Add GPUs(拼算力)”的時代結束了。

一周之內,兩位元深度學習先驅不約而同地質疑主流路線。

這不是偶然,而是技術路線集體轉向的訊號:後LLM時代,正在成形。

第一節 | 為什麼他說大模型是死胡同?

在討論世界模型之前,必須先搞清楚:為什麼Yann LeCun 會把 LLM 稱為“死胡同”。

他給出的答案,比外界以為的更系統。

① 模型越來越大,但理解沒有跟上

LeCun 的原話是:LLM 在語言層面表現不錯,但它們並不理解世界。沒有常識,也沒有因果關係,只是大量統計相關性的堆疊。

換句話說:規模能讓模型更像會說話的人,但不能讓它更像懂世界的人。

事實上,Meta 的 Llama 4 就是最好的例證。2025 年 4 月發佈後,它在真實場景中的表現遠不如基準測試,甚至被開發者質疑過度最佳化了評測指標。

正應驗了 LeCun 的判斷:語言流暢度提升了,但世界理解力沒有跟上。

② LLM的能力天花板,已經在實驗室裡顯露

他在公開對話中強調:我們看到性能正在飽和。更大的模型,不一定帶來更高的真實智能。

訓練資料正在逼近極限,算力成本呈指數上漲,而理解力卻沒有同步提升。

這就是他所謂的死胡同:繼續堆算力,邊際收益越來越低。

OpenAI前首席科學家Ilya Sutskever也訪談中表達了類似觀點:單純100倍擴大算力規模,不會帶來質變。

③ 語言只是副產品,物理世界才是智能核心

他的核心觀點是:

語言是人類智能的副產品,不是核心機制。

這句話背後的邏輯是:語言只描述世界的一部分,而真正的智能來自對物理世界的建模、預測和行動。

但LLM做不到這一點。它們連杯子為什麼不會穿過桌子都不理解。它們知道語言中的規律,卻不知道世界的規律。

飛機的設計靈感來自鳥類,但不是簡單模仿鳥類的飛行方式。同樣,智能也不是靠模仿語言表面規律產生的。

④ LLM做不到規劃,更做不到行動

LeCun 的批判重點在於:LLM 只是在對話裡看起來聰明,但在涉及多步驟推理、長期規劃、具身互動時,能力驟降。

他舉了一個刺眼的對比:

  • 一個十幾歲的孩子,20小時就能學會開車。 但我們到現在還沒有level 5的自動駕駛。
  • 一個孩子第一次就能清理餐桌、裝滿洗碗機。 但我們連能做家務的機器人都沒有。

這些對比說明:智能不是說話的能力,而是行動的能力。而這恰恰是LLM的軟肋。

LeCun 的邏輯不是反對大模型,而是認為:預測語言這條路走不到終點。

要想讓 AI 真正具有理解、推理與行動能力,必須換一套架構。

第二節 | 世界模型:下一代AI要如何看世界?

如果語言模型無法理解世界,那該怎麼建造真正的智能?

LeCun的答案是:讓AI學會看世界。

他指出,未來的AI必須像人類和動物一樣,能夠從多模態輸入中建構出對世界的內部理解,然後基於這個理解預測和行動。

這種能力,GPT-4沒有,Claude、Gemini也都沒有。但貓有,嬰兒有,人有。

① 什麼是世界模型?

LeCun 解釋說:我們用預測下一個詞來訓練語言模型,是因為語言中詞彙有限,可以列舉。但真實世界無限豐富,預測像素等級的未來根本不成立。

真實世界是高維、連續、混沌的感官流。人類不是通過預測下一個字來理解世界,而是通過觀察、記憶、總結,在腦中形成了一個抽象世界的內部投影。

比如:

  • 嬰兒不需要有人告訴他重力是什麼,摔幾次東西就懂了
  • 貓不需要語言指導,看幾次就知道跳多高能上桌子
  • 人類開車20小時就能掌握,靠的不是背規則,而是建立了對速度、距離、慣性的直覺模型

LLM缺的就是這個投影空間,它沒有世界的內部表徵。

這就是LeCun正在建構的新路徑:Joint Embedding Predictive Architecture(JEPA),聯合嵌入預測架構。

② JEPA:一種全新的學習範式

JEPA與LLM的核心差異體現在多個層面。

  • 在輸入形式上,LLM只處理語言token,而JEPA可以處理視訊、圖像、感測器等多模態資料。
  • 在學習目標上,LLM是預測下一個詞,JEPA則是預測抽象狀態的變化。
  • 在學習方式上,LLM依靠離散序列建模,JEPA結合了表徵學習和因果建模。

最關鍵的是,LLM沒有行動能力,而JEPA天然具備規劃和執行介面。

LeCun用了一個形象比喻:用LLM去理解真實世界,就像用聽說來教人開車。你可以背下所有交規,但永遠學不會真正駕駛。因為語言描述不了摩擦力、慣性、視野盲區的感覺,而這些正是行動智能的核心。

③ 從模擬世界開始,訓練下一代AI

LeCun正在AMI推動的,是一種類似動物學習的AI訓練模式:首先在模擬環境中讓AI自主互動,然後從互動中提取因果關係,形成持續記憶,最終具備規劃行動的能力。

這種模式不再依賴更多token,而是依賴更好的世界模型。

他說:我們不需要能背百科全書的AI,我們需要能用眼睛和手理解世界的AI。

如果說 LLM 是語言的大師,世界模型就是物理世界的學徒。

Yann LeCun 選擇押注後者。這不僅是技術路線的分叉,更是對 AGI 本質的重新定義。

第三節 | 不只 LeCun:另一個方向也在探索

在質疑 LLM 這條路的,不只 LeCun 一個人。Sutskever 也認為,縮放時代已經結束,下一代智能需要新的架構基礎。

兩位元深度學習先驅達成了共識,但他們給出的答案完全不同。

① LeCun押注世界模型,Sutskever押注安全超智能

LeCun的方向很明確:讓AI具備對物理世界的理解和行動能力。通過自監督學習、表徵建模、因果預測,建構能夠真正看世界、理解世界的系統。他判斷10年內會出現具身AGI的原型。

Sutskever的關注點在另一邊:當前AI系統的泛化能力遠不如人類,在benchmark上表現出色,但在真實場景中容易陷入錯誤循環。這種脆弱性如果不解決,規模越大風險越高。他創立SSI公司,要在AI能力繼續提升的同時,確保其安全可控。

一句話總結:LeCun 要教 AI 理解世界和行動,Sutskever 要讓 AI 在變強的過程中可控。

② 兩條路線背後的不同關切

這種分歧源於兩人的關注焦點。

LeCun關心的是 AI 如何有效泛化、如何在現實世界中行動。他強調的是:我們缺的不是算力,也不是資料,而是架構。

Sutskever 關心的是 AI 的安全性和可控性。他認為在沒有解決泛化脆弱性之前,單純追求能力提升是危險的。

他們代表了後 LLM 時代的兩個方向:架構創新派和安全優先派。

過去十年,AI 競爭的是模型規模和訓練資料。但當兩位先驅先後離開大廠時,他們告訴我們:規則變了。

下一階段的比拚,是誰先發明新架構、誰的系統既強大又可控。

這是一個時代的落幕,另一個時代的起點。

第四節 | 一場轉向,正在發生

當圖靈獎得主公開質疑主流路線,當 OpenAI 啟動硬體項目、Google 挖來波士頓動力CTO,當數十億美元的投資開始流向具身智能,一個問題浮現出來:後LLM時代,到底會是什麼樣子?

① 工業界的悄然轉向

雖然 LLM 仍在快速發展,但一些關鍵變化已經在發生。

OpenAI的硬體野心正在浮出水面。11月24日,公司確認首個AI硬體原型已完成,這是與蘋果前首席設計師Jony Ive合作的成果。按計畫,這款無螢幕AI裝置將在2年內發佈,徹底改變人與AI的互動方式。

Google的多路線策略同樣值得關注。11月18日發佈Gemini 3 Pro,11月21日又挖來波士頓動力前CTO Aaron Saunders,推動Gemini成為通用機器人控制平台。目標是讓同一個模型適配任何形態的機器人,開箱即用。

李飛飛的World Labs在融資2.3億美元後,11月12日發佈首個商業產品Marble,一個生成式世界模型平台。

具身智能領域更熱鬧:Figure AI 估值390億美元,Tesla Optimus計畫 2026 年開始量產。

這些動作指向一個共識:下一代 AI 不會只存在於對話方塊裡。

② 兩條路線,都需要時間

無論是 LeCun 的世界模型,還是 Sutskever 的安全超智能,都不是短期內能看到成果的方向。

LeCun說需要幾年到十年,Sutskever說需要5到20年。這意味著: 當前的 LLM 仍然是主流應用的基礎。GPT、Claude、Gemini會繼續迭代,繼續服務數億使用者。

但長期的技術制高點,可能不在這條路上。誰先在新架構上取得突破,誰就掌握了下一個十年的話語權。

這是一場需要耐心的馬拉松,而不是百米衝刺。

③ 對創業者和開發者意味著什麼?

LeCun的轉向傳遞了幾個重要訊號:

首先,不要迷信規模。更大的模型不等於更好的智能,架構創新的空間仍然巨大。

其次,垂直場景有機會。世界模型最先落地的可能不是通用 AGI,而是機器人、自動駕駛、工業控制這些需要物理互動的領域。

第三,開源仍然重要。LeCun一直是開放原始碼的堅定支持者,他的新公司AMI會繼續這條路線,這意味著小團隊也有機會參與到新範式的探索中。

最後,要做好長期準備。這不是一兩年就能看到回報的方向,但可能是未來十年最重要的方向。

LeCun 說過:真正的智能不在語言表面,而在對世界的深層理解

這不是對 LLM 的否定,而是對 AI 未來的更大想像。大模型已經證明了規模的力量,但下一步的突破,可能來自完全不同的架構。

真正的AGI,不會困在對話方塊裡,而會出現在能夠理解世界、執行任務的系統中。

這條路上,探索才剛剛開始。 (AI深度研究員)