"在矽谷某些資訊泡沫中,有人宣稱大型語言模型非常強大,只需要在更多資料上訓練它們,最終它們就會達到人類水平的智能。甚至有人說,在兩年內,我們將擁有具有博士級能力的AI系統...這是錯誤的,過去70年中一代又一代的AI科學家都犯過這個錯誤,現在仍然錯誤。"
—— Yann LeCun
在4月27日,新加坡國立大學120周年慶典活動中,Meta首席AI科學家Yann LeCun分享了近期的研究和見解。作為深度學習奠基人之一,被譽為AI三大教父之一,當全世界都在追捧大語言模型時,Yann LeCun卻說我們走錯了路,並直言當前的AI技術仍與真正的通用智能相去甚遠,甚至提出了令業內震撼的觀點:"幾年內,我們將不得不拋棄整個生成式AI的概念。"
本文將結合當天演講內容,解析Yann LeCun的核心觀點,探討他對未來AI發展的前瞻性思考,以及他所提出的具有挑戰性的研究方向。
“虛擬人類助理”願景:不造人類替代品,只作人類的超級助理
Yann LeCun開場就定下了基調:做AI不是為了“造人”,而是幫人“開外掛”。
“我們要建造的,不是替代人的AI,而是放大人類智能的‘虛擬人類’。終極目標是讓每個人都像政治家一樣,身邊圍著一群比自己還聰明的虛擬助理。”
他以Meta最新的智能眼鏡舉例,未來每個人的數字生活都將由AI助手貫穿,無縫協同。但,理想與現實之間,AI還存在著巨大的瓶頸。
LeCun用一句頗具爭議性的話來描述當前的機器學習:"Machine learning sucks." 為什麼一位機器學習領域的先驅會對這一領域持如此苛刻的態度?我們來拆解一下他的核心“槽點”:
1.只有文字:LLM再大,也只是“文字接龍”高手,對物理世界和嘗試性推理連貓都不如。
2.無法創新:人類和動物都能夠“零樣本”應對新情境,LLM最多隻能“復讀”訓練過的答案。
3.海量樣本不及幼童直覺:4歲幼童的感官和運動資料量,竟然等同於訓練一個最大LLM所需文字的量級。可見,僅依靠擴巨量資料規模無法實現人類水平的智能:
LLM訓練資料:約30兆tokens (10^14字節)
人類視覺系統4年接收資料:約10^14字節
Yann LeCun揭示了LLM的本質侷限性:它們被訓練為預測下一個token的機率分佈,這種方式在長文字生成中存在指數衰減的精度問題。簡單來說,越長的文字輸出,出錯的機率就越高,這是一個統計學上的必然結果。
這也解釋了為什麼LLM可以通過律師資格考試或解複雜方程,但無法像嬰兒那樣理解物理世界或像青少年那樣快速學會開車。我們在象棋和圍棋上擁有超人類水平的AI,卻無法開發出能像貓一樣靈活的家用機器人。這正是AI領域的“莫拉維克悖論”。
- 快速學習新任務
- 理解物理世界(而非僅僅是文字和語言)
- 具有常識推理
- 擁有持久性記憶
- 能夠推理和規劃
Yann LeCun強調,真正的智能,不是靠“死記硬背”大樣本,而是像嬰兒或小動物一樣,從感知“玩”出來:
- 獲得物體永久性和三維空間知覺
- 自主建立物理模型與因果推理
- 逐步習得抽象認知和目的導向的計畫能力
"我們永遠無法僅通過在文字上訓練LLM來達到人類水平的AI",Yann LeCun斷言。我們必須能夠從高頻寬的感官輸入中訓練系統,但當前用於文字的架構無法有效處理視訊等更複雜的資料形式。
Yann LeCun認為,未來AI架構的核心不在於生成文字、圖片本身,而在於能夠像科學家一樣建構抽象的"世界模型"(World Models),並以規劃推理能力自主達到目標。
這種能力是規劃和推理的基礎,使系統能夠通過搜尋確定那些行動序列會導致特定結果。這一概念源自機器人學和最優控制理論,但Yann LeCun認為,未來的AI系統需要通過觀察和互動來學習這種模型,而非由工程師手動建構。
- 系統“做夢”:可多步在自己腦中設想行為結果,彷彿在大腦中模擬“未來演練”。
- 層次化規劃:像人一樣,先定宏觀目標(去巴黎),再分解到中層行動(打車、打包行李),再到具體運動(走路、開門)。
- 通用性:不僅適用於機器人、自動駕駛,同樣適用於抽象領域:物理、化學、生物、醫療等。
人類在規劃時會自然地分解任務。如上例,從紐約前往巴黎涉及多個層次的子目標:前往機場、登機、抵達巴黎等。每個子目標又可以進一步分解為更細的步驟。Yann LeCun認為,這種層次規劃的能力是真正智能系統的核心特徵,而當前的AI系統根本無法實現這一點。
Yann LeCun非常關注研究這一方向,半開玩笑地表示:"如果你正在讀博或者剛成為教授,想對AI產生實際影響,就來研究這個問題吧。如果你有好想法,我立馬招你。"這表明了他對這一研究方向的高度重視,也表明了該領域的挑戰性和潛在影響力。
Yann LeCun的最核心主張是放棄生成式AI,轉而採用"聯合嵌入預測架構"(Joint Embedding Predictive Architecture, JEPA)。
Yann LeCun指出,嘗試預測視訊中所有像素等級的細節是徒勞的,就像預測一個翻倒的物體會向那個方向倒下是不可能的一樣。當系統嘗試預測無法預測的細節時,會產生模糊的結果並浪費計算資源。
JEPA的核心思想不是在像素層面上預測,而是在抽象表示空間中進行預測:
1. 將原始輸入(如視訊)通過編碼器生成表示向量
2. 將修改後的輸入(如部分遮擋的視訊)也生成表示向量
3. 訓練系統在表示空間中預測完整輸入的表示
這與科學方法的本質相似——尋找適當的表示方式使預測成為可能。就像物理學只需要六個數字就能預測木星100年後的位置,好的表示方式忽略了無關的細節,捕捉本質。
LeCun的團隊已開發出如Dino和iGPT等實現這一原理的系統,它們在自監督學習任務中展現出驚人的效果,甚至在某些領域超過了監督學習方法。
認知架構:多層次的理解與規劃
基於這些原則,LeCun提出了一個完整的認知架構,該架構結合了:
- 感知模組
- 記憶系統
- 世界模型
- 目標函數
- 規劃最佳化演算法
這些元件協同工作,使系統能夠通過最佳化搜尋一系列能夠滿足特定目標的行動。
除了技術層面的思考外,Yann LeCun還強調了開源和多樣性對AI未來發展的重要性。
為什麼我們需要開源基礎模型?
Yann LeCun預見未來我們與數字世界的大多數互動將通過AI助手來完成。如果這些AI助手只來自美國西海岸或中國的少數幾家公司,將會產生嚴重的文化單一性和資訊過濾問題。
"我們需要能說世界上所有語言、理解所有文化和價值體系的AI系統,這不可能來自少數幾個AI助手,而必須來自多樣化的AI助手生態系統。"
全球合作的願景
Yann LeCun提出了一個全球合作的願景,不同地區的研究機構和企業可以共同訓練基礎模型,應對訓練成本高的問題。在這個願景中,新加坡等國家可以作為亞洲的關鍵節點,貢獻區域特有的語言和文化資料。
"從歷史來看,軟體基礎設施最終都走向了開源。AI的未來也將如此,開源在AI領域勝出只是時間問題。"
無獨有偶,昨天三大教父中的另一位——Geoffrey Hinton在CBS的訪談上,也談到現在的AI“不如貓”的判斷,也提到過他從小對直觀物理學的著迷。對於對當前被過度熱炒的LLM和生成式AI,他們都冷靜的提出來這種文字的高度推理,距離物理世界的模擬還相差甚遠。
如果LeCun的預測是正確的,那麼我們可能將在未來3-5年內見證AI領域的又一次範式轉變。這將為我們帶來能夠理解物理世界、進行複雜推理和規劃的AI系統,而這些能力,正是實現真正有用的智慧型手機器人和更廣泛AI應用的關鍵。
Q1:LLM沒價值嗎?
Yann LeCun:不是。LLM很實用(比如程式碼、文件、自動生成等)。但如果要追求“機器智能真正登堂入室”,LLM還遠不夠。它們可以作為輸出層、語言翻譯器,但核心的認知和推理基座,要靠其他架構來實現。
Q2:AI會讓大部分人失業嗎?作為年輕人該學什麼?
LeCun:不會讓所有人“失業”,但職業會改變。建議大家多學“長半衰期”的底層能力,比如物理、數學、計算思維。技術更迭是常態,有技術深度+快速學習能力,就能與AI共舞。
Q3:自動科學家、AI自動推動AI研究靠譜嗎?
LeCun:LLM類模型對科研有幫助,但在“理解”能力上很有限。AI自動產生新科學發現還遠遠不夠,必須有能建構世界模型的系統,而不僅是做NLP。
Q4:RL到底還值不值得做?
LeCun:強化學習樣本效率太低。可以作為微調,但指望RL實現通用智能,就是走偏了。
Q5:開源大模型對全球AI有多重要?
LeCun:極其重要。AI基礎架構不能只掌握在少數美中巨頭手中,否則就無法實現語言、文化、理念的多樣性。要形成全球合作開源社區,讓所有地區、群體都能定製自己的AI系統。 (JER學家)