大家好!今天給大家推薦一篇極具啟發性的深度演講。在這個人人都為大語言模型(LLM)狂熱的當下,這篇演講猶如一記警鐘。David Silver教授(前Google DeepMind首席研究科學家,現任UCL電腦科學教授)犀利地指出:僅僅依靠人類資料訓練的AI,其實只解決了一個“淺層問題”,它們永遠無法真正獨立達到超級智能!AI的下一步到底在那?答案是“體驗時代”(Era of Experience)——讓AI像人類嬰兒一樣,在與世界的互動中自主試錯與發現新知識。如果你想看懂AI的下一個十年,這篇文章絕對不容錯過!
📝 導讀(前言)
前言:本文整理自David Silver教授(前Google DeepMind首席研究科學家,現任UCL電腦科學教授)的一場前沿AI演講。他指出,當前基於網際網路文字訓練的大模型已觸及“人類資料時代”的天花板。要實現真正的超級智能,AI必須跨入“體驗時代”——通過環境互動與強化學習自主發現新知識。本文深度解析了AlphaZero、AlphaProof等突破性案例,並揭示了通往通用人工智慧(AGI)的全新“體驗縮放定律”。
💡 核心觀點與可操作方法論
🎯 核心觀點
人類資料時代的侷限:當前的LLM主要依賴消化人類網際網路資料,它們被困在人類現有的認知範式中,無法自主發現新知識,因此在孤立狀態下無法達到超級智能。
體驗時代的必然到來:正如人類嬰兒通過玩耍和探索世界來學習,AI也將邁入“體驗時代”,通過在龐大環境中的持續互動與試錯來獲取遠超網際網路規模的新知識。
資料耗盡 vs 可再生能源:挖掘人類網際網路資料就像燃燒“化石燃料”,雖然見效快但終將枯竭;而讓智能體在環境中互動學習,則是取之不盡的“可再生能源”。
全新的“體驗縮放定律”(New Scaling Law):隨著智能體接觸的互動環境越來越豐富,它從經驗中自主學習的能力也會越來越強,並能泛化到未知的領域。
🛠️ 可操作實踐的方法論
跳出LLM路徑依賴:不要把所有研發精力都放在預訓練大模型這“同一盞路燈”下,應該重新審視和加大對強化學習(RL)和互動式智能體的投入。
建構富互動環境:為AI系統設計能夠產生實際動作並獲得豐富反饋的環境。系統的獎勵訊號必鬚根植於對世界的真實體驗,而不是僅僅依賴人類標註者的偏好評價(RLHF)。
容錯與探索機制:在系統設計中,要允許AI犯錯,並且讓AI直接從錯誤導致的後果中學習,以此建立自我修正和最佳化的閉環。
複雜問題“遊戲化”:面對如數學證明等複雜問題,可將其轉化為類似棋盤遊戲的“狀態轉換”和“目標達成”過程(如AlphaProof),從而復用AlphaZero式的自我博弈和樹搜尋演算法。
嘗試元學習(Meta-Learning):不再僅靠人工設計強化學習演算法,而是建構元神經網路,讓AI在多工環境中自主發現和演化出最適合的強化學習演算法。
📖 演講全文精講(中文整理版)
第一段:現狀剖析——“人類資料時代”的瓶頸與致命缺陷
大家好,非常榮幸能來到這裡,感謝你們的邀請。今天,我要和大家聊聊“體驗時代”(The Era of Experience)。
如果我們審視當今AI的發展現狀,我會說,目前絕大部分的工作都可以被最好地概括為“人類資料時代”(The Era of Human Data)。如今AI的訓練方式,主要是向人類資料學習。它們從網際網路上汲取海量語言資料——我們擁有這些驚人的大語言模型(LLMs),它們幾乎學習了網際網路上能找到的每一條人類資料。隨後,它們又通過更多的人類資料、人類反饋、人類偏好和示例進行微調。
我們的系統主要是由人類資料建構的,這帶來了巨大的進步。我們擁有了知識淵博、能力驚人的大語言模型。很多人認為LLM是目前AI取得巨大進展的核心原因,它們能解決法律、數學或軟體問題。
但是,這些系統存在一個巨大的“轉折點”(But)。我認為最根本的事實是:我們還沒有到達終點。僅僅依靠“人類資料時代”,這些孤立的AI系統是無法一路走到“超級智能”的。
為什麼?因為它們無法發現新知識。這些系統是由人類現存知識建構的,我們還沒有賦予它們自己去發現新知識的能力。因此,它們基本上被困在了人類建立的範式中,還不具備創造新範式的能力。進一步說,對於整個AI領域的那個最深奧的科學問題,我們至今還沒有給出答案,那就是:“一個智能體究竟如何為自己學習?”
🌟 金句提煉:“它們被困在了人類建立的範式中,還不具備創造新範式的能力。僅僅依靠人類資料,AI系統無法一路走到超級智能。”
第二段:破局之道——向人類嬰兒學習,邁向“體驗時代”
我想給大家看一個對比的例子。這是一段加速播放的視訊,展示了一個非常典型的人類嬰兒在環境中探索的過程。這個嬰兒只是在不斷互動和玩耍,在遊戲室裡爬來爬去,不知疲倦地把玩周圍所有的物品。
在這個階段,沒有人教他。我不是說人類嬰兒從不接受語言指導或向他人學習,但在這個例子中,它非常典型地展現了人類學習的一種主要方式——通過體驗(Experience)。這個嬰兒就是在玩,他為自己設定子目標,拿起一個新玩具,嘗試用每一種可能的方式去擺弄它。然後他走向下一個玩具,有時他在房間裡發現一些有趣的東西,比如門上的門吸彈簧,他會為此著迷,玩上好一會兒。他被周圍的世界所吸引,不斷互動,越來越瞭解這個世界是如何運作的。
正是這同一種機制,讓這個嬰兒有朝一日能將發展出的技能運用到截然不同的領域。這個嬰兒長大後可能成為神經外科醫生、舞者、工匠、鋼琴家、科學家或網球運動員——所有這些技能,都是通過這種方式,即“通過互動”發展而來的。
因此,我認為一個不可避免的轉型正在發生,我們正在向我稱之為“體驗時代”的階段過渡。
在這個時代,智能體將主要通過經驗來學習。它們將在海量規模下,通過與環境的互動來學習。它們會一次又一次地互動,不斷積累關於世界如何運作的知識。我相信,總有一天這種互動的規模會遠遠超過網際網路的規模。現在的網際網路對我們來說似乎很大,包含了人類發展的所有知識,但未來有一天,與智能體為自己獲取的知識相比,它將顯得微不足道。
這種轉變將徹底改變AI。新知識和新能力將被持續發現,並最終引領我們走向超級智能。
🌟 金句提煉:“總有一天,智能體通過體驗獲取的知識規模將遠遠超過網際網路的規模,並最終引領我們走向超級智能。”
第三段:特徵對比——真實反饋與“路燈下的尋找”
我們可以思考一下那個視訊裡的嬰兒與當前我們所處時代的差異特徵。在“體驗時代”,智能體會處於連續的體驗流中(不一定是嬰兒那樣的物理世界,也可以是其需要互動的虛擬環境)。
最關鍵的是,它們的動作和觀察將深深地紮根於環境中,而不僅僅是對話。智能體會做出改變世界的實質性動作,並從中獲得豐富的觀察反饋。它們所獲得的“獎勵”(目標),也將由它在世界中的真實體驗來定義,而不是由某個資料標註員來判定“這個動作是好是壞”。智能體會因為動作產生的實際好壞後果而進行學習。同時,智能體會對實際的互動體驗進行規劃和推理,而不是脫離經驗去進行抽象計算。
你可能會問:這為什麼以前沒發生過?幾年之前我們不就討論過這些嗎?
確實,多年前“強化學習”(Reinforcement Learning, 一種專注於從經驗中學習的範式)曾引起過巨大的興奮,並在明確獎勵的模擬環境中取得了巨大成功,比如Atari遊戲、AlphaGo、AlphaZero等。但後來,“人類資料時代”(LLMs)降臨了。雖然它帶來了很多成功,但從某種意義上說,我們把洗澡水和嬰兒一起倒掉了。我們停止了關注如何讓系統繼續適應、如何從環境中不斷獲取新知識。
所以我認為,現在的AI領域大家都聚集在“同一盞路燈”下尋找鑰匙。整個AI領域都收斂、坍縮到了單一的路徑上——也就是LLM路徑。這確實帶來了很多好處,但這並不是AI需要探索的全部。還有另一盞路燈沒有得到足夠的關注,那正是代表“體驗時代”的路燈。當我們開始在那盞路燈下探索時,我們將發現巨大的進步。
🌟 金句提煉:“整個AI領域都聚集在‘大模型’這同一盞路燈下尋找鑰匙。但還有另一盞名為‘體驗時代’的路燈,那裡蘊藏著巨大的進步。”
第四段:能源的比喻——從燃燒“化石燃料”到擁抱“可再生能源”
為什麼會變成這樣?我覺得原因很自然:人類資料提供了一條捷徑。
人類資料讓我們解決了AI的“淺層問題”(Shallow Problem),即:如何將世界上已有的知識提煉並注入到一個智能體中?在這個問題上我們做得非常好,把網際網路上的知識都塞進了AI裡。
借用一個比喻:我們在網際網路上發現了“化石燃料”(比如煤炭,也就是現存的人類資料)。通過開採這些化石燃料,我們取得了極快、極大的進步。燃燒這些資料的成本很低,比與真實世界互動的成本便宜得多。
但問題是,我們的燃料快用光了。預訓練的紅利雖然還沒有完全消失,但那些容易摘的果子已經被摘完了,這種範式的進展必然會放緩。
我們要如何超越?我們需要“經驗”。在這個比喻中,經驗就是“可再生能源”。它能讓我們永遠學習下去。智能體與環境互動的次數是沒有上限的。
真實世界是極其豐富的。嬰兒的環境裡有無數的訊號可供它去最佳化。通過掌握自己所處環境中的所有可學內容,系統將獲得巨大的泛化能力。但是,我們必須付出“互動”的成本。捷徑終將走到盡頭,我們必須選擇讓智能體在環境中互動,必須允許系統犯錯,讓它從錯誤中學習、變得更好,以避免未來犯下更大的錯誤。
第五段:成功案例 1——從零開始進化的AlphaZero
如果我們回顧過去,這種範式有成功的潛力嗎?事實證明,當人們真正在這條路上發力時,它已經取得了驚人的成功!在棋盤遊戲(國際象棋、圍棋)、電子遊戲(Atari、星海爭霸)、機器人控制,甚至是數學領域,當我們把注意力放在“另一盞路燈”下時,它都奏效了。
讓我分享幾個案例。首先是2017/2018年我們建構的AlphaZero。這是一個非常優美的系統,因為它完全從零開始學習。它從神經網路的隨機權重開始,沒有任何人類知識的輸入。從某種意義上說,這是另一盞路燈下的極致代表。
AlphaZero使用的是一個非常簡單的演算法——蒙特卡洛樹搜尋(MCTS),結合兩個神經網路:一個負責策略(如何行動),一個負責評估價值(做得多好)。這就是它的規劃過程。接著它根據搜尋找到的最佳動作更新策略,再根據自我對弈的最終結果更新價值函數。
這三個步驟極其簡單,沒有隱藏的把戲。然而,當你釋放這個從隨機權重開始的演算法,短短幾個小時內,它就擊敗了最強的手工程式設計系統,達到超人類水平,並在國際象棋、將棋和圍棋中擊敗了世界冠軍。
第六段:成功案例 2——將數學變成遊戲的 AlphaProof
我想談的第二項工作是最近剛剛在《自然》(Nature)雜誌發表的成果——AlphaProof(我們去年所做的工作)。
這個想法的核心,是將數學視為一場遊戲。如果我們把整個數學看作一個複雜的遊戲,並嘗試用剛才提到的那些簡單的步驟來解決這個遊戲會怎樣?
幸運的是,已經有人為我們形式化了這場“遊戲”。我們使用了一種叫做Lean的數學形式化工具(可以理解為數學的程式語言)。Lean 允許你把定理寫成程式碼,然後你可以應用各種“戰術”(Tactics,也就是動作)來改變狀態,直到達到一個“已證明”的狀態。此時,你就獲得了明確的獎勵訊號(Reward Signal)。
我們利用這個獎勵訊號來訓練系統,讓它通過AlphaZero的方法學習解決數學遊戲。從學習曲線可以看出,它產生了優美的進步過程。僅僅從極少量的初始知識出發,在這個求解過程中不需要使用任何自然語言,它就像AlphaGo學習圍棋一樣,自行發現了求解數學題的方法。
如果我們將這套演算法聚焦於單個特定問題進行“經驗規劃(Planning from experience)”,它甚至能做得更好。去年,這個系統成為了首個在國際數學奧林匹克(IMO)中獲得獎牌水平的AI系統,只差一分就拿到了金牌。IMO的題目難得離譜,全世界最優秀的青年數學家要脫產封閉集訓一年才能應對。在比賽中,只有不到2%的頂尖人類選手解出了那道題,但AlphaProof用Lean程式碼給出了極其優美的證明。
第七段:成功案例 3——全新縮放定律,讓AI自主發現RL演算法
最後,我想談談另一項即將發表的關於“發現演算法”的絕妙工作。
有人可能會問:我們關於強化學習(RL)的研究已經結束了嗎?答案是否定的。RL非常難,因為它不像監督學習那樣有可微的目標,最佳的配方在不同環境中差異很大,沒有一個能放之四海而皆準的通用演算法。
但是,我們做了一件效果出奇好的事:在元等級(Meta-level)上應用同樣的理念——我們讓AI從經驗中自主學習RL演算法。
這意味著我們建立了一個智能體,將它放入各種不同的模擬遊戲和環境中。我們建構了一個神經網路來“代表”它所使用的學習演算法。系統並不預先知道任何如Q-Learning、TD-Learning或策略梯度等人類發明的演算法。它必須在不同環境中通過反覆試錯,自己弄清楚“那種演算法最有效”。
結果令人震驚。這個AI自己發現的演算法,最終擊敗了人類研究員耗費數年心血創造的最佳強化學習演算法(比如在Atari上從未被擊敗的基線演算法)。更厲害的是,它能泛化到它從未見過的環境中!它發現了一種極其通用和魯棒的演算法。
這裡,我們看到了一條全新的AI縮放定律(Scaling Law):當我們讓智能體接觸越來越多的訓練環境和體驗源時,智能體從這些體驗中“學習的能力”就會變得越來越強。只要暴露在極其多樣化的體驗流中,它就會自己頓悟出最好的學習方式。這是我們第一次獲得了一種真正強大、通用的強化學習配方。
🌟 金句提煉:“全新的縮放定律出現了:當我們讓智能體接觸越來越多的環境和體驗源時,智能體從經驗中‘學習的能力’本身也會越來越強。”
第八段:總結與呼籲——直面AI的深層問題
以上就是我的案例分享。最後,我想以一個行動呼籲(Call to arms)作為結尾。
如果今天我能說服你們一件事,那就是去挑戰目前人們看待AI的現狀(挑戰LLM統治一切的觀念)。
我呼籲大家去嘗試解決AI真正的“深層問題”(Deep Problem)——也就是如何讓AI從經驗中學習。
就像視訊裡的那個嬰兒一樣,我們要創造出能夠持續學習、適應、自己解決問題並自主獲取知識的系統。當我們真正實現這一點時,那將是整個AI科學史上最深遠的時刻,它將徹底改變AI的未來,我深信,那也將改變全人類的未來。
謝謝大家。 (The AI Frontier)
