強化學習之父:LLM主導只是暫時,擴展計算才是正解

大模型目前的主導地位只是暫時的,在未來五年甚至十年內都不會是技術前沿。

這是新晉圖靈獎得主、強化學習之父Richard Sutton對未來的最新預測。

就在剛剛的新加坡國立大學建校120周年(NUS120)之際,Sutton受邀發表演講——塑造AI和強化學習的未來。

其實,這已經不是Sutton第一次在公開場合表達類似的觀點,早在他19年的著作《痛苦的教訓》中,他就明確提出:

讓AI尤其是LLM模仿人類思維方式,只能帶來短期的性能提升,長期看只會阻礙研究的持續進步。

在他4月份新發表的論文《歡迎來到體驗時代》也再度強調了這點,同時他表示,擴展計算才是正解。

本次NUS120演講長達一個多小時,可謂是乾貨滿滿、資訊量超大。

讓我們一起來看看完整演講內容。

LLM主導是暫時的

Sutton首先提及當前人類處於資料時代,像ChatGPT這類大語言模型,都是靠分析人類產生的大量資料(如文字、圖像、視訊)進行訓練。

但始終追逐人類思維方式,至多也只能達到“人類水平”

在數學、科學等領域,人類資料裡的知識已經接近極限,AI難以突破現有認知,純靠模仿已經很難再有創新。

AI需要新的資料來源,且要隨著AI增強而改進,靜態資料集顯然不足。

因此他認為AI終將從依賴人類資料,轉向通過Agent與世界的第一人稱互動,以獲取“體驗資料”的學習。

AlphaGo在與李世石對弈的第二局中,下出的神之一手——第37手,在人類標準下完全非常規的走法,就充分展現了AI在這種體驗學習下的思考潛力。

也就是說,AI將會在自主體驗中,完成自己的更新迭代,產生更高級的資料並反哺自身,構成一個“越學越強”的循環。

還能不受人類現有知識限制,自由探索人類未涉及的領域,比如全新的科學理論、材料設計等。

Sutton舉了個例子:

一個蹣跚學步的嬰兒會通過不斷探索周圍環境主動學習,然後隨著認知增長,每一次互動方式都會隨著經驗有所不同。

因此AI的未來將屬於通過互動和經驗學習的“體驗時代”,Agent需要從經驗中學習,而這遠遠超出了LLM的能力範疇。

即使現有LLM在連接全球知識上表現出色,但通往這一未來的核心路徑始終是強化學習。

強化學習正是圍繞著經驗學習構造,但要發揮強化學習全部潛力,還需具備持續學習能力的深度學習演算法

而這背後要靠對大規模算力的充分利用來支撐,繼續基於搜尋和學習擴展算力,以適應AI性能需求增加。

可以說,從長遠看,真正的突破還是來自規模計算

不同Agent去中心化互利共贏

談及Agent的前景,Sutton提出對不同目標的Agent可以尋求去中心化合作。

他認為每個Agent的獎勵訊號都各不相同,且都試圖最大化自己的回報,那麼只需要讓不同Agent各自實現其目標,再通過互動,就能實現互利共贏。

這就類似於人類社會中的經濟運轉,得益於自然語言和貨幣的發明,儘管人們擁有不同的目標和能力,但在過程中相互協調配合,也能產生出不錯的效果。

但還是有不少人主張集中控制AI,甚至呼籲暫停AI。

Sutton認為這種聲音更多的是來源於對未知的恐懼,要接受個體目標的多樣性,建立合作化秩序,AI的潛力恰恰就在去中心化合作。

另外,Sutton還提到了“設計時代”的概念,當前的機器越來越類生命化,而生命也被視作生物機器。

但生命與技術之間存在本質差異,生命是在無意識下被覆制產生,而技術則先經設計師意識想像再落地創造,這是一個設計過程,且設計產物也更易改進。

因此人類發展AI,就是為了將設計做到極致——設計出能自主設計的Agent,而人類將會在設計時代扮演催化劑和創造者的角色,將AI視作推動發展的機遇,而非單純的技術產物。

One More Thing

Sutton的言論一出,很快在社區引起了激烈討論。

支持者認為技術的突破往往來自未知與偶然,技術已趨向成熟的LLM似乎即將觸及領域天花板。

而反對者則認為技術的發展在於不斷改進,也許LLM不是AI的最終形態,但它也必定在AGI發展過程中佔據重要作用。 (量子位)


不可能...其實我很讚同他講的話,LLM 只是超強的NLP 而已,離AGI 還太遠,甚至不可能.....機器就是機器,它就是沒靈魂.就跟人體是很精密的機器,大腦更是精密,但沒了靈魂,肉体能幹麼?物理有形世界本就是一個很大的藩籬,只有超脫,才有可能....靈...從那來?又不是人能創出來的