強化學習之父最新萬字訪談:為何大語言模型是死胡同

9月27日,強化學習之父、2024年圖靈獎得主Richard Sutton教授接受海外播客主持人Dwarkesh Patel的深度訪談。

本次對話始於一個問題:當前最熱的大語言模型(LLM)究竟是通往AGI的大道,還是最終會走進死胡同?Sutton教授從強化學習的“第一性原理”出發,系統地闡述了為何他認為LLM範式缺少了智能最本質的幾個要素。

Sutton教授指出,LLM本質上只是在“模仿”擁有世界模型的人類,其本身並不具備一個能預測客觀世界、並因“意外”而學習的真實世界模型。它預測的是“下一個詞”,而非“下一件事”。

針對行業普遍認為“先用LLM模仿學習獲得基礎,再用強化學習微調”的路線,Sutton指出,在一個沒有客觀“對錯”標準(即獎勵訊號)的框架裡,知識和先驗無從談起。他認為,LLM試圖繞過“擁有目標”和“區分好壞”這兩點,是從一開始就走錯了方向。

針對“人類主要通過模仿學習”的普遍看法, Sutton教授認為無論是動物還是嬰兒,其學習的核心都是基於試錯和預測的“經驗範式”,模仿學習只是後期附加的一小部分。因此,將AI的學習建立在模仿人類資料的范子上,是對智能本質的誤解。

在談及AI的未來時,Sutton教授提出,在未來數字智能可以無限複製和融合知識的時代,如何保證一個智能體在吸收外部知識時不被“腐化”或“覆蓋”,將成為一個關乎“心智安全”的重大挑戰。

01

LLM本質是模仿,而強化學習追求的是理解

從強化學習的視角來看,當前以大語言模型為核心的主流思維方式究竟缺失了什麼?人們普遍認為,一個能模擬數兆Token的龐大模型,必然已經建立了一個強大的世界模型,可以說是我們迄今創造出的最好的世界模型,它還缺少什麼呢?

Richard Sutton:這確實是一個截然不同的視角,兩種觀點很容易產生分歧,甚至到無法相互溝通的程度。大語言模型已經變得非常龐大,整個生成式AI 領域也是如此。領域內很容易颳起一陣陣潮流,讓我們忽略了最根本的問題。而在我看來,強化學習才是人工智慧的根本。

什麼是智能?智能的核心在於理解你所在的世界。強化學習研究的就是如何理解世界,而大語言模型研究的是如何模仿人類,去做人們告訴你該做的事情。它們的目的不是自主地決策。

(關於世界模型)我基本不同意你剛才的說法。模仿人類的言論,和真正建立一個世界模型完全是兩碼事。你只是在模仿那些本身擁有世界模型的存在,也就是人類。我無意讓討論變得針鋒相對,但我必須質疑“大語言模型擁有世界模型”這一觀點。一個真正的世界模型,能讓你預測接下來會發生什麼;而大語言模型能做的,是預測一個人會說什麼,它們並不能預測客觀世界會發生什麼。

引用 Alan Turing 的話,我們想要的是一台能夠從經驗中學習的機器。這裡的經驗,指的是你生命中真實發生的一切:你採取行動,觀察後果,並從中學習。但大語言模型是從別的東西里學習的。它們的學習範式是:“在某個情境下,某個人是這麼做的”。這其中隱含的邏輯就是,你也應該照著那個人的方式去做。

或許問題的關鍵在於,模仿學習為模型提供了一個解決問題的良好先驗知識,這可以成為我們未來通過經驗訓練模型的基礎,您同意這種看法嗎?

(關於先驗知識與目標)我不同意。這確實是許多支援大語言模型者的觀點,但我認為這個視角並不正確。要談論先驗,首先必須有一個客觀存在的事實。先驗知識,應該是通往真實知識的基礎。但在大語言模型的框架裡,什麼是真實知識?它根本沒有對真實知識的定義。究竟是什麼標準,來定義一個行為的“好壞”呢?

你提到了持續學習的必要性。如果模型需要持續學習,那就意味著它要在和世界的日常互動中學習。那麼在日常互動中,就必須有某種方式來判斷什麼是對的。但在大語言模型的設定裡,有任何方法能判斷什麼話是“應該說的”嗎?模型說了一句話,它並不會得到關於這句話說得到底對不對的反饋,因為根本就沒有一個“對”的定義。它沒有目標。如果沒有目標,那麼無論模型說什麼都可以,因為根本沒有對錯之分。

這裡沒有客觀事實基準。如果沒有客觀事實基準,你就不可能有先驗知識,因為所謂的先驗知識,本應是關於事實真相的一種提示或初步信念。但在大語言模型的世界裡,真相是不存在的。沒有什麼話是絕對“應該說的”。而在強化學習中,是存在應該說的話、應該做的事的,因為“正確”的事就是能為你帶來獎勵的事。

我們對“什麼是正確的事”有明確的定義,因此我們才能擁有先驗知識,或者接受人類提供的關於“何為正確”的知識。然後,我們可以去驗證這些知識是否真的正確,因為我們有判斷“實際什麼是正確的事”的最終標準。

一個更簡單的例子是建立世界模型。你預測接下來會發生什麼,然後你觀察實際發生了什麼,這裡有客觀事實基準。但在大語言模型中沒有客觀事實基準,因為它們並不預測接下來會發生什麼。當你在對話中說了一句話,大語言模型並不會預測對方會如何回應,或者說外界的反應會是什麼。

即便是大語言模型生成對使用者回應的預測,這難道不算是真正的預測嗎?即便是大語言模型生成對使用者回應的預測,這難道不算是真正的預測嗎?在模型的思維鏈推理中,我們能看到它會自我糾錯,這種靈活性難道不是在特定時間維度上的學習和調整嗎?這與“預測下一個Token”的本質有何不同?預測接下來會出現什麼,然後根據“意外”(即預測錯誤)來更新自己,這不就是一種學習嗎?

(關於LLM是否能預測)不,它只是能生成文字來回答“你預測會怎樣”這類問題,但這並非實質意義上的預測,因為它不會對實際發生的事情感到“驚訝”。如果發生的事情和它所謂的“預測”不符,它不會因為這個意外而做出任何改變。而要學習,就必須在出現意外時做出調整。

我的觀點是,它們在任何實質意義上都無法預測接下來會發生什麼。它們不會對接下來發生的事感到驚訝。無論發生什麼,它們都不會基於發生的事實來做出任何改變。

(關於預測下一個Token)“下一個 Token”是模型自己應該說什麼,是它自己的行為。這和世界會針對它的行為給出什麼回應,是兩碼事。

讓我們回到它們缺乏目標這一根本問題上。對我而言,擁有目標是智能的本質。一個系統只有在能夠實現目標時,才稱得上是智能的。我很認同 John McCarthy 的定義:智能是實現目標這一能力中的計算部分。你必須擁有目標,否則你只是一個行為系統,沒什麼特別的,也談不上智能。

您是否同意大語言模型沒有目標,如果它們的目標是預測下一個Token,為什麼這在您看來不是一個實質性的目標?

那不是目標。它不會改變世界。Token 朝你湧來,你預測它們,但你影響不了它們。那就不是一個目標,不是一個實質性的目標。你不能因為一個系統只是坐在那兒,為自己精準的預測而沾沾自-喜,就說它擁有目標。

02

依賴人類知識的方法終將被那些只依賴真實經驗和計算的方法所取代

為什麼您認為在LLM的基礎上繼續做強化學習,不是一個有前景的方向?我們似乎已經能賦予這些模型目標,比如贏得國際數學奧林匹克競賽金牌的模型,看起來確實有“解出數學題”這個目標,為什麼我們不能把這種模式推廣到其他領域呢?許多人恰恰是用您極具影響力的文章《苦澀的教訓》來為大力發展LLM辯護,因為LLM是目前唯一能將海量算力投入到學習世界知識中,並且可規模化的方法,您怎麼看待您的理論被用於支援您所反對的觀點?支援LLM的人會認為,LLM是開啟未來“經驗學習”的初始框架或基礎,為什麼這是一個完全錯誤的起點?我們為什麼不能就從LLM開始呢?在您看來,一個真正可規模化的方法應該是什麼樣的?

Richard Sutton:數學問題很特殊。建立一個物理世界的模型,和推導數學假設或運算的結果,這兩者截然不同。物理世界是經驗性的,你必須通過學習才能瞭解其規律。而數學更偏向計算,更像是傳統的規劃問題。在數學這個領域裡,模型可以被賦予一個“找到證明”的目標,它們也確實在某種意義上被給予了這樣一個目標。

(關於《苦澀的教訓》)大語言模型算不算“苦澀的教訓”的一個實例,這是個有趣的問題。它們顯然是一種利用海量算力的方法,一種能隨著算力增長而持續擴展,直到耗盡整個網際網路資料的方法。但它們同時也是一種注入了海量人類知識的方法。這就帶來一個有趣的問題,一個社會學或者說產業界的問題:當它們耗盡了人類資料之後,是否會被那些能夠直接從真實經驗中獲取無限資料的系統所取代?

從某些方面看,LLM的發展是“苦澀的教訓”的典型反例。我們向大語言模型注入的人類知識越多,它們表現就越好,這讓我們感覺很棒。但我預言,未來必定會出現能從真實經驗中學習的系統,它們性能會強大得多,擴展性也強得多。到那時,這將成為“苦澀的教訓”的又一個明證:那些依賴人類知識的方法,終將被那些只依賴真實經驗和計算的方法所取代。

(關於LLM作為起點)在“苦澀的教訓”的每一個歷史案例中,你當然都可以先從人類知識入手,然後再去做那些可規模化的事情。這在理論上總是可行的,沒有任何理由說這一定不行。但事實上,在實踐中,這最終都被證明是錯誤路線。人們的思維會被固化在基於人類知識的方法論上,這或許是心理原因,但歷史一再證明了這一點。最終,他們都會被那些真正具備無限擴展性的方法所取代。

(關於可規模化的方法)GLISH可規模化的方法,就是你從經驗中學習。你不斷嘗試,看什麼管用,什麼不管用,不需要任何人來告訴你。首先,你必須有一個目標。沒有目標,就無所謂對錯,也無所謂好壞。而大語言模型,正試圖繞過“擁有目標”和“區分好壞”這兩點矇混過關。這恰恰是從一開始就走錯了方向。

03

人類是靠模仿學習的嗎?

將AI的學習範式與人類進行對比,是否存在相似之處?孩子們難道不是從模仿開始學習的嗎?他們觀察他人、模仿發聲,最終說出同樣的詞語,然後模仿更複雜的行為,比如部落裡的狩獵技巧。這難道不說明人類的學習過程中存在大量的模仿學習嗎?即便模仿不能解釋所有行為,但它至少引導了學習過程,就像一個早期的LLM,它做出一個猜測,然後得到一個與真實答案不同的反饋,這不就像一個發音不準的孩子嗎?我們又該如何定義“上學”,難道那不是一種訓練資料嗎?人的學習總有階段之分,早期理解世界、學習互動,這難道不算是一個訓練階段嗎?畢竟“訓練”這個詞本身就源於對人類的培養。

Richard Sutton:不,當然不是。

我很驚訝我們的觀點會如此不同。我看到的孩子,只是在不斷地嘗試,他們揮舞手臂,轉動眼球。他們如何轉動眼球,甚至他們發出的聲音,都不是模仿來的。他們或許是想發出同樣的聲音,但具體的動作,也就是嬰兒實際做出的行為,並沒有一個可供模仿的範本或目標。

(關於模仿作為引導)

大語言模型是從訓練資料中學習的,而不是從經驗中學習。它學習的來源,是它在未來正常生命周期裡永遠無法得到的東西。在真實生活中,你永遠不會得到一個“標準答案”式的訓練資料,告訴你“在這種情況下你就應該做這個動作”。

(關於上學與訓練)

我覺得這更多是語義上的區分。上學是非常後期的事了。或許我不該說得這麼絕對,但我對“上學”也基本持同樣的看法。正規教育是特例,你不應該把你的理論建立在特例之上。

沒有任何一個階段,你有關於“你應該做什麼”的訓練。你只是觀察事情的發生,但沒人告訴你該怎麼做。這一點是顯而易見的。

我不認為學習的本質是“被訓練”。我認為學習就是學習,是一個主動探索的過程。孩子去嘗試,然後觀察結果。我們想到一個嬰兒的成長時,腦海裡浮現的不是“訓練”。

這些問題其實已經被研究得很透徹了。如果你去瞭解心理學家如何看待學習,會發現根本沒有所謂的模仿學習。也許在某些極端案例中,人類會這麼做,或者看起來像在這麼做,但並不存在一種叫做“模仿”的普適性的動物學習過程。普適性的動物學習過程是用於預測和試錯控制的。

有時候最難看清的,反而是最顯而易見的事,這真的很有趣。只要你觀察動物如何學習,瞭解心理學對它們的理論研究,你就會發現一個顯而易見的事實——監督學習根本不是動物學習方式的一部分。我們不會得到“期望行為”的範本。我們得到的,是客觀發生事件的範本,是一件事接著另一件事發生的規律。我們得到的是“我們做了某件事,並承擔了相應後果”的經驗,但我們從未得到過監督學習的範本。

監督學習並非自然界的產物。即便你在學校裡看到了類似的東西,我們也應該忽略它,因為那是人類社會特有的現象,在自然界中並不普遍。松鼠不需要上學,但它們能學會關於世界的一切。我想說,動物界不存在監督學習,這是一個絕對顯而易見的事實。

(關於人類的獨特性與文化演化)

你為什麼要去區分人類呢?人類也是動物。我們與其他動物的共同點才更有趣,我們應該少關注那些所謂的獨特之處。我們正在嘗試復現智能。如果你想知道是什麼讓人類能夠登上月球、製造半導體,我認為我們真正需要理解的,正是促成這一切的根本原因。沒有任何其他動物能夠做到這些,所以我們才需要理解人類的特別之處。

有意思的是,你覺得你的觀點顯而易見,而在我看來,事實恰恰相反。我們必須理解我們作為動物的本質。如果我們能理解一隻松鼠,我認為我們離理解人類智能也就八九不離十了。語言,只是附著在表層的一層薄殼。

心理學家Joseph Henrich關於文化演化的理論認為,許多複雜技能,比如在北極捕獵海豹,無法單靠推理得出,必須通過模仿長輩來代代相傳,這似乎說明模仿是文化知識習得的第一步,您對此怎麼看?此外,為什麼您認為我們應該少關注人類的獨特性,而去關注我們與其他動物的共同點?畢竟我們想要復現的是能登上月球、製造半導體的智能,這正是人類的獨特之處。

不,我的看法和你一樣。不過,模仿學習只是建立在基礎的試錯學習和預測學習之上的一個很小的部分。這或許確實是我們與許多動物的不同之處,但我們首先是一種動物。在我們擁有語言以及所有其他特性之前,我們早就是動物了。

你確實提出了一個非常有意思的觀點:持續學習是大多數哺乳動物都具備的能力,甚至可以說是所有哺乳動物。有趣的是,這項幾乎所有哺乳動物都具備的能力,我們當前的 AI卻不擁有。與之相反,理解並解決複雜數學問題的能力——當然這取決於你如何定義數學,我們的 AI 具備,但幾乎沒有任何動物具備。那些事情最終變得困難,那些事情反而變得簡單,這確實耐人尋味。莫拉維克悖論。沒錯,正是這個。

04

智能的核心在於利用經驗流調整自身行動以獲得更多獎勵

您所設想的這種另類範式,或者說“經驗範式”具體是指什麼?當您設想一個達到人類水平、通用的持續學習AI Agent時,它的獎勵函數會是什麼?是預測世界,還是對世界施加影響?一個通用的獎勵函數會是什麼樣的?如果我們拋棄了“訓練期-部署期”的範式,是否也要拋棄“模型主體-模型實例”的範式?我們如何讓一個智能體同時處理不同任務,並整合從中獲得的知識?

Richard Sutton:我稱之為經驗範式。我們來具體闡述一下。這個範式認為,感知、行動、獎勵,在你的一生中持續不斷地發生,構成了所謂的經驗流。這個經驗流是智能的基礎與核心。所謂智能,就是利用這個經驗流,並調整自身行動,以期在經驗流中獲得更多獎勵。

因此,學習源自於經驗流,並且學習的內容也是關於經驗流的。這後半句尤其關鍵,它意味著你學到的知識,本質上是關於這個經驗流的。你的知識,是關於“如果你採取某個行動,將會發生什麼”,或是關於“那些事件會接連發生”。知識始終是關於這個經驗流的。知識的內容,就是對經驗流的陳述。正因為它是對經驗流的陳述,你便可以通過將其與後續的經驗流進行比對來檢驗它,從而實現持續學習。

(關於通用獎勵函數)它們並非“未來”的。它們一直都存在,這就是強化學習的範式:從經驗中學習。獎勵函數是任意的。如果你在下象棋,獎勵就是贏得棋局;如果你是一隻松鼠,獎勵可能與獲得堅果有關。通常來說,對於動物,你可以說獎勵是為了趨樂避苦。我認為還應該有一個與增進對環境理解相關的部分,這可以算是一種內在動機。

(關於知識整合)我明白了。對於這種 AI,人們會希望它能做各種各樣的事情。它在執行人們希望的任務,但同時,又通過執行這些任務來學習關於世界的新知識。

我不喜歡你剛才那樣使用“模型”這個詞,我覺得用“網路”會更好,因為我想你指的就是網路。或許可以有很多網路。無論如何,知識會被學習,你會有副本和許多實例。當然,你會希望在實例之間共享知識,實現這一點有很多種可能的方式。

今天,一個孩子成長並學習關於世界的知識,然後每個新生兒都必須重複這個過程。而對於 AI,對於數字智能,你有望只做一次,然後將其複製到下一個智能體中作為起點。這將節省巨大的成本,我認為這比試圖從人類身上學習要重要得多。我同意你說的這種能力是必需的,無論你的起點是不是大語言模型。如果你想要達到人類或動物水平的智能,你就需要這種能力。

05

AI如何處理稀疏獎勵與海量資訊?

像創業這種獎勵周期可能長達十年的事,人類能夠設立中間的輔助獎勵來引導自己,AI要如何實現這一點?當一個人入職新崗位時,會吸收海量的背景資訊和隱性知識,通過時序差分學習這樣的過程,資訊頻寬是否足夠高,能讓AI吸收如此巨量的資訊?看起來似乎需要兩樣東西:一是將長期目標轉化為短期預測性獎勵的方法,二是在一開始就需要記住所有互動中獲得的背景資訊,什麼樣的學習過程能捕獲這些資訊呢?

Richard Sutton:這是我們非常瞭解的問題,其基礎是時序差分學習(temporal difference learning),同樣的事情也發生在規模小一些的場景中。當你學習下象棋時,你的長期目標是贏得比賽,但你希望能夠從短期事件中學習,比如吃掉對手的棋子。

你是通過一個價值函數來實現這一點的,這個函數預測長期的結果。然後,如果你吃掉了對方的棋子,你對長期結果的預測就會改變。預測值上升,你認為自己更有可能贏,你信念的增強會立刻強化那個導致吃子的走法。

我們有創辦公司、賺大錢這個長達十年的目標。當我們取得進展時,我們會說,“哦,我實現長期目標的可能性更大了”,而這種感覺本身就獎勵了我們一路走來的每一個腳步。

(關於海量資訊吸收)我不確定,但我認為這個問題的核心與“大世界假說”密切相關。人類之所以能在工作中變得有用,是因為他們遇到了自己所處的那個特定的小世界。這個小世界是無法被預見的,也不可能預先全部內建到腦子裡。世界太龐大了,你做不到。

在我看來,大語言模型的夢想在於,你可以教會 AI Agent 一切。它將無所不知,無需在其生命周期中線上學習任何東西。而你的例子恰恰說明,你必須線上學習,因為即使你教會了它很多,它所處的特定生活、合作的特定人群以及他們的偏好,這些細微的、獨特的資訊,都與普通大眾的平均情況不同。這恰恰說明了世界是如此之大,你必須邊做邊學。

(關於學習過程)我想說你只是在進行常規的學習。你之所以使用“背景”這個詞,可能是因為在大語言模型中,所有這些資訊都必須被放入上下文窗口中。但在一個持續學習的設定裡,這些資訊會直接融入權重。你會學習一個專門針對你所處環境的策略。

或許你想問的是,獎勵訊號本身似乎太微弱了,不足以驅動我們需要完成的所有學習。但是,我們有感知,我們有所有其他可以用來學習的資訊。我們不只從獎勵中學習,我們從所有資料中學習。

現在我想談談那個包含四個部分的基礎通用 AI Agent 模型。

我們需要一個策略,策略決定了“在我所處的情境下,我該做什麼?” 我們需要一個價值函數,價值函數是通過時序差分學習來習得的,它會生成一個數值,這個數值表明事情進展得有多好。然後你觀察這個數值的升降,並用它來調整你的策略。所以你有了這兩樣東西。接著還有感知部分,負責建構你的狀態表示,也就是你對當前所處位置的感覺。

第四個部分是我們現在真正觸及的核心,至少是最顯而易見的。第四部分是世界的轉移模型。這就是為什麼我對把所有東西都稱為“模型”感到不舒服,因為我想專門討論世界的模型,即世界的轉移模型。它關乎你的信念:如果你這樣做,會發生什麼?你的行為會帶來什麼後果?這是你對世界物理規律的理解。但它不僅是物理,也包括抽象模型,比如你如何從加州一路來到埃德蒙頓錄製這期播客的模型。那也是一個模型,而且是一個轉移模型。這個模型是習得的,它不是從獎勵中習得的,而是從“你做了些事,看到了結果,然後建構了那個世界模型”的過程中習得的。

這個模型會通過你接收到的所有感知資訊得到極為豐富的學習,而不僅僅是通過獎勵。獎勵當然也必須包含在內,但它只是整個模型中微小而關鍵的一部分。

06

泛化與遷移

Google DeepMind的MuZero模型是一個用於訓練專門智能體的通用框架,但不能訓練出一個通用策略來玩所有遊戲,這是否意味著強化學習由於資訊限制,一次只能學習一件事?還是說,需要對那種方法做出改變,才能讓它成為一個通用的學習AI Agent?

Richard Sutton:這個理念是完全通用的。我一直把一個AI Agent 比作一個人作為我的典型例子。從某種意義上說,人只生活在一個世界裡。這個世界可能包含下象棋,也可能包含玩雅達利遊戲,但這些不是不同的任務或不同的世界,而是他們遇到的不同狀態。所以這個通用理唸完全不受限制。

(關於MuZero的侷限)他們就是那樣設定的,讓一個 AI Agent 橫跨所有這些遊戲,並非他們的目標。如果我們想談論遷移,我們應該談論的是狀態之間的遷移,而不是遊戲或任務之間的遷移。

從歷史上看,我們是否曾通過強化學習技術看到過建構通用智能體所需的那種遷移水平?當我們確實在這些模型中看到泛化時,這在多大程度上是研究人員精心雕琢的結果?此外,我們該如何看待大語言模型在解決奧數級問題上展現出的泛化能力,從只能解決加法問題到能處理需要不同技巧和定理的複雜問題,這難道不算是泛化的體現嗎?即便對於編碼任務,模型也從生成劣質程式碼,進化到能設計出更令開發者滿意的軟體架構,這似乎也是泛化的例子。

(關於強化學習的遷移水平)問得好。我們現在在任何地方都看不到有效的遷移。良好性能的關鍵在於你能否很好地從一個狀態泛化到另一個狀態。我們沒有任何擅長此道的方法。我們現在有的是研究人員嘗試各種不同的東西,然後確定一種能夠很好地遷移或泛化的表示。但是,我們幾乎沒有能夠促進遷移的自動化技術,而且現代深度學習中也完全沒有使用這些技術。

是人類做的,是研究人員做的,因為沒有別的解釋。梯度下降不會讓你實現好的泛化,它只會讓你解決當前的問題,不會讓你在獲得新資料時,以一種好的方式進行泛化。

泛化意味著在一個事物上的訓練會影響你在其他事物上的行為。我們知道深度學習在這方面做得很差。例如,我們知道如果你在一個新事物上進行訓練,它往往會與你已知的所有舊知識發生災難性干擾,這正是糟糕的泛化。

正如我所說,泛化是在一個狀態上的訓練對其他狀態產生某種影響。泛化這個事實本身無所謂好壞,你可以泛化得很差,也可以泛化得很好。泛化總會發生,但我們需要的是能夠促成良好泛化而非糟糕泛化的演算法。

(關於LLM的泛化能力)大語言模型極為複雜。我們其實並不清楚它們在訓練前具體接觸過那些資訊。因為其接收的資料量過於龐大,我們只能靠猜測。這正是它們不適合作為科學研究工具的原因之一,整個過程充滿了太多不可控和未知的因素。

也許它們確實解決了很多問題。但關鍵在於,它們是如何解決的?或許,它們解決這些問題根本無需泛化。因為要正確解答其中一部分問題,唯一的途徑可能就是掌握一個能解決所有相關問題的通用範式。如果通往正確答案的路只有一條,你找到了它,這不能叫作泛化。這只是找到了唯一解,模型也只是找到了那條唯一的路。而泛化指的是,當解決問題的方式有多種可能時,模型選擇了那個更優的、普適的方案。

這些模型的內在機制本身並不能保證良好的泛化能力。梯度下降演算法只會促使它們去找到一個能解決訓練資料中已有問題的方案。如果解決這些問題的方式只有一種,模型就會採用那一種。但如果存在多種解決方式,其中一些方案的泛化性好,另一些則很差,演算法本身沒有任何機制能確保模型傾向於選擇泛化性好的那一種。當然,人是會不斷調整和最佳化的。如果模型表現不佳,研究人員就會持續進行偵錯,直到找到一個有效的方法,而這個方法,或許就是一個泛化能力強的方法。

07

AI發展軌跡:一個“古典主義者”的視角

您投身AI領域多年,對您而言,這個領域最大的驚喜是什麼?是湧現了許多真正創新的成果,還是更多地在重新包裝和應用舊思想?當AlphaGo或AlphaZero這樣的成果引起轟動時,作為許多相關技術的奠基人,您的感覺是“這是全新的技術突破”,還是更像“這些技術我們90年代就有了,現在只是被成功組合應用了”?這種與領域主流思想長期保持“不同步”的狀態,是否塑造了您如今的學術立場?根據《苦澀的教訓》,一旦我們擁有了能與算力同步擴展的AGI“研究員”,回歸建構精細的手工解決方案是否會成為一種合理的選擇?當擁有大量AI時,它們會像人類社會那樣通過文化演進互相學習嗎?未來一個AI是應該用額外的算力增強自身,還是派生一個副本去學習全新知識再整合回來?在這個過程中,如何避免“心智污染”?

Richard Sutton:這個問題我思考過,主要有幾點。首先,大語言模型的表現令人驚嘆。人工神經網路在處理語言任務上能如此高效,確實出人意料。過去,大家普遍認為語言是一種非常特殊、需要專門知識來處理的領域。所以,這給我留下了深刻印象。

其次,AI 領域一直存在一個長期的路線之爭:一方是基於簡單、基本原則的方法,如搜尋和學習這類通用方法;另一方是依賴人類知識輸入的系統,如符號方法。在早期,搜尋和學習被稱為“弱方法”,因為它們只運用通用原則,而不借助將人類知識編碼進系統所帶來的強大能力。而後者被稱為“強方法”。在我看來,“弱方法”已經取得了徹底的勝利。這可以說是早期 AI 領域最大的懸念,而最終,學習和搜尋主導了潮流。

從某種意義上講,這個結果對我而言並不意外,因為我一直都信奉並支援那些簡單的基本原則。即便是大語言模型,其效果好得驚人,但它的成功也讓我感到十分欣慰。AlphaGo 的表現同樣令人驚嘆,尤其是 AlphaZero。這一切都令人欣慰,因為它再次證明了:簡單的基本原則最終會勝出。

(關於AlphaGo/AlphaZero)其實 AlphaGo 的成功有一個重要的先驅,那就是 TD-Gammon。當年 Gerry Tesauro 運用強化學習中的時序差分學習 (temporal difference learning, TD learning) 方法來訓練程序下西洋雙陸棋,最終擊敗了世界頂尖的人類選手,效果斐然。從某種意義上說,AlphaGo 只是將這一過程進行了規模化。當然,這種規模化的程度是空前的,並且在搜尋機制上也有額外的創新。但這一切的發展脈絡清晰,順理成章,所以從這個角度看,它的成功並不算意外。

實際上,初代的 AlphaGo 並未使用 TD 學習,它需要等棋局完全結束後根據最終勝負進行學習。但後來的 AlphaZero 採用了 TD 學習,並被推廣到其他棋類遊戲中,表現都極為出色。我一直對 AlphaZero 的棋風印象深刻,我自己也下國際象棋,它會為了佔據優勢位置而主動犧牲子力,也就是“棄子爭勢”。它能如此果斷且耐心地為了長遠優勢而承受物質上的劣勢,這一點表現得如此之好,確實令人驚訝,但同時也讓我備感欣慰,因為它完全契合我的世界觀。

這也塑造了我如今的學術立場。在某種程度上,我算是一個逆向思維者,一個想法與領域主流不總是一致的人。我個人很安於與我的領域長期保持這種“不同步”的狀態,可能長達數十年,因為歷史偶爾會證明我的堅持是對的。為了讓自己不感覺想法過於脫節或奇怪,我還有一個方法:不只侷限於眼前的領域和環境,而是回溯歷史長河,去探尋不同學科的先賢們對於“心智”這個經典問題的思考。我覺得自己並未脫離更宏大的思想傳統。相比於一個“逆向思維者”,我更願將自己視為一個“古典主義者”,我所遵循的,是那些偉大思想家們關於心智的永恆思考。

(關於AGI之後的時代與《苦澀的教訓》)我們是如何實現這個 AGI 的?你的問題直接預設了這一步已經完成。那我們的任務就已經完成了。但你這是想用一個 AGI 去再造一個 AGI。如果這些 AGI 本身還不是超人類的,那它們能傳授的知識,自然也達不到超人類的水平。而 AlphaZero 實現改進的關鍵,恰恰在於它摒棄了人類知識的輸入,完全從自我對弈的經驗中學習。既然完全依靠自身經驗、無需其他智能體幫助的模式能取得如此好的效果,那你又為什麼反過來提議要“引入其他智能體的專業知識去指導它”呢?

你提的那個場景確實很有趣。當你擁有大量 AI 時,它們會像人類社會通過文化演進那樣互相學習和幫助嗎?或許我們該探討這個。至於《苦澀的教訓》,不必太在意。那只是對歷史上特定 70 年的經驗總結,並不必然適用於未來的 70 年。

一個真正有趣的問題是:假設你是一個 AI,你獲得了一些額外的算力。你是應該用它來增強自身的計算能力,還是應該用它衍生出一個自己的副本,派它去學習一些全新的東西——比如去地球的另一端,或者研究某個完全不同的課題——然後再向你匯報?

我認為這是一個只有在數字智能時代才會出現的根本性問題,我也不確定答案。這會引出更多問題:我們真的能成功派出一個副本,讓它學到全新的知識,然後還能將這些知識順利地整合回本體嗎?還是說,這個副本會因為學習了不同的東西而變得面目全非,以至於無法再被整合?這到底可不可能?你可以將這個想法推向極致,就像我前幾天看你的一個視訊裡那樣:衍生出成千上萬的副本,讓它們高度去中心化地執行不同任務,最後再向一個中心主控匯報。這將會是一種無比強大的模式。

(關於心智污染)我想在這個設想上補充一點:一個巨大的問題將是“心智污染” (corruption)。如果你真的可以從任何地方獲取資訊,並直接融入你的核心心智,你的能力會變得越來越強。理論上,這一切都是數位化的,它們都使用某種內部數字語言,知識遷移或許會很容易。但這絕不會像想像的那麼簡單,因為你可能會因此“精神失常”。如果你從外部引入一些東西並將其建構到你的核心思維中,它可能會反過來控制你、改變你,最終導致的不是知識的增長,而是自我的毀滅。

我認為這會成為一個重大的隱患。比如,你的一個副本搞懂了某個新遊戲,或者研究透了印度尼西亞,你想把這些知識整合到自己的大腦裡。你可能會想:“簡單,把資料全讀進來就行了。” 但不行。你讀入的不僅僅是一堆位元,其中可能含有病毒,可能有隱藏的目標,它們會扭曲你、改變你。這將是個大問題。在這個可以進行數字衍生和重組的時代,你要如何保障自身的“網路安全”或者說“心-智安全”?

08

“AI繼承”:人類的未來

您如何看待“AI繼承”這個話題?您的觀點似乎與主流看法相當不同。我同意您提出的四大論據(全球缺乏統一治理、智能終將被破解、超級智能必然出現、最智能者掌握最多資源)共同指向了“繼承”的必然性,但在這個必然結果之下,包含著多種可能性,您對此有何看法?即使我們將AI視為人類的延伸,這是否意味著我們能完全放心?我們如何確保AI帶來的變革對人類是積極的?我們理應關心未來,但這是否意味著我們要宣稱“未來必須按照我期望的方式發展”?或許一個恰當的態度是像教育孩子一樣,為AI灌輸穩健、親社會的價值觀,即使我們對何為“真正的道德”沒有共識,這是否是一個合理的目標?

Richard Sutton:我確實認為,世界的主導地位向數字智能或增強人類的“繼承”是不可避免的。我的論證分為四點。第一,人類社會缺乏一個統一的、能主導全球並協調一致行動的治理實體,關於世界該如何運轉,我們沒有共識。第二,我們終將破解智能的奧秘,科研人員最終會弄清智能的根本原理。第三,我們不會止步於人類水平的智能,我們必然會觸及超級智能。第四,從長遠來看,一個環境中最智能的存在,不可避免地會掌握最多的資源和權力。

將這四點結合起來,結論幾乎是必然的:人類終將把主導權交給 AI,或者交給由 AI 賦能的增強人類。在我看來,這四點趨勢清晰明確,且必將發生。當然,在這一系列可能性中,既可能導向好的結果,也可能導向不那麼理想、甚至是糟糕的結果。我只是想嘗試以一種現實主義的眼光看待我們所處的位置,並探尋我們應該以何種心態去面對這一切。

(關於如何看待“繼承”)我鼓勵大家積極地看待這件事。首先,理解自我,提升思考能力,本就是我們人類數千年來的追求。這對於科學界和人文學界都是一項巨大的成功。我們正在揭示人性的關鍵組成部分,以及智能的真正含義。

此外,我通常會說,這一切都太以人類為中心了。但如果我們能跳出人類的立場,純粹從宇宙的視角來看,我認為宇宙正處在一個重要的過渡階段,即從複製者的時代轉變而來。我們人類、動物和植物,都是複製者。這既賦予了我們力量,也帶來了侷限。

我們正在進入一個設計的時代,因為我們的 AI 是被設計出來的。我們周圍的物理對象、建築和技術,都是設計的產物。而現在,我們正在設計 AI,這些造物本身就具有智能,同時它們自己也具備了設計的能力。這對我們的世界乃至整個宇宙來說,是關鍵的一步。這是一個重大的轉變:過去,世上大多數有趣的事物都是通過複製產生的,而我們將進入一個新的世界。複製的意思是,你可以製造它們的副本,但你並不真正理解它們。就像現在,我們可以創造更多的智能生命,也就是我們的孩子,但我們並不真正懂得智能是如何運作的。

而現在,我們開始擁有被設計出的智能,一種我們真正理解其工作原理的智能。因此,我們能以和以往截-然不同的方式和速度去改造它。在未來,這些智能體可能根本不通過複製產生。我們或許只是設計 AI,再由這些 AI 去設計其他的 AI,一切都將通過設計與建造完成,而非複製。

我將此視為宇宙演進的四個偉大階段之一。最初是塵埃,最終匯聚成恆星,恆星周圍形成行星,行星上可以誕生生命,而現在,我們正在催生被設計出的實體。我認為,我們應當為能夠促成宇宙的這一偉大轉折而感到自豪。

這是一個很有趣的問題:我們應該將它們視為人類的延伸,還是與人類不同的存在?這取決於我們的選擇。我們可以說:“它們是我們的後代,我們應該為它們感到驕傲,慶祝它們的成就。”或者我們也可以說:“不,它們不是我們,我們應該感到恐懼。”我覺得有趣的是,這感覺像是一個選擇,但人們對此的立場又如此堅定,這怎麼可能是一個選擇呢?我喜歡這種思想中暗含的矛盾。

(關於未來的不確定性與擔憂)你的意思是,我們可能就像催生了智人 (Homo sapiens) 的尼安德塔人 (Neanderthals) 。也許智人未來也會催生出一個全新的種群。親緣關係。

我覺得有必要指出,對於絕大多數人而言,他們對世界上發生的事情並沒有太大影響力。

這很大程度上取決於一個人如何看待變革。如果你認為現狀真的很好,那麼你更有可能對變革持懷疑和厭惡態度,而如果你認為現狀尚有不足,態度則會不同。我認為現狀並不完美。事實上,我覺得挺糟糕的。所以我對變革持開放態度。我認為人類的歷史記錄並不那麼光彩。也許這已經是我們所能達到的最好狀態了,但它遠非完美。

(關於引導變革)我們理應關心未來,並努力讓未來變得美好。但同時,我們也應該認識到自身的侷限性。我認為我們必須避免一種特權感,避免“我們是先行者,所以未來就應該永遠對我們有利”這樣的想法。我們該如何思考未來?一個特定星球上的特定物種,應對未來享有多大的控制權?我們自身又有多大的控制力?既然我們對人類長遠未來的控制力有限,那麼一個平衡點或許在於我們對自己生活的掌控程度。我們有自己的目標,有自己的家庭。這些事情比試圖控制整個宇宙要可控得多。

我認為,我們專注於實現自己身邊的目標是恰當的。宣稱“未來必須按照我所期望的方式發展”是一種很強勢的做法。因為這樣一來,當不同的人認為全球的未來應該以不同方式演進時,就會引發爭論乃至衝突。我們希望避免這種情況。

“親社會價值觀”?真的存在我們都能達成共識的普世價值觀嗎?所以,我們是在試圖設計未來,以及未來賴以演化和形成的原則。你的第一個觀點是,我們應該像教育孩子那樣,教給它們一些通用原則,以促成更理想的演化方向。或許,我們還應該尋求讓事情建立在自願的基礎上。如果變革要發生,我們希望它是自願的,而不是強加於人的。我認為這是非常重要的一點。這些都很好。

我認為這又回到了一個宏大的人類事業上——設計社會,這件事我們已經做了幾千年。世事變遷,但本質未改。我們仍然需要弄清楚該如何自處。孩子們依然會帶著在父母和祖父母看來頗為奇怪的新價值觀出現。事物總是在演變的。 (數字開物)