AI Agent 即將實現全天自主工作| Anthropic 頂尖研究員萬字對話實錄

10月23日,Anthropic 關鍵研究員、前DeepMind 傳奇計畫AlphaGo Zero 和MuZero 的核心貢獻者Julian Schrittwieser 接受了海外播客The Mad的訪談。

本次對話深入探討了AI 發展軌跡的「指數級」本質、對2026 年和2027 年AI 能力進行預測、強化學習與AI Agents 的最新進展,AI 是否會帶來「突變」式奇點、當前技術範式(預訓練+強化學習)的潛力,以及AI 在科學發現和未來工作中的角色等話題。

Julian Schrittwieser 指出,關於「AI泡沫」的討論與前沿實驗室的真實進展完全脫節。可能存在一種「分化」:更廣泛的生態系統確實存在泡沫,但同時,前沿實驗室(如Anthropic, OpenAI, Google)的發展和收入極其穩固。

Julian指出,AI 正以每3-4個月將「獨立任務長度」翻倍的速度發展,他預測到2026-2027年,AI Agent 將能全天自主工作。此外,AI 已在發現新穎科學,大模型在2027年或將具備「獨自」獲得諾獎的能力。

Julian 認為AI 帶來的將是平穩的生產力提升。 AI 的進步會與科學探索(包括AI 研究本身)難度日益增加的趨勢相抵消,因此不太可能出現突然的「10倍表現」飛躍。

針對「未來模型是否會完全從頭用強化學習訓練」的爭論,Julian 明確表示「不太可能」。他認為,利用大量資料進行預訓練不僅是出於效率考慮,更是實現AI 對齊和安全的寶貴途徑,因為它隱式地創造了與人類價值觀相似的Agent。他指出,預訓練(被動文字)無法教授“行動”和“自我糾錯”,而RL 正在“釋放AI Agent 的巨大潛能”,並建議開發者與其自研RL,不如專注於設計好的工具和任務描述。

01. AI泡沫的討論與實驗室的進展完全脫節

幾周前,你寫了一篇引爆網際網路的部落格文章“再次,未能理解指數級”,你認為這麼多人對AI 當前的發展軌跡究竟錯過了什麼?

Julian Schrittwieser: 你提到那篇部落格文章很有趣。我真的沒想到它會那麼火紅。實際上,這個想法是我幾周前在吉爾吉斯斯坦度假時,在一次漫長的車程中產生的。我開始思考這個問題,以及我在X 上看到的各種關於AI 泡沫的討論。這些討論似乎與前沿實驗室裡正在發生的事情以及我們所看到的一切完全脫節。

這讓我開始思考:是不是因為事情發展得太快,導致人們很難去外推和直覺理解?也許現在感覺還很遙遠,但它每隔幾個月就翻一番,這意味著一旦它接近我們,它就會迅速超越並變得非常出色。

如果你查看我們手頭上的許多基準和評估,會發現在過去很多年裡,我們都看到了非常一致的進步。例如,每隔三、四個月,模型就能獨立完成一個比以前長兩倍的任務。由此我們可以推斷,一年後,也許兩年後,頂級的模型將能夠完全自主地工作一整天甚至更長時間。

經濟中存在大量基於知識的工作和任務;同時,前沿實驗室的進展絲毫沒有放緩。將這些因素結合起來來看,僅僅在半年或一年的短時間內進行外推,就足以預見即將發生的巨大經濟影響。這意味著,如果你看看OpenAI、Anthropic、Google 目前的估值和收入數字,這些數字實際上是相當保守的。

我最近還有一些更深入的思考,情況可能實際上更有趣也更複雜:雖然那些前沿實驗室和前沿模型顯然能力極強,並處在一個迅猛的發展軌道上,但還有許多其他公司試圖擠入同一個AI 賽道。它們可能也有很高的估值,但可能沒有相應的收入來支撐。因此,有可能在更廣泛的生態系統中確實存在某種泡沫,而與此同時,前沿實驗室卻處於非常穩固的軌道上,擁有大量收入,賺取豐厚利潤。

這可能是一種非常不尋常的情況。在過去,像是網路泡沫時期,或是人們談論的「鐵路熱」之類的,我們並沒有看到這種分化。我一直在深入思考這個問題,而且我認為情況變得越來越有趣。

02. 2026-2027年預測與趨勢

你提到了2026 年和2027 年的一些預測或外推,能詳細展開說說嗎?你提了三個具體節點:2026年中agents 可以全天自主工作,2026年底模型在許多職業中能匹敵行業專家,到2027 年模型在許多工上經常超越專家。你也提到了OpenAI 的GDP-Val 指標。一個顯而易見的問題是,GDP-Val 和MTR 這樣的基準都是精心設計的,一旦加入了合規性、責任、混亂的資料和工具摩擦等現實因素,它們還能在多大程度上預測實際的生產價值?另外,有沒有什麼訊號,無論是真實世界的採用情況還是基準表現,會讓你對這種指數級趨勢更加謹慎?

Julian Schrittwieser: 也許稱之為我的預測有點言過其實了。我只是說,如果你去看MTR 或Eval 這樣的基準,然後非常簡單地進行線性擬合外推,那就是你預期會發生的事情。所以我要謙虛一點:大多數時候,我並不比統計模型更聰明,這些模型只是對過去非常一致的趨勢進行統計外推。因此,儘管我可能瞭解所有關於研究和正在發生的事情,但我能做出的最有可能、最好的預測,實際上就是遵循那些資料和外推,看看它會帶我們走向何方。在這種情況下,如果我們沿著這個趨勢推演下去,再看看其他基準,我想明年我們可能會看到類似這樣的情況:模型將能夠獨立完成一整天的工作任務。

如果你從軟體的角度想,這可能意味著:「實現這整個功能,建立這整個應用程式的某個部分。」如果你從知識工作的角度想,也許是完成一份完整的研究報告,達到這種規模。我認為任務長度之所以特別有趣,是因為它決定了你可以將多少工作委託給大語言模型和agents。即使你有一個非常聰明的模型,但如果它需要你非常頻繁地提供回饋或互動,那麼你能委託給它的工作就非常有限。你是需要每10 分鐘和它對話一次?還是擁有一個可以一次工作數小時的系統?顯然,在後一種情況下,你不僅能擁有它的一個實例,你還可以擁有一整個團隊,你給它們分配任務並管理它們。所以我認為,模型足夠聰明,agents 足夠聰明,能夠獨立工作、糾正自身錯誤、進行迭代,這一點至關重要。因為這才是真正實現任務委託的關鍵。

(關於GDP-Val 指標) GDP-Val 是OpenAI 推出的一項非常酷的評估。他們從真正的領域專家那裡收集了大量真實世界的任務,以確保它能真實代表你在經濟活動中可能從事的工作。然後他們評估了許多模型在這些任務上的表現,並將它們與真實專家的表現進行比較,這為我們提供了一個非常好的參考,即:我們距離產生重大經濟影響還有多近,或多遠。總之,這是一項非常酷的評估。

(關於現實世界的「混亂性」) 現實世界的「混亂性」和「任務長度」 (即你能夠獨立工作的時間) 這兩者是非常相似或高度相關的。因此MTR 試圖衡量模型能自主運作多久是很有趣的。因為如果你想設計一個需要人類花費8 小時或16 小時的任務,你將不得不把所有這些混亂性和現實世界的複雜因素都包含進去,否則你甚至無法進行測量。

但最終要走得更遠,我們真正需要的是來自實際用戶的基準和評估,無論他們是來自行業還是個人用戶。因為這才是最終重要的:這個模型對你有用嗎?你從中獲益了嗎?它是否處理了你的文書工作?是否幫你寫了東西?修復了你的程式碼?幫助你學習?這才是真正的試金石。如果你發布一個新模型,人們會開始更多地使用它嗎?他們真的喜歡它嗎?

(關於那些訊號會改變我的看法) 很多事情都會。很多這類訊號只是內部的。我可能會看我們模型的預訓練,看我們的微調,看我們強化學習方面的工作:新的運行批次和過去的相比表現如何?它們符合我們的預期嗎? Scaling Law 是否仍在持續?

然後,我可能會看更多公開的訊號:人們是否真的能夠使用這些模型來提高生產力?例如,一開始總會有一段適應期:「你有了一個像Claude Code 這樣的新工具。」你需要花一些時間摸索如何使用它。但從中期和長期來看,人們是否持續使用它?他們在使用過程中是否變得越來越有效率?這是我關注的事情之一。信號有很多。

當你在做強化學習或做研究時,你會養成一種習慣,總是去尋找能證明自己錯誤的訊號。因為你常常會產生一些自己難以割捨的想法,但這不是做研究的好方法。你的大多數想法都不怎麼樣,也不行。所以你真的想盡快弄清楚這個想法是否可行,或者它是否根本就是錯的。因此,你會真正養成這種習慣,去尋找能最快證明「不,這其實是錯的」的證據。

03. AI正處於發現新穎科學的過程中,2027年或具備獲得諾獎能力

到2026-2027 年,AI 變得和人類一樣出色。那麼它能在多大程度上變得比人類更出色?近來圍繞著「第37 手」 (Move 37) 有一些討論,關於AI 是否能創造出「聞所未聞」的新路徑。你能否提醒聽眾什麼是“第37 手”,以及你認為AI 目前是否有能力提供這種思維?進一步推演,就有了創造新穎科學的概念。 AlphaCode 和AlphaTensor 已經證明了AI 可以發現新演算法,最近Google DeepMind 和耶魯大學在生物醫學領域也取得了新發現。你認為這個進程在加速嗎? AI 是否正處於發現新穎科學的過程中?我們距離AI 贏得諾貝爾獎有多遠?

Julian Schrittwieser: 我先介紹一下背景,「第37 手」發生在我們建構AlphaGo (一個圍棋AI 程式) 的時候。那是在2016 年。我們當時正在和一位世界頂尖的棋手對弈。因為在那個時代,還沒有任何AI 程式或電腦程式在圍棋上擊敗過頂尖的人類棋手。圍棋被認為是最困難的棋盤遊戲之一,是對智力的真正考驗。

「第37 手」發生在五番棋比賽的第二局,當時AlphaGo 下出了一步非常出乎意料、非傳統的棋,震驚了許多職業圍棋棋手。我記得解說員說那一步棋真的很有創意,完全出乎意料。最終,AlphaGo 贏得了那場比賽。因此,對許多人來說,這是一個早期的信號,表明AI 不僅僅是在純粹地計算、遵循最優路徑,它也能做出一些真正新穎和富有創造性的事情,這是你無法僅通過模仿其訓練數據就預料到的。

這在當今的背景下也非常有意義。因為正如你所提到的,現在有很多討論:「大語言模型是不是只是在鸚鵡學舌地複述訓練資料?它們真的能創造新東西嗎?」對我這個做了很長時間研究的人來說,很明顯這些模型可以創造新穎的東西。這就是為什麼它們對這麼多人如此有用,無論是幫你寫程式碼——很明顯,你不是在寫現有的程式碼,那沒什麼意思——還是幫你寫論文。這些模型的訓練方式,決定了它們實際上正在學習產生一個完整的機率分佈,這意味著當我們從它們取樣時,我們可以產生無限多的新穎序列。

至於像「第37 手」那樣的問題,這真的歸結為:它所創造的東西是否足夠有創意、足夠令人震撼,以至於我們能輕易地識別出來?

在圍棋這個場景下,條件非常理想,因為它非常純粹、非常抽象。每一步棋的影響力都很大,所以你可以看得很清楚。要為我們當代的模型找到類似的“第37 手”,你需要一個足夠困難和有趣的任務,還需要一個既能創造出足夠多樣化和有創意的想法,又能準確評估這些想法有多好的模型。這樣,它才能沿著日益新穎的路徑前進,同時確保這條新路徑確實是有趣且有用的。用語言模型創造新穎的東西其實非常容易,困難的部分是創造出那些既新穎又有用、有趣的東西。

(關於新穎科學的發現) 我們絕對處於AI 正在發現新穎事物的階段,我們只是在不斷提升它能獨立發現的事物的“級別”,讓這些發現變得越來越令人印象深刻、越來越有趣。因此,極有可能在明年的某個時候,我們將會看到一些AI 的發現,屆時人們會相當一致地認為「這極其令人震撼」。目前我們更處於「它想出了點東西,但大家對此還有爭議」的階段。但我並不擔心,因為我看到這個過程在持續,一旦它變得足夠清晰明了,就不太需要爭論了。

(關於AI贏得諾貝爾獎) 這是一個非常有趣的問題。因為我們已經有了一個授予AI (AlphaFold) 的諾貝爾獎。因此,下一個非常有趣的時間點將是:AI 什麼時候能獨自取得一個突破,這個突破是如此重大,以至於它本身能贏得諾貝爾獎?我猜測達到那種等級的能力可能是在2027 年。不過,考慮到獎項授予的延遲,我們可能在之後相當長一段時間內都不會知道結果。但我認為到2027-2028 年,模型極有可能已經足夠聰明、能力足夠強,能夠真正擁有那種程度的洞察力和發現能力。

這不僅僅是諾貝爾獎,還包括像數學界的菲爾茲獎以及所有這類進步。這其實才是我真正興奮的地方:AI 能幫助我們推動科學進步,真正解開宇宙的所有奧秘,並幫助我們提升生活水平、增強自身能力——如果我們能更好地理解這個世界,這一切都是可能實現的。

04. 發生真正的非連續性是極不可能的

「AI 2027」這個主題討論的是AI 能創造AI 研究人員,導致一個「突變時刻」。作為一個深入該領域的人,這對你來說是短期內可能發生的事情嗎?還是存在著制衡力量,使得這條通往「突變」的道路在接近時反而變得更困難?另外,您認為目前「預訓練+ 強化學習」的研發範式,能帶我們抵達期望的終點(無論是否稱之為AGI)嗎?還是我們根本需要一種完全不同的新架構?

Julian Schrittwieser: 我認為發生真正的非連續性是極不可能的。顯而易見,AI 研究人員已經在利用AI 加速自身的研究進程。因此,一個正在發生並且很可能持續的趨勢是,我們看到生產力正在平穩提升。接下來主要的懸而未決的問題是,隨著AI 的進步,提升AI 本身的難度會如何改變?因為在許多科學領域,一個非常普遍的現像是,我們總是先解決所有簡單的問題,而隨著我們不斷深入探索該領域,取得新的進展會變得越來越困難。

所以在我看來,主要問題在於這兩種趨勢能否互相抵銷?一方面AI 使我們的生產力日益提高,另一方面取得進展的難度也越來越大,我們能否因此正好維持現有的發展趨勢,繼續保持大致線性的成長?還是說,難度成長得太快,最終在一段時間後,我們仍然會看到發展速度放緩?

但在我看來,我們的生產力提高到足以讓我們真正實現加速,似乎是不太可能的。這在任何其他科學領域都極為罕見。在許多科學領域,常態是我們需要以指數級增加研究投入,才能勉強維持進步並獲得新的見解。例如,在藥理學領域,發現新藥的成本如今已高達數十億美元,而大約100 年前,一位科學家可能僅憑偶然就發現了第一種抗生素。

我們並不會因為進展的突然飛躍而感到驚訝,比如“哦,我們只是在做研究,突然間我們的模型性能就提升了10 倍。” 相反,我們會看到一些預兆,比如“哦,我們每周取得進展的速度都在加快。我們能察覺到有些事情正在發生。如果我們不理解到底發生,也許我們會決定暫停什麼。”

(關於當前範式能否抵達終點) 我認為這是個非常好的問題,而答案在很大程度上取決於您所說的「期望的終點」到底是什麼?如果您想的是:「我們想要一種系統,在生產力方面,能夠在我們關心的幾乎所有任務上都達到大致與人類相當的水平,」 那麼我認為,當前的方法——預訓練、強化學習、Transformers,極有可能幫助我們實現這一目標。

但如果您關心的是:「我們想要一個像我們人類一樣具有意識的智慧模型,」 或是更多這類抽象特質,那麼我認為這可能就更不確定了。而且我認為,許多困惑和分歧正是源自於此。正如您所提到的AGI、ASI,當人們在談論「哦,當前的範式能實現目標」或「實現不了目標」時,他們談論的其實是截然不同的事物,腦海中想的也是截然不同的概念。我通常傾向於不使用AGI 或ASI 這樣的術語,而是非常具體地討論:我們正在解決什麼問題?我們正在執行什麼任務?我們感興趣的是那種品質?因為我發現這樣做往往能讓實際的分歧點變得更清晰。

但如果您只是從這個角度思考:「這能幫助我們大大提高生產力嗎?這能大大加速科學進步嗎?」 那麼我堅信,目前的方法絕對能實現目標。

05. 放棄預訓練不僅效率低,更有安全隱患

鑑於您在強化學習(RL) 領域的深厚造詣,我想問一個時下最熱門的問題:您認為未來的模型會完全從頭開始用強化學習訓練嗎?在強化學習之外再加入預訓練,反而反而是錯誤的做法?

Julian Schrittwieser: 我個人認為不太可能。倒不是因為預訓練是絕對必要的。我認為我們完全有能力像在其他領域一樣,從頭開始訓練某個東西。更關鍵的原因在於,利用我們現有的海量資料集進行預訓練能帶來巨大的價值,從實用角度來看,我們沒理由放棄它。因此,我們或許會出於科學興趣去訓練一些從頭開始的AI Agent。例如,探索非人類智慧可能會是什麼樣子,這會非常有趣。

但從工程應用的角度來看,我堅信我們會繼續使用預訓練資料。這不僅是出於效率考慮,我認為這裡面還有值得注意的安全形度。因為透過在所有這些人類知識上進行預先訓練,我們實際上是在隱式地創造一個與我們擁有相似價值觀的AI Agent。我認為這對於對齊(aligning) 一個高度智能的AI Agent 來說是極其寶貴的。如果它從一開始就關心與我們大致相同的價值觀體系,那麼(對齊)工作會比面對一個可能擁有完全不同價值觀的、任意的「外星智慧」要容易得多。儘管我過去做過很多從頭開始的密集學習研究,但我在這方面通常還是非常務實的。

06. DeepMind AlphaGo到MuZero

請跟我們說AlphaGo、AlphaGo Zero、AlphaZero 和MuZero 的故事。它們分別是什麼?這似乎是AI 領域的基礎知識,尤其是它們之間的演進脈絡。從AlphaGo 的誕生開始,它具體做了什麼?如何訓練的?後續版本如何演進? 「搜尋」在這裡具體指什麼? AlphaGo 用了什麼數據?你們當時有預感AlphaGo 會完勝Lee Sedol 嗎? AlphaGo Zero 有何不同?你們給它輸入規則了嗎? AlphaZero 呢?然後是MuZero,作為主要作者,它的不同之處又在那裡?

Julian Schrittwieser: AlphaGo,我想在那個時間點,圍棋在機器學習社區是一個非常重大的目標,所有人都覺得:“這是一個尚未被攻克的巨大挑戰。ImageNet 的突破剛發生不久,很明顯,深度模型已經開始在圖像處理上有所作為,能夠識別和預測圖像了。” 而如果你用正確的視角看起來像棋盤一樣。

所以,當時有很強的勢頭要用神經網路來下圍棋。那時,DeepMind 的David Silver 和Aja Huang 已經在研究圍棋了。他們兩人研究圍棋都有相當長一段時間了,也發表過一些非常有趣的論文。就在那時,將蒙特卡羅樹搜尋(Monte Carlo Tree Search, MCTS) 與深度網路結合的想法應運而生。這個想法是訓練一個深度神經網路來預測對手可能會走那些棋步以及當前局勢是贏是輸,然後利用樹搜尋來製訂一個龐大的推演計劃,涵蓋遊戲中所有可能的走向:如果你選擇某一步棋,局勢會如何發展?對手會如何應對?

(關於「搜尋」的定義) 這和你下象棋或任何棋盤遊戲時的思考過程完全一樣。它就是在思考:「我下一步要走那裡?我的對手會如何回應?」 然後基於此推演未來多種可能的棋步,並勾畫出未來所有可能的發展路徑。

(關於AlphaGo 的訓練資料) 如果我沒記錯的話,AlphaGo 的初始訓練階段用的是一些人類業餘棋局資料。基本上就是,當人類下了很多盤圍棋後,我們試著在棋局的每一回合預測他們實際下了那一步。事實證明,如果你訓練一個深度網絡來做這件事,你可以得到一個相當不錯的模型,能達到業餘圍棋水平,但還不足以真正擊敗頂尖的職業棋手。

(關於是否預感會贏) 我們當時覺得勝算很大,但心裡也非常緊張:“我們到底會贏還是會輸?” 我們事先還打了賭,猜“我們會贏幾局還是輸幾局?”

我認為,把比賽安排在我們實際比賽的那個時間點,是相當激進的。如果我們想更穩一點,也許會延後幾個月。而且我認為,如果我們提前幾個月比賽,我們很可能會輸。所以,那真是一場勝負難料的對決。當然,我猜這也讓比賽對我們來說更加刺激,因為這真的意味著每一局都扣人心弦:「哦,會發生什麼?我們會贏嗎?我們會不會走一步臭棋?到底會怎樣?」 所以那個過程非常激動人心。

(關於AlphaGo Zero) AlphaGo 和AlphaGo Zero 之間的主要變化是,我們移除了所有的人類圍棋知識。我們不再從模仿人類圍棋棋局開始,而是讓它完全從頭開始訓練,只與自己對弈,並在此過程中基本上重新發現了所有的圍棋知識,完全自主地弄清楚了圍棋該怎麼下。

我們沒有把遊戲規則本身輸入給網絡,但我們用遊戲規則來判定結果。基本上就是,它下棋,然後我們告訴它:“誰贏了,誰輸了,” 或“你不能這麼走。”

(關於AlphaZero) AlphaZero 的想法是,很顯然,圍棋是一種非常優美的遊戲,但我們的最終目標是做一些更通用的事情。所以,我們能否移除所有圍棋特定的元素,並驗證演算法確實能解決更多問題?我們當時的做法是,嘗試用同一個演算法、同一個網路結構,僅僅透過在不同遊戲中運行,去解決西洋棋、圍棋和日本像棋。同時,我們也讓演算法變得更簡單、更優雅、運行更快。所以,那項工作基本上是為未來將演算法應用於解決實際問題奠定了基礎。

(關於MuZero) 我開發MuZero 的主要動機是,當你想解決許多真實世界任務時,你根本無法完美地模擬即將發生的情況。在棋盤遊戲裡,很明顯,你走一步棋,你就知道會發生什麼事——棋子會移動到那裡,會吃掉一個子,諸如此類。但如果你真的想解決像機器人任務或任何更複雜的問題時,你不可能準確地模擬出會發生什麼。

而且,我們人類也不是這樣靠完美的模擬做決策。我們只是在腦海中想像:「如果我這麼說,他大概會那樣回應。」這意味著,AlphaZero 原有的形態無法應用於這類問題,因為它需要一個模擬器來模擬遊戲、評估結果。而MuZero 的想法是:“好吧,我們已經有了一個深度神經網絡。這些網絡可以學習很多東西。那麼為什麼不教它去預測環境的未來,預測世界的未來呢?為什麼不讓模型自己學會預測它在採取每一步行動後將會發生什麼?”

(關於從遊戲到程式設計和數學) 你也把這項研究應用到了程式設計和數學領域,也就是AlphaCode 和AlphaTensor。從遊戲中的強化學習,再到編程,再到數學,經歷了這樣的演進。關於搜尋和學習的泛化能力,您學到了那些在當今的AI Agent 系統中仍然至關重要的東西?

遊戲是一個非常理想的沙盒,它讓我們能非常迅速地學到大量關於強化學習科學的知識。例如,那些演算法效果好,我們會遇到那些典型問題,甚至從技術角度來看,我們如何建構一個跨越多個資料中心、使用數萬台機器的學習系統?因為遊戲是極度「乾淨」的沙盒,是定義清晰的環境,所以我們可以做很多高品質的實驗。

而現在,我們擁有了更通用的模型——語言模型幾乎可以執行任何任務,但它們也更複雜,用它們做實驗的速度要慢得多——此時我們就可以應用從遊戲中獲得的同樣經驗了,比如:“我們知道如何構建一個真正穩健的強化學習基礎設施。” 那麼現在我們就可以為語言模型構建一套相同的基礎設施。再例如:「我們知道如果採用這種強化學習方式,模型就會學會利用獎勵機制的漏洞。」 所以我們可以將同樣的經驗和緩解技術應用到語言模型上。

07. 強化學習正在釋放AI Agent的巨大潛能

MuZero 有一個學習到的世界模型,現代的大語言模型AI Agent 是否有類似機制?它們是否擁有某種內在世界模型?預訓練和強化學習(RL) 的結合是否因為預訓練提供了這種隱式世界模型?為什麼花了這麼長時間才將兩者結合?擴展RL 的計算密集度有多高,它是否存在Scaling Law?在獎勵和訓練資料方面,目前最新的理念是什麼?質、量和時效性那個比較重要? RL 和AI Agent 的交集是什麼?如果我是開發者,我需要自己做RL 嗎?要實現AI Agent 的宏大夢想,目前還缺少什麼?

Julian Schrittwieser: (關於LLM的隱式世界模型) 我認為是有的。我會說語言模型擁有一個並非顯式的,但確實是隱式的世界模型。因為模型要能預測“這個句子下一個最可能的詞是什麼”以及“這一段接下來會如何發展”,它就必須在內部建模分析:究竟是怎樣的世界狀態,才會讓這個人說出這樣的話。

所以,這其實和MuZero 有點像,MuZero 擁有的也只是一個隱式的世界模型。它從來不會被訓練去預測「如果你執行某個動作,螢幕實際上會顯示什麼」。它也只是被訓練去隱性地預測:「如果我執行這個動作,我下一步該怎麼做?」或「這個動作對我有利還是有弊?」。因此,在這兩種情況下,你的模型中都有一個對世界的隱式表徵,你可以用它來做預測,但你並不是真正地重建世界的完整狀態。因為重建完整的世界狀態,成本可能極為高昂且異常複雜。想像一下超高解析度的視訊和音訊訊號,那是極其龐大的數據量,而你很可能並不真的需要所有這些資訊。

想想我們人類的注意力。我們始終只能意識到周圍正在發生的極小一部分事情,因為那才是我們做決策時真正需要的最相關資訊。

(關於預訓練的世界模型與風險) 關於這場爭論,不同的人有不同的看法,所以我不想代表任何人發言。但是,沒錯,在這些豐富的知識上進行預訓練,確實能讓你對世界建立某種表徵。這樣,當你真正開始行動、與世界互動時,你就能非常迅速地做出有意義的決策和行動。

我喜歡用一個類比來思考:你觀察很多動物,像是大草原上的瞪羚,它們一出生就很快知道怎麼移動,甚至怎麼奔跑。這顯然不是它們從頭學來的,畢竟它們出生才幾分鐘或幾小時。它們雖然沒有經歷預訓練,但它們的大腦中擁有某種進化編碼的結構。因為很顯然,掌握某種先驗知識對於提升學習效率是極為有益的。

我認為主要的挑戰,或者說你需要警惕的是,不要過度編碼,也不要過度限制你的搜尋空間。如果你的預訓練或先驗知識,反而阻礙了你去探索某條可能是正確的行動路線,那情況就很糟了。所以這裡面存在一些你必須意識到的風險。

(關於為何現在才融合預訓練和RL) 把語言模型擴展到我們今天所見的這種巨大規模,這件事本身就耗費了巨大的努力。而且從科學和工程的角度來看,預訓練和監督訓練更加穩定,也更容易調試,因為它沒有反饋循環。你基本上是面對一個固定的目標,然後你努力學習擬合這個目標。這樣你就可以專註:我的訓練是否有效?我的基礎設施是否正常運作?只要係統不崩潰,它就能擴充。

相較之下,在RL 中,你有一個回饋循環:「我學習到一些東西,然後用它來產生新的訓練數據,我再從這些新數據中學習。」在這種情況下,一旦出了問題,你很難搞清楚問題到底出在循環的那個環節。也許是你的訓練更新出了問題,導致模型行為突然變差了;又或許是你選擇動作的方式(即你的行為策略) 不正確,導致你產生了糟糕的訓練數據,進而搞砸了整個系統。

所以,要讓RL 系統正確運作起來,複雜度要高得多。因此,我認為一個合理的路徑是:先大規模擴展預訓練和架構,找到一些效果相當不錯的方案——尤其是當你已經能通過一些微調或提示取得很大進展時。然後,當你明確了這些模型確實具有通用性、確實非常有用,並且系統已經處於非常穩定的狀態時,你再去大力投入RL,推動模型能力更上一層樓。即使在我們自己的工作中,例如AlphaGo 和AlphaZero,我們也總是遵循類似的分離策略:我們首先使用固定的監督資料來設定網路架構和訓練流程。只有當這一步運作得非常可靠之後,我們才會去執行完整的RL 循環和全面訓練。因為如果你試圖同時調試所有東西,那簡直是註定要失敗。能夠隔離組件是非常有用的,你可以說:「我這邊有已知有效的數據,那邊有已知明確的目標。如果中間環節出了問題,我就能把它單獨拎出來排查。」這樣我們就能隔離排查系統的所有部分。

(關於RL的Scaling Law) 關於這方面公開發表的文獻還比較少。但我認為,縱觀RL 的所有文獻,我們發現在計算投入的回報上,預訓練和RL 非常相似。我們可以在RL 投入指數級成長的算力,並持續獲得收益。未來會有一些有趣的研究來搞清楚預訓練算力和RL 算力之間的權衡。例如,對於一個大模型,這兩者的算力分配應該是怎麼樣的呢? 50/50?還是1:10?如果是1:10,又是那邊佔1 那邊佔10?我認為這些問題都會非常有趣。但到目前為止,我們確實看到兩者都有很好的回報。

(關於獎勵機制) 我個人在獎勵建模方面做的工作不多。我主要研究推理、規劃和搜尋時計算,這些都是旨在透過投入更多計算來讓模型變得更聰明的方法。至於獎勵,我認為強化學習過程本身其實並不關心獎勵來自何處。我們的演算法很樂於使用任何來源的獎勵,無論它是來自人類的回饋訊號,還是來自遊戲輸贏、測試通過與否的自動訊號,或是更多由模型產生的訊號。例如,在Anthropic,我們有一篇關於憲法AI (Constitutional AI) 的論文,就是讓模型自己來評估(輸出) 是否遵循了某些準則。所以,系統在遵循何種獎勵訊號方面可以非常靈活。

我認為我們正目睹著獎勵機制和環境設定的巨大融合,而且人們正在非常努力地探索什麼是最佳的獎勵來源,以及我們該如何擴展它、如何獲得更多、更可靠的獎勵。這將是推動RL 進一步規模化的關鍵要素之一。

(關於RL的訓練資料) RL 的一大妙處在於,資料是由模型本身產生的。所以,我們的模型變得越智能,我們就能產生越優質的RL 資料;模型能解決的任務越有趣、越複雜,我們就能獲得越多可用於訓練的資料。因為任務越複雜,解決它所需的時間就越長,這個過程本身就會產生更多可用於訓練的資料。

我覺得挑戰之一在於,要找到那些真正能代表使用者實際需求的任務。因為現在的大語言模型太通用了,人們用它們來做各種各樣的事情,這就帶來一個日益嚴峻的挑戰:我們必須在RL 訓練中盡可能多地覆蓋這些應用場景,以確保模型真的能勝任如此多樣化的任務。

(關於資料品質vs數量) 我認為這是個非常有趣的問題,也許目前還沒有非常明確的答案,或者說這方面還有很多有價值的研究有待完成。我們看到有論文支援不同論點,也看到了不同因素帶來的好處。很明顯,在預訓練中,隨著資料規模的擴大,模型效能可以持續提升。但我們也看到了一些非常有趣的微調結果,有論文表明,僅用極少量的樣本,你就能教導模型掌握一項有用的技能。我認為我們目前還沒有很好的Scaling Law 來揭示這種權衡關係,特別是因為「數據品質」這個東西很難衡量。例如,你怎麼評判這個樣本比那個樣本品質高?如果無法衡量這一點,就很難以任何方式來量化這種權衡。

不過,直覺上來說,如果你用的是糟糕的數據,RL 的效果一定好不了。而如果你有非常高品質的數據,訓練過程就會變得穩定得多。例如,在AlphaZero 時代這一點就非常清晰。 AlphaZero 會投入大量計算,進行大量的規劃和搜尋,來決定下一步棋怎麼走。這個過程本身就產生了極高品質的資料來進行訓練,使得RL 訓練過程極為穩定。因此,你可以跨大洲(分散式) 運行它,花很長時間去產生數據,然後再用這些數據來訓練,整個系統非常穩健。

相較之下,在當下語言模型的RL 訓練中,模型本身的能力水準與它所產生的(用於訓練的) 資料品質之間的差距並沒有那麼大,因為我們更傾向於直接從模型採樣,然後用這些取樣來訓練它。這導致了強化學習過程不那麼穩定。因此,要擴展RL 並使其更穩定,一個方向就是改進這一點。例如,透過讓你的語言模型進行更多推理,來產生高品質的訓練數據,這反過來能讓我們的訓練過程更加穩定,從而更容易規模化。

(關於RL與Agents的交集) 我想,我們或許應該先明確一下,和通用的大語言模型相比,我們所說的「AI Agent」究竟指什麼?

我想,為了方便討論,我們姑且把AI Agent 定義為一個能夠自主行動的AI。例如它可以在電腦上執行某些操作,保存檔案、編輯檔案、發送郵件,諸如此類。它的主要特徵是,它不必時時刻刻與使用者互動,它可以自己獨立完成任務。

RL 對AI Agent 之所以如此重要,原因其實要追溯到預訓練。因為我們的預訓練數據,其形態和AI Agent 的行為相去甚遠。你想想預訓練資料裡面有什麼?網站、書籍,各種各樣的書寫文字。這些文字蘊含了大量訊息,但並不包含多少「行動」。它們並沒有真正捕捉到人類是如何與世界互動的。因此,如果我們拿一個原始的預訓練模型,它並不能成為一個好的AI Agent。也許你可以透過提示引誘它朝某個方向走,但它不會擅長與環境互動,尤其不擅長糾正自己的錯誤,因為預訓練資料裡根本就沒有任何關於「AI Agent 會如何失敗」的案例。

而這恰恰是強化學習大顯身手的地方。在RL 中,我們可以讓AI Agent 去和環境互動,然後直接利用這些互動資料進行訓練。舉個例子,如果AI Agent 做得好,我們就強化那些導向好結果的行動;如果它做得差,我們就把它推離那些導向壞結果的行動。如果AI Agent 一開始搞砸了,但後來它設法「自救」成功了,我們同樣可以強化這種「挽救錯誤」的行為。這一點至關重要,因為它讓AI Agent 真正有機會從它自己的行為分佈中學習。這使得AI Agent 變得更加穩健,因為它不再需要去泛化到那些它從未見過的情況。現在它可以直接在它試圖解決的真實問題上學習。這就是為什麼RL 正在真正釋放如此多AI Agent 潛能的原因。

(關於開發者是否需要自己做RL) 我認為在今天,憑藉Anthropic 頂級的Claude 模型或OpenAI 頂級的GPT 模型的能力,你作為應用開發者根本不需要做任何微調。你可以直接使用這些模型,編寫你自己的工具和你自己的任務框架,就能從它們內建的AI Agent 學習能力中獲益。因為要做好AI Agent 的微調其實非常困難。你自己微調的效果,很難超越你從我們這裡拿到的頂級前沿模型。

但反過來說,設計好的工具,以及為你的任務找到一種好的表達方式,卻能帶來天壤之別。你向模型描述問題的方式,決定了任務的難易度。所以,你在這方面是大有可為的。

(關於Agent還缺少什麼) 我認為我們在整個領域都需要全方位的、基礎性的改進。例如,讓模型更善於修正自己的錯誤;讓模型能夠長時間保持專注、不「分心」;讓模型變得更聰明;也許還要讓模型更快。我們有一整套待辦事項,我們清楚知道這些方面都亟待改進。

並不存在某一個單一的障礙。因此,我們將看到模型在迭代發布中持續取得平穩的、漸進式的進展。鑑於我們已知還有很多事情可以做得更好、可以改進,我對模型最終的發展方向充滿期待。 AI 之所以成為一個如此有趣的領域,原因之一就在於:目前有太多顯而易見的改進點,人們知道能在這些方面做得更好,但同時現有的模型又已經很出色了,這使得投身其中充滿樂趣。這就好比:「我能修復這個問題,它會變得更棒。」相反,如果你所處的領域所有問題都已解決,那麼要弄清楚如何讓它變得更好就很難了。那是完全不同的情況。

08. 評估、安全與未來

我們來談談評估。你的部落格文章提到了「古德哈特定律」。它是什麼?實驗室如何避免「排行榜作秀」? Anthropic 內部如何評估?關於機制可解釋性,目前進展如何? RL 是讓它變難了還是變容易了?最後,關於AI 的影響,Anthropic 如何實踐安全與對齊?對齊本質上是一個RL 問題嗎? AlphaGo 的經驗是否能讓我們預見AI 對工作的影響?這會加劇不平等嗎?

Julian Schrittwieser: (關於古德哈特定律) 古德哈特定律的核心觀點是:任何一個被用作目標的衡量標準,都不再是一個好的衡量標準。人們可以憑直覺理解這一點:例如,如果開始根據程式設計師編寫的程式碼行數支付報酬,那麼他們很快就會發現各種方法來加入大量完全無用的註解行。這是一個普遍的效應,如果你給人們一個明確的激勵目標去優化,他們自然會盡全力去達成。

我們在大語言模型基準上也看到了這種情況。人們希望獲得晉升,希望發布自己的模型。因此,任何一個太容易衡量或備受關注的基準,都會被人們極力地針對性優化。這意味著模型在該基準上可能表現出色,但當使用者把它用於自己的實際任務時,可能會得到截然不同的性能。

你問我們該如何應對?要阻止人們針對基準進行最佳化很困難。因此,一種可能性是周期性地創造全新的、之前沒有人見過的留出基準(held-out benchmarks)。這能讓評估者對模型的表現有比較好的評估。例如,許多研究人員都有自己私有的測試案例,他們用這些問題來測試所有模型,正是因為這個原因──這是一群沒人見過的問題,評估者很有把握能得到一個無偏的估計。對於正在決定使用那個模型的個人開發者或公司而言,情況可能也類似。建立自己的內部基準,這個基準要能實際代表你所關心的問題,然後用它來衡量。這可能是最客觀、最準確的衡量方式。

(關於內部評估) 大約五年前,我們做的那些任務,要做好評估比現在容易。那時衡量模型效能要簡單。如今,情況變得困難很多,我們也盡量不過度依賴評估。例如,要衡量一個模型編寫程式碼的能力究竟有多好,很困難。製造出優秀的評估——既要運行成本低廉、又要可靠且準確——這是本領域尚未解決的重大問題之一。因為要做出只滿足其中一項的評估相對容易,但要三者兼得就很難了。例如,我們一開始談到的OpenAI 的GDP-Val,它準確且無偏,但運作成本極為高。因為它實際上需要邀請人類專家來執行任務,然後將模型的表現與專家的表現進行對比,並由多人進行評分。所以它很準確,但成本極高。

(關於可解釋性與RL) 我之前的意思是,調試RL 本身通常更困難,這和可解釋性並無直接關係,只是因為它涉及的變數更多。但情況也確實如此:如果在運用RL 時處理不當,是可能會讓可解釋性變得更難。例如,現代模型普遍會使用思考鏈進行推理。人們可以查看思維鏈來瞭解模型的內部思考過程。這時人們可能會想:「也許我應該把這個思維鏈用作RL 的獎勵訊號,如果模型想錯了就懲罰它。」但一旦這麼做了,就徹底摧毀了可解釋性這條路徑。因此,必須非常小心,不能把那些人們本來想用來解釋模型思想或行為的訊號,當作RL 的目標來進行訓練。

話雖如此,目前在可解釋性領域,包括機制可解釋性,正發生一些令人興奮的進展。去年,在我加入Anthropic 之前,出現了一個很酷的「Golden Gate Claude」模型。研究人員在Claude 模型中找到了負責「金門」這個概念的神經元,然後修改了它們,創造出了一個「熱衷於」舊金山金門大橋的Claude 版本。這是一個生動的例子,顯示「人們瞭解模型內部發生了什麼」。還有什麼比實際改變模型的行為更能驗證這種理解呢?

因此,這對安全而言是一個至關重要的方向。隨著模型變得越來越智能,我們迫切需要能夠理解:模型內部在想什麼?它持有什麼樣的價值觀?它在對我們撒謊嗎?它是否在真正遵循指示?這一個需要投入和攻關的極為重要的領域。特別是如果有人對從事AI 工作或AI 研究感興趣,可解釋性是一個很好的切入領域。

(關於Anthropic的安全實務) 對安全性和對齊的重視貫穿了Anthropic 的所有工作。當我們訓練模型或準備發布模型時,都有嚴格的流程:既要分析模型的能力,也要驗證模型的對齊性,確保它不會自主做出有害行為,並確保它不會被惡意使用者利用來做有害的事情。

嚴格到什麼程度呢?如果我們對一個模型的安全性沒有把握,我們就會推遲發布,直到我們有充分的把握確認它是無害的,否則我們絕不會上線或發布這個模型。這足以表明,大家對安全的重視遠遠超過了任何財務回報或收入。同時,在研究和資源投入方面,致力於安全和可解釋性的團隊也是公司的重點。這讓我很有信心,我們是在關心這件事,並為此付出了很多努力。

(關於對齊是否是RL問題) 我們可以使用RL 來塑造模型的行為,確保它在面對例如對抗性輸入或不良輸入時,能安全地應對,或者知道應該拒絕,並且對於試圖進行提示詞破解 的行為具有魯棒性。但我不會把對齊僅僅視為一個RL 問題。它貫穿了整個技術堆疊。例如,人們可能需要以某種方式過濾預訓練資料;在訓練之後,可能需要用分類器來審視和監控模型的行為,確保它是對齊的;當為模型編寫系統提示時,人們可能也會在其中加入安全指南。因此,安全與對齊這個問題,滲透在研究、產品和部署的每一個環節,它絕不侷限於某一個特定部分。

(關於AI對工作的影響) 我們目前還沒談到的第一點是:人工智慧——這聽起來可能有點過於簡單——但它與人類智慧截然不同。這一點顯而易見,模型在某些任務上(例如計算) 比我們強得多,但在另一些任務上則比我們差得多。因此,我不認為這會是某種一對一的替代方案。它更多的是一種互補關係:模型擅長某些我可能不喜歡、不感興趣或不擅長的事情;而我在其他方面則比模型強得多。因此,這將是一個漸進的過程,我們所有人都會逐漸地、越來越多地開始使用模型來提高自己的生產力,而不是突然出現一個模型,能一對一地複製我們能做的所有事情。

舉個例子,我一直使用Claude 來幫我重構程式碼,或是寫一些我不想寫的前端程式碼。但同時,在編碼的其他方面,我仍然比Claude 強得多。因此,這裡存在著一種協同效應——發揮各自最好、最高效的技能。經濟學家稱之為比較優勢。我們將經歷一個漫長的過程,人類和AI的生產力都會逐步提升。這個過程會給我們一些時間,去從政治和經濟層面弄清楚,我們希望如何從這場生產力提升中獲益。

即使不談AI,長久以來,科技給我們的承諾一直是:我們將變得非常有效率、非常富有,以至於我們不再需要工作那麼長時間。但不知為何,幾十年來我們依然維持著每周40 小時的工作制。因此,這更多的是一個政治和社會問題——我們如何從所有這些進步中獲益,並將財富和生產力的成長帶給每一個人。這在很大程度上不是一個技術問題。這也意味著我們無法單純用科技來解決它。必須在民主和政治的層面上來解決──我們該如何分配這些利益?

(關於不平等與棋手) 至少在西洋棋和圍棋領域,人們的興趣反而更濃厚了,而且大家學習下棋也變得容易得多。因為現在人們不需要去找專家導師,任何人都可以在自己的裝置上練習,花大量時間,國際象棋主播在Twitch 上就非常受歡迎。同樣,現在也有很多學生在用大語言模型來輔助學習。

編碼領域也是如此。 Claude Code 這類AI Agent,它們確實提高了任何一個有想法的人憑一己之力所能達到的成就下限。至於宏觀上它究竟是加劇還是減少了不平等,這很難預測。一方面,它提高了普通人能達到的水平下限;另一方面,它也讓那些本來就有效率的人有機會變得更有效率。很可能我們會看到,不同的國家,根據其稅收和社會再分配體系的不同,在不平等的增減上呈現出顯著差異。但總的來說,令人興奮的一點是,這本質上是一個非零和(non-zero-sum) 遊戲。它大大增加了社會可用的總財富。

如果我們思考進步和繁榮,這才是最重要的事。只是重新分配蛋糕,是一種消極的做法。要變得更富裕,必須把蛋糕做大。回想農業革命和工業革命,我們今天能過著更好的生活,根本原因在於生產力大大提高了,我們擁有了多得多的財富。這才是我們希望解鎖的關鍵一步。

如果我們能讓社會上每個人的生產力都提高10 倍,我們將能實現怎樣的富足?這才是關鍵問題。這能在醫學上解鎖怎樣的進步?例如治癒疾病、延緩衰老。這能在能源領域解鎖什麼?我們正面臨氣候危機,需要更多能源來維持現有的生活方式。人們能在材料科學上取得什麼突破?所有這些進步,其瓶頸都在於人們能呼叫多少智慧以及如何應用這些智慧。因此,我對我們未來五年所能解鎖的成就感到非常樂觀。我們可以走得非常遠。 (數位開物)