AI即將進入下半場

2025/04/17

•

推薦語

今天給大家推薦閱讀的這篇文章為就職於OpenAI的一位研究者姚順雨近日發佈於github的一篇博文。作者一直致力於智能體的研究，在ICLR、NeurIPS等國際頂會發表了許多研究成果，其中多篇被評為Oral論文（top 5%）。在文章中，作者提到了幾個非常犀利的觀點和思考：

以開發新的訓練方法和模型、攀登更難的基礎測試為核心遊戲規則的AI上半場已接近尾聲，這個過程中誕生了DeepBlue、AlphaGo、GPT-4以及o系列等一系列里程碑。

是什麼帶來了AI上半場的終結——基於“演算法+環境+先驗知識”的綜合“配方”，強化學習實現了泛化。這套配方已經將“基準測試攀爬”標準化並工業化，不論面對多難的基準測試，很快（甚至越來越快）也會被這套配方所解決。

現在將進入了AI的第二個階段：從解決問題轉向定義問題。在這個新時代，“評估”的意義將超越訓練本身，我們應該從根本上重新思考“評估”的方式——“我們究竟應該訓練AI做什麼，以及如何衡量實際的進步？” 在AI的下半場，我們需要成為一個好的產品經理。換句話說，在AI的下半場，我們需要成為一個好的產品經理。

文章邏輯清晰，對AI發展歷程及未來方向進行了深刻洞察，無論是AI領域專業人士還是對該領域感興趣的讀者，都能從中獲得啟發，值得一讀。

source：https://ysymyth.github.io/The-Second-Half/

我們正處於AI的中場休息階段。

幾十年來，AI主要集中在開發新的訓練方法和模型上，並且，這一策略奏效了：從擊敗國際象棋和圍棋的世界冠軍，到在SAT和律師考試中超越絕大多數人類，再到獲得國際數學奧林匹克競賽（IMO）和國際資訊學奧林匹克競賽（IOI）的金牌。這些里程碑背後——像是DeepBlue、AlphaGo、GPT-4以及o系列——體現的是AI方法上的基礎性創新：搜尋、深度強化學習（RL）、規模化以及推理能力。事物總是在不斷變好的過程中。

那麼，現在突然有什麼不同了嗎？

用一句話來概括：強化學習（RL）終於奏效了。更準確地說，RL終於實現了泛化。在經歷了數次重大曲折和里程碑事件之後，我們終於掌握了一套可解決多種RL任務的有效“配方”，結合語言和推理的力量。即使在一年前，如果你告訴大多數AI研究人員，單一的一種方法可以勝任軟體工程、創意寫作、IMO等級數學、滑鼠和鍵盤操作以及長篇問答等任務——他們會嘲笑你有“幻覺”。但是，這一切真的發生了。

那麼接下來呢？從現在開始，我們進入了AI的第二階段：從解決問題轉向定義問題。在這個新時代，評估的意義將超越訓練本身。我們不再只是問“我們能否訓練模型解決X問題？”，而是問“我們究竟應該訓練AI做什麼，以及如何衡量實際的進步？”要在第二階段中取得成功，我們需要及時轉變思維方式和技能體系，這些可能更接近產品經理的職責定位。

上半場

The First Half

要理解上半場的意義，不妨來看一看它的贏家。你認為到目前為止，最具影響力的AI論文有那些？

我試過了斯坦福224N課程中的測試，答案並不讓人意外：Transformer、AlexNet、GPT-3等等。這些論文有什麼共同點？它們在如何訓練更好的模型方面提出了一些基礎性的突破。此外，它們還通過在某些基準測試上展示（顯著的）改進而成功發表了論文。

不過，還有一個潛在的共性：這些“贏家”都是訓練方法或模型，而非基準測試或任務。即使是可以說最具影響力的基準測試——ImageNet，其引用量還不到AlexNet的三分之一。方法與基準之間的對比在其他領域更加鮮明——例如，Transformer的主要基準測試WMT’14，其會議報告大約有1,300次引用，而Transformer的論文引用量已超過160,000次。

這充分說明了AI上半場的“遊戲規則”：重心在於建構新的模型和方法，而評估和基準測試只是次要角色（儘管為了發表論文體系的運轉依然是必要的）。

為什麼會這樣？一個重要原因是，在AI的上半場，方法的開發比任務的定義更困難也更讓人興奮。從零開始創造一個新的演算法或模型架構——比如反向傳播演算法、摺積網路（AlexNet）或GPT-3中使用的Transformer——需要非凡的洞察力和工程技術。相比之下，為AI定義任務往往顯得相對更簡單：我們只是把人類已經在做的事情（例如翻譯、圖像識別或者國際象棋）轉化為基準測試，幾乎不需要什麼深刻的洞見甚至工程化的努力。

另一方面，方法往往比單個任務更具有普適性和廣泛應用價值，這使得方法顯得尤為重要。例如，Transformer架構最終推動了電腦視覺（CV）、自然語言處理（NLP）、強化學習（RL）以及許多其他領域的進步——遠遠超出了它最初在WMT’14翻譯資料集上證明自身價值的範圍。一個優秀的新方法可以在多個不同的基準上取得進展，因為它足夠簡單、通用，其影響通常能夠超越單一任務的限制。

這種模式已持續數十年，並催生了改變世界的創意和突破，這些成果通過在各個領域不斷刷新基準測試表現得以呈現。那麼，為什麼這套“遊戲規則”會發生改變？因為所有這些創意和突破的累積，已經在解決任務的過程中產生了質的飛躍，為建立一套通用、有效的解決方法提供了基礎。

配方

The Recipe

什麼是這套“配方”？它的組成部分並不意外，包括大規模的語言預訓練、資料與計算的規模化，以及推理與行動的理念。這些可能聽起來像是你在舊金山每天都會聽到的流行詞彙，但為什麼要稱它為“配方”呢？

通過強化學習（RL）的視角可以理解這一點。RL通常被認為是AI的“終局”——畢竟，從理論上講，RL可以保證在遊戲中獲勝，而從經驗上看，沒有強化學習，很難想像像AlphaGo這樣的超人類系統會存在。

在RL中，有三個關鍵要素：演算法、環境和先驗。長期以來，RL研究人員主要專注於演算法（例如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等）——也就是智能體學習的核心方法——而將環境和先驗視為固定或者最小化的部分。例如，Sutton和Barto的經典教材幾乎全篇都在講演算法，而對環境或先驗涉及甚少。

然而，在深度強化學習（deep RL）的時代，經驗表明環境的重要性：一個演算法的性能通常高度依賴於它開發和測試的環境。如果忽視環境，你可能會建構一個“最佳”的演算法，但它只能在玩具般的設定中表現出色。那麼，為什麼我們不先確定我們真正想要解決的環境，再尋找最適合解決該環境的演算法呢？

這正是OpenAI的初始計畫。他們建構了Gym，這是一個標準的強化學習環境，用於各種遊戲；然後是World of Bits和Universe項目，嘗試將網際網路或電腦變成一個“大型遊戲”。這個計畫聽起來很不錯，對吧？一旦我們將所有的數字世界轉化為一個環境，再用聰明的強化學習演算法解決它，我們就能實現數字版的通用人工智慧（digital AGI）。

一個好計畫，但並非完全奏效。OpenAI在這條道路上取得了巨大進展，用強化學習解決了Dota、機器人手臂等問題。但它從未接近解決電腦使用或網頁導航的問題，而且一個領域中工作的強化學習代理無法遷移到另一個領域。顯然，有什麼東西缺失了。

直到GPT-2或GPT-3發佈後，人們才意識到，缺失的部分是“先驗知識”（priors）。你需要強大的語言預訓練將通用的常識和語言知識蒸餾到模型中，然後再對其進行微調，變成網頁代理（WebGPT）或聊天代理（ChatGPT），並最終改變世界。事實證明，強化學習中最重要的部分可能不是強化學習演算法本身或環境，而是先驗知識——而這些先驗知識的獲取方式完全可以和強化學習無關。

語言預訓練為聊天代理建立了很好的先驗知識，但在控制電腦或玩視訊遊戲的方面卻表現得不盡如人意。為什麼呢？因為這些領域距離網際網路上的文字分佈更遠，單純在這些領域上進行有監督微調（SFT）或強化學習（RL）無法實現良好的泛化。

我第一次注意到這一問題是在2019年，當時GPT-2剛剛推出，我嘗試在其基礎上進行SFT和RL以解決文字冒險遊戲問題——CALM成為世界上第一個基於預訓練語言模型建構的代理。但代理需要經曆數百萬次強化學習步驟才能爬過一個遊戲，而且無法遷移到新的遊戲。這雖然是強化學習本身的典型特性，並不令強化學習研究者感到奇怪，但我卻覺得很詭異，因為我們人類可以輕鬆玩一個新遊戲，而且在零樣本情況下表現顯著更好。然後，我迎來了人生中第一次“靈光一現”的時刻——我們人類能泛化，因為我們不僅可以選擇“去櫃子2”或“用鑰匙1打開寶箱3”或“拿劍殺死地牢裡的怪物”，我們還能選擇思考：“地牢很危險，我需要一把武器對付它。眼前沒有可見的武器，所以我可能需要在上鎖的箱子或寶箱裡找到一件。寶箱3在櫃子2里，我得先去那裡把它打開。”

思考，或者說推理，是一種奇怪的行動形式——它不會直接影響外部世界，但推理的空間卻是開放且組合無限的。你可以思考一個單詞、一句話、一段文字，甚至是10000個隨機的英語單詞，但周圍的世界不會立刻因此發生變化。在經典的強化學習（RL）理論中，這是一樁糟糕的交易，並讓決策變得不可能。

想像一下，你需要在兩個箱子中選擇一個，其中一個箱子裡有100萬美元，而另一個是空的。你的預期收益是50萬美元。現在，假設我加入了無數個空箱子，那麼你的預期收益就會變成零。

然而，如果將推理作為任何強化學習環境中行動空間的一部分，就能利用語言預訓練先驗知識來實現泛化，同時我們還能夠為不同的決策提供靈活的測試時計算資源。這真是太神奇了，我為自己沒辦法將這種想法完全解釋清楚而感到抱歉，可能需要另寫一篇部落格專門探討它。如果有興趣，可以閱讀ReAct瞭解關於智能體推理的最初討論，同時也可以瞭解我當時的一些思考。在這裡，我只能給出一種直觀的解釋：即使加入了無數個空箱子，但你在各種遊戲中已經見過無數這樣的選擇，而選擇這些箱子反而能夠幫助你在任何特定的遊戲中更好地找到裝有錢的箱子。抽象的解釋則是：語言通過智能體中的推理實現了泛化。

一旦我們擁有了正確的強化學習先驗知識（語言預訓練）和適當的強化學習環境（將語言推理作為行動引入），最終可能發現，強化學習演算法反而成了最不重要的部分。這就是為什麼我們現在擁有了o系列、R1、深度研究、電腦操作智能體等等，未來還會有更多的進展。這是一個多麼諷刺的局面！長期以來，RL研究者對演算法的關注遠遠超過了對環境的關注，同時幾乎沒有人在意先驗知識——幾乎所有的RL實驗都從零開始。但我們卻花了數十年的彎路才意識到，也許我們的關注點從一開始就應該完全相反。

正如史蒂夫·賈伯斯所說：“你無法在向前看的時候把點點滴滴連貫起來；你只能在回顧時連接它們。”

下半場

The Second Half

這套“配方”正在徹底改變遊戲規則。回顧上半場的遊戲：

我們開發了新的訓練方法或模型，用以攀登基準測試的高度。
我們建立了更難的基準測試，並繼續重複這一循環。

然而，這種遊戲正在被破壞，因為：

這套配方本質上已經將“基準測試攀爬”標準化並工業化，而不再需要太多新的想法。隨著配方具備更好的擴展性與泛化能力，你為特定任務設計的新方法可能只能提升5%的效果，而下一個o系列模型卻能無目標地直接提升30%。
即使我們建立了更難的基準測試，很快（甚至越來越快）它們就會被這套配方所解決。我同事Jason Wei製作了一張很漂亮的圖，形象地呈現了這一趨勢：

那麼，在下半場還有什麼值得去玩？如果新方法不再需要，更難的基準測試也會被越來越快地解決，那我們應該做些什麼？

我認為，我們應該從根本上重新思考“評估”的方式。這不僅意味著去建立新的、更難的基準測試，還需要徹底質疑現有的評估設定，並建構全新的評估框架，以迫使我們不得不超越已有配方發明新的方法。這樣的任務很難，因為人類具有“慣性”，很少質疑基本假設——你僅僅將它們視為理所當然，而沒有意識到它們其實只是“假設”，而不是“定律”。

為了說明這種慣性，假設你基於人類考試發明了歷史上最成功的評估之一。在2021年，這可能是一個極具膽識的創意，但三年後，它已經飽和。你會怎麼做？很可能是設計一個難度更高的考試。又或者你解決了一些簡單的程式設計任務。你會怎麼做？大機率是尋找更難的程式設計任務來完成，直到達到了國際資訊學奧林匹克競賽（IOI）金牌的水平。

慣性是自然的，但問題在於，AI已經在國際象棋、圍棋上擊敗了世界冠軍，在SAT考試和律師資格考試中超過了大部分人類，並達到了IOI和國際數學奧林匹克競賽（IMO）金牌水平。然而，從經濟學和GDP的角度看，世界並沒有發生太大的改變。

我稱之為“效用問題”（the utility problem），並認為這是AI領域最重要的問題。

或許我們很快就能解決效用問題，或許不會。但無論如何，這個問題的根本原因可能看似簡單而具有迷惑性：我們的評估設定與現實世界的設定在許多基本方面是不同的。舉兩個例子：

評估“應該”是自動運行的，因此通常一個智能體（agent）會接收任務輸入，獨立完成任務，然後獲得任務獎勵。而在現實中，智能體必須在整個任務中與人類互動。比如，當你向客戶服務傳送一段超長的資訊，等待10分鐘後，你不會指望得到一個能夠解決所有問題的詳細回覆。通過對這種設定提出質疑，引發了新的基準測試的發明，例如主動與真人互動的Chatbot Arena，或者將使用者模擬納入評估的tau-bench。

評估“應該”是獨立同分佈（i.i.d.）進行的。如果你有一個包含500個任務的測試集，你可以獨立處理每個任務，計算各任務的平均指標，得到一個整體指標。但現實中，任務的解決往往是順序進行的，而不是平行完成的。比如，一名Google軟體工程師在處理google3項目中的問題時，會隨著對程式碼庫的熟悉程度提高而表現得越來越好；但一個軟體工程智能體處理同一項目中的許多問題時，卻無法獲得這樣的熟悉程度。顯然，我們需要引入長期記憶的方法（其實已經有一些方法存在），但學術界卻沒有合適的基準來證明這種需求，也缺乏足夠的勇氣去質疑作為機器學習基礎的i.i.d.假設。

這些假設“從來”就是這樣的。在人工智慧的上半場，這些假設下的發展基準是合理的，因為當智能水平較低時，提升智能通常就能帶來實際應用價值的提升。但如今，通用的配方已經能夠在這些假設下奏效。所以，要玩下半場的新遊戲，我們的方式是：

開發嶄新的評估設定或任務，以追求真實世界的實際價值。
使用已有的配方來解決這些任務，或通過新元件對配方進行增強。然後不斷循環。

這種遊戲之所以困難，是因為它陌生。但它也令人興奮。在上半場，玩家專注於解決電子遊戲和考試的挑戰，而在下半場，玩家則有機會通過將智能轉化為實用產品打造價值百億或兆美元的公司。在上半場，填滿的是增量的方法和模型；而在下半場，這些增量方法會被大幅篩選。如果你不能創造出打破通用配方的新假設，那你的增量方法將被碾壓。但如果你能打破這些假設，那你就有機會做出真正改變遊戲規則的研究。 (FuturePulse)