#RL | 熱門關鍵字 | 鉅亨號

華人學者參與的一項研究，重新確立了強化學習在LLM微調的價值，深度解釋了AI訓練「兩階段強化學習」的原因。某種意義上，他們的論文說明RL微調就是統計。最近，輝達的高級研究科學家、牛津大學博士yobibyte，推薦了今年3月公佈的arXiv預印本論文。來自卡內基美隆大學和康乃爾大學等機構的研究者，在論文中解釋了初看違反直覺的現象：從根本原理上看，微調基礎模型為什麼要採用兩階段訓練流程，才能達到最強的結果？具體而言，當前主流的兩階段方法需要訓練獎勵模型（reward model，RM）為下游強化學習（reinforcement learning，RL）提供線上回饋；而不是直接透過離線最大似然估計，對策略參數進行最佳化。從資訊理論角度來看，獎勵模型的間接處理必然導致資訊損失，而線上策略採樣（on-policy sampling）並沒有創造新資訊。論文連結：https://arxiv.org/abs/2503.01067為解釋此一矛盾，研究者透過理論與實證的雙重視角，系統檢驗了關於RL在FT中價值的若幹假說。在所有研究人員考察的假說中，最具解釋力的發現是：當任務存在「生成-驗證」差距（ generation-verification gap）時，在線微調表現更好，是因為結合了以下兩個因素：1. 驗證器更容易學習：從偏好資料學習相對簡單的RM（驗證器）更為容易2. 策略空間過濾：下游RL過程，可以把搜尋空間限制在對驗證器來說最優的策略（即生成器）上正是這種機制帶來了在線微調的優越性能。圖1：線上微調優越性能的解釋LLM微調：強化學習重要嗎？在學術界、工業界和開源社群的對比研究中，有一種反覆出現的現象：相對複雜的雙階段在線微調方法，普遍優於更簡單、純離線的方案。更廣義地說，互動式監督微調（supervised fine-tuning，SFT），也已經被證明優於傳統的「next-token prediction」訓練方式。值得注意的是，目前最先進的複雜推理模型（如OpenAI的o1和DeepSeek的r1）依然採用線上強化學習訓練，而非離線最大似然估計。這些現象引出了一個根本性問題——如果只是想最大化似然函數，那麼採用雙階段、互動的微調流程到底有什麼價值？後訓練的理論難題之所以難以對此給出令人滿意的回答，部分原因在於，傳統強化學習的線上訓練理論，難以直接遷移至基礎模型的後訓練場景。一些反直覺的發現似乎暗示：當前主流的互動式訓練範式，可能只是一條「鍍金」而非「真金」的技術路徑。對此，研究者從理論和實證兩個角度深入分析了強化學習在微調（FT）中的價值，主要聚焦於偏好微調（preference fine-tuning）。同時也指出類似的分析可以應用於監督微調（SFT）和基於驗證器的強化學習情境。他們的主要貢獻包括以下三點：1. 等價性證明在理想化假設下，在線和離線的PFT技術應當能產生相當品質的策略。2. 反對先前假設的證據特別地，他們提出證據反對多種既有的解釋。3. 備擇假設的證據他們提出並驗證了一個新的假設，用於解釋存在「生成-驗證」差距的問題中，強化學習的作用。兩階段互動微調的價值假設：兩階段互動微調將待探索的策略空間，縮減至僅適用於相對簡單的驗證器最優策略集合。用統計學習的術語來說，這個假設意味著，強化學習在微調中的真正價值在於：它是目前已知的最方便的「適當學習」（proper learning）方法。相較之下，離線方法屬於「不當學習」（improper learning）。在所有檢驗的假設中，反對這項假設的證據最少。接下來，我們將一睹線上與離線偏好微調（PFT）之間的一系列等價定理，並進一步探討，如何將這些理論等價性與現實中在線/離線性能差距的問題統一起來。統一角度下的RL微調這部分將從似然函數的角度，統一不同的偏好微調方法。統一的獎勵模型下文以Π表示策略集合，以R表示獎勵模型集合，其中每個獎勵模型r∈R都是從完整軌跡集合對應到實數的函數在實際應用中，通常策略模型和獎勵模型使用相同的網路架構，並且往往從相同的初始權重（checkpoint）和資料集出發進行訓練。這種對整個軌跡進行評估、依賴完整上下文的獎勵模型被稱為「全域獎勵模型」（global reward models），即非馬可夫型獎勵模型。但策略與獎勵模型的連結不止於共享模型架構。更進一步地，當獎勵模型的形式為：策略對每一個token的對數機率總和時，二者之間存在更精確的「結構同構」關係。形式化地，「局部獎勵模型」（local reward models）定義為：即，每個局部獎勵模型都是某個策略π生成的軌跡上所有token的對數機率總和。由此可得：這類獎勵模型與策略集合之間存在著一一對應關係。統一的微調目標函數從整體來看，可以將各種微調任務（例如監督微調SFT、偏好微調PFT）統一地表述為以下形式的策略最佳化問題：這個目標函數包含兩個部分：第一項是正向KL散度，第二項是反向KL散度。為簡化表述，暫時設β=1，並將第二項的KL正則項替換為熵正則項（即與「均勻策略」的KL散度）：其中，𝓗(π)表示策略π的（因果）熵，其定義為：也就是說，熵越大，策略越「分散」或「探索性強」，這在最佳化中起到與KL正則類似的作用。無論是在線上或離線的偏好微調方法（PFT），都可以看作是在優化這個統一的目標函數，只不過使用的手段和路徑截然不同。統一目標函數的普適性值得注意的是，這個目標函數並不限於偏好微調；同樣也適用於：監督微調（SFT）；使用二分類標籤（0/1）訓練出的獎勵模型所驅動的強化學習（RL with reward models）。也就是說，這是一個廣義的、適用於多種微調方式的統一框架。極大似然=最小化正向KL散度最大似然估計（maximum likelihood estimation，MLE）等價於最小化從經驗資料分佈到模型分佈的正向KL散度（Forward KL）。在偏好建模中，這一點也同樣成立。以經典的Bradley-Terry模型為例，偏好機率可以表示為：其中「≻」表示「更偏好」（preferred to），σ是sigmoid函數。換句話說，每一個全域獎勵模型對應一個Bradley-Terry機率模型。接下來的目標是在訓練資料上，最大化這個機率模型的似然函數，來找出最優的獎勵模型。可以看到，擬合全域獎勵模型，實際上就是在解決標準的邏輯迴歸/分類問題。類似地，如果使用的是局部獎勵模型r^π（也就是由策略π產生的對數機率總和），那麼也可以透過最大似然估計（MLE）來擬合這個策略。方法是將r^π表示為對數機率的和，代入Bradley-Terry模型：在不考慮參考策略π_ref的前提下，像是直接偏好優化（ Direct Preference Optimization，DPO）這樣的離線偏好微調（offline PFT）方法的本質：局部獎勵模型，是在軌跡層級上進行的分類問題。換句話說，DPO的核心就是：讓策略學會判別「好」軌跡與「差」軌跡，學習目標與邏輯迴歸極為類似。最大熵=軟強化學習給定一個全域獎勵模型r，我們通常希望計算其對應的軟體最優策略（soft-optimal policy）也就是說，大家希望找到一個策略，在期望獎勵最大化的同時，同時保持一定的熵（探索性）。如果在所有馬可夫策略上對上式求得閉式解，那麼最終得到的策略，其在給定提示詞s_0下生成軌蹟的分佈為：其中Z(r,s_0)是歸一化常數，確保所有機率總和為1。請注意，如果兩個軌跡ξ1,ξ2具有相同的起始提示詞s_0，則它們之間的偏好機率可以寫成：換句話說，BT模型中的偏好機率，其實可以看成是軟最優策略下軌跡機率的對數差的sigmoid函數。一個重要但不太為人所知的觀點是：求解上述軟強化學習問題，其實等價於將Pr⋆進行反向KL投影（Reverse KL Projection）到策略誘導的軌跡分佈空間。在線與離線策略微調（PFT）均可視為對公式（3）的求解。離線方法直接在策略類Π上，透過前向KL散度將偏好資料集D投影到策略空間。而線上方法則先在獎勵模型類R下將D進行投影，再透過策略優化對應至策略空間。圖2：線上與離線策略微調（PFT）均可視為公式（3）的求解。同構類別之間的等價性前面的討論引出了一個問題：如果最後還是回到策略空間（policy space），那麼引入獎勵模型（reward model）繞一步遠路到底有什麼意義？以下將證明，在某些假設條件下，這麼做其實只是用一種更曲折的方式來實現似然最大化。現在給出第一個等價性結論。在沒有參考策略（reference policy）的情況下，線上和離線的偏好微調（PFT，Preference Fine-Tuning）會得到相同的解，如果滿足一些額外的特定假設。換一種更傳統的說法，這意味著最大似然估計對重參數（reparameterization）是「不變」的。在假設函數可以被實現的前提下，也可以在引入參考策略的情況下證明一個類似的結果：綜上所述，前述結果顯示：在特定假設條件下，所有路徑最終都歸結為似然函數。也就是說，相較於離線極大似然估計，投入運算資源進行策略採樣（on-policy sampling）並不能帶來顯著優勢。為了更深入地理解前述理論的侷限性，研究者設計並進行了一系列受控實驗，以檢驗所提出的各種假設。強化學習的5個假設這次的論文聚焦於一個典型任務：透過偏好回饋學習摘要產生。實驗中，線上DPO與離線DPO之間的唯一差異是訓練資料不同——兩者的超參數完全一致。在圖3中可以看到，儘管盡可能控制了乾擾因素，但線上DPO的表現依然明顯優於離線DPO。為了消除「操控」評估器的疑慮，圖4計算了統一的PFT目標函數即公式（2）。即便把gpt-4o從評估流程中移除，線上PFT的表現仍然優於離線PFT。簡而言之，在上述嚴格控制條件下進行的實驗結果，與先前的多項研究一致：線上偏好微調（PFT）優於離線PFT。類似的結論也出現在其他相關領域，例如：監督微調（SFT）中的強化學習價值；基於驗證器的訓練方法中強化學習的效果表現也具有類似優勢。接下來是對5種RL微調假設的反駁。假設H1：線上樣本的內在價值從直覺上看，相較於使用離線資料集，從當前策略下更可能出現的樣本中獲取回饋，似乎更有價值。但問題在於，究竟是什麼機制讓on-policy資料在策略優化中真正發揮作用？特別是考慮到這些數據的標籤，只是由一個訓練自相同離線資料集的獎勵模型推斷出來的。在資訊理論的角度下，根據資料處理不等式，on-policy資料本質上是冗餘的。這是因為從當前策略中採樣，無法創造任何“新的”資訊（即真正的人類偏好）來用於學習。假設H2：離線PFT對參考策略正規化無效儘管KL正則化在某種程度上導致了線上與離線方法之間的表現差距，但多個證據表明，它並不能完全解釋這種差距。首先，DPO中直接加入反向KL懲罰項，無法徹底彌補與真正線上PFT方法之間的差距，即便有助於改善效能。其次，有些不明確地將策略正規化到參考策略的PFT方法，在多個基準測試中依然表現優異。第三，在某些微調任務中，保持與參考策略的接近並不是一個特別有幫助的策略，但實驗中仍觀察到線上方法優於離線方法。最後，圖3所展示的實驗中，線上與離線演算法使用的是相同的正規項，但仍觀察到了效能上的差距。假設H3：在線PFT相對更容易有人可能會提出這樣的問題：離線PFT是否面臨比線上PFT更難的最佳化問題，因此更容易陷入額外的局部最優解？然而，在實驗中，在線與離線PFT都使用的是同一個優化器（DPO）。兩者之間唯一的差異只是輸入的資料不同。因此，很難解釋為什麼在使用相同數量的樣本、相同的優化器的前提下，線上樣本就能讓最佳化變得更容易。對此假設的進一步解釋，涉及「計算-統計差距」（computational-statistical gaps）這一現象：在某些問題中，即使從資訊理論角度看某些資料是冗餘的，它們仍可以減少找到問題解所需的計算量。因此，可以把這些（資訊冗餘的）on-policy樣本看作是對策略搜尋空間施加的額外「限制」，有助於優化過程的收斂。為了驗證這一假設是否成立，擴大用於訓練線上DPO策略的偏好資料集的規模，研究人員進行了提示增強（prompt augmentation），幾乎將訓練集的規模擴大了三倍。依照直覺，如果這個細化後的假設是正確的，那麼這些「冗餘」的樣本應該可以帶來策略表現的提升。然而，在圖5的結果卻相反：下游任務的勝率幾乎沒有任何提升。這種現象與該假設的預測並不一致，從而反駁了該假設。圖5：將線上DPO所使用的提示（prompts）擴展對勝率的影響。假設H4：全域獎勵模型利用更多資料訓練目前最好的全域獎勵模型的訓練數據，往往在比離線PFT使用的偏好資料集更廣泛。因此，一個自然的問題是：在本質上，是否全域獎勵模型就更容易從廣泛分佈的資料中學習，而相較之下，局部獎勵模型或策略模型則沒有這種能力。在圖6中，基於SFT策略進行的線上DPO，與離線DPO的表現大致相當。但令人意外的是：當在離線DPO策略的基礎上，研究人員繼續進行線上DPO訓練時，性能仍然有提升，儘管所有模型都是用一個相對狹窄、on-policy的數據集訓練的。這種結果並不符合該假設的預期。圖6：在離線DPO策略基礎上實施線上DPO迭代能提升勝率至少在作者研究的問題類型上，並沒有證據顯示：在利用資料分佈方面，策略模型和獎勵模型存在本質上的差異。假設H5：全域獎勵模型泛化能力較強還有一種假設：獎勵模型在分佈外（out-of-distribution, OOD）具有比策略更好的泛化能力。在視覺推理等任務中找到了類似的實證，支援這種差異確實存在。不過，這假設背後還有一些未解之謎。為此，研究者設計了一系列實驗。首先在驗證集上，比較了使用相同骨幹模型的DPO獎勵模型、局部（Local）獎勵模型和全域（Global）獎勵模型的似然得分（即作為分類器時的分佈內泛化能力）。如圖7所示，研究者穩定地觀察到：當強制採用逐token的分解方式（token-wise decomposition）時，模型在分佈內的表現反而變差。此外，加入正規化也會進一步削弱獎勵模型在留出資料上的分類準確率。圖7：從全域獎勵模型轉換到局部獎勵模型，或從局部獎勵模型轉換到DPO獎勵模型對驗證準確度的影響接下來，他們評估這些模型在分佈外（OOD）條件下的泛化能力。具體做法是：在來自SFT策略和離線DPO策略的樣本上，測試它們的Best-Of-N（BoN）效能。如圖8所示，隨著N的增加，模型在分佈內的驗證似然越高，其BoN性能也越好，兩者呈現完美的相關性。圖8：全域（global）、局部（local）和DPO獎勵模型在Best-Of-N（BoN）勝率上的表現簡要總結：儘管從資訊理論角度來看，在線PFT和離線PFT並沒有本質的區別，但在不同的採樣分佈、打分方式和模型規模下，在線PFT一直優於離線PFT。此外，全域獎勵模型似乎比局部獎勵模型更容易學習，在驗證集上的似然得分也更高。生成與驗證差距：H6假設竟然上面的假設都站不住腳，不禁要問：是否存在某些理論分析中未考慮到的問題特徵？一個可能的解釋是：在許多實際任務中，獎勵函數本身比對應的（軟）最優策略簡單。這個觀點正是經典逆強化學習（inverse RL）理論背後的核心論點—相較於行為複製（即透過最大似然直接學習策略），從示範中學習獎勵函數再用強化學習解碼策略，可能是一種更優的策略學習方式。將策略視為生成器，獎勵模型視為驗證器，可以把上述論點理解為計算機科學中廣泛存在的現象：生成通常比驗證更困難。根據標準的一致收斂理論（uniform convergence），可以推論：要準確學習驗證器所需的樣本數量，應少於學習產生器所需的樣本。然而，一系列研究發現：過參數化模型（如深度神經網路）在使用隨機梯度下降（SGD）優化時，往往可以無需更多樣本就學到較淺的計算電路。在實際上中，更大的網路通常並不會帶來更高的樣本複雜度。基於前文的觀察，作者提出了一個新的假設，用以解釋在滿足以下兩種條件的問題中，在線與離線微調之間性能差距的根本原因：1. 存在產生與驗證之間的難度差距（generation-verification gap）；2. 獎勵函數類別中包含的函數越簡單，越容易透過少量樣本學得。在統計學習理論中，如果一個演算法需要在比目標函數所在集合更大的假設空間中進行搜尋，這被稱為不當學習（improper learning ）。換句話說，這個假設認為：離線微調是在更難的、不當學習問題上做最佳化；而線上微調則透過建立獎勵模型、限制搜尋空間，有效地將問題簡化成「適當學習」問題，從而降低了問題複雜度，帶來了更好的最終性能。這個假設明確指出：在統計學習難度上，線上與離線微調方法之間存在本質差異，從而為兩者表現差距提供了一種新的理論解釋。在「可實現性假設」（realizability assumption）下，作者進一步提出了一個正式的定理：通俗地說，這個定理說明：如果第二步驟中基於RL的反向KL投影過程不會帶來資訊損失，那麼RLHF就能從受限策略空間中恢復出最大似然估計的解。然而，問題在於：大家都不知道如何在實踐中真正施加這個「策略空間約束」，除非像在線微調那樣，先訓練一個相對簡單的獎勵模型，再用RL去優化它——也就是通過兩階段的過程自然實現這一限制。從直覺上講，這個假設可以理解為：雖然所有方法最終都指向最大似然估計（likelihood），但如果基於一個相對簡單的獎勵模型進行強化學習（RL），就等於在策略空間中走了一條“捷徑”。無法證偽的H6假設首先，有一個自然的問題：對於摘要產生這類具體任務，有什麼證據顯示「驗證比產生更容易」？根據圖9可以發現，即便使用的全域獎勵模型比產生策略的模型小得多，其Best-of-N（BoN）效能與使用和策略模型同等規模的獎勵模型幾乎沒有差異。反過來也成立：即使使用比生成策略更大的全域獎勵模型，其BoN表現也沒有顯著提升。這說明，在這項任務中，「驗證器」並不需要像生成器那樣複雜，也能實現相似效果──驗證確實更簡單。圖9：在不同基礎策略規模下，全域獎勵模型規模與BoN表現之間的關聯性接下來觀察到：假設H6，能準確解釋之前所有的實驗現象。例如，線上微調表現更優（圖3/圖4），可以透過策略搜尋空間有效縮減來解釋；即便在加入提示增強（圖5）、樣本或標籤分佈變化（圖6）等條件下，結果仍成立；總結來說，這些變數（資料量、分佈、模型規模等）都沒有改變「產生vs驗證」的相對難度本質，所以才可以始終能觀察到線上與離線PFT之間一致的效能差距。這也意味著：目前的實證結果無法推翻假設H6。在圖10中，研究者發現一個關鍵結果：與先前所有實驗不同，「產生難度≈驗證難度」的簡化設定下，線上DPO並沒有顯著提升離線DPO策略的效能。這與假設H6的預測一致：只有當策略比獎勵函數更複雜時，在線PFT才能透過「先學簡單獎勵、再做策略優化」來縮小搜尋空間，從而優於離線PFT。而當生成過程本身夠簡單時，這種優勢自然就不存在了。此外研究者使用ROUGE-L指標作為獎勵函數，進行了實驗。該指標本質上是計算生成摘要中有多少單字（按順序）出現在人工參考摘要中。對於此類問題，最低複雜度的驗證器只需包含從提示語到參考摘要文字的尋找表。這意味著生成與驗證的複雜度理應相當。從直觀上看，這種設定實際上增加了獎勵函數的複雜性。如圖11所示，與先前所有實驗結果不同，基於學習得到的全域獎勵模型進行線上DPO迭代，並未提升基礎離線DPO策略的效能。然而，額外增加一輪離線DPO訓練確實（稍微）提高了ROUGE-L分數，這表明尚未達到ROUGE-L指標下的理論性能上限。量化生成與驗證的效能差距另一個自然的問題是：到底需要多少真正的人類偏好樣本，才能讓H6所描述的「線上與離線PFT的統計差異」消失？圖12顯示即使逐步減少訓練所用偏好資料集的比例，線上和離線PFT在勝率上的差距依然相對穩定。需要說明的是，這結果並不與假設相矛盾——隨著資料量增加，可能在學習一系列複雜度遞增的獎勵模型（RM），而每個RM仍比其對應的軟最優策略更簡單。不過，H6預測在資料量趨於無限時，這個差距應該會消失。因為當樣本夠多時，我們將獲得足以完全確定狀態空間中所有位置產生器的資料——此時即使擁有完美驗證器也無法提供新資訊。圖12的結果表明，對於摘要產生這項具體任務，要完全確定生成器所需的資料量可能顯著超過現有訓練集規模。在其他任務中也有類似的發現，即先學習驗證器（獎勵模型）再學習生成器（策略）優於直接學習產生器。這類方法在其他的一些場景也取得了顯著效果，進一步的支援了H6假設成立。同構關係並非雙向對等大家心中可能仍有一個疑問：如果在軟體增強學習（soft RL）中，策略與獎勵是同構的，為什麼學習其中一個會比另一個更難？的確，依據公式（11），可以從獎勵函數推導出軌跡分佈，然後透過軟值迭代（soft value iteration）從中恢復出對應的策略。Rafailov等人提出了一個很巧妙的觀點：我們其實可以逆轉這種同構關係，也就是從策略反推出獎勵（最多差一個與prompt相關的偏移項，而該項會在Bradley-Terry似然中抵消）。也就是說，我們可以將一個局部獎勵模型用它隱含的軟最優策略來表示，請參見公式（9）。論文連結：https://arxiv.org/abs/2305.18290然而，Rafailov等在論文中指出，將局部獎勵模型視為Q函數而非原始獎勵函數，會更貼近實際情況。Q函數本質上是一個更複雜且形式上不同的物件。雖然這種「形式上的同構」存在，但它並不意味著在兩個方向上的對應是對等的。從獎勵函數R對應到策略或Q函數，需要透過強化學習來解，這是一個困難的問題；而在策略與Q函數之間的轉換，只需進行簡單的對數/指數(log/exp)運算。換句話說：試著學習一個Q函數，其實等價於直接學習對應的策略；因此，像DPO這類優化局部獎勵模型（本質上是Q函數）的方法，並沒有繞開直接學習生成器所面臨的統計問題。結論是：雖然策略與獎勵之間存在同構關係，但這條路不是雙向道。作者介紹Wen Sun自2020年7月起，他是美國康乃爾大學電腦科學系助理教授。他擁有卡內基美隆大學博士學位。2014年，他於北卡羅來納大學教堂山分校獲得電腦科學碩士學位。2012年，他完成浙江大學與加拿大西蒙菲莎大學大學雙學位項目，並獲得了電腦科學學士。他榮獲2025年斯隆研究獎、2024年美國國家科學基金會職業獎。Zhiwei Steven Wu他現任卡內基美隆大學電腦科學學院助理教授，主要任職於軟體與社會系統系（社會計算計畫），同時兼任機器學習系和人機互動研究所教職。此外，也擔任CyLab安全研究所與理論小組成員。2017年6月，他博士畢業於賓州大學。2012年5月，他從巴德學院本科畢業，獲得數學與電腦科學學士學位。他的研究興趣廣泛涵蓋演算法與機器學習領域。（新智元）

還記得AlphaGo 剛擊敗李世石時，全世界驚呼“人工智慧時代來了”，轉眼不過幾年，ChatGPT、o‑系列模型已經把“智能”從棋盤和試卷一路捲到程式碼、創作甚至電腦螢幕背後的每一次點選清華姚班出身大牛，現任OpenAI 研究科學家姚順雨在最新長文《The Second Half》中拋出一個驚人判斷：過去幾十年我們專注於“把模型訓得更強”，如今遊戲規則徹底反轉——接下來比拚的不是訓練，而是“如何定義並評估真正有用的任務”。換言之，第一階段的看家法寶是Transformer、深度強化學習和大規模預訓練；而第二階段，你得像產品經理一樣重新思考：AI 究竟該為誰解決什麼問題、又該如何衡量「解決不好」。這一轉向，將決定誰只是“模型分數更高”，誰能真正撬動兆級經濟價值姚順雨在文中還提到：Sutton（強化學習之父） & Barto 的經典教材幾乎只談演算法，幾乎不談環境與先驗，然而，在深度RL時代，人們發現環境對經驗結果影響巨大：一種演算法的表現往往極度依賴其開發和測試的環境。如果忽略環境，你也許會創造出只在玩具設定裡無比優越的「最優」演算法。那麼為何不先確定真正想解決的環境，再找最適合的演算法呢？這段看法其實剛好和這兩天Sutton與GoogleRL副總裁寫的最新論文《Welcome to the Era of Experience》的觀點一致以下是全文分享：《The Second Half》全文翻譯原作者：姚順雨（Shunyu Yao），OpenAI 研究科學家原文標題：The Second Half原文摘要：We're at AI's halftime.網址： https://ysymyth.github.io/The-Second-Half/幾十年來，AI 主要專注於開發新的訓練方法和模型。事實證明這條路行之有效：從擊敗世界冠軍的國際象棋和圍棋程序，到在SAT 和律師資格考試上超過大多數人類，再到在IMO 和IOI 上摘金奪銀。寫進教科書的里程碑——Deep Blue、AlphaGo、GPT‑4 以及o‑series——背後都是AI 方法上的根本性創新：搜尋、深度強化學習、規模化和推理能力。隨著時間推移，一切都在變得更好。那麼，現在究竟發生了什麼不同呢？用三個字概括：強化學習終於奏效了。更準確地說：強化學習終於有了泛化能力。經歷許多重大彎路和里程碑的累積，我們終於找到了一套可行的配方，能用語言和推理解決各種RL 任務。即使在一年前，如果你告訴大多數AI 研究者一份單一的配方可以同時搞定軟體工程、創意寫作、IMO 級數學、鍵盤滑鼠操作以及長篇問答——他們肯定會笑你「幻覺」。這些任務各自極難，許多研究者整個博士階段可能只盯著其中一個小方向。然而，它真的發生了。接下來會怎樣？AI 的下半場——從此刻開始——將把重心從「解決問題」轉向「定義問題」。在這個新時代，評價比訓練更重要。我們不再僅僅問“能不能訓練出解決X 的模型？”，而是要問“我們應該訓練AI 做什麼？如何衡量真實的進步？”要在下半場取得成功，我們必須及時轉變心態和技能，更像產品經理那樣思考。前半場回顧要理解前半場，看看那些工作贏得了桂冠。你認為迄今最具影響力的AI 論文是那幾篇？我在史丹佛224N 課堂上做過小測驗，答案不意外：Transformer、AlexNet、GPT‑3 等。這些論文的共同點是什麼？它們提出了能訓練出更好模型的根本性突破，並透過在某些基準上顯著提升成績來發表。還有一個潛在共通點：這些「贏家」都是訓練方法或模型，而不是基準或任務。即使可以說是最具影響力的基準資料集——ImageNet——其引用量也不到AlexNet 的三分之一。模型VS. 基準的對比在其他地方更為懸殊：Transformer 的核心基準是WMT'14 翻譯，其研討會報告引用量約1300，而Transformer 論文則超過160,000。這說明了前半場的遊戲規則：重點是建立新模型和方法，而評估與基準處於次要（但必要）地位。為什麼？因為在AI 的前半場，提出新演算法或模型架構往往比定義任務更難、更令人興奮。與此相對，把現有的人類任務（翻譯、圖像識別、下棋）轉成基準顯得簡單得多。更重要的是，好方法往往更通用：Transformer 最初在WMT'14 翻譯任務上嶄露頭角，後來卻驅動了電腦視覺、自然語言處理、強化學習等眾多領域的進步。一個偉大的新方法能爬過許多不同的基準，因此其影響通常超越單一任務。這套遊戲行數十年，催生了改變世界的想法與突破，在各領域不斷刷新基準成績。為何遊戲要改變？因為所有這些突破的累積，帶來了能夠真正解決任務的「通用配方」。配方是什麼？配方的原料並不意外：大規模語言預訓練、資料與計算的規模化，以及「推理與行動」的概念。這些詞似乎成了舊金山每天都在喊的流行語，但為何稱之為「配方」？可以用強化學習(RL) 的視角來理解——RL 常被視作AI 的「終局」——理論上能贏下游戲，實際上也難以想像沒有RL 的超人系統（如AlphaGo）。 RL 有三大關鍵組成：演算法、環境和先驗。長期以來，RL 研究者幾乎把全部注意力放在演算法（REINFORCE、DQN、PPO、TRPO 等）上，同時把環境和先驗視為固定或最小化條件。 Sutton & Barto 的經典教材幾乎只談演算法，幾乎不談環境與先驗。然而，在深度RL時代，人們發現環境對經驗結果影響巨大：一種演算法的表現往往極度依賴其開發和測試的環境。如果忽略環境，你也許會創造出只在玩具設定裡無比優越的「最優」演算法。那麼為何不先確定真正想解決的環境，再找最適合的演算法呢？這正是OpenAI 的初衷：他們建構了Gym、World of Bits、Universe 等一系列標準RL 環境，試圖把網路或電腦變成遊戲環境。計畫聽起來完美：一旦把所有數字世界變成環境，再用聰明的RL 演算法解決它們，就能得到數字AGI。計劃很好，但並不完全奏效。 OpenAI 在用RL 解決Dota、機械手等方向取得巨大進展，卻始終無法搞定“用電腦”或“網頁導航”，而且一個領域的RL 代理無法遷移到另一個領域。缺了什麼？直到GPT‑2、GPT‑3 出現，人們才發現缺少的原來是先驗。需要強大的語言預訓練，把常識和語言知識蒸餾進模型，再透過微調把它變成WebGPT 或ChatGPT（並改變世界）。事實證明，RL 最重要的部分可能並非演算法或環境，而是先驗——而這些先驗可以透過與RL 並不直接相關的方式獲得。語言預訓練為聊天提供了好先驗，卻不足以同樣出色地操控電腦或玩電子遊戲。為何？因為這些領域與網路文字分佈差得更遠，直接進行監督微調或RL 效果不佳。 2019 年GPT‑2 剛問世時，我曾在此之上做監督微調／RL 來解決文字冒險遊戲－CALM 是世界上第一個基於預訓練語言模型的遊戲代理。但它需要數百萬步RL 才能爬過單一遊戲，無法泛化。雖然這正是典型RL 的特徵，但我覺得奇怪：人類卻能零樣本上手新遊戲並表現得更好。於是我迎來了人生第一次“頓悟”：我們之所以泛化，是因為我們可以選擇“思考”而不只是“行動” ——例如先想到“地牢危險，需要武器，而箱子可能藏武器”，再規劃行動。“思考”，或“推理”，是一種奇特動作：它不直接影響外部世界，但其空間開放、組合爆炸——你可以想一個詞、一句話、一段話，甚至隨機想10000 個單詞，而周圍世界不會立即改變。在經典RL 理論中，這是交易極差、讓決策幾乎不可能：如果需要在兩個箱子中選一個，有一個有100 萬美元，另一個空，你期望賺50 萬；若我再加無限個空箱子，你期望收穫為零。但當把推理加入RL 中的動作空間時，我們藉助語言預訓練先驗來泛化，並且能為不同決策靈活組態推理時長。這很神奇，恐怕我得另寫文章解釋；簡而言之：語言透過代理中的推理實現泛化。當我們擁有正確的RL 先驗（語言預訓練）和RL 環境（把語言推理當作動作）後，RL 演算法反而成了最瑣碎的部分。於是有了o‑series、R1、「deep research」和麵向電腦操作的代理，未來還會更多。諷刺的是：幾十年來RL 研究者過分關注演算法，幾乎沒人理會先驗——所有實驗幾乎都是從零開始。卻花了數十年彎路才發現，也許我們應該完全倒過來排優先順序。正如Steve Jobs 所說：“你無法預見地連接點點滴滴，只有回頭看時才能。”下半場這套配方正在徹底改寫遊戲規則。回顧前半場的循環：提出新訓練方法或模型，刷基準分數；建立更難的基準，繼續循環。現在循環被破壞了，因為：配方把「刷分」工業化且無需太多新點子。你琢磨半天提升5%，下一代o‑series 隨手提升30%。即便造更難基準，配方很快（而且越來越快）就能解決。接下來怎麼玩？如果新方法不再稀缺，而更難基準也會迅速被破，那我們應該做什麼？我認為必須從根本上重新思考「評估」。這不只是再造新基準，更要質疑現有評估設定，創造新的評估方式，迫使我們發明超越配方的新方法。這很難，因為人類有慣性，很少質疑基本假設──許多假設被視為天經地義。舉兩例說明慣性：1. 評估「應該」自動運行－通常代理收到一次任務輸入，就完全自主地做事，最後得到評分。但現實中，代理必須在任務過程中與人類互動——你不會給客服發一大段資訊等10 分鐘就指望一次性解決。於是出現了讓真人或模擬使用者在環的基準：如Chatbot Arena、tau‑bench。2. 評估「應該」獨立同分佈(iid) 運行－如果測試集有500 個任務，你平行跑完取平均。但現實中任務是順序完成的：Google 軟件工程師越熟悉代碼庫，解決bug 越快；而代理卻在同一倉庫裡反覆「首次見面」。我們顯然需要長期記憶，但學術界缺乏能證明需求的基準，也缺乏質疑iid 假設的勇氣。這些假設在前半場無傷大雅，因為智能等級低時，只要智能提升，效用就會同步提升。但現在，通用配方已確保在這些假設下必勝。因此，下半場的新遊戲是：設計面向真實效用的新評估設定或任務；用配方或在其上增添新元件來解決它們，循環往復。這場遊戲難在陌生，卻也令人興奮。前半場玩家在電子遊戲和考試裡刷分；下半場玩家則有機會把智能做成真正有用的產品，建立十億、兆美元的公司。前半場充斥增量模型和方法；在下半場，它們被配方「過濾」——除非你創造新假設來打破配方，否則註定被碾壓。歡迎來到下半場！（AI寒武紀）