萬徑歸於「機率」，華人學者顛覆認知！輝達大牛力薦RL微調新作

2025/05/10

•

華人學者參與的一項研究，重新確立了強化學習在LLM微調的價值，深度解釋了AI訓練「兩階段強化學習」的原因。某種意義上，他們的論文說明RL微調就是統計。

最近，輝達的高級研究科學家、牛津大學博士yobibyte，推薦了今年3月公佈的arXiv預印本論文。

來自卡內基美隆大學和康乃爾大學等機構的研究者，在論文中解釋了初看違反直覺的現象：從根本原理上看，微調基礎模型為什麼要採用兩階段訓練流程，才能達到最強的結果？

具體而言，當前主流的兩階段方法需要訓練獎勵模型（reward model，RM）為下游強化學習（reinforcement learning，RL）提供線上回饋；而不是直接透過離線最大似然估計，對策略參數進行最佳化。

從資訊理論角度來看，獎勵模型的間接處理必然導致資訊損失，而線上策略採樣（on-policy sampling）並沒有創造新資訊。

為解釋此一矛盾，研究者透過理論與實證的雙重視角，系統檢驗了關於RL在FT中價值的若幹假說。

在所有研究人員考察的假說中，最具解釋力的發現是：當任務存在「生成-驗證」差距（ generation-verification gap）時，在線微調表現更好，是因為結合了以下兩個因素：

1. 驗證器更容易學習：從偏好資料學習相對簡單的RM（驗證器）更為容易

2. 策略空間過濾：下游RL過程，可以把搜尋空間限制在對驗證器來說最優的策略（即生成器）上

正是這種機制帶來了在線微調的優越性能。

LLM微調：強化學習重要嗎？

在學術界、工業界和開源社群的對比研究中，有一種反覆出現的現象：相對複雜的雙階段在線微調方法，普遍優於更簡單、純離線的方案。

更廣義地說，互動式監督微調（supervised fine-tuning，SFT），也已經被證明優於傳統的「next-token prediction」訓練方式。

值得注意的是，目前最先進的複雜推理模型（如OpenAI的o1和DeepSeek的r1）依然採用線上強化學習訓練，而非離線最大似然估計。

這些現象引出了一個根本性問題——

如果只是想最大化似然函數，那麼採用雙階段、互動的微調流程到底有什麼價值？

後訓練的理論難題

之所以難以對此給出令人滿意的回答，部分原因在於，傳統強化學習的線上訓練理論，難以直接遷移至基礎模型的後訓練場景。

一些反直覺的發現似乎暗示：當前主流的互動式訓練範式，可能只是一條「鍍金」而非「真金」的技術路徑。

對此，研究者從理論和實證兩個角度深入分析了強化學習在微調（FT）中的價值，主要聚焦於偏好微調（preference fine-tuning）。

同時也指出類似的分析可以應用於監督微調（SFT）和基於驗證器的強化學習情境。

他們的主要貢獻包括以下三點：

1. 等價性證明

在理想化假設下，在線和離線的PFT技術應當能產生相當品質的策略。

2. 反對先前假設的證據

特別地，他們提出證據反對多種既有的解釋。

3. 備擇假設的證據

他們提出並驗證了一個新的假設，用於解釋存在「生成-驗證」差距的問題中，強化學習的作用。

兩階段互動微調的價值假設：兩階段互動微調將待探索的策略空間，縮減至僅適用於相對簡單的驗證器最優策略集合。

用統計學習的術語來說，這個假設意味著，強化學習在微調中的真正價值在於：它是目前已知的最方便的「適當學習」（proper learning）方法。

相較之下，離線方法屬於「不當學習」（improper learning）。

在所有檢驗的假設中，反對這項假設的證據最少。

接下來，我們將一睹線上與離線偏好微調（PFT）之間的一系列等價定理，並進一步探討，如何將這些理論等價性與現實中在線/離線性能差距的問題統一起來。

統一角度下的RL微調

這部分將從似然函數的角度，統一不同的偏好微調方法。

統一的獎勵模型

下文以Π表示策略集合，以R表示獎勵模型集合，其中每個獎勵模型r∈R都是從完整軌跡集合對應到實數的函數

在實際應用中，通常策略模型和獎勵模型使用相同的網路架構，並且往往從相同的初始權重（checkpoint）和資料集出發進行訓練。

這種對整個軌跡進行評估、依賴完整上下文的獎勵模型被稱為「全域獎勵模型」（global reward models），即非馬可夫型獎勵模型。

但策略與獎勵模型的連結不止於共享模型架構。

更進一步地，當獎勵模型的形式為：策略對每一個token的對數機率總和時，二者之間存在更精確的「結構同構」關係。

形式化地，「局部獎勵模型」（local reward models）定義為：

即，每個局部獎勵模型都是某個策略π生成的軌跡上所有token的對數機率總和。

由此可得：

這類獎勵模型與策略集合之間存在著一一對應關係。

統一的微調目標函數

從整體來看，可以將各種微調任務（例如監督微調SFT、偏好微調PFT）統一地表述為以下形式的策略最佳化問題：

這個目標函數包含兩個部分：第一項是正向KL散度，第二項是反向KL散度。

為簡化表述，暫時設β=1，並將第二項的KL正則項替換為熵正則項（即與「均勻策略」的KL散度）：

其中，𝓗(π)表示策略π的（因果）熵，其定義為：

也就是說，熵越大，策略越「分散」或「探索性強」，這在最佳化中起到與KL正則類似的作用。

無論是在線上或離線的偏好微調方法（PFT），都可以看作是在優化這個統一的目標函數，只不過使用的手段和路徑截然不同。

統一目標函數的普適性

值得注意的是，這個目標函數並不限於偏好微調；

同樣也適用於：監督微調（SFT）；使用二分類標籤（0/1）訓練出的獎勵模型所驅動的強化學習（RL with reward models）。

也就是說，這是一個廣義的、適用於多種微調方式的統一框架。

極大似然=最小化正向KL散度

最大似然估計（maximum likelihood estimation，MLE）等價於最小化從經驗資料分佈到模型分佈的正向KL散度（Forward KL）。

在偏好建模中，這一點也同樣成立。

以經典的Bradley-Terry模型為例，偏好機率可以表示為：

其中「≻」表示「更偏好」（preferred to），σ是sigmoid函數。

換句話說，每一個全域獎勵模型對應一個Bradley-Terry機率模型。

接下來的目標是在訓練資料上，最大化這個機率模型的似然函數，來找出最優的獎勵模型。

可以看到，擬合全域獎勵模型，實際上就是在解決標準的邏輯迴歸/分類問題。

類似地，如果使用的是局部獎勵模型r^π（也就是由策略π產生的對數機率總和），那麼也可以透過最大似然估計（MLE）來擬合這個策略。

方法是將r^π表示為對數機率的和，代入Bradley-Terry模型：

在不考慮參考策略π_ref的前提下，像是直接偏好優化（ Direct Preference Optimization，DPO）這樣的離線偏好微調（offline PFT）方法的本質：

局部獎勵模型，是在軌跡層級上進行的分類問題。

換句話說，DPO的核心就是：讓策略學會判別「好」軌跡與「差」軌跡，學習目標與邏輯迴歸極為類似。

最大熵=軟強化學習

給定一個全域獎勵模型r，我們通常希望計算其對應的軟體最優策略（soft-optimal policy）

也就是說，大家希望找到一個策略，在期望獎勵最大化的同時，同時保持一定的熵（探索性）。

如果在所有馬可夫策略上對上式求得閉式解，那麼最終得到的策略，其在給定提示詞s_0下生成軌蹟的分佈為：

其中Z(r,s_0)是歸一化常數，確保所有機率總和為1。

請注意，如果兩個軌跡ξ1,ξ2具有相同的起始提示詞s_0，則它們之間的偏好機率可以寫成：

換句話說，BT模型中的偏好機率，其實可以看成是軟最優策略下軌跡機率的對數差的sigmoid函數。

一個重要但不太為人所知的觀點是：

求解上述軟強化學習問題，其實等價於將Pr⋆進行反向KL投影（Reverse KL Projection）到策略誘導的軌跡分佈空間。

在線與離線策略微調（PFT）均可視為對公式（3）的求解。

離線方法直接在策略類Π上，透過前向KL散度將偏好資料集D投影到策略空間。

而線上方法則先在獎勵模型類R下將D進行投影，再透過策略優化對應至策略空間。

同構類別之間的等價性

前面的討論引出了一個問題：如果最後還是回到策略空間（policy space），那麼引入獎勵模型（reward model）繞一步遠路到底有什麼意義？

以下將證明，在某些假設條件下，這麼做其實只是用一種更曲折的方式來實現似然最大化。

現在給出第一個等價性結論。

在沒有參考策略（reference policy）的情況下，線上和離線的偏好微調（PFT，Preference Fine-Tuning）會得到相同的解，如果滿足一些額外的特定假設。

換一種更傳統的說法，這意味著最大似然估計對重參數（reparameterization）是「不變」的。

在假設函數可以被實現的前提下，也可以在引入參考策略的情況下證明一個類似的結果：

綜上所述，前述結果顯示：在特定假設條件下，所有路徑最終都歸結為似然函數。

也就是說，相較於離線極大似然估計，投入運算資源進行策略採樣（on-policy sampling）並不能帶來顯著優勢。

為了更深入地理解前述理論的侷限性，研究者設計並進行了一系列受控實驗，以檢驗所提出的各種假設。

強化學習的5個假設

這次的論文聚焦於一個典型任務：透過偏好回饋學習摘要產生。

實驗中，線上DPO與離線DPO之間的唯一差異是訓練資料不同

——兩者的超參數完全一致。

在圖3中可以看到，儘管盡可能控制了乾擾因素，但線上DPO的表現依然明顯優於離線DPO。

為了消除「操控」評估器的疑慮，圖4計算了統一的PFT目標函數即公式（2）。即便把gpt-4o從評估流程中移除，線上PFT的表現仍然優於離線PFT。

簡而言之，在上述嚴格控制條件下進行的實驗結果，與先前的多項研究一致：線上偏好微調（PFT）優於離線PFT。

類似的結論也出現在其他相關領域，例如：監督微調（SFT）中的強化學習價值；基於驗證器的訓練方法中強化學習的效果表現也具有類似優勢。

接下來是對5種RL微調假設的反駁。

假設H1：線上樣本的內在價值

從直覺上看，相較於使用離線資料集，從當前策略下更可能出現的樣本中獲取回饋，似乎更有價值。

但問題在於，究竟是什麼機制讓on-policy資料在策略優化中真正發揮作用？特別是考慮到這些數據的標籤，只是由一個訓練自相同離線資料集的獎勵模型推斷出來的。

在資訊理論的角度下，根據資料處理不等式，on-policy資料本質上是冗餘的。

這是因為從當前策略中採樣，無法創造任何“新的”資訊（即真正的人類偏好）來用於學習。

假設H2：離線PFT對參考策略正規化無效

儘管KL正則化在某種程度上導致了線上與離線方法之間的表現差距，但多個證據表明，它並不能完全解釋這種差距。

首先，DPO中直接加入反向KL懲罰項，無法徹底彌補與真正線上PFT方法之間的差距，即便有助於改善效能。

其次，有些不明確地將策略正規化到參考策略的PFT方法，在多個基準測試中依然表現優異。

第三，在某些微調任務中，保持與參考策略的接近並不是一個特別有幫助的策略，但實驗中仍觀察到線上方法優於離線方法。

最後，圖3所展示的實驗中，線上與離線演算法使用的是相同的正規項，但仍觀察到了效能上的差距。

假設H3：在線PFT相對更容易

有人可能會提出這樣的問題：離線PFT是否面臨比線上PFT更難的最佳化問題，因此更容易陷入額外的局部最優解？

然而，在實驗中，在線與離線PFT都使用的是同一個優化器（DPO）。

兩者之間唯一的差異只是輸入的資料不同。

因此，很難解釋為什麼在使用相同數量的樣本、相同的優化器的前提下，線上樣本就能讓最佳化變得更容易。

對此假設的進一步解釋，涉及「計算-統計差距」（computational-statistical gaps）這一現象：

在某些問題中，即使從資訊理論角度看某些資料是冗餘的，它們仍可以減少找到問題解所需的計算量。

因此，可以把這些（資訊冗餘的）on-policy樣本看作是對策略搜尋空間施加的額外「限制」，有助於優化過程的收斂。

為了驗證這一假設是否成立，擴大用於訓練線上DPO策略的偏好資料集的規模，研究人員進行了提示增強（prompt augmentation），幾乎將訓練集的規模擴大了三倍。

依照直覺，如果這個細化後的假設是正確的，那麼這些「冗餘」的樣本應該可以帶來策略表現的提升。

然而，在圖5的結果卻相反：下游任務的勝率幾乎沒有任何提升。

這種現象與該假設的預測並不一致，從而反駁了該假設。

假設H4：全域獎勵模型利用更多資料訓練

目前最好的全域獎勵模型的訓練數據，往往在比離線PFT使用的偏好資料集更廣泛。

因此，一個自然的問題是：在本質上，是否全域獎勵模型就更容易從廣泛分佈的資料中學習，而相較之下，局部獎勵模型或策略模型則沒有這種能力。

在圖6中，基於SFT策略進行的線上DPO，與離線DPO的表現大致相當。

但令人意外的是：當在離線DPO策略的基礎上，研究人員繼續進行線上DPO訓練時，性能仍然有提升，儘管所有模型都是用一個相對狹窄、on-policy的數據集訓練的。這種結果並不符合該假設的預期。

至少在作者研究的問題類型上，並沒有證據顯示：在利用資料分佈方面，策略模型和獎勵模型存在本質上的差異。

假設H5：全域獎勵模型泛化能力較強

還有一種假設：獎勵模型在分佈外（out-of-distribution, OOD）具有比策略更好的泛化能力。

在視覺推理等任務中找到了類似的實證，支援這種差異確實存在。

不過，這假設背後還有一些未解之謎。為此，研究者設計了一系列實驗。

首先在驗證集上，比較了使用相同骨幹模型的DPO獎勵模型、局部（Local）獎勵模型和全域（Global）獎勵模型的似然得分（即作為分類器時的分佈內泛化能力）。

如圖7所示，研究者穩定地觀察到：當強制採用逐token的分解方式（token-wise decomposition）時，模型在分佈內的表現反而變差。

此外，加入正規化也會進一步削弱獎勵模型在留出資料上的分類準確率。

圖7：從全域獎勵模型轉換到局部獎勵模型，或從局部獎勵模型轉換到DPO獎勵模型對驗證準確度的影響

接下來，他們評估這些模型在分佈外（OOD）條件下的泛化能力。

具體做法是：在來自SFT策略和離線DPO策略的樣本上，測試它們的Best-Of-N（BoN）效能。

如圖8所示，隨著N的增加，模型在分佈內的驗證似然越高，其BoN性能也越好，兩者呈現完美的相關性。

圖8：全域（global）、局部（local）和DPO獎勵模型在Best-Of-N（BoN）勝率上的表現

簡要總結：儘管從資訊理論角度來看，在線PFT和離線PFT並沒有本質的區別，但在不同的採樣分佈、打分方式和模型規模下，在線PFT一直優於離線PFT。

此外，全域獎勵模型似乎比局部獎勵模型更容易學習，在驗證集上的似然得分也更高。

生成與驗證差距：H6假設

竟然上面的假設都站不住腳，不禁要問：是否存在某些理論分析中未考慮到的問題特徵？

一個可能的解釋是：在許多實際任務中，獎勵函數本身比對應的（軟）最優策略簡單。

這個觀點正是經典逆強化學習（inverse RL）理論背後的核心論點—

相較於行為複製（即透過最大似然直接學習策略），從示範中學習獎勵函數再用強化學習解碼策略，可能是一種更優的策略學習方式。

將策略視為生成器，獎勵模型視為驗證器，可以把上述論點理解為計算機科學中廣泛存在的現象：生成通常比驗證更困難。

根據標準的一致收斂理論（uniform convergence），可以推論：要準確學習驗證器所需的樣本數量，應少於學習產生器所需的樣本。

然而，一系列研究發現：過參數化模型（如深度神經網路）在使用隨機梯度下降（SGD）優化時，往往可以無需更多樣本就學到較淺的計算電路。

在實際上中，更大的網路通常並不會帶來更高的樣本複雜度。

基於前文的觀察，作者提出了一個新的假設，用以解釋在滿足以下兩種條件的問題中，在線與離線微調之間性能差距的根本原因：

1. 存在產生與驗證之間的難度差距（generation-verification gap）；

2. 獎勵函數類別中包含的函數越簡單，越容易透過少量樣本學得。

在統計學習理論中，如果一個演算法需要在比目標函數所在集合更大的假設空間中進行搜尋，這被稱為不當學習（improper learning ）。

換句話說，這個假設認為：

離線微調是在更難的、不當學習問題上做最佳化；

而線上微調則透過建立獎勵模型、限制搜尋空間，有效地將問題簡化成「適當學習」問題，從而降低了問題複雜度，帶來了更好的最終性能。

這個假設明確指出：在統計學習難度上，線上與離線微調方法之間存在本質差異，從而為兩者表現差距提供了一種新的理論解釋。

在「可實現性假設」（realizability assumption）下，作者進一步提出了一個正式的定理：

通俗地說，這個定理說明：如果第二步驟中基於RL的反向KL投影過程不會帶來資訊損失，那麼RLHF就能從受限策略空間中恢復出最大似然估計的解。

然而，問題在於：大家都不知道如何在實踐中真正施加這個「策略空間約束」，除非像在線微調那樣，先訓練一個相對簡單的獎勵模型，再用RL去優化它——也就是通過兩階段的過程自然實現這一限制。

從直覺上講，這個假設可以理解為：雖然所有方法最終都指向最大似然估計（likelihood），但如果基於一個相對簡單的獎勵模型進行強化學習（RL），就等於在策略空間中走了一條“捷徑”。

無法證偽的H6假設

首先，有一個自然的問題：對於摘要產生這類具體任務，有什麼證據顯示「驗證比產生更容易」？

根據圖9可以發現，即便使用的全域獎勵模型比產生策略的模型小得多，其Best-of-N（BoN）效能與使用和策略模型同等規模的獎勵模型幾乎沒有差異。

反過來也成立：即使使用比生成策略更大的全域獎勵模型，其BoN表現也沒有顯著提升。

這說明，在這項任務中，「驗證器」並不需要像生成器那樣複雜，也能實現相似效果──驗證確實更簡單。

接下來觀察到：假設H6，能準確解釋之前所有的實驗現象。

例如，線上微調表現更優（圖3/圖4），可以透過策略搜尋空間有效縮減來解釋；

即便在加入提示增強（圖5）、樣本或標籤分佈變化（圖6）等條件下，結果仍成立；

總結來說，這些變數（資料量、分佈、模型規模等）都沒有改變「產生vs驗證」的相對難度本質，所以才可以始終能觀察到線上與離線PFT之間一致的效能差距。

這也意味著：目前的實證結果無法推翻假設H6。

在圖10中，研究者發現一個關鍵結果：

與先前所有實驗不同，「產生難度≈驗證難度」的簡化設定下，線上DPO並沒有顯著提升離線DPO策略的效能。

這與假設H6的預測一致：只有當策略比獎勵函數更複雜時，在線PFT才能透過「先學簡單獎勵、再做策略優化」來縮小搜尋空間，從而優於離線PFT。

而當生成過程本身夠簡單時，這種優勢自然就不存在了。

此外研究者使用ROUGE-L指標作為獎勵函數，進行了實驗。

該指標本質上是計算生成摘要中有多少單字（按順序）出現在人工參考摘要中。

對於此類問題，最低複雜度的驗證器只需包含從提示語到參考摘要文字的尋找表。

這意味著生成與驗證的複雜度理應相當。

從直觀上看，這種設定實際上增加了獎勵函數的複雜性。

如圖11所示，與先前所有實驗結果不同，基於學習得到的全域獎勵模型進行線上DPO迭代，並未提升基礎離線DPO策略的效能。

然而，額外增加一輪離線DPO訓練確實（稍微）提高了ROUGE-L分數，這表明尚未達到ROUGE-L指標下的理論性能上限。

量化生成與驗證的效能差距

另一個自然的問題是：到底需要多少真正的人類偏好樣本，才能讓H6所描述的「線上與離線PFT的統計差異」消失？

圖12顯示即使逐步減少訓練所用偏好資料集的比例，線上和離線PFT在勝率上的差距依然相對穩定。

需要說明的是，這結果並不與假設相矛盾——

隨著資料量增加，可能在學習一系列複雜度遞增的獎勵模型（RM），而每個RM仍比其對應的軟最優策略更簡單。

不過，H6預測在資料量趨於無限時，這個差距應該會消失。

因為當樣本夠多時，我們將獲得足以完全確定狀態空間中所有位置產生器的資料——此時即使擁有完美驗證器也無法提供新資訊。

圖12的結果表明，對於摘要產生這項具體任務，要完全確定生成器所需的資料量可能顯著超過現有訓練集規模。

在其他任務中也有類似的發現，即先學習驗證器（獎勵模型）再學習生成器（策略）優於直接學習產生器。

這類方法在其他的一些場景也取得了顯著效果，進一步的支援了H6假設成立。

同構關係並非雙向對等

大家心中可能仍有一個疑問：如果在軟體增強學習（soft RL）中，策略與獎勵是同構的，為什麼學習其中一個會比另一個更難？

的確，依據公式（11），可以從獎勵函數推導出軌跡分佈，然後透過軟值迭代（soft value iteration）從中恢復出對應的策略。

Rafailov等人提出了一個很巧妙的觀點：

我們其實可以逆轉這種同構關係，也就是從策略反推出獎勵（最多差一個與prompt相關的偏移項，而該項會在Bradley-Terry似然中抵消）。

也就是說，我們可以將一個局部獎勵模型用它隱含的軟最優策略來表示，請參見公式（9）。

然而，Rafailov等在論文中指出，將局部獎勵模型視為Q函數而非原始獎勵函數，會更貼近實際情況。

Q函數本質上是一個更複雜且形式上不同的物件。

雖然這種「形式上的同構」存在，但它並不意味著在兩個方向上的對應是對等的。

從獎勵函數R對應到策略或Q函數，需要透過強化學習來解，這是一個困難的問題；而在策略與Q函數之間的轉換，只需進行簡單的對數/指數(log/exp)運算。

換句話說：試著學習一個Q函數，其實等價於直接學習對應的策略；

因此，像DPO這類優化局部獎勵模型（本質上是Q函數）的方法，並沒有繞開直接學習生成器所面臨的統計問題。

結論是：

雖然策略與獎勵之間存在同構關係，但這條路不是雙向道。

作者介紹

Wen Sun

自2020年7月起，他是美國康乃爾大學電腦科學系助理教授。

他擁有卡內基美隆大學博士學位。

2014年，他於北卡羅來納大學教堂山分校獲得電腦科學碩士學位。

2012年，他完成浙江大學與加拿大西蒙菲莎大學大學雙學位項目，並獲得了電腦科學學士。

他榮獲2025年斯隆研究獎、2024年美國國家科學基金會職業獎。

Zhiwei Steven Wu

他現任卡內基美隆大學電腦科學學院助理教授，主要任職於軟體與社會系統系（社會計算計畫），同時兼任機器學習系和人機互動研究所教職。此外，也擔任CyLab安全研究所與理論小組成員。

2017年6月，他博士畢業於賓州大學。

2012年5月，他從巴德學院本科畢業，獲得數學與電腦科學學士學位。

他的研究興趣廣泛涵蓋演算法與機器學習領域。（新智元）