Llama 2打敗GPT-4！Meta讓大模型自我獎勵自迭代，再證合成資料是LLM終局

2024/01/22

•

【導讀】 AI訓AI必將成為一大趨勢。Meta和NYU團隊提出讓大模型「自我獎勵」的方法，讓Llama2一舉擊敗GPT-4 0613、Claude 2、Gemini Pro領先模型。

Llama 2-70B一夜之間打敗GPT-4，讓整個AI社群為之震驚！

甚至，在AlpacaEval 2.0排行榜中，微調後的模型勝率完全碾壓Claude 2、Gemini Pro等車型。

Meta和NYU研究團隊究竟提出了什麼秘製配方，才能讓Llama 2-70B超強進化？

正如論文題目所言——「自我獎勵語言模型」，模型產生訓練數據，並評估這些數據的質量，然後用這些數據來自己訓練自己。

簡單來說，最新方法可以讓LLM在迭代訓練過程中不斷自我改進。

論文網址：https://arxiv.org/pdf/2401.10020.pdf

LeCun也轉讚了自家實驗室的研究。

RLAIF已經不是新鮮事了，之前包括Anthropic，Google都推出過自己的「AI訓AI」的技術，那麼Meta的這項工作和之前的幾家的RLAIF區別在哪裡呢？

我們先來了解Meta的自我獎勵語言模型的大概框架。

研究團隊發展了一個能夠遵循指示和自我評價回應品質的能力的模型。模型可以產生新的訓練數據，對產生的回應進行品質評分，從而不斷改進自己的輸出。

模型先根據少量人工標註資料進行預訓練，獲得初始化模型。

然後模型產生新的指令和多個候選回复，並使用LLM-as-a-Judge的提示，讓模型對自己產生的回复打分數。

根據評分形成新的訓練數據，繼續訓練模型。

這樣可以迭代訓練，在每次迭代中模型的遵循指令能力和評分能力都會提升。

研究人員從Llama 2 70B預訓練模型開始迭代訓練。

結果顯示在3次迭代中，模型遵循指令的能力有顯著提升，同時獎勵建模能力也在提高，評估結果與人工判斷的相關性更高。

這說明模型迭代過程中，不僅指令遵循能力提高，也更善於對自己產生的回復進行判斷。

迭代第三次的模型在AlpacaEval 2.0基準測試中，就擊敗了Claude 2、Gemini Pro、GPT-4 0613等模型。

Meta的這項工作與Google在去年9月發布的RLAIF論文相比，更近一步地使用了一個不斷進化的獎勵模型來不斷迭代訓練模型，而迭代後的模型也確實取得了明顯可見的性能提升。

可以說，Meta又將AI自我迭代大模型的前沿往前推進了一大步。

如何訓練「自我獎勵語言模型」

研究人員的方法首先假設可以存取基本的預訓練語言模型和少量人工註釋的種子資料。

然後研究者建立一個模型，讓它同時擁有兩種能力：

指令遵循：給予描述使用者請求的提示，能夠產生高品質、有幫助（且無害）的回應。
自指令建立：能夠按照範例產生和評估新指令，再加入自己的訓練集中。

這兩個能力可以為了使模型能夠執行自我對齊，即它們是用於使用人工智慧回饋（AIF）迭代訓練自身的元件。

自指令創建包括產生候選回應，然後模型本身判斷其品質－充當自己的獎勵模型，取代外部獎勵模型。

這是透過LLM-as-a-Judge機制實現的：透過將回應評估制定為遵循指令的任務。

這個由模型自行創建的AIF偏好資料被用作訓練集來訓練模型。

整體自我對齊過程是一個不斷迭代過程，透過建立一系列此類模型來進行，目的是每個模型都比上一個模型有所改進。

重要的是，由於模型既可以提高其生成能力，又可以透過相同的生成機製作為自己的獎勵模型，這意味著獎勵模型本身可以透過迭代過程來改進，這就不同於獎勵模型固定不變的傳統方法。

研究人員相信這樣可以提高這些學習模型未來自我改進的潛力上限，消除限制性瓶頸。

初始化

種子指令跟隨數據

研究者取得一組人工編寫的（指令提示、回應）一般指令。

他們使用這些範例從預先訓練的基礎語言模型開始，並以監督微調(SFT) 的方式進行訓練。

種子LLM-as-a-Judge指令跟隨數據

研究人員假設他們提供了一組種子（評估指令提示、評估結果反應）範例，這些範例也可用於訓練。

雖然這並不是絕對必要的，因為使用IFT資料的模型已經能夠訓練LLM成為judge，而且研究人員表明此類訓練資料可以提供改進的結果。

在這些數據中，輸入提示要求模型評估對特定指令的給定回應的品質。

所提供的評估結果回應包括思路推理，然後是最終分數（在研究人員的實驗中，滿分為5 分）。

研究者為這些提示所選擇的格式如下圖2所示。以LLM執行獎勵模型角色的訓練資料。

這些數據被稱為評估微調（EFT）數據。

研究人員在訓練期間使用這兩個種子資料集。

再用3個步驟來建立自我指令：

-使用研究人員已經訓練好的模型，研究人員可以讓它自我修改自己的訓練集。具體來說，就是為下一次訓練迭代產生額外的訓練資料。

-產生候選反應：然後，對於給定的提示x，研究人員產生N 個不同的候選反應{y, . 。。, y} 。

-評估候選反應：最後，研究人員使用相同模型的LLM-as-a-Judge能力來評估自己的候選反應，得分為r∈ [0, 5]（見圖2）。

指令遵循訓練

訓練最初是使用種子IFT 和EFT 資料進行的，這與獎勵模型固定的標準實踐不同。然後透過AI（自我）回饋添加附加數據。

AI回饋訓練

執行自指令創建過程後，研究人員可以使用額外的訓練範例來擴充種子數據，研究人員稱之為AI 回饋訓練(AIFT) 數據。

他們嘗試了此類反饋的兩種變體：

偏好對：研究人員建構以下形式的訓練資料（指令提示x，獲勝回應y，失敗回應y）。為了形成獲勝和失敗對，研究人員從N 個評估的候選答案中選取最高和最低得分的答案。

將這些對可用於透過偏好調整演算法進行訓練。

僅正面範例：在此變體中，研究人員遵循其他方法，將模型策劃的（指令提示、回應）附加範例新增至種子集中，以進行監督微調。

整體自對齊演算法

迭代訓練

研究人員的整個過程訓練一系列模型。其中每個連續模型t使用由t − 1模型創建的增強訓練資料。

因此，研究人員將AIFT(M)定義為使用模型M創建的AI回饋訓練資料。

M：基礎預訓練LLM，沒有微調。

M1：用M初始化，然後使用SFT對IFT+EFT種子資料進行微調。

M2：用M1初始化，然後使用DPO用AIFT(M1)資料進行訓練。

M3：用M2初始化，然後使用DPO用AIFT(M2)資料訓練。

實驗結果

如文章開始所提到的那張圖中，研究人員將微調後Llama 2-70B三個迭代版本與其他先進模型在AlpacaEval 2.0基準上進行了比較。

結果顯示，第三次迭代後的Llama 2-70B模型打敗了GPT-4 0613、Claude 2、Gemini Pro等模型。

此外，Llama 2-70B每個迭代版本比較，改進幾乎保持線性。

研究人員透過各種指標來評估作為評估者的大模型，這些指標衡量與保留的人類偏好數據的一致性。

自我獎勵迭代2（模型M2），使用從其先前迭代M1派生的自我獎勵模型進行訓練，其表現優於迭代1（M1）。

而M1本身也優於僅利用指令微調（IFT）資料訓練的標準SFT基準模型。迭代3（模型M3）比迭代2有了進一步提高。

在這個框架之中，研究人員發現，獎勵模型的表現也能隨著迭代不斷提高。

模型M2使用來自M1的獎勵模型進行訓練，與M1相比，在所有五個指標上都體現出了更好的性能。

例如，成對準確（pairwise accuracy）率從78.7%提高到80.4%。M3繼續進一步改進了其中幾個指標。

研究人員猜測，是由於模型在指令遵循方面變得更好，因此它在LLM-as-a-Judge的任務方面也有所改進。

網友：讓開源再次偉大

Meta和NYU的最新研究讓許多人驚呼「讓開源再次偉大」。

俄亥俄州立大學電腦工程助理教授Yu Su表示，2024年才剛開始，我們已經從合成資料中看到了許多重要成果。我個人認為，這不僅僅是「資料增強」的改頭換面。先前的數據增強工作在很大程度上依賴“人類工程”，而現在更像是LLM的“想像”...

越來越多的研究表明，「人工訓練資料耗盡」不會阻止LLM的發展。

這是DPO的「Attention Is All You Need」的時刻。

還有人表示「令人驚訝的是，每次迭代的改進幾乎保持線性，僅在3次迭代之後，就已經接近GPT-4等級」。（新智元）

參考資料：

https://arxiv.org/pdf/2401.10020.pdf