超越DeepSeek V3！Ai2再祭開源殺器Tülu 3，強化學習打破性能瓶頸

2025/02/05

•

【新智元導讀】當我們在歡呼Deepseek超越ChatGPT時，來自美國的艾倫人工智慧研究所（Ai2）推出了基於強化學習的新一代開源模型Tülu 3 405B，不僅能夠媲美GPT-4o，更在多項關鍵基準測試中超越了DeepSeek v3。

2024年11月，艾倫人工智慧研究所（Ai2）推出了Tülu 3 8B和70B，在性能上超越了同等參數的Llama 3.1 Instruct版本，並在長達82頁的論文中公佈其訓練細節，訓練資料、程式碼、測試基準一應俱全。

1月30日，更大杯的Tülu 3 405B震撼登場。

Tülu 3 405B在許多標準的基準測試中均實現了與Deepseek v3和GPT-4o相當或更優的性能，而且也超越了許多先前發佈的後訓練開源模型（同等參數規模），包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

各項基準結果比較，最後一列是強化學習最佳化過的Tülu 3 405B的表現，在多項指標上超越了Deepseek V3

不過在官網提供的體驗版上試了試，效果也並不是那麼好，對於經典的數Strawberry中有幾個r的問題，Tülu 3同樣撲街，不過之後需要推理的問題，模型倒是給出了正確的回答思路。

至於其生成出的一些與蛇相關的格言，大多都沒有理解傳統文化中「蛇」的寓意，顯得牛頭不對馬嘴。

對於想體驗本地大模型的讀者，Tülu 3 8B和70B已支援ollama下載，可以方便地整合使用，相信405B也會盡快上線ollama平台。

早期的語言模型後訓練工作遵循了由InstructGPT等模型開創的標準方法，包括指令微調（instruction-tuning）和偏好微調（preference fine-tuning）。

自此以後，後訓練方法的複雜性和精密度不斷增加，但大多數成功的後訓練模型對其訓練資料、程式碼或訓練方法的披露非常有限。在眾多後訓練研究中，Ai2罕見地選擇了完整發佈訓練資料、方法和研究成果，包括最新的Tülu 3在內。

Tülu 3的全部建構流程如下圖所示，包括主要包括資料、訓練和評估三部分。

Tülu 3項目始於確定通用語言模型的關鍵期望能力，包括知識、推理、數學、程式設計、指令遵循、日常聊天和安全性。

其中最關鍵的模型訓練，是在預訓練語言模型（即Llama 3 Base）的基礎上採用四階段後訓練配方，四階段依次是：

1）精心策劃和合成式提示（prompt）；其使用的提示詞來源如下：

2）在精心挑選的提示詞以及相應生成內容的混合資料集上進行監督微調，以針對核心技能最佳化模型；同時為了保證模型安全性，使用如下帶有攻擊性提示詞的資料，訓練Tülu 3讓其儘可能不會被攻破。

3）結合離線和線上策略偏好資料以應用偏好微調；

具體來說，就是在之前提示詞的基礎上，再生成一些不同的新提示詞，通過22種開源大模型生成回答，讓GPT-4o對各模型給出的回答在有用程度、真實性、誠實性及指令遵循上的表現進行打分，決定是否接受該回答作為訓練資料。

4）一種新的基於強化學習（RL）的方法，通過可驗證獎勵來增強特定技能；

具體來說，Tülu 3使用了一種獨創的後訓練方法，稱為：可驗證獎勵強化學習（Reinforcement Learning from Verifiable Rewards，簡稱RLVR），流程圖如下所示。

這種新的訓練方法專門針對具有可驗證結果的任務，例如數學問題求解和指令遵循問題。根據訓練資料和提示詞，明確判斷問題是否完成，從而更新策略函數。

有趣的是，訓練採用的可驗證獎勵強化學習框架在更大規模（例如405B）上對數學性能的提升更為顯著，這與DeepSeek-R1報告中的發現類似，即相比70B和8B參數規模，405B模型由強化學習帶來的提升更為明顯。

對此，可能的解釋是小型模型從更多樣化的資料中受益更多，而大型模型更適合處理需要專門資料的複雜任務。

訓練Tülu 3 405B時使用了32個節點（256個GPU）平行運行。對於推理，可使用vLLM部署模型，採用16路張量平行，同時利用剩餘的240個GPU進行訓練。

鑑於計算成本有限，超參數調整受到限制。訓練時遵循了「參數更大的模型採用較低學習率」的原則，這與Llama模型之前的實踐一致。

上圖展示了在405B的參數量上，MATH資料集的可驗證獎勵、KL散度和模型響應長度隨訓練輪次的變化曲線，總體而言，可驗證獎勵像在8B和70B設定中觀察到的那樣上升。

圖中星號標記對應最終檢查點的位置。論文表示，團隊本打算訓練更長時間，但由於計算資源限制而被迫停止。由於在訓練過程中沒有觀察到數學性能飽和，進一步訓練可能會進一步提升性能。

總體來看，Tülu 3採用了全新的後訓練框架，包括完全開放原始碼的資料（Tülu 3 Data）、評估（Tülu 3 Eval）、訓練程式碼（Tülu 3 Code）以及開發配方（Tülu 3 Recipe），並在性能上超越了同尺度的開源及閉源模型。

Tülu 3標誌著開放後訓練研究的一個新的里程碑。憑藉Ai2披露的資訊和研究成果，其他人可以在開放的基礎模型上繼續建構，並針對多樣化任務進行微調以實現高性能，這為在多目標和多階段訓練框架內推進後訓練研究鋪平了道路，其提出的訓練方法也值得開發者借鑑。 (新智元)