OpenAI最大秘密，竟被中國研究者破解？復旦等驚人揭秘o1路線圖

2025/01/05

•

【新智元導讀】OpenAI o1和o3模型的秘密，竟傳出被中國研究者「破解」？今天，復旦等機構的這篇論文引起了AI社區的強烈反響，他們從強化學習的角度，分析了實現o1的路線圖，並總結了現有的「開源版o1」。

就在今天，國內的一篇論文，引得全球AI學者震驚不已。

推上多位網友表示，OpenAI o1和o3模型背後究竟是何原理——這一未解之謎，被中國研究者「發現」了！

實際上，在這篇長達51頁的論文中，來自復旦大學等機構的研究人員，從強化學習的角度分析了實現o1的路線圖。

其中，有四個關鍵部分需要重點關注：策略初始化、獎勵設計、搜尋和學習。

此外，作為路線圖的一部分，研究者還總結出了現有的「開源版o1」項目。

論文地址：https://arxiv.org/abs/2412.14135

探索OpenAI的「AGI之迷」

概括來說，像o1這樣的推理模型，可以被認為是LLM和AlphaGo這類模型的結合。

首先，模型需要通過「網際網路資料」進行訓練，使它們能夠理解文字，並達到一定的智能水平。

然後，再加入強化學習方法，讓它們「系統地思考」。

最後，在尋找答案的過程中，模型會去「搜尋」解決方案空間。這種方法既用於實際的「測試時」回答，也用於改進模型，即「學習」。

值得一提的是，斯坦福和Google在2022年的「STaR: Self-Taught Reasoner」論文中提出，可以利用LLM在回答問題之前生成的「推理過程」來微調未來的模型，從而提高它們回答此類問題的能力。

STaR讓AI模型能夠通過反覆生成自己的訓練資料，自我「引導」到更高的智能水平，理論上，這種方法可以讓語言模型超越人類水平的智能。

因此，讓模型「深入分析解決方案空間」的這一理念，在訓練階段和測試階段都扮演著關鍵角色。

在這項工作中，研究者主要從以下四個層面對o1的實現進行了分析：策略初始化、獎勵設計、搜尋、學習。

策略初始化

策略初始化使模型能夠發展出「類人推理行為」，從而具備高效探索複雜問題解空間的能力。

海量文字資料預訓練
指令微調
問題分析、任務分解和自我糾正等學習能力

獎勵設計

獎勵設計則通過獎勵塑造或建模提供密集有效的訊號，指導模型的學習和搜尋過程。

結果獎勵（基於最終結果）
過程獎勵（基於中間步驟）

搜尋

搜尋在訓練和測試中都起著至關重要的作用，即通過更多計算資源可以生成更優質的解決方案。

MCTS等樹搜尋方法探索多種解決方案
連續修訂迭代改進答案
結合兩種方法可能是最佳選擇

學習

從人工專家資料中學習需要昂貴的資料標註。相比之下，強化學習通過與環境的互動進行學習，避免了高昂的資料標註成本，並有可能實現超越人類的表現。

政策梯度方法，如PPO和DPO
從高品質搜尋解決方案克隆行為
迭代搜尋和學習周期

綜上，正如研究者們在2023年11月所猜測的，LLM下一個突破，很可能就是與GoogleDeepmind的Alpha系列（如AlphaGo）的某種結合。

對此，有網友表示，這項研究的意義絕不僅僅是發表了一篇論文，它還為大多數模型打開了大門，讓其他人可以使用RL來實現相同的概念，提供不同類型的推理反饋，同時還開發了AI可以使用的劇本和食譜。

「開源版o1」

研究者總結道，儘管o1尚未發佈技術報告，但學術界已經提供了多個o1的開源實現。

此外，工業界也有一些類似o1的模型，例如 k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。

g1：這項研究可能是最早嘗試重新實現o1的項目。
Thinking Claude：與g1類似，但它通過更複雜和細粒度的操作來提示LLM。
Open-o1：項目提出了一個SFT資料集，其中每個響應都包含CoT。研究者推測，這些資料可能來自人類專家或一個強大的LLM。
o1 Journey：通過兩篇技術報告中進行了詳細描述。第一部分通過束搜尋生成的樹資料進行遍歷，特定節點由GPT-4最佳化後用於SFT，這一策略可以被描述為專家迭代。第二部分則嘗試對o1-mini進行蒸餾，並通過prompt來恢復隱藏的CoT過程。
Open-Reasoner：框架類似於AlphaGo，通過強化學習提升模型性能。
慢思考與LLM：研究同樣分為兩篇技術報告。第一部分與Open-Reasoner類似，結合了強化學習和測試時的搜尋。第二部分從QwQ和Deepseek-R1中蒸餾，並嘗試了兩種強化學習方法。
Marco-o1：項目將Open-o1的資料與模型自身通過MCTS演算法生成的資料結合，用於SFT訓練。
o1-coder：項目嘗試在程式碼生成領域重新實現o1。

策略初始化

在強化學習中，策略定義了智能體如何根據環境狀態選擇行動。

其中，LLM的動作粒度分為三種等級：解決方案等級、步驟等級和Token等級。

智能體與環境在LLM強化學習中的互動過程

對於LLM的初始化過程，主要包括兩個階段：預訓練和指令微調。

在預訓練階段，模型通過大規模網路語料庫的自監督學習，發展出基本的語言理解能力，並遵循計算資源與性能之間的既定冪律規律。

在指令微調階段，則是將LLM從簡單的下一個Token預測，轉變為生成與人類需求一致的響應。

對於像o1這樣的模型，融入類人推理行為對於更複雜的解決方案空間探索至關重要。

預訓練

預訓練通過大規模文字語料庫的接觸，為LLM建立基本的語言理解和推理能力。

對於類似o1的模型，這些核心能力是後續學習和搜尋中發展高級行為的基礎。

語言理解與生成：語言理解是分層次發展的——句法模式較早湧現，而邏輯一致性和抽象推理則在訓練的後期階段逐步形成。因此除了模型規模外，訓練時長和資料組成也至關重要。
世界知識獲取與儲存：知識儲存具有高效的壓縮和泛化特性，而抽象概念相比事實性知識需要更廣泛的訓練。
基礎推理能力：預訓練通過多樣化的推理模式發展了基礎推理能力，後者以從簡單推斷到複雜推理的層次結構逐步湧現。

指令微調

指令微調通過在多領域的指令-響應對上進行專門訓練，將預訓練語言模型轉變為面向任務的智能體。

這一過程將模型的行為從單純的下一個Token預測，轉變為具有明確目的的行為。

效果主要取決於兩個關鍵因素：指令資料集的多樣性和指令-響應對的質量。

類人推理行為

儘管經過指令微調的模型展現了通用任務能力和使用者意圖理解能力，但像o1這樣的模型，需要更複雜的類人推理能力來充分發揮其潛力。

如表1所示，研究者對o1的行為模式進行了分析，識別出六種類人推理行為。

問題分析：問題分析是一個關鍵的初始化過程，模型在解決問題前會先重新表述並分析問題。
任務分解：在面對複雜問題時，人類通常會將其分解為若干可管理的子任務。
任務完成：之後，模型通過基於明確問題和分解子任務的逐步推理，生成解決方案。
替代方案：當面臨推理障礙或思路中斷時，生成多樣化替代解決方案的能力尤為重要。如表1所示，o1在密碼破解中展現了這一能力，能夠系統性地提出多個選項。
自我評估：任務完成後，自我評估作為關鍵的驗證機制，用於確認所提解決方案的正確性。
自我糾正：當推理過程中出現可控錯誤時，模型會採用自我糾正行為來解決這些問題。在o1的演示中，當遇到諸如「No」或「Wait」之類的訊號時，會觸發糾正過程。

關於o1策略初始化的推測

策略初始化在開發類似o1的模型中起到了關鍵作用，因為它建立了影響後續學習和搜尋過程的基礎能力。

策略初始化階段包括三個核心組成部分：預訓練、指令微調以及類人推理行為的開發。

儘管這些推理行為在指令微調後的LLM中已隱性存在，但其有效部署需要通過監督微調或精心設計的提示詞來啟動。

長文字生成能力：在推理過程中，LLM需要精細的長文字上下文建模能力。
合理塑造類人推理行為：模型還需要發展以邏輯連貫方式，有序安排類人推理行為的能力。
自我反思：自我評估、自我糾正和替代方案提議等行為，可視為模型自我反思能力的表現。

獎勵設計

在強化學習中，智能體從環境中接收獎勵反饋訊號，並通過改進策略來最大化其長期獎勵。

獎勵函數通常表示為r(st, at)，表示智能體在時間步t的狀態st下執行動作at所獲得的獎勵。

獎勵反饋訊號在訓練和推理過程中至關重要，因為它通過數值評分明確了智能體的期望行為。

結果獎勵與過程獎勵

結果獎勵是基於LLM輸出是否符合預定義期望來分配分數的。但由於缺乏對中間步驟的監督，因此可能會導致LLM生成錯誤的解題步驟。

與結果獎勵相比，過程獎勵不僅為最終步驟提供獎勵訊號，還為中間步驟提供獎勵。儘管展現了巨大的潛力，但其學習過程比結果獎勵更具挑戰性。

獎勵設計方法

由於結果獎勵可以被視為過程獎勵的一種特殊情況，許多獎勵設計方法可以同時應用於結果獎勵和過程獎勵的建模。

這些模型常被稱為結果獎勵模型（Outcome Reward Model，ORM）和過程獎勵模型（Process Reward Model，PRM）。

來自環境的獎勵：最直接的獎勵設計方法是直接利用環境提供的獎勵訊號，或者學習一個模型來模擬環境中的獎勵訊號。
從資料中建模獎勵：對於某些環境，環境中的獎勵訊號無法獲取，也無法進行模擬。相比直接提供獎勵，收集專家資料或偏好資料更為容易。通過這些資料，可以學習一個模型，從而提供有效的獎勵。

獎勵塑造

在某些環境中，獎勵訊號可能無法有效傳達學習目標。

在這種情況下，可以通過獎勵塑造（reward shaping）對獎勵進行重新設計，使其更豐富且更具資訊量。

然而，由於價值函數依賴於策略π，從一種策略估計的價值函數可能並不適合作為另一種策略的獎勵函數。

關於o1獎勵設計的推測

鑑於o1能夠處理多工推理，其獎勵模型可能結合了多種獎勵設計方法。

對於諸如數學和程式碼等複雜的推理任務，由於這些任務的回答通常涉及較長的推理鏈條，更可能採用過程獎勵模型（PRM）來監督中間過程，而非結果獎勵模型（ORM）。

當環境中無法提供獎勵訊號時，研究者推測，o1可能依賴於從偏好資料或專家資料中學習。

根據OpenAI的AGI五階段計畫，o1已經是一個強大的推理模型，下一階段是訓練一個能夠與世界互動並解決現實問題的智能體。

為了實現這一目標，需要一個獎勵模型，為智能體在真實環境中的行為提供獎勵訊號。

獎勵整合：為通用任務建構獎勵訊號的一種直觀方式是通過特定領域的獎勵整合。
世界模型：世界模型不僅能夠提供獎勵訊號，還可以預測下一狀態。有研究認為，視訊生成器可以作為一種世界模型，因為它能夠預測未來時間步的圖像。

搜尋

對於像o1這樣旨在解決複雜推理任務的模型，搜尋可能在訓練和推理過程中都發揮重要作用。

搜尋指導

基於內部指導的搜尋不依賴於來自外部環境或代理模型的真實反饋，而是通過模型自身的狀態或評估能力來引導搜尋過程。

外部指導通常不依賴於特定策略，僅依賴於與環境或任務相關的訊號來引導搜尋過程。

同時，內部指導和外部指導可以結合起來引導搜尋過程，常見的方法是結合模型自身的不確定性與來自獎勵模型的代理反饋。

搜尋策略

研究者將搜尋策略分為兩種類型：樹搜尋和序列修正。

樹搜尋是一種全域搜尋方法，同時生成多個答案，用於探索更廣泛的解決方案範圍。

相比之下，序列修正是一種局部搜尋方法，基於先前結果逐步最佳化每次嘗試，可能具有更高的效率。

樹搜尋通常適用於複雜問題的求解，而序列修正更適合快速迭代最佳化。

搜尋在o1中的角色

研究者認為，搜尋在o1的訓練和推理過程中，都起著至關重要的作用。

他們將這兩個階段中的搜尋，分別稱為訓練時搜尋（training-time search）和推理時搜尋（test-time search）。

在訓練階段，線上強化學習中的試錯過程也可以被視為一種搜尋過程。

在推理階段，o1表明，通過增加推理計算量和延長思考時間可以持續提高模型性能。

研究者認為，o1的「多思考」方式可以被視為一種搜尋，利用更多的推理計算時間來找到更優的答案。

關於o1搜尋的推測

訓練階段搜尋：在訓練過程中，o1更可能採用樹搜尋技術，例如BoN或樹搜尋演算法，並主要依賴外部指導。
推理階段搜尋：在推理過程中，o1更可能使用序列修正，結合內部指導，通過反思不斷最佳化和修正其搜尋過程。

從o1部落格中的示例可以看出，o1的推理風格更接近於序列修正。種種跡象表明，o1在推理階段主要依賴內部指導。

學習

強化學習通常使用策略對軌跡進行採樣，並基於獲得的獎勵來改進策略。

在o1的背景下，研究者假設強化學習過程通過搜尋演算法生成軌跡，而不僅僅依賴於採樣。

基於這一假設，o1的強化學習可能涉及一個搜尋與學習的迭代過程。

在每次迭代中，學習階段利用搜尋生成的輸出作為訓練資料來增強策略，而改進後的策略隨後被應用於下一次迭代的搜尋過程中。

訓練階段的搜尋與測試階段的搜尋有所不同。

研究者將搜尋輸出的狀態-動作對集合記為D_search，將搜尋中最優解決方案的狀態-動作對集合記為D_expert。因此，D_expert是D_search 的一個子集。

學習方法

給定D_search，可通過策略梯度方法或行為克隆來改進策略。

近端策略最佳化（PPO）和直接策略最佳化 DPO）是LLM中最常用的強化學習技術。此外，在搜尋資料上執行行為克隆或監督學習也是常見做法。

研究者認為，o1的學習可能是多種學習方法結合的結果。

在這一框架中，他們假設o1的學習過程從使用行為克隆的預熱階段開始，當行為克隆的改進效果趨於穩定後，轉向使用PPO或DPO。

這一流程與LLama2和LLama3中採用的後訓練策略一致。

強化學習的Scaling Law

在預訓練階段，損失、計算成本、模型參數和資料規模之間的關係，是遵循冪律Scaling Law的。那麼，對於強化學習，是否也會表現出來呢？

根據OpenAI的部落格，推理性能與訓練時間計算量，確實呈對數線性關係。然而，除了這一點之外，相關研究並不多。

為了實現像o1這樣的大規模強化學習，研究LLM強化學習的Scaling Law至關重要。 (新智元)