【新智元導讀】OpenAI o1和o3模型的秘密,竟傳出被中國研究者「破解」?今天,復旦等機構的這篇論文引起了AI社區的強烈反響,他們從強化學習的角度,分析了實現o1的路線圖,並總結了現有的「開源版o1」。
就在今天,國內的一篇論文,引得全球AI學者震驚不已。
推上多位網友表示,OpenAI o1和o3模型背後究竟是何原理——這一未解之謎,被中國研究者「發現」了!
實際上,在這篇長達51頁的論文中,來自復旦大學等機構的研究人員,從強化學習的角度分析了實現o1的路線圖。
其中,有四個關鍵部分需要重點關注:策略初始化、獎勵設計、搜尋和學習。
此外,作為路線圖的一部分,研究者還總結出了現有的「開源版o1」項目。
論文地址:https://arxiv.org/abs/2412.14135
探索OpenAI的「AGI之迷」
概括來說,像o1這樣的推理模型,可以被認為是LLM和AlphaGo這類模型的結合。
首先,模型需要通過「網際網路資料」進行訓練,使它們能夠理解文字,並達到一定的智能水平。
然後,再加入強化學習方法,讓它們「系統地思考」。
最後,在尋找答案的過程中,模型會去「搜尋」解決方案空間。這種方法既用於實際的「測試時」回答,也用於改進模型,即「學習」。
值得一提的是,斯坦福和Google在2022年的「STaR: Self-Taught Reasoner」論文中提出,可以利用LLM在回答問題之前生成的「推理過程」來微調未來的模型,從而提高它們回答此類問題的能力。
STaR讓AI模型能夠通過反覆生成自己的訓練資料,自我「引導」到更高的智能水平,理論上,這種方法可以讓語言模型超越人類水平的智能。
因此,讓模型「深入分析解決方案空間」的這一理念,在訓練階段和測試階段都扮演著關鍵角色。
在這項工作中,研究者主要從以下四個層面對o1的實現進行了分析:策略初始化、獎勵設計、搜尋、學習。
策略初始化使模型能夠發展出「類人推理行為」,從而具備高效探索複雜問題解空間的能力。
獎勵設計則通過獎勵塑造或建模提供密集有效的訊號,指導模型的學習和搜尋過程。
搜尋在訓練和測試中都起著至關重要的作用,即通過更多計算資源可以生成更優質的解決方案。
從人工專家資料中學習需要昂貴的資料標註。相比之下,強化學習通過與環境的互動進行學習,避免了高昂的資料標註成本,並有可能實現超越人類的表現。
綜上,正如研究者們在2023年11月所猜測的,LLM下一個突破,很可能就是與GoogleDeepmind的Alpha系列(如AlphaGo)的某種結合。
對此,有網友表示,這項研究的意義絕不僅僅是發表了一篇論文,它還為大多數模型打開了大門,讓其他人可以使用RL來實現相同的概念,提供不同類型的推理反饋,同時還開發了AI可以使用的劇本和食譜。
「開源版o1」
此外,工業界也有一些類似o1的模型,例如 k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。
策略初始化
在強化學習中,策略定義了智能體如何根據環境狀態選擇行動。
其中,LLM的動作粒度分為三種等級:解決方案等級、步驟等級和Token等級。
智能體與環境在LLM強化學習中的互動過程
對於LLM的初始化過程,主要包括兩個階段:預訓練和指令微調。
在預訓練階段,模型通過大規模網路語料庫的自監督學習,發展出基本的語言理解能力,並遵循計算資源與性能之間的既定冪律規律。
在指令微調階段,則是將LLM從簡單的下一個Token預測,轉變為生成與人類需求一致的響應。
對於像o1這樣的模型,融入類人推理行為對於更複雜的解決方案空間探索至關重要。
預訓練通過大規模文字語料庫的接觸,為LLM建立基本的語言理解和推理能力。
對於類似o1的模型,這些核心能力是後續學習和搜尋中發展高級行為的基礎。
指令微調通過在多領域的指令-響應對上進行專門訓練,將預訓練語言模型轉變為面向任務的智能體。
這一過程將模型的行為從單純的下一個Token預測,轉變為具有明確目的的行為。
效果主要取決於兩個關鍵因素:指令資料集的多樣性和指令-響應對的質量。
儘管經過指令微調的模型展現了通用任務能力和使用者意圖理解能力,但像o1這樣的模型,需要更複雜的類人推理能力來充分發揮其潛力。
如表1所示,研究者對o1的行為模式進行了分析,識別出六種類人推理行為。
策略初始化在開發類似o1的模型中起到了關鍵作用,因為它建立了影響後續學習和搜尋過程的基礎能力。
策略初始化階段包括三個核心組成部分:預訓練、指令微調以及類人推理行為的開發。
儘管這些推理行為在指令微調後的LLM中已隱性存在,但其有效部署需要通過監督微調或精心設計的提示詞來啟動。
獎勵設計
在強化學習中,智能體從環境中接收獎勵反饋訊號,並通過改進策略來最大化其長期獎勵。
獎勵函數通常表示為r(st, at),表示智能體在時間步t的狀態st下執行動作at所獲得的獎勵。
獎勵反饋訊號在訓練和推理過程中至關重要,因為它通過數值評分明確了智能體的期望行為。
結果獎勵與過程獎勵
結果獎勵是基於LLM輸出是否符合預定義期望來分配分數的。但由於缺乏對中間步驟的監督,因此可能會導致LLM生成錯誤的解題步驟。
與結果獎勵相比,過程獎勵不僅為最終步驟提供獎勵訊號,還為中間步驟提供獎勵。儘管展現了巨大的潛力,但其學習過程比結果獎勵更具挑戰性。
由於結果獎勵可以被視為過程獎勵的一種特殊情況,許多獎勵設計方法可以同時應用於結果獎勵和過程獎勵的建模。
這些模型常被稱為結果獎勵模型(Outcome Reward Model,ORM)和過程獎勵模型(Process Reward Model,PRM)。
在某些環境中,獎勵訊號可能無法有效傳達學習目標。
在這種情況下,可以通過獎勵塑造(reward shaping)對獎勵進行重新設計,使其更豐富且更具資訊量。
然而,由於價值函數依賴於策略π,從一種策略估計的價值函數可能並不適合作為另一種策略的獎勵函數。
鑑於o1能夠處理多工推理,其獎勵模型可能結合了多種獎勵設計方法。
對於諸如數學和程式碼等複雜的推理任務,由於這些任務的回答通常涉及較長的推理鏈條,更可能採用過程獎勵模型(PRM)來監督中間過程,而非結果獎勵模型(ORM)。
當環境中無法提供獎勵訊號時,研究者推測,o1可能依賴於從偏好資料或專家資料中學習。
根據OpenAI的AGI五階段計畫,o1已經是一個強大的推理模型,下一階段是訓練一個能夠與世界互動並解決現實問題的智能體。
為了實現這一目標,需要一個獎勵模型,為智能體在真實環境中的行為提供獎勵訊號。
搜尋
對於像o1這樣旨在解決複雜推理任務的模型,搜尋可能在訓練和推理過程中都發揮重要作用。
基於內部指導的搜尋不依賴於來自外部環境或代理模型的真實反饋,而是通過模型自身的狀態或評估能力來引導搜尋過程。
外部指導通常不依賴於特定策略,僅依賴於與環境或任務相關的訊號來引導搜尋過程。
同時,內部指導和外部指導可以結合起來引導搜尋過程,常見的方法是結合模型自身的不確定性與來自獎勵模型的代理反饋。
研究者將搜尋策略分為兩種類型:樹搜尋和序列修正。
樹搜尋是一種全域搜尋方法,同時生成多個答案,用於探索更廣泛的解決方案範圍。
相比之下,序列修正是一種局部搜尋方法,基於先前結果逐步最佳化每次嘗試,可能具有更高的效率。
樹搜尋通常適用於複雜問題的求解,而序列修正更適合快速迭代最佳化。
研究者認為,搜尋在o1的訓練和推理過程中,都起著至關重要的作用。
他們將這兩個階段中的搜尋,分別稱為訓練時搜尋(training-time search)和推理時搜尋(test-time search)。
在訓練階段,線上強化學習中的試錯過程也可以被視為一種搜尋過程。
在推理階段,o1表明,通過增加推理計算量和延長思考時間可以持續提高模型性能。
研究者認為,o1的「多思考」方式可以被視為一種搜尋,利用更多的推理計算時間來找到更優的答案。
從o1部落格中的示例可以看出,o1的推理風格更接近於序列修正。種種跡象表明,o1在推理階段主要依賴內部指導。
學習
強化學習通常使用策略對軌跡進行採樣,並基於獲得的獎勵來改進策略。
在o1的背景下,研究者假設強化學習過程通過搜尋演算法生成軌跡,而不僅僅依賴於採樣。
基於這一假設,o1的強化學習可能涉及一個搜尋與學習的迭代過程。
在每次迭代中,學習階段利用搜尋生成的輸出作為訓練資料來增強策略,而改進後的策略隨後被應用於下一次迭代的搜尋過程中。
訓練階段的搜尋與測試階段的搜尋有所不同。
研究者將搜尋輸出的狀態-動作對集合記為D_search,將搜尋中最優解決方案的狀態-動作對集合記為D_expert。因此,D_expert是D_search 的一個子集。
給定D_search,可通過策略梯度方法或行為克隆來改進策略。
近端策略最佳化(PPO)和直接策略最佳化 DPO)是LLM中最常用的強化學習技術。此外,在搜尋資料上執行行為克隆或監督學習也是常見做法。
研究者認為,o1的學習可能是多種學習方法結合的結果。
在這一框架中,他們假設o1的學習過程從使用行為克隆的預熱階段開始,當行為克隆的改進效果趨於穩定後,轉向使用PPO或DPO。
這一流程與LLama2和LLama3中採用的後訓練策略一致。
在預訓練階段,損失、計算成本、模型參數和資料規模之間的關係,是遵循冪律Scaling Law的。那麼,對於強化學習,是否也會表現出來呢?
根據OpenAI的部落格,推理性能與訓練時間計算量,確實呈對數線性關係。然而,除了這一點之外,相關研究並不多。
為了實現像o1這樣的大規模強化學習,研究LLM強化學習的Scaling Law至關重要。 (新智元)