如何理解OpenAI o1

2024/09/14

•

本文來自張俊林，張老師的文章回答了以下問題：

o1的意義到底是什麼
pre train所謂「遇到瓶頸」的本質是什麼
RL以及所謂inference scaling law本質是什麼

OpenAI o1是大模型的巨大進步

我覺得OpenAI o1是自GPT 4發佈以來，基座大模型最大的進展，邏輯推理能力提升的效果和方法比我想的要好，GPT 4o和o1是發展大模型不同的方向，但是o1這個方向更根本，重要性也比GPT 4o這種方向重要得多，原因下面會分析。

為什麼說o1比4o方向重要？這是兩種不同的大模型發展思路，說實話在看到GPT 4o發佈的時候我是有些失望的，當時以為OpenAI會優先做o1這種方向，但是沒想到先出了GPT 4o。 GPT 4o本質上是要探索不同模態相互融合的大一統模型應該怎麼做的問題，對於提升大模型的智力水平估計幫助不大；而o1本質上是在探索大模型在AGI路上能走多遠、天花板在那裡的問題，很明顯第二個問題比較重要。

GPT 4o的問題在於本身大模型的智力水平還不夠高，所以做不了複雜任務，導致很多應用場景無法實用化，而指望靠圖片、視訊這類新模態資料大幅提升大模型智力水平是很難的，儘管確實能拓展更豐富的多模態應用場景，但這類資料彌補的更多是大模型對外在多模態世界的感知能力，而不是認知能力。提升大模型認知能力主要還要靠LLM文字模型，而提升LLM模型認知能力的核心又在複雜邏輯推理能力。 LLM的邏輯推理能力越強，則能解鎖更多複雜應用，大模型應用的天花板就越高，所以不遺餘力地提升大模型尤其是文字模型的邏輯能力應該是最重要的事情，沒有之一。

o1模型能力越強，則可以反哺基座模型。通過直接用o1基座模型替換GPT 4o的基座、或者利用o1模型生成邏輯推理方面的合成資料增強GPT 4o（或GPT-5）、再或者用o1蒸餾GPT 4o模型….. 等等，能玩的花樣應該很多，都可以直接提升未來模型的複雜任務解決能力，從而解鎖更複雜的多模態應用場景。OpenAI未來規劃兩條線，一條是o1，一條是GPT 4o及之後的多模態大模型（比如GPT-5），它的內在邏輯大概應該是這樣的，就是說通過o1增強最重要的基座模型邏輯推理能力，而再把這種能力遷移到GPT 4o/GPT-5這種多模態通用模型上。

OpenAI o1的做法本質上是CoT的自動化or內化。我們知道，透過CoT把一個複雜問題拆解成若干簡單步驟，這有利於大模型解決複雜邏輯問題，但之前主要靠人工寫CoT來達成。從使用者提出的問題形成樹的根結點出發，最終走到給出正確答案，可以想像成類似AlphaGo下棋，形成了巨大的由COT具體步驟構成的樹形搜尋空間，這裡COT的具體步驟的組合空間是龐大的，人寫的COT未必最優。如果我們有大量邏輯資料，是由<問題，明確的正確答案>構成，則通過類似AlphaGo的Monte Carlo Tree Search（MCTS）搜尋+強化學習，確實是可以訓練大模型快速找到通往正確答案的COT路徑的。而問題越複雜，則這個樹的搜尋空間越大，搜尋複雜度越高，找到正確答案涉及到的COT步驟越多，則模型產生的COT就越複雜，體現在o1的速度越慢，產生的COT Token數越多。很明顯，問題越複雜，o1自己生成的隱藏的COT越長，大模型推理成本越高，但效果最重要，成本其實不是問題，最近一年大模型推理成本降低速度奇快，這個總有辦法快速降下去。

從上面o1的做法可以知道Prompt工程會逐漸消亡。之前解決複雜問題，需要人寫非常複雜的Prompt，而o1本質上是COT等複雜Prompt的自動化，所以之後是不太需要使用者自己構造複雜Prompt的。本來讓使用者寫複雜Prompt就是不人性化的，所有複雜人工環節的自動化，這肯定是大勢所趨。

Agent目前還是很難，但前途光明。目前Agent無法實用化的主要原因就在於基座模型的複雜推理能力不夠強。如果通過基座模型Plan把一個複雜任務分解為10個步驟，即使單個步驟的正確率高達95%，要想最後把任務做對，10個環節的精準率連乘下來，最終的正確率只有59 %，慘不忍睹。那有了o1是不是這個方向就前途坦蕩？也是也不是，o1的Model Card專門測試了Agent任務，對於簡單和中等難度的Agent任務有明顯提升，但是複雜的、環節多的任務精度還是不太高。就是說，不是說有了o1 Agent就現狀光明，但是很明顯o1這種通過Self Play增強邏輯推理能力的方嚮應該還有很大的發展潛力，從這個角度講說Agent未來前途光明問題應該不大。

OpenAI很多時候起到一個行業指路明燈的作用，往往是第一個證明某個方向是行得通的（例如ChatGPT、GPT 4、Sora、GPT 4o包括這次的o1），然後其他人開始瘋狂往這個方向卷，到後來甚至卷的速度太快把OpenAI都甩到後面吃尾氣。典型例子就是Sora，如果OpenAI不是出於阻擊競爭對手秀一下肌肉，大家都沒有意識到原來這個方向是可以走這麼遠的，但當意識到這一點後，只要你專一地捲一個方向，方向明確且資源聚焦，是可能趕超OpenAI的。 Sora至今仍是“期貨狀態”，而Google和國內廠商有些跑的很快（雖然OpenAI多模態能力依然可能領先）。主要OpenAI想做的方向太多，資源分散導致分到具體一個方向的資源不夠用，所以越往後發展「期貨狀態」的方向越多，也讓人覺得盡顯疲態。

OpenAI o1等於給大家又指出了一個前景光明的方向，估計後面大家又開始都往這個方向卷。我覺得卷這個方向比去捲GPT 4o和視訊生成要好，雖然具體怎麼做的都不知道，但是大方向清楚且效果基本得到證明，過半年肯定頭部幾家都能摸清具體技術追上來，希望能再讓OpenAI吃尾氣。而且這個方向看上去資源耗費應該不會特別大，偏向演算法和資料一些，資料量規模估計不會特別巨大，捲起來貌似成本低一些。這是個卷的好方向。

預訓練Scaling Law的來源、o1提到的RL Scaling law

粗分的話，大語言模型最基礎的能力有三種：語言理解和表達能力、世界知識儲存和查詢能力以及邏輯推理能力（包括數學、Coding、推理等理科能力，這裡Coding有一定的特殊性，是語言能力和邏輯摻雜在一起的混合能力，Coding從語言角度可以看成一種受限的自然語言，但是混雜著複雜的內在邏輯問題。又相對難解決。

語言理解和表達是LLM最強的能力，初版ChatGPT就可以完全勝任各種純語言交流的任務，基本上達到人類水準，目前即使是小模型，在這方面比大模型能力也不弱；世界知識能力雖說隨著模型規模越大效果越好，但幻覺問題目前無法根治，這是制約各種應用的硬傷之一；邏輯推理能力一直都是LLM的弱項，也是最難提升的方面，從GPT 4開始往後，如何有效並大幅提升LLM的邏輯推理能力是體現不同大模型差異和優勢的最核心問題。所以，大模型最重要的一個是世界知識面如何有效消除幻覺，一個是如何大幅提升複雜邏輯推理能力。語言能力已不是問題。

基於以上能力分類，我們來說說Scaling law。現在普遍認為透過增加資料和模型規模來提升大模型效果的Scaling law模式，其成長速度正在放緩。其實我們對照下大模型的三個基礎能力的能力來源，基本上就能看出來這是為何（以下是我猜的，不保真）：

本質上大模型的能力來源都來自訓練資料，包含能體現這方面能力的訓練資料越多，則這種能力越強。語言能力不用說了，任意一份預訓練資料，其中都包含相當比例的語言的詞法句法等成分，所以訓練資料中體現語言能力的資料是最多的，這也是為什麼大模型的語言能力最強的原因。

而資料中包含的世界知識含量，基本上是和訓練資料量成正比的，明顯資料量越多，包含的世界知識越多，Scaling law是資料中包含的世界知識含量關係的一個體現，但這裡有個問題，大模型見過越多資料，則新資料裡面包含的新知識比例越小，因為很多知識在之前的資料裡都見過了，所以隨著資料規模增大，遇到的新知識比例就越低，在世界知識方面就體現出Scaling law的減緩現象。

而為何邏輯推理能力最難提升？因為能體現這方面的自然資料（程式碼、數學題、物理題、科學論文等）在訓練資料中比例太低，自然大模型就學不好，儘管透過不斷增加資料，能增加邏輯推理方面資料的絕對數量，但因為佔比太少，這方面提升的效果和增加的總體資料規模就不成比例，效果也不會太明顯，就體現在邏輯推理能力Scaling law看上去的放緩。這是很自然的。這也是為什麼現在為了提升模型邏輯能力，往往在預訓練階段和Post-training階段，大幅增加邏輯推理資料佔比的原因，且是有成效的。

所以目前大模型的核心能力提升，聚焦到不斷透過合成資料等方式建構更多比例的邏輯推理資料。但是大部分邏輯推理資料的形式是<問題，正確答案>，缺了中間的詳細推理步驟，而o1本質上是讓大模型學會自動尋找從問題到正確答案的中間步驟，以此來增強複雜問題的解決能力。

OpenAI o1提到了關於RL在訓練和推理時候的Scaling law，並指出這與預訓練時候的Scaling law具有不同特性。很明顯，如果o1走的是MCTS搜尋技術路線，那麼把COT拆分的越細（增加搜尋樹的深度），或提出更多的可能選擇（節點的分支增多，就是說樹的寬度越寬），則搜尋空間越大，找到好COT路徑可能性越大，效果越好，而訓練和推理的時候需要算力一定越大。看起來有著效果隨著算力增長而增長的態勢，也就是所謂的RL的Scaling law。這其實是樹搜尋本來應有之義，我倒覺得把這個稱為RL的Scaling law有點名不副實。（資訊平權）