劃重點
① Sam Altman沒有選擇用“草莓”命名新模型,而選擇用“OpenAI o1”,它預示著OpenAI提高模型精準性、降低幻覺的新開始。
② 訂閱使用者可以不用重新付費、無縫銜接使用OpenAI o1,而API使用者則需要「花重金」的準備,API最終使用成本可能比GPT-4o高出1000倍。
③ OpenAI o1很可能採用了Self Play RL的方法,利用帶有思維鏈能力的PRM提升了模型的推理能力。但它應該沒有採用MCTS的方式。
④ OpenAI o1確實帶來了從預訓練scale up轉向推理scale up的範式轉變,但其有效領域暫時比較有限。對AI應用開發的提升也不顯著。
Sam Altman種的草莓終於「熟」了。
9月13日,美國當地時間周四,OpenAI醞釀許久的新模型OpenAI o1(以下簡稱o1)問世,在正式發佈之前,o1一直被外界稱為「草莓」。
o1的核心能力在於複雜推理,目前有o1-preview和o1-mini兩個版本。
它尤其擅長處理數學和程式設計問題,OpenAI直言,o1在物理、生物和化學問題基準測試中的精確度超過了人類博士水平。
例如,o1在美國數學奧林匹克資格賽中躋身美國前500名學生之列;在Codeforces比賽中達到了第89個百分位。
o1就像一位優秀的理科生,它擅長解決嚴謹的、有固定答案的推演問題。
如果分析o1的思考模式,它對應的是心理學家丹尼爾·卡尼曼(Daniel Kahneman)提出的System 2(邏輯系統),其啟動是被動、緩慢又耗時的,但這樣的系統只佔據人類整體思考的5%。而人類95%思考方式都歸屬於System 1(直覺系統),即根據直覺和經驗的即時性本能思考。
o1所提升的精準性,還無法滲透System1(直覺系統),它像一個聰明的理科博士,但身上又欠缺了一些煙火氣,很難通過直覺和經驗角度提供沒有幻覺的精準答案,所以距離真正的AGI還有不小的距離。
如果AGI是我們所仰望的星空,那麼當下可以腳踏實地思考的是:OpenAI o1到底能帶給我們什麼?它所掀起的Self-play RL會成為大模型新的技術範式嗎?行業玩家會跟隨它的步伐嗎?
Sam Altman歷經數月種植的“草莓”,終於到了收穫的季節,讓我們一起品嚐這顆草莓的味道。
在這次新品發佈後,OpenAI在其官方部落格簡述了o1背後的核心技術提升:「透過強化學習,o1 學會了精煉其思維鏈並最佳化所用的策略。它學會了識別並糾正錯誤,將複雜的步驟分解為更簡單的部分,並在當前方法無效時嘗試不同的途徑。
在這段敘述中我們可以看到o1的三個主要新能力:內化了思維鏈(COT)、能糾錯、能嘗試不同的途徑。這些基本上與近幾日業界討論甚多的SelfPlay-RL(自我對弈型強化學習)的基本能力很符合。
雖然OpenAI沒有詳細的技術檔案,但它的老對手Google在8月發佈的一篇文章《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》,提供了這種新的SelfPlay RL範式的一些基本框架和實現可能。
從中我們可以一窺o1可能的架構和邏輯。
在這篇論文中Google詳細解釋了一種PRM(Process reward model 過程獎勵模型)作為和LLM(大語言模型)對弈的對手,它的推理模式和其效果。
PRM是在思維鏈的過程中給出獎勵(評分)的模型,過程獎勵模型。
它是一個單獨被訓練出來的模型,它擁有兩個能力,一個是將問題拆成一步一步的思維鏈的能力;另一個是對大模型生成的每一步進行打分,並在結果不夠理想時讓大模型重新產生結果。它不僅可以評判每一個具體回答的優與劣,還可以評判在整個思維鏈過程中最佳的流程。
它在與大模型的互動中,透過讓大模型搜尋多個可能的答案,在推理過程中的整體邏輯和每一步都選擇最佳的答案。這就讓推理的精準性大幅提升。
這個過程與OpenAI在「推理模型」中所顯示的多步驟循環對弈的形式也基本一致。在這張圖裡,模型在給出最終答案之前會進行三輪推理,並把前一輪的推理作為Input(輸入)再給下一輪。如果把它想像成思維鏈,這個輸入就是前一個步驟的對弈結果的總結。它最終輸出的是一個簡短的版本。
在這個過程中,PRM讓LLM 去搜尋最佳答案的方法也不同。
Google在研究中提到了從簡單到複雜的三個方案,直接在多個答案中選最佳解的方法(Best of N),在思維鏈中每步都提供多個候選項的方法(Beam Search)和把後續多個步驟連結起來看的MCTS方法(蒙特卡羅樹狀搜尋演算法)的簡化版本Lookahead Search。
那OpenAI最有可能選擇的搜尋模式是什麼呢?
我們從反應時間和token消耗兩方面看,根據Hackernews上一名使用了API的開發者的推算,OpenAI o1進行推理所消耗的token數量是其給出答案token的10倍。但可能會達到未進行思維鏈的GPT-4o mini 所用token數的60-100倍。
而如果採用能看三步驟的、每步驟形成5個候選選項情況下,單層深度的Lookahead Search就會消耗45倍的token。但用到了思維鏈每一步都需要進行一次Lookahead Search的話,100倍的token是根本打不住的。因此OpenAI o1所用的選擇方法絕對不是MCTS形式的。另外考慮到這麼MCTS這麼大的計算量,目前o1的回饋時間是遠遠不夠的。
但OpenAI o1也不可能是單純的僅給出單一答案的思維鏈判斷。僅用思維鏈,對於非常複雜的問題,token消耗最多也就是達到5-10倍。其60倍token消耗又太大了。因此可能有兩種情況,一是PRM僅在答案不可接受或低分太低時拓展進行MCTS式的搜尋。或者它用的是更節約的Beam Search的方法搜尋可能答案。但具體其結構,還有等到有更多OpenAI相關劇透才能認定。
這就是我們目前猜測的OpenAI o1的可能的技術架構。
對於OpenAI是否是訓練了一個同時能做到思維鍊和判定的模型,而非一個PRM+LMM的模型組合這一點。這其實並無必要。
首先,無論如何該模型都需要扮演兩個角色(生成者和裁判)來完成強化學習的過程。而從性價比來講,訓練一個單獨的PRM顯然比訓練一個GPT-4o大小的模型要節約的多。在Google的論文中,他們採用的是Palm 2-s這個最小的Palm 2模型所進行的訓練。
雖然Google的文章是在8月發佈的,但關於PRM的早期探索,實際上還是要回歸到OpenAI。早在2023年5月,Illya和其團隊就已經思考出了PRM,並行明出了這一結合思維鍊及監督者為一體的強化學習方法。
範式轉變的種子,可能從那個時期就留下來了。反思近期Illya在訪談中提到的」每個人都在說“Scaling up”,但每個人都忽略了一個問題:我們在Scaling什麼?可能就是意指這個從預訓練到推理Scaling up的轉變。
但目前OpenAI o1的效果很難說得上驚豔,雖然在許多複雜問題上能表現的超越GPT-4o,但仍會在9.11和9.8誰大這樣的問題上犯錯誤,會出現比較嚴重的思維鏈離題幻覺。
所以即使是OpenAI,經過一年多時間的嘗試,其結果也不過如此。想走這條路,確實不太容易。
相比較於OpenAI以往的版本,OpenAI o1的性價比優勢並不明顯。
OpenAI的收費類型有兩種:針對一般使用者的訂閱制收費,以及開發者的API收費。
如果你已經是ChatGPT Pro的訂閱使用者,可以無縫銜接繼續享受OpenAI o1,不用額外付費,也可以變相地認為,20美金可以使用OpenAI o1一個月。
但如果奔著OpenAI o1付費,就顯得不那麼划算,因為o1-preview每周只允許使用30條,o1-mini每周的使用上限是50條。如果想要好好做數學題,往往還沒做完一套卷子,提問次數就已經被消耗了。
如果你是購買API的開發者使用者,就要做好「花重金」的準備。首先,你的身份得是一個“5級API使用量”,它的意思是,你得已經消費1000美元以上並且是超過1個月的付費使用者,有了這層身份,才擁有OpenAI o1的使用資格。
但即便你是這樣的超級VIP使用者,也只能使用“閹割版”,不支援圖像、不支援系統訊息和串流媒體,也不支援函數呼叫。
即便有這麼多的限制,API的價格也絲毫不比之前的版本便宜,你必須接受OpenAI價格的「屠刀」。
單從輸出價格來看,o1-preview版的API就是4o的四倍,而且,一定要注意用(max_completion_tokens參數)限制token用量。
在先前的模型版本裡,參數控制產生的token數量和使用者可見的token數量始終相等,但是,在o1系列中,由於內部推理token的存在,生成token的總數可能會超過可見token的總量。如果不重視限制token數量,你可能會因為推理過程中多出來的token量,莫名提升使用成本。
根據Hacker News評測,API最終使用成本可能比GPT-4o高出1,000倍。與此同時,也能看出OpenAI在推理成本上確實下了本,高達60美元/百萬token。
從範式革命的角度來看,這毫無疑問是一場革命。
它至少為困於資料和基礎建設無法快速提升預訓練規模的模型公司們提供了一個新的角度,從推理側和強化學習的方法入手,加強模型的能力。
這也是為什麼OpenAI 將它從GPT系列中獨立出來,單獨成一個新系列的原因。就是為了擺脫GPT(Generative pre-trained transformer)這個名字過分強調預訓練(Pre -trained)的意味。而是讓它更成為一個更強調推理能力訓練的模型系列。
雖然之前Claude Sonnet也嘗試過用強化學習提升其模型能力。但因為其反饋時間和token消耗並沒有顯著增加,因此它更可能用的是利用強化學習的模式積累思維鏈數據,再利用這些合成數據訓練模型的模式。
因此,OpenAI o1確實是第一個「推理模型」。
但我們需要思考的是,為什麼關於結合一個評價者(Verifer),乃至PRM的強化學習研究在這一年時間裡汗牛充棟,卻沒一個公司敢做這個模型?當年做出AlphaGO的Deepmind在和Google AI合併時,大家就期待會有大模型和強化學習的結合。結果並沒有。
首要原因是因為它太貴了,而且太慢了。
其次就是它的用處沒那麼大。一個作為Reward Model(獎勵模型)的PRM模型,最重要的是能給LLM產生的可能性評分。而能判斷那種回答比較好的條件是什麼?是最好是有答案。在數學和程式設計這樣的領域,我們有明確的對和錯的答案。但在其他領域,這些答案往往是模糊的,最優解的路徑也不夠清晰。
因此即使GPT-o1在編程和數學,以及同樣可以形式化的,有最優解的物理、化學領域有了很大提升,它在其他領域的表現依然平平。它學到的邏輯能力並沒有被泛化,也很難被泛化。
也許它確實可以成為程式設計和數學研究的利器,但這個應用場景離我們預期的AGI太遠了。
當然,依靠現實世界的基本事實,在例如說醫療這樣有明確結果(治好、沒治好)的領域進行訓練,它也可以得到一定程度的能力延展。而對於非常複雜,基本上我們都沒有通用思維鏈的領域,例如金融、文學創作上,它能帶來的提升確實有限。現在它還只能被稱為“領域推理模型“,而非通用推理模型。
但也許,如果Scaling Law真的也能應用於推理能力的話,當o1積攢的思維鏈數據飛輪足夠多時,我們也能迎來在System 2這一側的湧現。因此它確實是有效的範式變革。
例如最近Google的新論文Generative Verifier 中,透過把Verifier (評判者)也改變成一個預測的自回歸模型,他們可以把問題每一步都用數值和文字評估。拓展了形式語言的限制。而這個Verifier也可以直接結合思維鏈,成為一支PRM。
而對於嗷嗷待哺,需要更強應用界來講,這一範式變化當下對他們帶來的改進非常有限。因為它自己大機率就是由PRM和LLM組成的Agent系統,想要好好利用它,很可能要改變目前做Agent的工作流程。
因此在研究機構METR所發佈的報告中,將o1-Preview作為Agent元件運用,其表現甚至低於GPT-4o。乃至經偵錯後效果也不過追平Claude Sonnet。這和大家期待的更強的基礎模型能帶來應用的提升也相去甚遠。
對於Cursor這樣目標在程式設計領域的公司來講,o1的到來毫無疑問是一劑強心劑。他們在最近的論文《PlanSearch》論文裡正在尋找適合自己的PRM模式。
仔細想想,其實OpenAI這就是在搭建一個通用Agent框架。而大多數應用開發者在做的,就是建立一個面向特定領域的Agent工作流程。雖然o1現在只是可用於數學、程式設計、物理這樣的領域,而且是缺乏搜尋、呼叫工具能力的。但在OpenAI o1的研究參與者訪談中,研究人員就談到,希望也可以把這種能力用在像編故事這類更有創造力的領域。
真是如此,恐怕又該有一票做Agent應用的創業家要失業了。
對於新模型的名字為什麼叫OpenAI o1,我們可以分拆來看。
OpenAI在官網上明確回覆了名字中「1」的來源:「對於複雜的推理任務來說,這是一個重大進步,代表了人工智慧能力的新水平。鑑於此,我們將計數器重設為1,並將該系列命名為「OpenAI o1」。
雖然OpenAI沒有進一步解釋名字中為什麼帶“o”,但我們可以衍生出幾種合理的猜測。
第一種猜測是,它沿襲了上一代模型GPT-4o中的“o”,OpenAI在今年5月份公佈GPT-4o模型的時候提到,“o”代表“omni”,意思為“全能”,反應模型的多模態能力。
但這一次的o1模型僅支援文字,並沒有展現多模態的能力,所以更傾向於另一種猜測:它代表“Orion(獵戶座)”,也是OpenAI放風會成為GPT-4繼任的模型,它比「草莓」模型更上一層,根據The Medium報導,在強化推理能力的基礎上,獵戶座承載著OpenAI降低模型「幻覺」、提升模型可靠性的希望。
這就解釋了OpenAI o1名字的大致由來,它預示著OpenAI提高模型精準性、降低幻覺的新開始。
但為什麼在發佈之前,又盛傳新模型名字是「草莓」?今年8月份,Sam Altman在X上曬一張草莓果實圖,一度被外界誤認為由大模型生成,Sam Altman後澄清它確實是自家花園的真草莓。
與此同時,有一種說法,草莓成熟需要歷經6周左右的時間,而從Sam Altman發佈X的日期8月7日,到新模型正式發佈的9月12日,中間相隔的時間正好接近6周。
雖然,「草莓」並沒有成為Sam Altman最終選定的模型名稱,但這段有點浪漫的情節,造就了OpenAI的一段行銷佳話。
還有一個細節是,這次的模型名稱完全沒有了“GPT”三個字母的影子,其中“P”代表“Pre-trained”(預訓練),輝達高級研究科學家Jim Fan在X上透露,相比以往的大模型,o1模型較弱了「預訓練」的環節,而提升了「推理」環節。
總的來看,「OpenAI o1」這個名字儘管略有拗口,但充滿了美好的寓意。
在現實生活中,更聰明、掌握資訊更多的讓往往會成為掌握資源最多的人。但在AI的世界裡,也許你不用成為那個「最聰明」的人,而是成為最懂如何利用好「最聰明」工具的人,就可以掌握最多的資源。
這很符合人類的情緒價值──造出一個比自己聰明百倍千倍的新物種,同時它又不構成破壞性。
根據OpenAI的說法,o1的理科程度已經超過人類博士了,可以想像,一個小學生指揮AI「博士」幫自己做題的畫面,在極大程度上滿足了人類的需求。它們既能解決問題,又能提供情緒價值。
或許,這是除了“大腦”,人類也同樣執著於打造和自己長得酷似的機器人的原因。未來比你聰明的“人”,可能真的成為對你百依百順的工具,人們希望盡情享受這種,駕馭比你厲害的人帶來的快感。
很顯然,OpenAI已經在提供這種快感的道路上。 (騰訊科技)