OpenAI的王炸: OpenAI o1 到底是何方神聖?

自從上半年OpenAI發布Sora演示視頻驚豔了全世界後,後面雖然都沒有發布什麼顛覆性的產品,一直不溫不火,OpenAI 的乏力似乎是肉眼可見。


Sora 的無限期跳票,GPT4o 的演示效果也沒有被很好復現,再加上宮鬥後遺症以及不少人才流失,Claude/Google/xAI 等一眾競爭對手也從難以望其項背追趕到似乎觸手可及。

但OpenAI 用一顆行動的心證明了,你大爺還是你大爺, —— 推出了OpenAI o1 這個大模型。


那OpenAI o1 到底是何方神聖?

它可是OpenAI 在2024 年9 月12 號新鮮出爐的,主要就是專門搞那些複雜任務推理的,像那種競賽等級的編程難題、奧賽等級的數學問題啥的,對它來說都不在話下。

從技術角度講, OpenAI o1在訓練的時候,它透過強化學習把思維鏈不斷完善,還把策略優化得妥妥噹噹。

比如說,能把錯誤找出來改正,把複雜的步驟拆得簡簡單單的,這個方法不行就馬上換一個。

到了推理階段,它在給使用者看的COT 之外,還藏著一個更深的內在思維鏈,就好像給COT 玩了個套娃,所以推理的時間就變長了。

而且,OpenAI 一直堅持他們那個Scaling Law,訓練和測試的時間與表現之間就跟對數線性關係似的。


實力強到逆天

再說說它的實力有多恐怖吧。

跟GPT4 - o 比,那差距簡直是斷崖式的。

在那些最難搞的數學、程式碼、物理、化學、生物的benchmark 上,它把GPT4 - o 遠遠甩在身後。

在全美高中生數學競賽AIME 裡,o1 能拿到74 分,GPT4 - o 才12 分。

要是採樣1000 次再結合reward model 加權投票,它能到93 分,能在全國排進前500 名,都超過USA Mathematical Olympiad 的晉級分數線了。

在GPQA 測試中,跟一群相關領域的博士專家PK,o1 在GPQA - diamond questions 上都能把專家們比下去。


在視覺感知能力方面,o1 在MMMU 上的分數達到了78.2%,是第一個能和人類專家媲美的模型。

還有,OpenAI 在o1 的基礎上把模型的代碼能力又加強了,搞出個o1 - IOI 去參加2024 年的國際奧林匹克資訊競賽。

在和人類選手一樣的條件下,o1 - IOI 成績超級棒,都超過金牌線了。在CodeForce 上,它也打出了1807 分的高分。


領域表現有偏重

不過,在不同領域對比的時候發現,o1 在理工科方面那是把GPT4 - o 秒得渣都不剩,像編程、數據分析、數學題這些,可在寫作和文字編輯方面,它和GPT4 - o 就差不多了,有點像個偏科的理工科學霸。


安全方面很靠譜

在安全這塊,o1 也是相當厲害。

它把那些要遵守的準則都融合到內在COT 裡了,能高效又穩健地讓模型學會人類喜歡的價值和原則,不管是內部還是外部的安全benchmark,o1 都能達到超高的水平。


為何藏起思維過程

那為何OpenAI o1 要把internal COT 藏起來不讓使用者看呢?

OpenAI 說主要是為了使用者體驗和安全。這隱藏的思維鏈可以為監控模型帶來特別的機會,能讓他們知道模型在想啥。

但又不想讓那些不太好的思維鏈直接展示給使用者,而且可能也不想別人把它的內在思維過程提煉出來當訓練資料。

OpenAI o1 這次發布,更新了Scaling law 範式,在data/model size/computation 之外,又多了個inference time compute。

這可讓好多領域的人都興奮壞了,做CoT、RL、Long context、推理加速、agent、攻防、prompt engineer、Synthetic data 這些領域的小夥伴都感覺有新機會了。

不過,OpenAI o1 也不是十全十美的,它的寫作能力有點下降,處理一些簡單問題的時候也有點小毛病,像數數字母啦、比較簡單數字大小之類的。

但這都不影響它開啟大模型領域新篇章的腳步。

真心希望國內的相關企業和研究者能趕緊跟上,在大模型領域搞出點大動靜來。 (AI光子社)