OpenAI的王炸： OpenAI o1 到底是何方神聖？

2024/09/14

•

自從上半年OpenAI發布Sora演示視頻驚豔了全世界後，後面雖然都沒有發布什麼顛覆性的產品，一直不溫不火，OpenAI 的乏力似乎是肉眼可見。

Sora 的無限期跳票，GPT4o 的演示效果也沒有被很好復現，再加上宮鬥後遺症以及不少人才流失，Claude/Google/xAI 等一眾競爭對手也從難以望其項背追趕到似乎觸手可及。

但OpenAI 用一顆行動的心證明了，你大爺還是你大爺， —— 推出了OpenAI o1 這個大模型。

那OpenAI o1 到底是何方神聖？

它可是OpenAI 在2024 年9 月12 號新鮮出爐的，主要就是專門搞那些複雜任務推理的，像那種競賽等級的編程難題、奧賽等級的數學問題啥的，對它來說都不在話下。

從技術角度講， OpenAI o1在訓練的時候，它透過強化學習把思維鏈不斷完善，還把策略優化得妥妥噹噹。

比如說，能把錯誤找出來改正，把複雜的步驟拆得簡簡單單的，這個方法不行就馬上換一個。

到了推理階段，它在給使用者看的COT 之外，還藏著一個更深的內在思維鏈，就好像給COT 玩了個套娃，所以推理的時間就變長了。

而且，OpenAI 一直堅持他們那個Scaling Law，訓練和測試的時間與表現之間就跟對數線性關係似的。

再說說它的實力有多恐怖吧。

跟GPT4 - o 比，那差距簡直是斷崖式的。

在那些最難搞的數學、程式碼、物理、化學、生物的benchmark 上，它把GPT4 - o 遠遠甩在身後。

在全美高中生數學競賽AIME 裡，o1 能拿到74 分，GPT4 - o 才12 分。

要是採樣1000 次再結合reward model 加權投票，它能到93 分，能在全國排進前500 名，都超過USA Mathematical Olympiad 的晉級分數線了。

在GPQA 測試中，跟一群相關領域的博士專家PK，o1 在GPQA - diamond questions 上都能把專家們比下去。

在視覺感知能力方面，o1 在MMMU 上的分數達到了78.2%，是第一個能和人類專家媲美的模型。

還有，OpenAI 在o1 的基礎上把模型的代碼能力又加強了，搞出個o1 - IOI 去參加2024 年的國際奧林匹克資訊競賽。

在和人類選手一樣的條件下，o1 - IOI 成績超級棒，都超過金牌線了。在CodeForce 上，它也打出了1807 分的高分。

不過，在不同領域對比的時候發現，o1 在理工科方面那是把GPT4 - o 秒得渣都不剩，像編程、數據分析、數學題這些，可在寫作和文字編輯方面，它和GPT4 - o 就差不多了，有點像個偏科的理工科學霸。

在安全這塊，o1 也是相當厲害。

它把那些要遵守的準則都融合到內在COT 裡了，能高效又穩健地讓模型學會人類喜歡的價值和原則，不管是內部還是外部的安全benchmark，o1 都能達到超高的水平。

那為何OpenAI o1 要把internal COT 藏起來不讓使用者看呢？

OpenAI 說主要是為了使用者體驗和安全。這隱藏的思維鏈可以為監控模型帶來特別的機會，能讓他們知道模型在想啥。

但又不想讓那些不太好的思維鏈直接展示給使用者，而且可能也不想別人把它的內在思維過程提煉出來當訓練資料。

OpenAI o1 這次發布，更新了Scaling law 範式，在data/model size/computation 之外，又多了個inference time compute。

這可讓好多領域的人都興奮壞了，做CoT、RL、Long context、推理加速、agent、攻防、prompt engineer、Synthetic data 這些領域的小夥伴都感覺有新機會了。

不過，OpenAI o1 也不是十全十美的，它的寫作能力有點下降，處理一些簡單問題的時候也有點小毛病，像數數字母啦、比較簡單數字大小之類的。

但這都不影響它開啟大模型領域新篇章的腳步。

真心希望國內的相關企業和研究者能趕緊跟上，在大模型領域搞出點大動靜來。（AI光子社）