自從上半年OpenAI發布Sora演示視頻驚豔了全世界後,後面雖然都沒有發布什麼顛覆性的產品,一直不溫不火,OpenAI 的乏力似乎是肉眼可見。
Sora 的無限期跳票,GPT4o 的演示效果也沒有被很好復現,再加上宮鬥後遺症以及不少人才流失,Claude/Google/xAI 等一眾競爭對手也從難以望其項背追趕到似乎觸手可及。
但OpenAI 用一顆行動的心證明了,你大爺還是你大爺, —— 推出了OpenAI o1 這個大模型。
那OpenAI o1 到底是何方神聖?
它可是OpenAI 在2024 年9 月12 號新鮮出爐的,主要就是專門搞那些複雜任務推理的,像那種競賽等級的編程難題、奧賽等級的數學問題啥的,對它來說都不在話下。
從技術角度講, OpenAI o1在訓練的時候,它透過強化學習把思維鏈不斷完善,還把策略優化得妥妥噹噹。
比如說,能把錯誤找出來改正,把複雜的步驟拆得簡簡單單的,這個方法不行就馬上換一個。
到了推理階段,它在給使用者看的COT 之外,還藏著一個更深的內在思維鏈,就好像給COT 玩了個套娃,所以推理的時間就變長了。
而且,OpenAI 一直堅持他們那個Scaling Law,訓練和測試的時間與表現之間就跟對數線性關係似的。
再說說它的實力有多恐怖吧。
跟GPT4 - o 比,那差距簡直是斷崖式的。
在那些最難搞的數學、程式碼、物理、化學、生物的benchmark 上,它把GPT4 - o 遠遠甩在身後。
在全美高中生數學競賽AIME 裡,o1 能拿到74 分,GPT4 - o 才12 分。
要是採樣1000 次再結合reward model 加權投票,它能到93 分,能在全國排進前500 名,都超過USA Mathematical Olympiad 的晉級分數線了。
在GPQA 測試中,跟一群相關領域的博士專家PK,o1 在GPQA - diamond questions 上都能把專家們比下去。
在視覺感知能力方面,o1 在MMMU 上的分數達到了78.2%,是第一個能和人類專家媲美的模型。
還有,OpenAI 在o1 的基礎上把模型的代碼能力又加強了,搞出個o1 - IOI 去參加2024 年的國際奧林匹克資訊競賽。
在和人類選手一樣的條件下,o1 - IOI 成績超級棒,都超過金牌線了。在CodeForce 上,它也打出了1807 分的高分。
不過,在不同領域對比的時候發現,o1 在理工科方面那是把GPT4 - o 秒得渣都不剩,像編程、數據分析、數學題這些,可在寫作和文字編輯方面,它和GPT4 - o 就差不多了,有點像個偏科的理工科學霸。
在安全這塊,o1 也是相當厲害。
它把那些要遵守的準則都融合到內在COT 裡了,能高效又穩健地讓模型學會人類喜歡的價值和原則,不管是內部還是外部的安全benchmark,o1 都能達到超高的水平。
那為何OpenAI o1 要把internal COT 藏起來不讓使用者看呢?
OpenAI 說主要是為了使用者體驗和安全。這隱藏的思維鏈可以為監控模型帶來特別的機會,能讓他們知道模型在想啥。
但又不想讓那些不太好的思維鏈直接展示給使用者,而且可能也不想別人把它的內在思維過程提煉出來當訓練資料。
OpenAI o1 這次發布,更新了Scaling law 範式,在data/model size/computation 之外,又多了個inference time compute。
這可讓好多領域的人都興奮壞了,做CoT、RL、Long context、推理加速、agent、攻防、prompt engineer、Synthetic data 這些領域的小夥伴都感覺有新機會了。
不過,OpenAI o1 也不是十全十美的,它的寫作能力有點下降,處理一些簡單問題的時候也有點小毛病,像數數字母啦、比較簡單數字大小之類的。
但這都不影響它開啟大模型領域新篇章的腳步。
真心希望國內的相關企業和研究者能趕緊跟上,在大模型領域搞出點大動靜來。 (AI光子社)