OpenAI重磅發布o3！再次突破AI極限，北大校友參與研發

2024/12/21

•

就在剛剛，OpenAI 迎來了年底AI 春晚的結束。

這次發布的o3 系列模型是o1 的迭代版本，考慮到可能與英國電信運營商O2 存在版權或商標衝突，OpenAI 決定跳過「o2」命名，直接採用「o3」。

為此，OpenAI CEO Sam Altman 更是自嘲公司在模型命名上的混亂，原來你也知道呀。

本次發布會由Sam Altman、研究高級副總裁Mark Chen 以及研究科學家Hongyu Ren （任泓宇）主持。

值得注意的是，任泓宇本科畢業於北大，對o1 有過基礎性貢獻，也是GPT-4o 的核心開發者，曾在蘋果、微軟和輝達有過豐富的研究實習經歷。

o3 系列包含兩款重磅模型：

OpenAI o3：旗艦版本，具備強大的效能表現

OpenAI o3 mini：輕量級模型，但能更快，更便宜，主打價比

先別急著高興，因為o3 系列目前不會對一般使用者開放，OpenAI 計畫先開放外部安全測試申請，正式發佈時間預計要到明年1 月。

現在，有興趣的朋友可以提交申請：
https://openai.com/index/early-access-for-safety-testing/

o3 性能大躍遷，死記硬背？不存在的

o3 模型的「紙面參數」迎來了全方位提升。

首先在SweepBench Verified 基準測試中， o3 達到了約71.7% 的精準率，直接將o1 車型甩在身後整整20% 之多。

轉入編碼領域，o1 在程式設計競賽平台Codeforces 上的得分為1891。而o3 在開足馬力，延長思考時間的情況下，得分可達2727。

作為參照，演示人員Mark Chen 的得分也只有2500，充分展現了o3 模型已經具備接近甚至超越人類專業程式設計師的實力。

在數學領域，o3 同樣表現出色。

在美國數學競賽AIME 2024 測試中，o3 以90.67% 的精準率完全碾壓了o1 的83.3%。

遇上衡量博士級科學問題解答能力的GPQA Diamond 測試，o3 取得了87.7% 的成績，而o1 僅為78%。

什麼概念呢？要知道，就算是領域內的博士專家，也往往只能在自己的專業範圍內達到約 70% 的準確率。

面對當前基準測試接近滿分的情況，OpenAI 引入了一個全新的數學測試EpochAI Frontier Math。

這被認為是當前最具挑戰性的數學評估之一，包含了極其複雜的問題。就連專業數學家解決單一問題也需要耗費數小時甚至數天。

目前，所有現有模型在該測試上的精準率都不足2%，而在高算力的長時間測試下，o3 卻能取得超過2457 的分數。

說到AI 領域的聖盃AGI，也不得不提到ARC-AGI 這個專門衡量AGI 的基準測試。

ARC-AGI 是由 Keras 之父 François Chollet 開發，主要是透過圖形邏輯推理測試模型的推理能力。

當演示人員向另一位演示人員Mark Chen 提出即興問題時，後者精準地指出了任務的要求：需要計算每個黃色方塊中彩色小方塊的數量，並據此產生相應的邊框。

這些對人類來說再簡單不過的任務，對AI 來說卻是一道難題。

並且，ARC-AGI 的每個任務都需要不同的技能，且刻意避免重複，完全杜絕了模型靠「死記硬背」取巧的可能，真正測試模型即時學習和應用新技能的能力。

現在，o3 在低算力的構形下得分75.7 分。當要求o3 思考更長時間，並且提高算力，o3 在相同的隱藏保留集上得分87.5%，遠超大多數真人。

OpenAI 的言下之意就是，o3 會讓我們離AGI 更近一步。

o3 mini 重磅發布，速度更快，成本更低

今年九月，OpenAI 發布了o1 mini，具有很強的數學和程式設計能力，而且成本極低。

延續這個發展方向，今天推出的o3 mini 也保留了上述特徵。即日起，該模型僅向安全研究人員開放測試申請，截止日期為1 月10 日。

o3 mini 支援低、中、高三種推理時間模式。

使用者可根據任務複雜度靈活調整模型的思考時間。例如，複雜問題可選擇更長的思考時間，而簡單問題則可快速處理。

從首批評估結果來看，在衡量程式設計能力的Codeforces Elo 評分中，隨著推理時間的增加，其Elo 分數持續攀升，在中等推理時間下就已超越o1 mini。

演示人員要求模型使用Python 建立了一個代碼產生器和執行器，該指令碼可啟動伺服器並建立本機使用者介面。使用者可在文字方塊中輸入代碼請求，系統會將請求傳送至三種進階模式的API，產生並執行相應代碼。

例如，當要求其產生一個包含OpenAI 和隨機數的代碼時，o3 mini 的中等推理模式迅速完成了處理。

另外，它還能自己測試自己，例如在GPQA 資料集測試中，模型以低推理模式完成了複雜資料集的評估。

它下載原始檔案，識別CSS、答案和選項，整理問題並進行解答，最後進行評分，僅用一分鐘就完成了自我評估，精準率達到61.62%。

在數學領域，o3 mini 同樣表現優秀。

在AIME 數學基準測試中，其低推理模式就達到了與o1 mini 相當的性能，中等推理模式更是超越了o1 mini，且延時更低。

另外，應廣大開發者呼聲，o3 mini 模型也將全面支援函數呼叫、結構化輸出和開發者指令等API 功能。

現在，o3 mini 和o3 的申請通道現已開放。 o3 mini 預計於1 月向所有用戶推出，完整版o3 將在後續發布。

寫在最後，在這個為期12 天的年末發布會上，OpenAI 終於祭出了壓箱底的殺手鐧。

可以說，o3 模型的發佈為這場一度陷入「高開低走」困境的發布會，畫上了一個意料之外卻又情理之中的圓滿句號。

短短不到3 個月的時間，OpenAI 就完成了o1 模型的迭代升級。

這種從GPT 系列到o 系列的轉型，顯然是OpenAI 深思熟慮後的戰略選擇，而事後結果也證明這個決定是明智的。

不過，值得注意的是，微軟CEO Satya Nadella 近期在一檔播客節目中表示，OpenAI 在AI 領域領先競爭對手約兩年之久。

也正是這種相對寬鬆的競爭環境，使得OpenAI 能夠專注於開發ChatGPT。

然而，當前形勢攻守易形也。

Menlo Ventures 的報告顯示，ChatGPT 的市場份額被其他競爭對手逐漸蠶食，從2023 年的50% 下降到了2024 年的34%。

由「標配」淪為「可選」，ChatGPT 的光環正在褪去。

這背後的原因顯而易見，OpenAI 的「護城河」正被短命狂奔的競爭對手們一吋寸填平。

來自Artificial Analysis 的調研資料清晰顯示，Anthropic 和Google 等廠商陸續開發出效能接近GPT-4、OpenAI o1 等新模型。

並且，隨著Scaling Law 觸及天花板，核心高階主管人才相繼離場，OpenAI 過往靠單一基礎模型贏得的紅利正在加速消退。

在動輒以天計的行業裡，即便是今日發布的o3 模型也很難再次創造長達2 年的空窗期。

尤其是當Grok-3 和Claude 等新模型蓄勢待發，留給OpenAI 的時間或許已經不多了。

醒醒，今年最好的AI 廠商依舊是OpenAI，但明年或許會因為不同的AI 方向有無數種答案。

所幸，身為使用者的我們，都將是這場變局中最大的贏家。（APPSO）