OpenAI推出o3模式系列：徹底顛覆AI懷疑論者，AGI評測基準達到驚人87.5%

2024/12/21

•

OpenAI推出o3模型系列(因為o2和英國電信商命名有衝突，所以跳過了o2)，包括o3,o3mini ，o3 mini low（低計算力）,o3mini medium（中等計算力），o3mini high（高計算力）

廢話不多多說，直接看o3硬核測試表現

o3在ARC-AGI（通用人工智慧評估基準）上取得了驚人的高達87.5%的分數，而人類是85%！

ARC-AGI 創始人對這一測試結果的詳細解讀：

今天，OpenAI 發布了其下一代推理模型o3。我們與OpenAI 合作，在ARC-AGI 上對其進行了測試，我們相信它在讓人工智慧適應新任務方面取得了重大突破。在低計算模式下（每個任務的計算費用為20 美元），它在半私人評估中的得分率為75.7%；在高計算模式下（每個任務的計算費用為數千美元），它的得分率為87.5%。它的成本很高，但不只是蠻幹-- 這些能力是全新的領域，需要科學界的認真關注”

那麼，這就是AGI 嗎？雖然新模型令人印象深刻，是通往AGI 道路上的一個重要里程碑，但我並不認為這就是AGI -- 仍然有相當數量非常簡單的ARC-AGI-1 任務是o3 無法解決的，而且我們有早期跡象表明，ARC-AGI-2 對o3 來說仍然極具挑戰性。這表明，在不涉及專業知識的情況下，建立對人類來說容易但對人工智慧來說不可能的不飽和、有趣的基準仍然是可行的。當建立這樣的測試變得完全不可能時，我們將擁有AGI”

這是否意味著ARC-AGI 基準已經飽和？是的-- 該基準的v1 版本已經開始飽和。在今年的Kaggle 競賽中已經出現了這種跡象--所有參賽者的合計得分將達到81%。明年的競賽將在ARC-AGI-2 上進行，這是資料集的更新版本，與v1 版保持了相同的格式，但減少了容易被暴力破解的任務。早期跡象表明，ARC-AGI-v2 將代表最先進技術的全面重設，對於o3 來說，難度仍然非常大。與此同時，聰明人或由普通人組成的小型小組仍能獲得95% 以上的分數”

這對未來的AGI 研究意味著什麼？對我來說，主要的未決問題是o3 背後技術的擴展瓶頸會在那裡。舉例來說，如果人類標註的CoT資料是一個主要瓶頸，那麼其能力就會像LLM一樣迅速達到頂峰（直到下一個架構出現）

分析新系統的優勢和侷限性也極為重要。以下是一些o3 在高計算設定下無法解決的任務範例（即使它在此過程中產生了數百萬個CoT 搜尋令牌，並消耗了數千美元的計算資源）。有趣的是，第一個任務就是我們在大學巡迴演講中用來說明"人類容易，人工智慧難"的任務

另外兩個例子。您可以在這裡找到完整的測試資料：https://github.com/arcprizeorg/model_baseline/tree/main/results......如果您對該主題感興趣，可以查看對這些資料的分析

o3在最難的前沿數學基準測試（EpochAI陶哲軒認證）中實現了重大突破

o3同時在其他技術基準如AIME（美國數學競賽）和GPQA-Diamond上也達成了SOTA，在AIME 2024 上：o3 獲得了96.7%的分數，只錯過了一個問題，在GPQA Diamond 上：o3 獲得了87.7%的分數，遠高於人類專家的表現

o3其他表現：

SWE-bench O3有70分真的離譜，推理這路上也算看到希望了，在Codeforces（編程測試）上：o3 獲得了2727 分，超過了OpenAI 首席科學家的2665 分

o3mini表現

Sam Altman 喊話安全人員進行測試

如果你是安全研究員，請考慮申請幫助測試o3-mini 和o3

測試申請地址：

https://openai.com/index/early-access-for-safety-testing/

O3 Mini 1月底就可以用（AI寒武紀）