OpenAI推出o3模式系列:徹底顛覆AI懷疑論者,AGI評測基準達到驚人87.5%


OpenAI推出o3模型系列(因為o2和英國電信商命名有衝突,所以跳過了o2),包括o3,o3mini ,o3 mini low(低計算力),o3mini medium(中等計算力),o3mini high(高計算力)

廢話不多多說,直接看o3硬核測試表現

o3在ARC-AGI(通用人工智慧評估基準)上取得了驚人的高達87.5%的分數,而人類是85%!

ARC-AGI 創始人對這一測試結果的詳細解讀:

今天,OpenAI 發布了其下一代推理模型o3。我們與OpenAI 合作,在ARC-AGI 上對其進行了測試,我們相信它在讓人工智慧適應新任務方面取得了重大突破。在低計算模式下(每個任務的計算費用為20 美元),它在半私人評估中的得分率為75.7%;在高計算模式下(每個任務的計算費用為數千美元),它的得分率為87.5%。它的成本很高,但不只是蠻幹-- 這些能力是全新的領域,需要科學界的認真關注”

那麼,這就是AGI 嗎?雖然新模型令人印象深刻,是通往AGI 道路上的一個重要里程碑,但我並不認為這就是AGI -- 仍然有相當數量非常簡單的ARC-AGI-1 任務是o3 無法解決的,而且我們有早期跡象表明,ARC-AGI-2 對o3 來說仍然極具挑戰性。這表明,在不涉及專業知識的情況下,建立對人類來說容易但對人工智慧來說不可能的不飽和、有趣的基準仍然是可行的。當建立這樣的測試變得完全不可能時,我們將擁有AGI”

這是否意味著ARC-AGI 基準已經飽和?是的-- 該基準的v1 版本已經開始飽和。在今年的Kaggle 競賽中已經出現了這種跡象--所有參賽者的合計得分將達到81%。明年的競賽將在ARC-AGI-2 上進行,這是資料集的更新版本,與v1 版保持了相同的格式,但減少了容易被暴力破解的任務。早期跡象表明,ARC-AGI-v2 將代表最先進技術的全面重設,對於o3 來說,難度仍然非常大。與此同時,聰明人或由普通人組成的小型小組仍能獲得95% 以上的分數”

這對未來的AGI 研究意味著什麼?對我來說,主要的未決問題是o3 背後技術的擴展瓶頸會在那裡。舉例來說,如果人類標註的CoT資料是一個主要瓶頸,那麼其能力就會像LLM一樣迅速達到頂峰(直到下一個架構出現)

分析新系統的優勢和侷限性也極為重要。以下是一些o3 在高計算設定下無法解決的任務範例(即使它在此過程中產生了數百萬個CoT 搜尋令牌,並消耗了數千美元的計算資源)。有趣的是,第一個任務就是我們在大學巡迴演講中用來說明"人類容易,人工智慧難"的任務

另外兩個例子。您可以在這裡找到完整的測試資料:https://github.com/arcprizeorg/model_baseline/tree/main/results......如果您對該主題感興趣,可以查看對這些資料的分析

o3在最難的前沿數學基準測試(EpochAI陶哲軒認證)中實現了重大突破

o3同時在其他技術基準如AIME(美國數學競賽)和GPQA-Diamond上也達成了SOTA,在AIME 2024 上:o3 獲得了96.7%的分數,只錯過了一個問題,在GPQA Diamond 上:o3 獲得了87.7%的分數,遠高於人類專家的表現

o3其他表現:

SWE-bench O3有70分真的離譜,推理這路上也算看到希望了,在Codeforces(編程測試) 上:o3 獲得了2727 分,超過了OpenAI 首席科學家的2665 分

o3mini表現

Sam Altman 喊話安全人員進行測試

如果你是安全研究員,請考慮申請幫助測試o3-mini 和o3

測試申請地址:

https://openai.com/index/early-access-for-safety-testing/

O3 Mini 1月底就可以用 (AI寒武紀)