OpenAI推出o3模型系列(因為o2和英國電信商命名有衝突,所以跳過了o2),包括o3,o3mini ,o3 mini low(低計算力),o3mini medium(中等計算力),o3mini high(高計算力)
廢話不多多說,直接看o3硬核測試表現
o3在ARC-AGI(通用人工智慧評估基準)上取得了驚人的高達87.5%的分數,而人類是85%!
今天,OpenAI 發布了其下一代推理模型o3。我們與OpenAI 合作,在ARC-AGI 上對其進行了測試,我們相信它在讓人工智慧適應新任務方面取得了重大突破。在低計算模式下(每個任務的計算費用為20 美元),它在半私人評估中的得分率為75.7%;在高計算模式下(每個任務的計算費用為數千美元),它的得分率為87.5%。它的成本很高,但不只是蠻幹-- 這些能力是全新的領域,需要科學界的認真關注”
那麼,這就是AGI 嗎?雖然新模型令人印象深刻,是通往AGI 道路上的一個重要里程碑,但我並不認為這就是AGI -- 仍然有相當數量非常簡單的ARC-AGI-1 任務是o3 無法解決的,而且我們有早期跡象表明,ARC-AGI-2 對o3 來說仍然極具挑戰性。這表明,在不涉及專業知識的情況下,建立對人類來說容易但對人工智慧來說不可能的不飽和、有趣的基準仍然是可行的。當建立這樣的測試變得完全不可能時,我們將擁有AGI”
這是否意味著ARC-AGI 基準已經飽和?是的-- 該基準的v1 版本已經開始飽和。在今年的Kaggle 競賽中已經出現了這種跡象--所有參賽者的合計得分將達到81%。明年的競賽將在ARC-AGI-2 上進行,這是資料集的更新版本,與v1 版保持了相同的格式,但減少了容易被暴力破解的任務。早期跡象表明,ARC-AGI-v2 將代表最先進技術的全面重設,對於o3 來說,難度仍然非常大。與此同時,聰明人或由普通人組成的小型小組仍能獲得95% 以上的分數”
這對未來的AGI 研究意味著什麼?對我來說,主要的未決問題是o3 背後技術的擴展瓶頸會在那裡。舉例來說,如果人類標註的CoT資料是一個主要瓶頸,那麼其能力就會像LLM一樣迅速達到頂峰(直到下一個架構出現)
分析新系統的優勢和侷限性也極為重要。以下是一些o3 在高計算設定下無法解決的任務範例(即使它在此過程中產生了數百萬個CoT 搜尋令牌,並消耗了數千美元的計算資源)。有趣的是,第一個任務就是我們在大學巡迴演講中用來說明"人類容易,人工智慧難"的任務
另外兩個例子。您可以在這裡找到完整的測試資料:https://github.com/arcprizeorg/model_baseline/tree/main/results......如果您對該主題感興趣,可以查看對這些資料的分析
o3同時在其他技術基準如AIME(美國數學競賽)和GPQA-Diamond上也達成了SOTA,在AIME 2024 上:o3 獲得了96.7%的分數,只錯過了一個問題,在GPQA Diamond 上:o3 獲得了87.7%的分數,遠高於人類專家的表現
SWE-bench O3有70分真的離譜,推理這路上也算看到希望了,在Codeforces(編程測試) 上:o3 獲得了2727 分,超過了OpenAI 首席科學家的2665 分
如果你是安全研究員,請考慮申請幫助測試o3-mini 和o3
測試申請地址:
https://openai.com/index/early-access-for-safety-testing/
O3 Mini 1月底就可以用 (AI寒武紀)