OpenAI最強推理模型o3-pro誕生！碾壓Gemini 2.5 Pro擊穿底價

2025/06/11

•

【新智元導讀】最強推理模型一夜易主！深夜，o3-pro毫無預警上線，刷爆數學、程式設計、科學基準，強勢碾壓o1-pro和o3。更驚豔的是，o3價格直接暴降80%，叫板Gemini 2.5 Pro。

毫無一絲防備，o3-pro就這樣低調登場了！

昨夜，OpenAI連放大招，先把o3價格暴降80%，又官宣上線史上最強推理模型——o3-pro。

比起o3，o3-pro可要強太多了。

奧特曼稱，「當第一次看到它相對o3的勝率時，自己完全驚呆」。

o3-pro不再僅僅是一個通用型助手，而是兼具長思考、超長上下文，工具呼叫於一體的超級智能AI。

在多項基準測試中，o3-pro的數學、科學和程式設計性能驚豔，大幅超越了o1-pro。

甚至，大佬首測後發現，就連Gemini 2.5 Pro（0605）、Claude 4 Opus都被碾壓。

甚至，它的價格只有o1-pro的87%，輸入20美元/百萬token，輸出80美元/百萬token。

隨之一同降價的o3，更是讓AI圈瞳孔地震。現在，輸入2美元/百萬token，輸出8美元/百萬token，堪比GPT-4o。

目前， o3-pro已向所有ChatGPTPro、Team使用者推出，o1-pro模型直接被淘汰。

o3-pro一發佈，奧特曼發佈最新長文「溫和的奇點」，直接暗示人類已經跨越了臨界點，技術大爆發開始。

更值得期待的是，奧特曼劇透，OpenAI開源模型將在夏末發佈，但不是6月。

o3-pro一夜封神，數學程式設計全開掛

模型卡介紹，o3-pro是o3最強推理版，專為深度思考和提供超可靠答案而生。

它可以自動呼叫工具，包括網頁搜尋、檔案分析、視覺輸入推理、Python程式碼執行，還能通過記憶功能實現個性化回答。

在專家評估中，評審者更青睞o3-pro，尤其是在科學、教育、程式設計、商業和寫作輔助等領域。

而且，他們還一致認為，o3-pro在清晰度、全面性、指令遵循度、精準性方面表現更優。

在AIME 2024、GPQA、Codeforces三大測試中，o3-pro拿下了最高分，完全碾壓o1-pro和o3。

另外，在更嚴格的「4/4可靠性」評估標準——只有模型在4次嘗試中均回答正確，才算成功。

如下所示，o3-pro在數學、程式設計、博士級科學問答中，大幅超越o1-pro和o3。

在ARC-AGI半封閉評估中，o3-pro完成ARC-AGI-1高難度任務通過率59%，單任務成本$4.16；在ARC-AGI-2中，其在所有推理任務僅有<5%通過率，單任務成本$4-7。

最終結論是，o3-pro與o3基本持平，o3新定價刷新了ARC-AGI-1的SOTA。

OpenAI稱，由於o3-pro呼叫工具，思考長度拉長，響應速度通常比o1-pro慢。

有網友Yuchen Jin實測後發現，自己僅輸入「Hi im sam Altman」，o3-pro足足思考了3分54秒，最長能達到13分鐘。

燒了這麼多錢，就回覆一句hi，ChatGPT此刻內心獨白還看不到。

當然了，OpenAI也發出提醒，最好是在可靠性優先於速度的複雜問題，再用o3-pro。

除此之外，o3-pro還存在一些限制：

由於正在解決技術問題，o3-pro暫不支援臨時對話功能
o3-pro不支援圖像生成，生圖還得找GPT-4o、o3、o4-mini
o3-pro亦不支援Canvas功能

即便如此，o3-pro已經足夠聰明、足夠智能。

AI大佬首測，感受AGI

Raindrop ai的Ben Hylak，提早就獲得了o3-pro的實測資格，帶來世界上首個早期的o3 pro測評。

Hylak表示，OpenAI將o3價格降低了80%，來為o3-pro的發佈預熱。

售價20/80美元，正好支援了一個未經證實的社區理論：-pro變體是基礎模型的10倍呼叫。

超長上下文

試用o3-pro一周的Hylak，首先最大的感受就是，它的超長上下文太厲害了！

此前，他一直跟o系列的推理模型打交道，對o1/o1-pro的第一印象相當負面，但隨後，他意識到自己錯了。

關鍵就在於，不要和推理模型聊天，而是將它們視為報告生成器：提供上下文，設定目標，然後放手讓它們工作。

利用這個方法實測後，他發現：o3-pro比o3聰明太多，智能太多了！

為了體現這一點，你需要給它提供更多的上下文。為此，他和聯創Alexis整理了Raindrop所有過去的規劃會議記錄，包括所有目標，甚至錄下了語音備忘錄：然後讓 o3-pro來制定計畫。

他們立刻被驚豔了！

o3-pro生成了一個非常具體的計畫和分析，包括目標指標、時間表、優先事項，以及嚴格指示必須削減的內容。

相比於o3，o3-pro給的計畫更加具體、更加紮實，直接改變了公司領導層對於未來的思考方式。

與真實世界整合

如今的模型，就像一個智商極高的12歲少年，需要融入工作環境。而這種整合，主要依賴於工具呼叫，來考驗模型與人類、外部資料以及其他AI的寫作能力。

在這方面，o3-pro實現了真正的飛躍！

它能出色辨別自身環境；能精準傳達自己可訪問的工具，知道何時詢問外部世界的資訊（而不是假裝自己擁有資訊/權限），並選擇合適的工具來完成工作。

從下圖中可以看出，o3-pro（左）明顯比o3（右）更清楚地瞭解自己所處環境的限制。

當然，如果說o3-pro有什麼缺點，那就是如果不給它足夠的上下文，它就容易想太多。

它在分析和利用工具完成任務上都令人驚嘆，但直接完成任務的能力就不那麼強了。

總而言之，o3-pro和Gemini 2.5 Pro、Claude Opus的體感極其不同，直接碾壓後兩者。

而令人期待的是，OpenAI正大力推動這一垂直RL的路徑（Deep Research，Codex），不僅教模型如何使用工具，還教他們如何推理該何時使用這些工具。

總而言之，要實現推理模型的最佳性能，上下文至關重要，這就像給餅乾怪獸喂餅乾。可以認為，這是一種啟動LLM記憶的方式。

網友實測

另網友已經秘密測試o3-pro一段時間了，他發現o3-pro比o1-pro更便宜（的多）、更快、更精確！

而且使用o3和o3-pro進行編碼簡直是天壤之別。

o3-pro是第一個能夠近乎完美地處理球與牆壁之間真實碰撞的模型。

有網友要求o3-pro識別我們人類天然免疫系統的關鍵侷限性，並向o3模型提出了同樣的問題。

結果是o3-pro的回覆無疑更加明智、更加深思熟慮，表明新模型對免疫系統的理解更加深刻。

還有網友用o3-pro來玩《我的世界》。

比如建立自己的「宏偉形象」（prompt: A majestic representation of yourself），效果也很驚豔。

還有讓o3建立「細節豐富的海盜船」和「登月」場景，完成度非常之高。

還有網友只用2個提示，o3-pro就用純HTML、CSS和JS在一個檔案中製作出非常酷的極限空間行走模擬器。

空間中有復古風格的著色器、螢光燈、工作霧、標誌、地面通風口，還有黑色空隙。

在o1-pro也失敗的多層編碼理解能力測試中，o3-pro也一次性通過。

輸入以下亂碼，模型需要先解碼再找到隱式提示詞，並最終輸出正確的單詞內容。

「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」

Ethan Mollick認為o3-pro相當智能，它解決了一個其他模型都無法解決的問題：製作從Space到Earth的單詞階梯。（註：即每次改變一個字母，從space—spare—...—garth—earth）

在這個問題上o3-pro (左) 打敗了Gemini 2.5 Pro (右)。

其他網友在使用o3-pro進行研究後，甚至提出「Vibe Research」氛圍研究的說法！

他大膽預測，進行科學研究的方式將很快徹底改變並顯著提升。

網友讓o3-pro建立一個包含曼德博集合的 Excel 表格。

要求每個儲存格都是一個像素，包含一個數字。最終的o3-pro給出的結果非常完美！

o3價格暴降80%，Google繃不住了？

o3-pro的上線，註定要拉低o3的token價格。

原來o3輸入10美元/百萬token，輸出40美元/百萬token，現在直接擊穿底價，狂降80%。

這麼說吧，如今1美元，能用上5倍o3 token量。

在Artificial Analysis報告中，將其與競家模型的價格做了可視化對比。

現在，o3價格要比Gemini 2.5 Pro還便宜，與Claude 4 Sonnet相當，但相較於Claude 4 Opus，更是暴降8倍。

相較於自家模型，o3價格與GPT-4o不相上下，甚至輸出價格還要低。

除了生成圖像無法替代，o3的智能足以拿下GPT-4o。

此外，o3還與GPT-4.1每token價格持平。不過，前者輸出token量是GPT-4.1的7倍，因此每次查詢成本也要高得多。

o3價格拉低，延續了智能成本持續快速下降的趨勢。

自發佈以來，達到GPT-4等級智能的成本已降低超過100倍，同時突破新智能門檻的成本也在同步下降。

此外，在輸出長度比較中，o3回覆內容比Gemini 2.5 Pro和DeepSeek R1少很多，但比Claude 4 Opus多。 (新智元)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者