【DeepSeek】OpenAI推出性價比模型o3-mini對戰DeepSeek-R1，奧特曼反思開源問題

2025/02/02

•

DeepSeek最近展現的性價比和開源力量終於是讓OpenAI坐不住了。

作為應對，今天，OpenAI團隊推出了最新模型：o3-mini，順帶豎起一面「推動高性價比推理技術前沿發展」的大旗。

此次發佈對OpenAI來說正值關鍵時刻。一方面，外媒傳該公司正在洽談一輪高達400億美元的新融資，如何應對市場當前的性價比大戰十分關鍵；另一方面，作為星際之門項目核心參與方，OpenAI需要兌現其承諾，但項目前景尚不明朗；此外，影響力越來越大的中國開源模型DeepSeek-R1發佈後大大削弱了其市場優勢，需要抓緊時間找回場子。

作為DeepSeek-R1的競爭對手，o3-mini能否讓OpenAI贏下一局成為市場關注點。

「性價比」大戰正式開啟

OpenAI在去年12月產品發表中就宣佈了o3模型的存在，o3-mini則是正式推出的一個更小、更精簡的模型，針對特定任務進行了微調。

單就目前API服務價格而言，OpenAI正試圖盡力縮小與DeepSeek的定價差距。

o3-mini的定價為每百萬個快取輸入令牌0.55美元，每百萬個輸出令牌4.40美元，與DeepSeek-R1相比具有一定競爭力，相比之下通過API訪問DeepSeek-R1時會收取每百萬個快取輸入令牌0.14美元，每百萬個輸出令牌2.19美元。

與業界先前的預期相比，DeepSeek帶來的市場壓力成功把OpenAI的定價打了下來，不僅如此，o3-mini也成為ChatGPT免費使用者首次能夠試用的OpenAI推理模型。

使用者可以在ChatGPT的聊天欄中選擇「推理」功能，免費試用o3-mini，但其速率限制將與現有的GPT-4o類似，全球的ChatGPT Plus、團隊版和專業版使用者都能使用o3 -mini，OpenAI也將Plus和團隊版使用者的每日訊息限制提高兩倍，達到每天150 條，而願意每月支付200美元的專業版使用者，則能無限制使用o3-mini。

o3-mini的回應速度比o1-mini快24%，服務定價便宜了近63%，並在過程中提供更準確的答案，與R1相似，這個最新模型也會展示它如何得出答案，而不僅僅僅是提供響應。

開發人員可以根據他們的用例和延遲需求選擇“推理努力”等級（低、中或高），在ChatGPT中，o3-mini的中等推理提供了“速度和精確性之間的平衡”，而付費使用者可以在模型選擇器中選擇“o3-mini-high”，這將提供OpenAI所稱的“更高智能”和“最好的編碼選項”。

孰強孰弱？

值得關注的是，o3-mini並不是OpenAI迄今為止最強大的模型，也沒有在每個基準測試中完全甩開DeepSeek- R1推理模型。

OpenAI官方並沒有直接把o3-mini和DeepSeek-R1放一起進行效能對比，而是和自家的o1系列進行了一番較量。

與前身OpenAI o1類似，o3-mini針對STEM推理進行最佳化後，中等推理性能與o1在數學、編碼和科學方面的表現相當，同時響應速度更快。

在數學競賽(AIME 2024)方面，中等推理下o3-mini實現了與o1相當的性能，高等推理努力下o3-mini的表現則完全優於o1-mini和o1。

博士級科學問題（GPQA Diamond）方面，o3-mini在推理工作量較少的情況下，低等、中等推理性能均大幅優於o1-mini，o3-mini的高等性能則與o1相媲美。

不過，有網友對o3-mini和DeepSeek-R1進行了一些實操對比，發現o3-mini在「人類終極考試中」的測試結果會比R1略勝一籌。

此外，雙方對物理特性的掌握表現有些差異。例如網友測試產生經典的「六邊形內旋轉球」程式碼。提示：「寫一段JavaScript程式碼，實現一個球在旋轉的六邊形內部彈跳的效果。該球應受到重力和摩擦力的影響，並且必須逼真地從旋轉的牆壁上反彈。請用JavaScript和HTML來實現。

在該網友測試中，DeepSeek R1用時140秒，o3-mini-high用時25秒，雙方產生的程式碼都能正常運行，但o3-mini-high在物理特性表現方面會好一點。

或建立具有真實物理特性的字母下落JavaScript動畫。字母*以不同尺寸隨機出現在螢幕頂部*在地球引力作用下墜落（9.8米/秒²）*根據實際字母形狀進行碰撞檢測*與其他字母、背景和螢幕邊界進行互動* 密度特性與水相似*動態適應螢幕尺寸變化*在深色背景上顯示：

網友透過多維度對比o3-mini和DeepSeek-R1發現，R1在數學和程式碼領域的性能其實與o3-mini中等推理性能不相上下，但在科學類測試方面則和o3-mini低等推理性能差不多，在軟體工程SWE方面的測試，R1則媲美o3-mini高等推理性能。

綜合來看，面對R1給予開發者的充沛性價比優勢，OpenAI新推出的這款o3-mini模型雖然相比此前給使用者提供了更多福利和優惠，但市場競爭優勢可能很難與R1拉開太大距離，仍需看未來o3正式版模型的表現。

先前OpenAI對外透露o3時曾提到其性能將對現有模型實現降維打擊，突破ARC-AGI基準，性能是o1的三倍多，而DeepSeek針對o3又會推出怎樣的新模型進行PK十分值得期待。

開源不是OpenAI首要任務

o3-mini模型發佈後，包括OpenAI創始人山姆・奧特曼在內的核心工程師和高管們在Reddit社區回答了一些粉絲提問。

奧特曼承認，DeepSeek削弱了OpenAI在人工智慧領域的領先優勢，他還表示，在技術開源方面，他認為OpenAI“站在了歷史的錯誤一邊”，儘管OpenAI過去也曾開源過一些模型，但整體而言，公司目前更傾向於採用專有的、閉源的開發方式。

「我個人認為我們需要制定一種不同的開源策略。」奧特曼說，「並非OpenAI的所有人都認同這一觀點，而且這目前也不是我們的首要任務… 未來我們會推出更出色的模型，但與幾年前相比，我們保持的領先優勢會變小。

在後續的回應中，OpenAI首席產品長凱文・韋爾表示，OpenAI正在考慮開源那些不再屬於最前沿水準的舊模型，但沒有透露更多細節。

奧特曼稱，除了促使OpenAI重新思考其模型開發理念外，DeepSeek還推動該公司有可能更多地披露其所謂的推理模型是如何展示「思考過程」的。目前，OpenAI的多數模型對推理過程進行了隱藏，旨在防止競爭對手為自身模型獲取訓練材料，相較之下，DeepSeek的R1則會完整展示其思維鏈。

儘管奧特曼先前宣稱每月200美元的ChatGPT Pro仍處於虧損狀態，但他還是在這次o3-mini發佈後承諾如果可行的話，隨著時間推移會讓ChatGPT的使用成本變得「更低」。

山姆・奧特曼今天還在社交媒體留了一個小懸念：很快就會再給你們帶來一個有關o3-mini的驚喜——我覺得我們把最好的留到了最後！

這驚喜是什麼？是升級的Canvas功能還是o3-mini pro max ultra？一起持續關注吧。（頭部科技）