【DeepSeek】o3-mini物理推理粉碎DeepSeek R1，OpenAI王者歸來！全網最全實測來襲

2025/02/02

•

一場改寫AI歷史的震撼對決正在上演！就在昨天，當DeepSeek R1還在用「降維打擊」重構AI格局時，OpenAI王者回歸之作o3-mini已悄悄降臨，用實力證明──王者，從未離場！

在科技界，一天的時間足以改寫歷史。

DeepSeek R1用「降維打擊」重構了AI界，OpenAI不甘示弱放出了o3-mini，再次加冕為王。

o3-mini的進步可不是一點半點，在數學程式碼等基準測試中，都拿下了最高的成績。

甚至，在「實體模擬」高難度挑戰戰場上，o3-mini直接粉碎R1，展現驚人的實力。

能夠清楚看出，o3-mini具備更強的物理推理能力，DeepSeek表現出明顯的「反重力」現象。

prompt：write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

在另一個演示中，更加複雜，不僅要考慮小球與牆壁的碰撞，還要考慮不同小球之間的相互碰撞。

prompt：Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls

從單球反彈到多球碰撞，從簡單物理到複雜系統，OpenAI的彷彿在訴說著「王者，從未離場」。

教授Derya Unutmaz對o3 mini表現的進步感到非常激動：

o3-mini只需一次提示就能精確產生符合物理定律的程式碼！與此同時，DeepSeek-R1對此卻顯得很吃力。

這場AI競賽正全速加速，後來居上者，拭目以待。目前，OpenAI明顯處於領先地位！」

此外，在「人類最後一場考試」的純文字測試集上，新模型03-mini（medium/high）在精確率上超越了DeepSeek-R1。

奧特曼甚至自信的表示：「不久，人類就需要另一場考試了……」

然而，這只是OpenAI新模型的冰山一角。

奧特曼劇透o3-mini接下來還有更大的驚喜！

o3-mini還有好東西，很快就會給你，我想我們把最好的留到最後了！

編碼吊打o1，最好的程式設計模型

在程式碼補全基準Codeforces排名中，相對o1系列模型，o3-mini進步明顯。

而獨立於LLM提供者的性能基準和定價排行，Artificial Analysis表示：「o3-mini是從o1-mini向前邁出的一大步。」

同時，公佈了o3 mini的初步結果，完整的基準測試結果稍後推出：

人工分析品質指數為89，與DeepSeek R1匹配，略低於o1
更便宜- 每百萬個token1.1美元/4.4美元的輸入/輸出定價，低於許多DeepSeek R1 API（高於DeepSeek的甲方R1 API定價）
快速-與o1-mini的速度相似，為170個token/秒，儘管這意味著2000個代幣的「思考」時間仍然需要~12 秒

其中人工分析品質指數（Artifical Analyssi Quality Index）包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多個測試基準。

相關排名如下：

AI初創企業CEO，Bindu Reddy，整體上o3擊敗了R1，特別是在編碼方面，讓人大吃一驚。

她認為綜合考慮性能、速度和價格，o3-mini high是目前最好的大語言模型(LLM)：

在程式設計上，o3-mini high大幅領先o1、Sonnet以及其他模型
o3-mini high比Sonnet便宜2倍，比o1便宜15倍
o3-mini high比R1快約5倍
在所有類別中，o3-mini high僅次於01，是第2名最佳模型

具體結果如下：

對此，OpenAI研究員Clive Chan表示：「我每天都在cursor中使用o3-mini，它絕對是最好的程式設計模型。我基本上完全信任它的Python程式碼（不再有誤解/偷懶的問題），而且即使我目前的項目涉及3種我不熟悉的程式語言，o3-mini 也幫了大忙！

全網實測

那麼，o3-mini真實實力究竟如何？

如下來自全網實測的最完整演示，即可揭曉謎底。

o3-mini徹底掌握了arXiv

OpenAI研究科學家Sebastien Bubeck表示，o3-mini是一個了不起的模式。

在理解與解析arXiv論文方面，o3-mini達到了全球獨一無二的水平，成為真正的科學研究夥伴！

以下是一個看似簡單但會讓所有其他模型都感到困惑的問題，而o3-mini卻能給出極其有用的答案。

它完全說到了點子上：與自收縮曲線的聯絡、依賴於維度的界限，甚至還引用了相關論文。

下面這個例子是Sebastien在不同主題的另一個查詢。

有趣的是，o3-mini-high給出的參考文獻“Bubeck and Ganguly”並不完全正確，但確實非常相關。

總的來說，它給出的參考文獻都是“模糊精準的”，可能會混淆作者/期刊/標題，但令人驚訝的是這些引用仍然很有用。

他又表示，這些都是相當冷僻的問題，能夠回答這兩個問題的論文少於100篇（實際上更接近約10篇）。

能有一個模型可以回答只有O（10）數量級的人類知道答案的問題，這確實令人驚嘆。

此外，Sebastien又示範了一個用o3-mini建構「我的世界」的示範。

AI物理新巔峰，輕鬆擊敗R1

Hyperbolic聯創Yuchen Jin測試後驚嘆道，o3-mini可能是目前最強的物理推理LLM！

o3-mini竟然成功產生了四維超立方體（Tesseract）內反彈小球的Python程式碼，展現出驚人的物理推理和數學建模能力。

Prompt: Write a Python script of a ball bouncing inside a tesseract

再來看R1的表現，顯然不如o3-mini。 ‍

再來看o3-mini-high，demo中竟然翻車不如o3-mini？

Yuchen Jin多次嘗試後發現，o3-mini-high在這個任務上表現糟糕，甚至比一次性生成的o3-mini版本還差！

其中一個版本居然只生成了小球，沒有四維空間結構…

另一個很好展現o3-mini理解物理世界的demo。

「被o3-mini震撼到了（不只是因為它的程式設計能力），更因為它那閃電般的速度。

它僅用19秒就一次性生成了這四個演示。我從未見過類似的東西。一個新的AI時代已經到來」。

華頓商學院教授Ethan Mollick讓o3-mini-high首次挑戰生成動態海洋風暴Shader，沒想到竟然成功了！

18秒，克隆一個應用

另一位OpenAI研究員Aidan Clark表示：「o3-mini在智能和速度的組合方面令人難以置信，我不知道該說什麼，你只能自己去試試了。」

在下面demo中，Clark要求o3-mini用單一Python檔案寫一個Twitter克隆應用。

整個過程只花了8秒。

一句話，生成遊戲

更令人驚嘆的是，開發者Alex Finn僅用1個提示，o3-mini便能產生完整的太空遊戲。

用一句話製作的「貪吃蛇」遊戲。

prompt：create a snake game, where snakes compete with each other

另一個動漫小人射擊遊戲。

還有網友透過o3-mini-high製作的太陽系3D模擬。

網友adi讓o1和o3-mini分別建造一個巨大的、令人驚嘆的、史詩般的漂浮城市。

prompt：build me a massive amazing epic a floating city

OpenAI王者重歸

OpenAI的策略，已經重新獲得了使用者的「芳心」。

開發者Mckay Wrigley已經用o3-mini模型取代AI智能體和工作流程的o1模型。一切都正常工作，甚至有一些表現的更好，但是便宜了9倍，速度快了4倍。

他認為：「OpenAI對新模型的宣傳明顯不足——這絕對令人難以置信。o3& o3 Pro會很瘋狂。」

03-mini與o1系列定價比較

根據Information報導，OpenAI2024年快速成長：

2024年，ChatGPT付費訂閱使用者已達1,550萬。
企業的模型採用率成長了7倍。
新推出的200美元/月Pro訂閱計畫，年收入已達3億美元。

網友Prakash，則在X上列出了OpenAI的各部分收入：

ChatGPT Plus

月經常性收入（MRR）：3.33億美元
訂閱價格：20美元/月
月活使用者（MAU）：1665萬

ChatGPT Pro

月經常性收入（MRR）：2500萬美元
訂閱價格：200美元/月
月活使用者（MAU）：12.5萬

ChatGPT總收入

月經常性收入（MRR）：3.58億美元
年經常性收入（ARR）：43億美元

API收入

每分鐘處理Token數量：14億
每年處理Token數量：735兆
每百萬Token價格（以o3 mini輸入價格計算）：1.1美元
年經常性收入（ARR）：8.09億美元

總收入

年經常性收入（ARR）：51億美元

他表示：「有趣的是，API收入遠小於ChatGPT訂閱收入，真正推動成長的還是消費級應用。」

網友Andrew Gao表示Anthropic正在吃掉OpenAI的市場份額。

OpenAI在企業客戶中的份額從2023年的50%下降到了2024年的34%，具體如下：

OpenAI早已與美國政府合作，確保AI領域的領先地位。

在參加川普的就職典禮並宣佈“星際之門”後，OpenAI首席執行官奧特曼，連續第二周來到華盛頓特區。

就在近日，在國會山附近的一次非正式演示中，奧特曼向美國政府領導人、政策專家和記者展示了即將推出的技術。

目的不僅是展示美國如何最大化人工智慧帶來的經濟利益，還希望讓華盛頓的領導者提前理解即將到來的技術能力，以減少他們在未來措手不及的可能性。

當談到能夠自主完成現實世界任務的新型自主智慧技術時，奧特曼表示：[我的直覺是…對美國經濟貢獻，這些技術將佔個位數百分比。」

但與政府合作，並不是OpenAI唯一的選擇。

外媒報導稱，OpenAI為了實現成長，寄望於更高級模型驅動的ChatGPT的高價訂閱。

參考資料：

https://x.com/EyeingAI/status/1885652167257940174

https://x.com/jam3scampbell/status/1885752009766137897

https://x.com/bindureddy/status/1885517599083307433 （新智元）

那國際駭客是不是也要去攻擊OpenAIo3mini呢？為什麽只有美國可以，全世界任何國家都不。
以後任何國家任何使用者會不會被美國綁架啊？

2025/02/04

有發現deepseek最大的功能？就是那些原本自稱高階、無所不能的所謂"AI"小工具卻大割韭菜的無良商人一起感到心虛，紛紛擠牙膏式的或降價、或部份免費，這但看市場後續如何發酵。
瘋子川普懂AI?一個只看利益的老白男跳出來一下子要查高階晶片如何流入中國，一下指控deepseek瓢竊技術，今天是高階晶片所提高的算力威脅到輝達、openAI?並不是啊？為何要吠？第一時間不吠就沒跟上潮流如是而已，至於罵了個鳥？誰在意？美國總統欸！！！至於瓢竊說更好笑，美國開發的網路程式、工具拿遍全世界的資料，這已經不是偷甚至是搶的光明正大。今天deepseek是取用哪些有版權保護的資料？要取證何其容易？因為美國最會偷，偷得之後再用方便的名義變成他收費功能或商業優勢，韭菜們有少被割。
只希望之後更多的““deepseek””們不斷的戳破無恥財閥的嘴臉，我不仇富，因為我也想富，但我不同意一方面割我韭菜另一方面還要我感恩戴德的無恥共犯結構

2025/02/03

1

昨日西方開源明日祖國自研。用著西方大量科研結晶產品卻無恥說人賣高價。你當西方跟你中華蘇維埃牛馬科學家、牛馬研究生、黨指揮矽谷是不是？你個拉基漢芯晶片、貪污大基金、紅芯瀏覽器。

2025/02/15

阿里雲降價97%、百度主力模型免費，確實，記得去罵

2025/02/03

從這裡可透過《Google 新聞》追蹤鉅亨號創作者