一場改寫AI歷史的震撼對決正在上演!就在昨天,當DeepSeek R1還在用「降維打擊」重構AI格局時,OpenAI王者回歸之作o3-mini已悄悄降臨,用實力證明──王者,從未離場!
在科技界,一天的時間足以改寫歷史。
DeepSeek R1用「降維打擊」重構了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕為王。
o3-mini的進步可不是一點半點,在數學程式碼等基準測試中,都拿下了最高的成績。
甚至,在「實體模擬」高難度挑戰戰場上,o3-mini直接粉碎R1,展現驚人的實力。
能夠清楚看出,o3-mini具備更強的物理推理能力,DeepSeek表現出明顯的「反重力」現象。
在另一個演示中,更加複雜,不僅要考慮小球與牆壁的碰撞,還要考慮不同小球之間的相互碰撞。
從單球反彈到多球碰撞,從簡單物理到複雜系統,OpenAI的彷彿在訴說著「王者,從未離場」。
教授Derya Unutmaz對o3 mini表現的進步感到非常激動:
o3-mini只需一次提示就能精確產生符合物理定律的程式碼!與此同時,DeepSeek-R1對此卻顯得很吃力。
這場AI競賽正全速加速,後來居上者,拭目以待。目前,OpenAI明顯處於領先地位! 」
此外,在「人類最後一場考試」的純文字測試集上,新模型03-mini(medium/high)在精確率上超越了DeepSeek-R1。
奧特曼甚至自信的表示:「不久,人類就需要另一場考試了……」
然而,這只是OpenAI新模型的冰山一角。
奧特曼劇透o3-mini接下來還有更大的驚喜!
o3-mini還有好東西,很快就會給你,我想我們把最好的留到最後了!
在程式碼補全基準Codeforces排名中,相對o1系列模型,o3-mini進步明顯。
而獨立於LLM提供者的性能基準和定價排行,Artificial Analysis表示:「o3-mini是從o1-mini向前邁出的一大步。」
同時,公佈了o3 mini的初步結果,完整的基準測試結果稍後推出:
其中人工分析品質指數(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多個測試基準。
相關排名如下:
AI初創企業CEO,Bindu Reddy,整體上o3擊敗了R1,特別是在編碼方面,讓人大吃一驚。
她認為綜合考慮性能、速度和價格,o3-mini high是目前最好的大語言模型(LLM):
具體結果如下:
對此,OpenAI研究員Clive Chan表示:「我每天都在cursor中使用o3-mini,它絕對是最好的程式設計模型。我基本上完全信任它的Python程式碼(不再有誤解/偷懶的問題),而且即使我目前的項目涉及3種我不熟悉的程式語言,o3-mini 也幫了大忙!
那麼,o3-mini真實實力究竟如何?
如下來自全網實測的最完整演示,即可揭曉謎底。
OpenAI研究科學家Sebastien Bubeck表示,o3-mini是一個了不起的模式。
在理解與解析arXiv論文方面,o3-mini達到了全球獨一無二的水平,成為真正的科學研究夥伴!
以下是一個看似簡單但會讓所有其他模型都感到困惑的問題,而o3-mini卻能給出極其有用的答案。
它完全說到了點子上:與自收縮曲線的聯絡、依賴於維度的界限,甚至還引用了相關論文。
下面這個例子是Sebastien在不同主題的另一個查詢。
有趣的是,o3-mini-high給出的參考文獻“Bubeck and Ganguly”並不完全正確,但確實非常相關。
總的來說,它給出的參考文獻都是“模糊精準的”,可能會混淆作者/期刊/標題,但令人驚訝的是這些引用仍然很有用。
他又表示,這些都是相當冷僻的問題,能夠回答這兩個問題的論文少於100篇(實際上更接近約10篇)。
能有一個模型可以回答只有O(10)數量級的人類知道答案的問題,這確實令人驚嘆。
此外,Sebastien又示範了一個用o3-mini建構「我的世界」的示範。
Hyperbolic聯創Yuchen Jin測試後驚嘆道,o3-mini可能是目前最強的物理推理LLM!
o3-mini竟然成功產生了四維超立方體(Tesseract)內反彈小球的Python程式碼,展現出驚人的物理推理和數學建模能力。
Prompt: Write a Python script of a ball bouncing inside a tesseract
再來看R1的表現,顯然不如o3-mini。
再來看o3-mini-high,demo中竟然翻車不如o3-mini?
Yuchen Jin多次嘗試後發現,o3-mini-high在這個任務上表現糟糕,甚至比一次性生成的o3-mini版本還差!
其中一個版本居然只生成了小球,沒有四維空間結構…
另一個很好展現o3-mini理解物理世界的demo。
「被o3-mini震撼到了(不只是因為它的程式設計能力),更因為它那閃電般的速度。
它僅用19秒就一次性生成了這四個演示。我從未見過類似的東西。一個新的AI時代已經到來」。
華頓商學院教授Ethan Mollick讓o3-mini-high首次挑戰生成動態海洋風暴Shader,沒想到竟然成功了!
另一位OpenAI研究員Aidan Clark表示:「o3-mini在智能和速度的組合方面令人難以置信,我不知道該說什麼,你只能自己去試試了。」
在下面demo中,Clark要求o3-mini用單一Python檔案寫一個Twitter克隆應用。
整個過程只花了8秒。
更令人驚嘆的是,開發者Alex Finn僅用1個提示,o3-mini便能產生完整的太空遊戲。
用一句話製作的「貪吃蛇」遊戲。
另一個動漫小人射擊遊戲。
還有網友透過o3-mini-high製作的太陽系3D模擬。
網友adi讓o1和o3-mini分別建造一個巨大的、令人驚嘆的、史詩般的漂浮城市。
OpenAI的策略,已經重新獲得了使用者的「芳心」。
開發者Mckay Wrigley已經用o3-mini模型取代AI智能體和工作流程的o1模型。一切都正常工作,甚至有一些表現的更好,但是便宜了9倍,速度快了4倍。
他認為:「OpenAI對新模型的宣傳明顯不足——這絕對令人難以置信。o3& o3 Pro會很瘋狂。」
根據Information報導,OpenAI2024年快速成長:
網友Prakash,則在X上列出了OpenAI的各部分收入:
ChatGPT Plus
ChatGPT Pro
ChatGPT總收入
API收入
總收入
年經常性收入(ARR):51億美元
他表示:「有趣的是,API收入遠小於ChatGPT訂閱收入,真正推動成長的還是消費級應用。」
網友Andrew Gao表示Anthropic正在吃掉OpenAI的市場份額。
OpenAI在企業客戶中的份額從2023年的50%下降到了2024年的34%,具體如下:
OpenAI早已與美國政府合作,確保AI領域的領先地位。
在參加川普的就職典禮並宣佈“星際之門”後,OpenAI首席執行官奧特曼,連續第二周來到華盛頓特區。
就在近日,在國會山附近的一次非正式演示中,奧特曼向美國政府領導人、政策專家和記者展示了即將推出的技術。
目的不僅是展示美國如何最大化人工智慧帶來的經濟利益,還希望讓華盛頓的領導者提前理解即將到來的技術能力,以減少他們在未來措手不及的可能性。
當談到能夠自主完成現實世界任務的新型自主智慧技術時,奧特曼表示:[我的直覺是…對美國經濟貢獻,這些技術將佔個位數百分比。 」
但與政府合作,並不是OpenAI唯一的選擇。
外媒報導稱,OpenAI為了實現成長,寄望於更高級模型驅動的ChatGPT的高價訂閱。
參考資料:
https://x.com/EyeingAI/status/1885652167257940174
https://x.com/jam3scampbell/status/1885752009766137897
https://x.com/bindureddy/status/1885517599083307433 (新智元)