DeepSeek最近展現的性價比和開源力量終於是讓OpenAI坐不住了。
作為應對,今天,OpenAI團隊推出了最新模型:o3-mini,順帶豎起一面「推動高性價比推理技術前沿發展」的大旗。
此次發佈對OpenAI來說正值關鍵時刻。一方面,外媒傳該公司正在洽談一輪高達400億美元的新融資,如何應對市場當前的性價比大戰十分關鍵;另一方面,作為星際之門項目核心參與方,OpenAI需要兌現其承諾,但項目前景尚不明朗;此外,影響力越來越大的中國開源模型DeepSeek-R1發佈後大大削弱了其市場優勢,需要抓緊時間找回場子。
作為DeepSeek-R1的競爭對手,o3-mini能否讓OpenAI贏下一局成為市場關注點。
OpenAI在去年12月產品發表中就宣佈了o3模型的存在,o3-mini則是正式推出的一個更小、更精簡的模型,針對特定任務進行了微調。
單就目前API服務價格而言,OpenAI正試圖盡力縮小與DeepSeek的定價差距。
o3-mini的定價為每百萬個快取輸入令牌0.55美元,每百萬個輸出令牌4.40美元,與DeepSeek-R1相比具有一定競爭力,相比之下通過API訪問DeepSeek-R1時會收取每百萬個快取輸入令牌0.14美元,每百萬個輸出令牌2.19美元。
與業界先前的預期相比,DeepSeek帶來的市場壓力成功把OpenAI的定價打了下來,不僅如此,o3-mini也成為ChatGPT免費使用者首次能夠試用的OpenAI推理模型。
使用者可以在ChatGPT的聊天欄中選擇「推理」 功能,免費試用o3-mini,但其速率限制將與現有的GPT-4o類似,全球的ChatGPT Plus、團隊版和專業版使用者都能使用o3 -mini,OpenAI也將Plus和團隊版使用者的每日訊息限制提高兩倍,達到每天150 條,而願意每月支付200美元的專業版使用者,則能無限制使用o3-mini。
o3-mini的回應速度比o1-mini快24%,服務定價便宜了近63%,並在過程中提供更準確的答案,與R1相似,這個最新模型也會展示它如何得出答案,而不僅僅僅是提供響應。
開發人員可以根據他們的用例和延遲需求選擇“推理努力”等級(低、中或高),在ChatGPT中,o3-mini的中等推理提供了“速度和精確性之間的平衡”,而付費使用者可以在模型選擇器中選擇“o3-mini-high”,這將提供OpenAI所稱的“更高智能”和“最好的編碼選項”。
值得關注的是,o3-mini並不是OpenAI迄今為止最強大的模型,也沒有在每個基準測試中完全甩開DeepSeek- R1推理模型。
OpenAI官方並沒有直接把o3-mini和DeepSeek-R1放一起進行效能對比,而是和自家的o1系列進行了一番較量。
與前身OpenAI o1類似,o3-mini針對STEM推理進行最佳化後,中等推理性能與o1在數學、編碼和科學方面的表現相當,同時響應速度更快。
在數學競賽(AIME 2024)方面,中等推理下o3-mini實現了與o1相當的性能,高等推理努力下o3-mini的表現則完全優於o1-mini和o1。
博士級科學問題(GPQA Diamond)方面,o3-mini在推理工作量較少的情況下,低等、中等推理性能均大幅優於o1-mini,o3-mini的高等性能則與o1相媲美。
不過,有網友對o3-mini和DeepSeek-R1進行了一些實操對比,發現o3-mini在「人類終極考試中」的測試結果會比R1略勝一籌。
此外,雙方對物理特性的掌握表現有些差異。例如網友測試產生經典的「六邊形內旋轉球」程式碼。提示:「寫一段JavaScript程式碼,實現一個球在旋轉的六邊形內部彈跳的效果。該球應受到重力和摩擦力的影響,並且必須逼真地從旋轉的牆壁上反彈。請用JavaScript和HTML來實現。
在該網友測試中,DeepSeek R1用時140秒,o3-mini-high用時25秒,雙方產生的程式碼都能正常運行,但o3-mini-high在物理特性表現方面會好一點。
或建立具有真實物理特性的字母下落JavaScript動畫。字母*以不同尺寸隨機出現在螢幕頂部*在地球引力作用下墜落(9.8米/秒²)*根據實際字母形狀進行碰撞檢測*與其他字母、背景和螢幕邊界進行互動* 密度特性與水相似*動態適應螢幕尺寸變化*在深色背景上顯示:
網友透過多維度對比o3-mini和DeepSeek-R1發現,R1在數學和程式碼領域的性能其實與o3-mini中等推理性能不相上下,但在科學類測試方面則和o3-mini低等推理性能差不多,在軟體工程SWE方面的測試,R1則媲美o3-mini高等推理性能。
綜合來看,面對R1給予開發者的充沛性價比優勢,OpenAI新推出的這款o3-mini模型雖然相比此前給使用者提供了更多福利和優惠,但市場競爭優勢可能很難與R1拉開太大距離,仍需看未來o3正式版模型的表現。
先前OpenAI對外透露o3時曾提到其性能將對現有模型實現降維打擊,突破ARC-AGI基準,性能是o1的三倍多,而DeepSeek針對o3又會推出怎樣的新模型進行PK十分值得期待。
o3-mini模型發佈後,包括OpenAI創始人山姆・奧特曼在內的核心工程師和高管們在Reddit社區回答了一些粉絲提問。
奧特曼承認,DeepSeek削弱了OpenAI在人工智慧領域的領先優勢,他還表示,在技術開源方面,他認為OpenAI“站在了歷史的錯誤一邊”,儘管OpenAI過去也曾開源過一些模型,但整體而言,公司目前更傾向於採用專有的、閉源的開發方式。
「我個人認為我們需要制定一種不同的開源策略。」 奧特曼說,「並非OpenAI的所有人都認同這一觀點,而且這目前也不是我們的首要任務… 未來我們會推出更出色的模型,但與幾年前相比,我們保持的領先優勢會變小。
在後續的回應中,OpenAI首席產品長凱文・韋爾表示,OpenAI正在考慮開源那些不再屬於最前沿水準的舊模型,但沒有透露更多細節。
奧特曼稱,除了促使OpenAI重新思考其模型開發理念外,DeepSeek還推動該公司有可能更多地披露其所謂的推理模型是如何展示「思考過程」 的。目前,OpenAI的多數模型對推理過程進行了隱藏,旨在防止競爭對手為自身模型獲取訓練材料,相較之下,DeepSeek的R1則會完整展示其思維鏈。
儘管奧特曼先前宣稱每月200美元的ChatGPT Pro仍處於虧損狀態,但他還是在這次o3-mini發佈後承諾如果可行的話,隨著時間推移會讓ChatGPT的使用成本變得「更低」。
山姆・奧特曼今天還在社交媒體留了一個小懸念:很快就會再給你們帶來一個有關o3-mini的驚喜——我覺得我們把最好的留到了最後!
這驚喜是什麼?是升級的Canvas功能還是o3-mini pro max ultra?一起持續關注吧。 (頭部科技)