2月1日訊息,OpenAI正式上線o3-mini,即日起在Chat Completions API、Assistants API和Batch API中逐步向層級3-5的開發者推出。 ChatGPT Plus、Team和Pro使用者可率先使用,企業使用者一周後可造訪。
o3-mini是OpenAI首款支援開發者需求功能的小型推理模型,繼承o1-mini的低成本、低延遲優勢,並支援函數呼叫、串流、結構化輸出等功能。開發者可依需求選擇推理強度,平衡思考深度與反應速度,但不支援視覺任務,視覺推理仍需使用o1。
此外,o3-mini現已支援與搜尋功能結合,能夠提供最新答案並連結至相關網路資源。這標誌著OpenAI正在將搜尋功能逐步整合到其推理模型中。
有外媒將o3-mini 和DeepSeek的R1模型進行了對比,在用於衡量模型理解和響應複雜指令能力的2024年美國數學邀請賽(AIME)測試中,o3-mini僅在高推理強度下表現優於R1。在以程式設計為重點的SWE-bench Verified基準測試中,o3-mini同樣僅在高推理強度下以微弱優勢(0.1 分)領先R1。然而,在低推理強度下,o3-mini在博士級科學問題(GPQA Diamond)基準測試中落後於R1,該測試主要用於衡量模型在博士級物理、生物和化學問題上的表現。
OpenAI表示,o3-mini專注於STEM領域(如程式設計、數學和科學)的相關問題以及邏輯推理問題。也就是說,這個模型在涉及技術性、複雜性較高的任務時表現出色,並且能幫助開發者解決程式碼編寫、數學計算、工程設計等方面的挑戰。
根據OpenAI介紹,在中等推理強度下,o3-mini在數學、程式設計和科學等STEM領域與o1模型相當,並且更快速、精準,推理能力更強。專家評測顯示,o3-mini的回答更準確、清晰,重大錯誤率降低39%,測試者56%的時間更傾向於選擇o3-mini的回答。
OpenAI在官方部落格中也將o3-mini的效能與o1系列進行了比較:
值得注意的是,在某些領域,o3-mini相對於o1的效能優勢較為微弱。例如,在2024年美國數學邀請賽(AIME)測試中,o3-mini在高推理強度下僅比o1高出0.3個百分點。而在博士級科學問題(GPQA Diamond)基準測試,即使在高推理強度下,o3-mini也未能超過o1的得分。
2024年美國數學邀請賽(AIME)
博士級科學問題(GPQA Diamond)
FrontierMath (高級數學推理基準測試集)
註:在研究級數學領域,OpenAI的o3-mini模型在高推理強度下於FrontierMath基準測試中的表現優於o1-mini。在FrontierMath測試中,當提示使用Python工具時,高推理強度的o3-mini在首次嘗試中解決了超過32%的問題,其中包括超過28%的高難度(T3 類別)問題。
程式設計競賽(Codeforces)
軟體工程(SWE-bench Verified)
LiveBench Coding(評估大型語言模型在程式設計任務中的表現)
人類偏好評估(Human Preference Evaluation)
註:外部專家測試者的評估結果表明,OpenAI的o3-mini在生成回答的精準性、清晰度以及推理能力方面均優於o1-mini,尤其是在STEM領域。測試者在56%的情況下更傾向於選擇o3-mini的回答,並且在處理複雜現實問題時,o3-mini 的重大錯誤率降低了39%。
OpenAI表示,Plus和Team企業使用者的速率限制從每天50條訊息(使用o1-mini)提升至每天150條訊息(使用o3-mini)。並且,免費使用者也可透過「推理」選項體驗o3-mini,這是ChatGPT首次向免費使用者開放推理模型。
在春節期間備受關注的國產大模型DeepSeek,其R1模型的推出對OpenAI構成了競爭壓力,尤其在成本方面呈現出顯著差異。 OpenAI 的推理模型o1系列相對成本較高,o1模型的API定價為每百萬輸入tokens 15美元,每百萬輸出tokens 60美元,而DeepSeek R1的API定價為每百萬輸入tokens 0.14美元(快取命中)/0.55美元(快取未命中),每百萬輸出tokens 2.19美元。
這次發佈中,OpenAI強調了成本問題。與OpenAI的o1-mini相比,o3-mini的價格降低了63%。o3-mini定價為每百萬輸入tokens 1.10美元,每百萬輸出tokens 4.40美元, 可謂是打了「骨折價」。不過,比起DeepSeek-R1,o3-mini的價格依然高出了不少。
禁止內容評估(Disallowed Content Evaluations)
越獄評估(Jailbreak Evaluations)
安全性方面,OpenAI表示,在訓練o3-mini以實現安全響應的過程中,採用了一種關鍵技術--“深思熟慮的對齊(deliberative alignment)”。透過這種方法,OpenAI訓練模型在回答使用者提示之前,先對人類編寫的安全規範進行推理。我們可以理解為,OpenAI希望確保o3-mini產生的內容更加安全、符合道德,並降低了模型產生不良或有害回應的風險。
與OpenAI o1類似,o3-mini在應對具有挑戰性的安全和越獄評估時,表現顯著優於GPT-4o。在部署之前,OpenAI使用與o1相同的方法,對o3-mini的安全風險進行了仔細評估,包括準備性評估、外部紅隊測試以及安全性評估。
總之,o3-mini的正式上線,標誌著OpenAI在推動成本效益型智慧發展方面邁出了重要一步。通過最佳化STEM領域的推理能力並保持低成本,這一模型也延續了OpenAI降低智慧成本的記錄。(騰訊科技)