剛剛!OpenAI發佈全新o1系列兩款模型,o1-mini價格暴降80%,即日起全面上線



剛剛,傳說中的OpenAI迄今為止最強大的 AI 模型終於到來,但並非完全命名為外界所盛傳的Strawberry,或者是Orion。

台北時間9月13日凌晨,美國OpenAI公司宣佈推出兩款新的 AI 模型:OpenAI o1-preview和o1-mini ,旨在解決各種複雜任務,在推理數學、程式設計、科學等問題的能力上有顯著提高,並解決比以前的科學、編碼和數學模型更難的問題,思考的時間越長,給出的答案就。另外,全新的o1-mini 速度更快,價格比o1-preview便宜80%,並且在編碼任務等能力方面可與o1-preview 相媲美。


OpenAI表示,即日起,ChatGPT Plus 和 Team使用者將能夠在 ChatGPT 中訪問 o1 模型,不過也有一定限制,就是在發佈時,使用者每周傳送消息次數限製為 o1-preview 30 條消息和 o1-mini 50 條消息。

“當今的語言模型花費了相似的時間來嘗試解決各種大大小小的問題。Openai o1 則代表著向可以無限推理的模型邁出了一小步,這種認知技能對於幫助解決我們這個時代任何尚未解決的重大問題都至關重要。”OpenAI表示,現在的o1隻是一個預覽版,公司將期待定期更新和改進。除了此版本之外,OpenAI還將包含目前正在開發的下一次更新的評估。

OpenAI CEO奧爾特曼(Sam Altman)表示,“這是我們迄今為止功能最強大、最一致的模型系列 o1,也是迄今為止我們最好的推理模型。o1 仍然存在缺陷,仍然有限,並且第一次使用時的感覺仍然比花更多時間使用後的感覺更令人印象深刻。”

“但是你寧願大多數時候都有些悲傷,偶爾非常快樂,還是寧願一直有些快樂,偶爾非常悲傷?”奧爾特曼隨後稱。

據悉,今年以來,OpenAI發佈GPT-4o、sora視訊模型等產品引發關注。此次,OpenAI再度更新,發佈全新o1系列模型產品。

具體來說,OpenAI分為工作原理、安全、適合對象、o1-mini等方面來敘述。

工作原理層面,OpenAI表示,“我們訓練這些模型花更多時間思考問題,然後再做出反應,就像人類一樣。通過訓練,它們學會完善自己的思維過程,嘗試不同的策略,並認識到自己的錯誤。 在我們的測試中,下一個模型更新在物理、化學和生物學的具有挑戰性的基準任務上的表現與博士生相似。我們還發現它在數學和編碼方面表現出色。在國際數學奧林匹克 (IMO) 資格考試中,GPT-4o 僅正確解決了 13% 的問題,而推理模型得分為 83%。他們的編碼能力在比賽中得到了評估,並在 Codeforces 比賽中達到了第 89 個百分位。”

“作為早期模型,它還不具備 ChatGPT 的許多實用功能,例如瀏覽網頁獲取資訊以及上傳檔案和圖片。對於許多常見情況,GPT-4o 將在短期內變得更加強大。但對於複雜的推理任務來說,這是一個重大進步,代表了人工智慧能力的新水平。鑑於此,我們將計數器重設為 1,並將該系列命名為 OpenAI o1。”OpenAI表示。

安全層面,OpenAI表示,“在開發這些新模型的過程中,我們提出了一種新的安全訓練方法,利用它們的推理能力,使它們遵守安全和協調準則。通過能夠在上下文中推理我們的安全規則,它可以更有效地應用它們。 我們衡量安全性的一種方法是測試當使用者試圖繞過安全規則(稱為“越獄”)時,我們的模型如何繼續遵循安全規則。在我們最嚴格的越獄測試之一中,GPT-4o 得分為 22(0-100 分制),而我們的 o1 預覽模型得分為 84。”

“為了適應這些模型的新功能,我們加強了安全工作、內部管理和聯邦政府合作。這包括使用我們的準備框架進行嚴格的測試和評估(在新窗口中打開)、一流的紅隊測試和董事會級審查流程,包括我們的安全與安保委員會。為了推進我們對人工智慧安全的承諾,我們最近與美國和英國的人工智慧安全研究所正式達成協議。我們已經開始實施這些協議,包括授予這些研究所早期使用該模型研究版本的權限。這是我們合作中重要的第一步,有助於在未來模型公開發佈之前和之後建立研究、評估和測試流程。”OpenAI稱。

適合對象層面,如果您正在解決科學、編碼、數學和類似領域的複雜問題,這些增強的推理能力可能特別有用。例如,醫療研究人員可以使用 o1 來註釋細胞測序資料,物理學家可以使用 o1 來生成量子光學所需的複雜數學公式,各領域的開發人員可以使用 o1 來建構和執行多步驟工作流程。



OpenAI o1-mini方面,公司稱,o1 系列擅長精準生成和偵錯複雜程式碼。

“我們訓練了一個獲得 213 分並在 2024 年國際資訊學奧林匹克競賽 (IOI) 中排名第 49 個百分位的模型,從 o1 開始初始化並進行培訓以進一步提高程式設計技能。該模型在與人類參賽者相同的條件下參加了 2024 年 IOI 的比賽。它有 10 個小時來解決 6 個具有挑戰性的演算法問題,每個問題允許提交 50 個問題。對於每個問題,我們的系統對許多考生提交的內容進行了抽樣,並根據考試時選擇策略提交了其中的 50 個。提交的內容是根據 IOI 公共測試用例、模型生成的測試用例和學習的評分函數的性能來選擇的。如果我們是隨機提交的,我們平均只會得到 156 分,這表明在比賽限制下,這種策略價值近 60 分。在寬鬆的提交約束下,我們發現模型性能顯著提高。當每個問題允許提交 10,000 個問題時,該模型獲得了 362.14 分——高於金牌閾值——即使沒有任何測試時間選擇策略。最後,我們模擬了由 Codeforces 主辦的競技程式設計競賽,以展示該模型的編碼技能。我們的評估與比賽規則非常匹配,並允許 10 份提交。GPT-4o 的 Elo 評分3 為 808,在人類競爭對手中處於第 11 個百分位。該模型遠遠超過了 GPT-4o 和 o1——它的 Elo 評分為 1807,表現優於 93% 的競爭對手。”OpenAI表示。

另外,為了給開發人員提供更高效的解決方案,公司還發佈了OpenAI o1-mini,這是一種速度更快、成本更低的推理模型,在編碼方面尤其有效。作為一款較小的模型,o1-mini 比 o1-preview 便宜 80%,使其成為一款功能強大、經濟高效的模型,適用於需要推理但不需要廣泛世界知識的應用程式。

那麼,你如何使用 OpenAI o1?

OpenAI首先表示,從今天開始,ChatGPT Plus 和 Team使用者將能夠在 ChatGPT 中訪問 o1 模型。o1-preview 和 o1-mini 都可以在模型選擇器中手動選擇,在發佈時,每周傳送消息次數限製為 o1-preview 30 條消息和 o1-mini 50 條消息。我們正在努力提高這些傳送次數,並使 ChatGPT 能夠根據給定的提示自動選擇正確的模型。

其次,ChatGPT Enterprise(企業)和 Edu(教育)使用者將從下周開始使用這兩種(mini和預覽)模式。 而符合 API usage tier 5(opens in a new window)的ed開發人員 (在新窗口中打開)的開發人員,現在可以開始使用 API 中的兩種模型進行原型設計,速率限製為 20 RPM。同時正在努力在進行額外測試後提高這些限制。這些模型的 API 目前不包括函數呼叫、流式傳輸、對系統消息的支援和其他功能。

最後,OpenAI還計畫向所有ChatGPT Free(免費)使用者提供 o1-mini 存取權。

展望未來,OpenAI表示,o1是 ChatGPT 和 API 中這些推理模型的早期預覽。除了模型更新之外,公司還希望新增瀏覽、檔案和圖像上傳以及其他功能,使其對每個人都更有用。除了新的 OpenAI o1 系列之外,公司還計畫繼續開發和發佈 GPT 系列中的模型。 (鈦媒體AGI)