OpenAI年末狂歡第一彈:“滿血版”o1模型來了,還有個200美元/月的Pro版會員

台北時間12月6日凌晨2點,科技圈現在最會行銷的OpenAI正式開啟了他們的“Shipmas”產品發佈季。

這明顯是受到聖誕日曆(Christmas Calendar)傳統啟發的12天連發活動。就像小朋友每天打開聖誕日曆上的一個小格子期待驚喜一樣,OpenAI要給全球科技圈每個工作日都送上一份“聖誕禮物”。

在今天的發佈會上,Sam Altman親自承認,公司將在工作日陸續發佈新產品和功能更新。

開門紅就放大招,OpenAI帶來了兩個重磅更新:o1模型的滿血正式版和堪稱“頂配版”的ChatGPT Pro訂閱計畫。

這簡直就是給這兩天瘋狂發佈新品的Google貼臉送“聖誕驚喜”。

現在就讓我們一起拆開聖誕禮盒的第一格吧。



滿血o1模型:完全態確實不一樣

發佈會開始,Sam Altman先提到了新版o1在處理複雜問題時的重大錯誤率降低了34%,而且能根據題目的難易程度調節處理時間,困難的題可能做幾分鐘,但簡單題目僅需幾秒。這使得使用者等待時間下降超過50%。

Sam Altman緊接著給出了它的表現資料。o1在國際數學奧林匹克預選賽題目(AIME 2024)中拿到了83%的正確率,把GPT-4o那可憐巴巴的13%甩得連尾燈都看不見了,比起o1 -preview的56.7%也提升了將近一半!

而在程式設計能力測試(CodeForces)方面,o1同樣展現出強勁實力。從GPT-4o的11%躍升到89%。絕對算得上從入門級直接漲到架構師水平。同樣比o1-preview提升一半。

特別值得一提的是,在處理博士級科學問題(GPQA Diamond)時,o1超越了人類專家的表現,達到78%的精準率,而人類專家的水平為69.7%。不過比較奇怪的是,在這一項上,o1的表現似乎還不如o1-preview。

更重要的更新是:o1現在也支援多模態識別了。

在發佈會現場,o1的負責人直接手繪了在太空中收集太陽能,以供太空資料中心使用的一套系統草圖讓o1識別。

因為太空中沒法水冷,因此散熱需要靠一張巨大的散熱片。研究員讓o1去計算,如果要給的資料中心供給1 GW的電,它需要多大的散熱片才能保證GPU陣列的正常運作。

o1完全精準的識別和理解了圖片的內容,並經過了超過3屏的精密分析和計算,給出了正確答案——需要242萬平方米的一塊巨大散熱片才夠。

而回答這個問題僅僅用了o1 10s的時間。

可以預見,多模態支援技能一解鎖,o1的實用性暴增。醫生可以用它分析醫學影像,工程師能讓它幫忙看圖紙,設計師還能讓它提供創意建議。

另一道現場測試題則更為複雜:OpenAI的研究員要求o1找到一種符合六個標準的特定蛋白質。

這個問題的挑戰在於,需要模型回憶起相當專業的化學領域知識,而對於任何給定的標準,可能會有數十種蛋白質符合該標準。所以模型必須全面考慮所有候選者,然後檢查它們是否符合所有標準。

這一問題需要大量思考和排查的問題,o1花了63s做對了。

除此之外,在安全性測試中,o1拿下了84分的高分,比起GPT-4o的22分也有了質的飛躍。看來,OpenAI在讓AI既聰明又“懂規矩”這件事上沒少下功夫。

o1新模型今日起將面向 ChatGPT Plus 和團隊使用者開放,而企業和教育使用者則從下周開始可使用。



ChatGPT Pro:200美金/月 買個穩定發揮

如果說o1的升級是意料之中,那麼月收費200美元的ChatGPT Pro可就真的讓人倒吸一口涼氣了。雖然之前一直有傳聞提到OpenAI會推出200美元收費的套餐,但這個價格過高,業內很多人並不相信。

不過看資料,它確實是目前AI模型界的“旗艦”。

在這個套餐裡,OpenAI 提供了最強的o1 pro mode。按Sam Altman自己的解釋,這個模式會讓o1處理非常難的題目時,獲得更多算力和能量。

這聽起來似乎才是o1的真正完全體——不卡算力的情況下的o1。

在一般測試中,o1 pro 模式在國際數學奧林匹克預選賽題目(AIME 2024)中,正確率達到了86,超過了o1版本的78。

在程式設計中它和o1相當,但在處理博士級科學問題(GPQA Diamond)時有5%左右的優勢。

紙面上看,這點性能提升似乎並不值得大家每個月多花180美元去升級成Pro版本。

但為了展示o1 pro mode的強大,OpenAI還專門設計了一套極其嚴格的“四次測試”評估:模型需要連續四次都答對同一個問題才算通過。在這種嚴苛條件下,o1 Pro模式依然保持了相當高的可靠性:在競賽數學中達到80%,程式設計測試中達到74.9%,科學問題中達到74.2%。遠超普通版o1。這說明o1 pro能提供更佳的穩定性和一致性,這對於需要AI協助完成重要工作的專業人士來說,無疑是一個重要保障。

ChatGPT Pro版客戶還能享受到完整的GPT-4o存取權:無限使用,不用排隊。



未來可期:更多驚喜在路上

這還只是12天發佈計畫的首日。

不得不說,OpenAI這波“聖誕行銷”節奏掌握的不錯,第一天就放出了業內預測會在這十二天發佈的最重要的產品之一 —— “滿血版”o1。這力度,肯定能勾起大家對於接下來的11天更新的好奇心。

不過有一點是肯定:今年的AI圈註定要在這個寒冬裡進入搏殺狀態。Google可能會發Gemini 2,Anthrophic據說也會有新模型將在聖誕前上線。

對整個AI圈而言,今天僅僅是個開始。

在直播的最後,OpenAI的研究員講了個聖誕冷笑話:聖誕老人試圖讓他的大型語言模型解決一個數學問題,他非常努力地提示它,但就是不行。他最終是怎麼解決的呢?他用的是reindeer enforcement learning(馴鹿加力學習)。

笑點是,這幾個詞連在一起讀出來就是reinforcement(強化學習)。爛諧音梗,讓Sam都無語了。

(騰訊科技)