OpenAI年末狂歡第一彈：“滿血版”o1模型來了，還有個200美元/月的Pro版會員

2024/12/06

•

台北時間12月6日凌晨2點，科技圈現在最會行銷的OpenAI正式開啟了他們的“Shipmas”產品發佈季。

這明顯是受到聖誕日曆（Christmas Calendar）傳統啟發的12天連發活動。就像小朋友每天打開聖誕日曆上的一個小格子期待驚喜一樣，OpenAI要給全球科技圈每個工作日都送上一份“聖誕禮物”。

在今天的發佈會上，Sam Altman親自承認，公司將在工作日陸續發佈新產品和功能更新。

開門紅就放大招，OpenAI帶來了兩個重磅更新：o1模型的滿血正式版和堪稱“頂配版”的ChatGPT Pro訂閱計畫。

這簡直就是給這兩天瘋狂發佈新品的Google貼臉送“聖誕驚喜”。

現在就讓我們一起拆開聖誕禮盒的第一格吧。

滿血o1模型：完全態確實不一樣

發佈會開始，Sam Altman先提到了新版o1在處理複雜問題時的重大錯誤率降低了34%，而且能根據題目的難易程度調節處理時間，困難的題可能做幾分鐘，但簡單題目僅需幾秒。這使得使用者等待時間下降超過50%。

Sam Altman緊接著給出了它的表現資料。o1在國際數學奧林匹克預選賽題目（AIME 2024）中拿到了83%的正確率，把GPT-4o那可憐巴巴的13%甩得連尾燈都看不見了，比起o1 -preview的56.7%也提升了將近一半！

而在程式設計能力測試（CodeForces）方面，o1同樣展現出強勁實力。從GPT-4o的11%躍升到89%。絕對算得上從入門級直接漲到架構師水平。同樣比o1-preview提升一半。

特別值得一提的是，在處理博士級科學問題（GPQA Diamond）時，o1超越了人類專家的表現，達到78%的精準率，而人類專家的水平為69.7%。不過比較奇怪的是，在這一項上，o1的表現似乎還不如o1-preview。

更重要的更新是：o1現在也支援多模態識別了。

在發佈會現場，o1的負責人直接手繪了在太空中收集太陽能，以供太空資料中心使用的一套系統草圖讓o1識別。

因為太空中沒法水冷，因此散熱需要靠一張巨大的散熱片。研究員讓o1去計算，如果要給的資料中心供給1 GW的電，它需要多大的散熱片才能保證GPU陣列的正常運作。

o1完全精準的識別和理解了圖片的內容，並經過了超過3屏的精密分析和計算，給出了正確答案——需要242萬平方米的一塊巨大散熱片才夠。

而回答這個問題僅僅用了o1 10s的時間。

可以預見，多模態支援技能一解鎖，o1的實用性暴增。醫生可以用它分析醫學影像，工程師能讓它幫忙看圖紙，設計師還能讓它提供創意建議。

另一道現場測試題則更為複雜：OpenAI的研究員要求o1找到一種符合六個標準的特定蛋白質。

這個問題的挑戰在於，需要模型回憶起相當專業的化學領域知識，而對於任何給定的標準，可能會有數十種蛋白質符合該標準。所以模型必須全面考慮所有候選者，然後檢查它們是否符合所有標準。

這一問題需要大量思考和排查的問題，o1花了63s做對了。

除此之外，在安全性測試中，o1拿下了84分的高分，比起GPT-4o的22分也有了質的飛躍。看來，OpenAI在讓AI既聰明又“懂規矩”這件事上沒少下功夫。

o1新模型今日起將面向 ChatGPT Plus 和團隊使用者開放，而企業和教育使用者則從下周開始可使用。

ChatGPT Pro：200美金/月買個穩定發揮

如果說o1的升級是意料之中，那麼月收費200美元的ChatGPT Pro可就真的讓人倒吸一口涼氣了。雖然之前一直有傳聞提到OpenAI會推出200美元收費的套餐，但這個價格過高，業內很多人並不相信。

不過看資料，它確實是目前AI模型界的“旗艦”。

在這個套餐裡，OpenAI 提供了最強的o1 pro mode。按Sam Altman自己的解釋，這個模式會讓o1處理非常難的題目時，獲得更多算力和能量。

這聽起來似乎才是o1的真正完全體——不卡算力的情況下的o1。

在一般測試中，o1 pro 模式在國際數學奧林匹克預選賽題目（AIME 2024）中，正確率達到了86，超過了o1版本的78。

在程式設計中它和o1相當，但在處理博士級科學問題（GPQA Diamond）時有5%左右的優勢。

紙面上看，這點性能提升似乎並不值得大家每個月多花180美元去升級成Pro版本。

但為了展示o1 pro mode的強大，OpenAI還專門設計了一套極其嚴格的“四次測試”評估：模型需要連續四次都答對同一個問題才算通過。在這種嚴苛條件下，o1 Pro模式依然保持了相當高的可靠性：在競賽數學中達到80%，程式設計測試中達到74.9%，科學問題中達到74.2%。遠超普通版o1。這說明o1 pro能提供更佳的穩定性和一致性，這對於需要AI協助完成重要工作的專業人士來說，無疑是一個重要保障。