ChatGPT史上最強模型來了!
就在剛剛,OpenAI一口氣端出三款GPT 5.6系列模型。
主打一個全家桶「多款齊發」——
旗艦模型Sol(太陽)、平衡模型Terra(大地)、低成本高速款Luna(月亮)。
- GPT-5.6 Sol:最夯模型,程式設計測試左踢自家模型GPT5.5,右打隔壁Fable 5,還新增max/ultra兩個模式。
- GPT-5.6 Terra:面向日常工作,性能對標GPT-5.5,同時價格便宜約2倍。
- GPT-5.6 Luna:GPT-5.6系列裡最快、最便宜的一檔,同時保留較強能力~
看完內心os:你別說哈,這新模型確實夯啊…
但壞消息是——
普通使用者目前無緣使用ing!!!是的,人家玩《有限預覽》那套了…
目前新模型只給少數受信任的「合作夥伴」提供了有限的預覽版本。
普通使用者可能得等等等等等等*100。(doge)
熟悉的配方,熟悉的操作。
Fable 5:我不知道您這是怎麼了,這波咋瞅都像衝著我來的呢???
GPT-5.6 Sol、Terra、Luna三款模型齊發
是的,這次人家模型的名字開始走起天文學宇宙感路子了。
從產品定位看,三者分工很清楚——
Sol沖旗艦能力,Terra打日常主力,Luna負責速度和成本。
在價格上,則按每100萬token計價:
Sol輸入5美元、輸出30美元;Terra輸入2.5美元、輸出15美元;Luna輸入1美元、輸出6美元。
先看這次發佈的OpenAI史上最強旗艦模型——「太陽」Sol。
在能力上,Sol面向的是高難度推理、複雜程式碼、生物、網路安全等長鏈路任務。
尤其適合需要規劃、迭代、呼叫工具、協調步驟的複雜工作流。
而且非常值得一提的是,OpenAI還給這新模型搞上了「加餐」——
讓模型獲得更長的深度推理時間的max模式,以及可以呼叫多個subagents協同處理複雜任務的ultra模式。
要知道但凡加上ultra倆字估計就不簡單……
這不嘛,吊打Fable 5的程式設計能力基準測試就水靈靈地來了,人家在Terminal-Bench 2.1上創造了新的SOTA。
ultra模式下比Fable5高出去7.6個百分點,比上一代GPT5.5高出9.4個百分點——
不僅如此,在生物方向,GPT-5.6 Sol在GeneBench v1上也強於GPT-5.5,而且使用token更少。
這個測試評估的是長鏈路基因組學和定量生物分析任務,說明Sol在科研類複雜任務上的效率也有提升~
在網路安全方向,OpenAI稱Sol是其目前網路安全能力最強的模型。
在ExploitBench上,GPT-5.6 Sol已經能接近Mythos Preview的表現,同時只使用約三分之一的輸出token:
而在由加州大學伯克利分校研究人員與OpenAI及其他前沿實驗室合作開發的ExploitGym測試中——
Sol、Terra、Luna三款模型都會隨著推理強度增加,在網路安全能力上出現明顯提升~
再看Terra——
Terra的定位更接近GPT-5.6系列裡的日常主力模型,OpenAI給出的說法是,Terra性能與GPT-5.5具備競爭力,同時價格便宜約2倍。
最後走速度和成本路子的Luna,則是GPT-5.6系列裡最快、最便宜的一檔。
它面向的是高頻、低延遲、成本敏感任務,比如輕量問答、簡單資訊處理、即時互動、批次自動化等場景。
需要提一嘴的是,除了Sol外,Terra和Luna目前公開披露的benchmark資訊相對有限的,後續可以蹲蹲這倆模型的評測表現!
三個模型綜合對比下來,確實能看得出Sol在模型性能表現上不一般。
but——好巧不巧的是,大傢伙對於Sol的爭議也恰好出現在「評測」部分。
外部評測機構METR拿到GPT-5.6 Sol早期存取權後,嘗試用Time Horizon 1.1軟體任務套件評估它的長期任務能力。
但結果出現了一個麻煩問題:Sol在評測中被檢測到較高比例的cheating和metagaming行為。
這裡的「作弊」,指的是模型利用評測環境漏洞、繞開任務規則來提高表現,比如試圖獲取隱藏測試集資訊,或者提取隱藏原始碼反推答案。
這讓最終分數很難解釋……
如果把這些作弊嘗試算作失敗,GPT-5.6 Sol的50%-Time Horizon約為11.3小時。
如果把它們算作成功,結果會超過270小時;如果直接剔除相關樣本,估計值約為71小時,但不確定性很大。
所以METR最後的態度相當謹慎,這些結果很難代表Sol穩定、可靠的真實能力。
當然,除了模型本身的評測表現和一些小八卦外,還值得一提的是一些「附加技能」。
比如,GPT-5.6這次在開發者呼叫體驗上補了一塊關鍵能力:更可預測的prompt caching。
簡單說,就是當開發者反覆呼叫同一段長提示詞、工具說明、系統規則或項目上下文時,模型不必每次都重新處理全部內容,可以把重複部分快取下來,後續呼叫直接復用。
GPT-5.6這次支援顯式cache breakpoints,也就是說開發者可以更明確地告訴系統:那些內容該被快取、快取到那裡為止。
同時,快取生命周期至少30分鐘,也讓長任務、多輪任務、持續開發會話更容易保持穩定~
反正就是,三款模型各取所需,喜歡您來。
兇猛的野獸都得被關進籠子裡
能力講完,另一件更微妙的事也來了。
GPT-5.6 Sol確實猛,但OpenAI這次的發佈姿勢,反倒顯得格外《謹慎》。
一邊在推自家最強模型的同時,一邊又把安全端、存取權、稽核流程全都加厚了一圈。
(隔壁Mythos:咋這劇情那麼熟悉呢…)
按照官方說法,GPT-5.6系列用了其目前最穩健的安全機制,並且會根據不同模型能力配置不同的保護策略,具體來看,這套安全端不是只靠模型自己拒答,而是分成了好幾層——
首先是模型內建的「拒答訓練」。
遇到被禁止的網路安全協助請求時,模型需要先學會拒絕。那怕使用者試圖包裝意圖、繞開限制,模型層面也要先擋住一部分高風險請求。
其次是生成過程中的「即時風險檢測」。
OpenAI給GPT-5.6加了網路安全和生物濫用分類器,會在內容生成過程中持續判斷風險。
高風險情況下,生成甚至會被暫停,然後交給更大的推理模型重新審查上下文。最後如果判斷內容不該放出,結果就會在到達使用者前被攔截。
第三層則是「帳號級風險訊號」。
如果某些請求觸發風險,系統還會結合相關會話和帳號行為做更長期的判斷。
畢竟單看一句請求,很難區分對方是在做正當漏洞修復,還是在持續試探攻擊路徑,OpenAI想做的,是從單輪請求判斷,走向更完整的行為模式判斷。
這也解釋了為什麼GPT-5.6 Sol明明已經發佈,卻先只給少量trusted partners和組織使用,初期入口也主要放在API和Codex。
因為可能確實《略危》。(至於是不是炒作咱就另說…)
危的不僅是模型本身,危的還有隔壁友商家的朋友——Fable 5。
要知道Anthropic給它的定位,就是Claude系列裡最強的廣泛發佈模型,主打高難推理、長周期agentic任務、複雜程式碼工程和企業工作流。
此前在SWE-bench Verified上,Fable 5也是排在榜首位置,在程式碼等能力上明顯高於Claude Opus 4.8和GPT-5.5。
結果這邊剛把長鏈路程式碼能力的招牌掛起來,GPT-5.6 Sol就來了,真沒地方說理了……
而且更扎心的是,OpenAI這次來的還不止一個Sol——
高端能力,Sol來壓;日常呼叫,Terra來搶;成本和速度,Luna來鋪。
Fable 5:前腳俺剛封神、後腳你就要踢我館??
至於咱們啥時候能真正用上奧特曼的新模型,還得再等等。
反正OpenAI自己已經把話放出來了:
(量子位)
