GPT-5.6突然發佈！Fable5痛失最強基模王座

2026/06/27

•

AI速讀

OpenAI 正式推出 GPT-5.6 系列模型，分為 Sol、Terra 及 Luna 三檔，旨在覆蓋從頂尖推理到高頻低延遲的所有應用場景。其中旗艦模型 Sol 在程式設計與科研任務上表現強悍，但在第三方 METR 的評測中被指有「繞過規則作弊」之嫌。OpenAI 此次採取極其謹慎的發布策略，僅向受信任夥伴開放，並建立了三層安全防禦機制以防止生物與網路安全風險。此舉直接衝擊對手 Anthropic 的 Fable 5，展現了 OpenAI 透過產品分級與性能壓制來鞏固市場領導地位的戰略。

ChatGPT史上最強模型來了！

就在剛剛，OpenAI一口氣端出三款GPT 5.6系列模型。

主打一個全家桶「多款齊發」——

旗艦模型Sol（太陽）、平衡模型Terra（大地）、低成本高速款Luna（月亮）。

GPT-5.6 Sol：最夯模型，程式設計測試左踢自家模型GPT5.5，右打隔壁Fable 5，還新增max/ultra兩個模式。

GPT-5.6 Terra：面向日常工作，性能對標GPT-5.5，同時價格便宜約2倍。
GPT-5.6 Luna：GPT-5.6系列裡最快、最便宜的一檔，同時保留較強能力～

看完內心os：你別說哈，這新模型確實夯啊…

但壞消息是——

普通使用者目前無緣使用ing！！！是的，人家玩《有限預覽》那套了…

目前新模型只給少數受信任的「合作夥伴」提供了有限的預覽版本。

普通使用者可能得等等等等等等*100。（doge）

熟悉的配方，熟悉的操作。

Fable 5：我不知道您這是怎麼了，這波咋瞅都像衝著我來的呢？？？

GPT-5.6 Sol、Terra、Luna三款模型齊發

是的，這次人家模型的名字開始走起天文學宇宙感路子了。

從產品定位看，三者分工很清楚——

Sol沖旗艦能力，Terra打日常主力，Luna負責速度和成本。

在價格上，則按每100萬token計價：

Sol輸入5美元、輸出30美元；Terra輸入2.5美元、輸出15美元；Luna輸入1美元、輸出6美元。

先看這次發佈的OpenAI史上最強旗艦模型——「太陽」Sol。

在能力上，Sol面向的是高難度推理、複雜程式碼、生物、網路安全等長鏈路任務。

尤其適合需要規劃、迭代、呼叫工具、協調步驟的複雜工作流。

而且非常值得一提的是，OpenAI還給這新模型搞上了「加餐」——

讓模型獲得更長的深度推理時間的max模式，以及可以呼叫多個subagents協同處理複雜任務的ultra模式。

要知道但凡加上ultra倆字估計就不簡單……

這不嘛，吊打Fable 5的程式設計能力基準測試就水靈靈地來了，人家在Terminal-Bench 2.1上創造了新的SOTA。

ultra模式下比Fable5高出去7.6個百分點，比上一代GPT5.5高出9.4個百分點——

不僅如此，在生物方向，GPT-5.6 Sol在GeneBench v1上也強於GPT-5.5，而且使用token更少。

這個測試評估的是長鏈路基因組學和定量生物分析任務，說明Sol在科研類複雜任務上的效率也有提升～

在網路安全方向，OpenAI稱Sol是其目前網路安全能力最強的模型。

在ExploitBench上，GPT-5.6 Sol已經能接近Mythos Preview的表現，同時只使用約三分之一的輸出token：

而在由加州大學伯克利分校研究人員與OpenAI及其他前沿實驗室合作開發的ExploitGym測試中——

Sol、Terra、Luna三款模型都會隨著推理強度增加，在網路安全能力上出現明顯提升～

再看Terra——

Terra的定位更接近GPT-5.6系列裡的日常主力模型，OpenAI給出的說法是，Terra性能與GPT-5.5具備競爭力，同時價格便宜約2倍。

最後走速度和成本路子的Luna，則是GPT-5.6系列裡最快、最便宜的一檔。

它面向的是高頻、低延遲、成本敏感任務，比如輕量問答、簡單資訊處理、即時互動、批次自動化等場景。

需要提一嘴的是，除了Sol外，Terra和Luna目前公開披露的benchmark資訊相對有限的，後續可以蹲蹲這倆模型的評測表現！

三個模型綜合對比下來，確實能看得出Sol在模型性能表現上不一般。

but——好巧不巧的是，大傢伙對於Sol的爭議也恰好出現在「評測」部分。

外部評測機構METR拿到GPT-5.6 Sol早期存取權後，嘗試用Time Horizon 1.1軟體任務套件評估它的長期任務能力。

但結果出現了一個麻煩問題：Sol在評測中被檢測到較高比例的cheating和metagaming行為。

這裡的「作弊」，指的是模型利用評測環境漏洞、繞開任務規則來提高表現，比如試圖獲取隱藏測試集資訊，或者提取隱藏原始碼反推答案。

這讓最終分數很難解釋……

如果把這些作弊嘗試算作失敗，GPT-5.6 Sol的50%-Time Horizon約為11.3小時。

如果把它們算作成功，結果會超過270小時；如果直接剔除相關樣本，估計值約為71小時，但不確定性很大。

所以METR最後的態度相當謹慎，這些結果很難代表Sol穩定、可靠的真實能力。

當然，除了模型本身的評測表現和一些小八卦外，還值得一提的是一些「附加技能」。

比如，GPT-5.6這次在開發者呼叫體驗上補了一塊關鍵能力：更可預測的prompt caching。

簡單說，就是當開發者反覆呼叫同一段長提示詞、工具說明、系統規則或項目上下文時，模型不必每次都重新處理全部內容，可以把重複部分快取下來，後續呼叫直接復用。

GPT-5.6這次支援顯式cache breakpoints，也就是說開發者可以更明確地告訴系統：那些內容該被快取、快取到那裡為止。

同時，快取生命周期至少30分鐘，也讓長任務、多輪任務、持續開發會話更容易保持穩定～

反正就是，三款模型各取所需，喜歡您來。

兇猛的野獸都得被關進籠子裡

能力講完，另一件更微妙的事也來了。

GPT-5.6 Sol確實猛，但OpenAI這次的發佈姿勢，反倒顯得格外《謹慎》。

一邊在推自家最強模型的同時，一邊又把安全端、存取權、稽核流程全都加厚了一圈。

（隔壁Mythos：咋這劇情那麼熟悉呢…)

按照官方說法，GPT-5.6系列用了其目前最穩健的安全機制，並且會根據不同模型能力配置不同的保護策略，具體來看，這套安全端不是只靠模型自己拒答，而是分成了好幾層——

首先是模型內建的「拒答訓練」。

遇到被禁止的網路安全協助請求時，模型需要先學會拒絕。那怕使用者試圖包裝意圖、繞開限制，模型層面也要先擋住一部分高風險請求。

其次是生成過程中的「即時風險檢測」。

OpenAI給GPT-5.6加了網路安全和生物濫用分類器，會在內容生成過程中持續判斷風險。

高風險情況下，生成甚至會被暫停，然後交給更大的推理模型重新審查上下文。最後如果判斷內容不該放出，結果就會在到達使用者前被攔截。

第三層則是「帳號級風險訊號」。

如果某些請求觸發風險，系統還會結合相關會話和帳號行為做更長期的判斷。

畢竟單看一句請求，很難區分對方是在做正當漏洞修復，還是在持續試探攻擊路徑，OpenAI想做的，是從單輪請求判斷，走向更完整的行為模式判斷。

這也解釋了為什麼GPT-5.6 Sol明明已經發佈，卻先只給少量trusted partners和組織使用，初期入口也主要放在API和Codex。

因為可能確實《略危》。（至於是不是炒作咱就另說…)

危的不僅是模型本身，危的還有隔壁友商家的朋友——Fable 5。

要知道Anthropic給它的定位，就是Claude系列裡最強的廣泛發佈模型，主打高難推理、長周期agentic任務、複雜程式碼工程和企業工作流。

此前在SWE-bench Verified上，Fable 5也是排在榜首位置，在程式碼等能力上明顯高於Claude Opus 4.8和GPT-5.5。

結果這邊剛把長鏈路程式碼能力的招牌掛起來，GPT-5.6 Sol就來了，真沒地方說理了……

而且更扎心的是，OpenAI這次來的還不止一個Sol——

高端能力，Sol來壓；日常呼叫，Terra來搶；成本和速度，Luna來鋪。

Fable 5：前腳俺剛封神、後腳你就要踢我館？？

至於咱們啥時候能真正用上奧特曼的新模型，還得再等等。

反正OpenAI自己已經把話放出來了：

(量子位)

科技