GPT-5.6 來了，超越 Mythos，成本比 5.5 降一半

2026/06/27

•

AI速讀

OpenAI 在六月密集發布一系列更新，核心為 GPT-5.6 模型，將其分為 Sol（旗艦）、Terra（平衡）與 Luna（經濟）三層級，旨在透過差異化定價與效能精準打擊競爭對手並防禦開源模型。同時，OpenAI 透過 Daybreak 計畫深耕網路安全，並與 Broadcom 合作研發 Jalapeño 推理晶片以大幅降低推理成本。此次動作顯示 OpenAI 正在結束單一模型時代，轉型為掌控晶片、安全與模型之 AI 全端基礎設施供應商，試圖掌控 AI 生態的成本命脈與技術標準。

OpenAI 的模型迭代速度，正在逼近讓人來不及消化的臨界點。

6 月 12 日，GPT-5.2 剛剛從 ChatGPT 退役，所有使用者被靜默遷移到 GPT-5.5。

6 月 22 日，Daybreak 網路安全計畫大規模擴展，GPT-5.5-Cyber 全量版本上線。

6 月 24 日，和 Broadcom 聯合發佈了第一顆自研推理晶片 Jalapeño。然後就是 6 月 26 日——GPT-5.6 三件套正式亮相。

兩周之內，退役舊模型、擴展安全平台、發佈自研晶片、上線全新旗艦，四件事密集排列。這不是散點式的產品更新，而是一套完整的基礎設施攻勢。

01. 三個名字，三層邏輯

GPT-5.6 不再是一個模型，而是三個。

Sol（旗艦）、Terra（平衡）、Luna（經濟），名字來自太陽、地球和月亮。OpenAI 在公告裡解釋了這套命名規則的深意——數字標記代際，Sol/Terra/Luna 標記能力層級，每一層可以獨立迭代。這意味著以後不再是「GPT-6 替掉 GPT-5」這麼簡單，而是三條產品線各走各的節奏。

GPT-5.6 三個模型在 Terminal-Bench 2.1 測試中名列前茅｜圖片來源：OpenAI

先看硬資料。

Sol 在 Terminal-Bench 2.1（測試命令列工作流中的規劃、迭代和工具協調能力）上拿到 91.9%，超過了 Anthropic 的 Claude Mythos 5 的 88.0%，Google 的 Gemini 3.1 Pro Preview 只有 70.7%。在生物領域的 GeneBench v1 上，Sol 的得分也超過了 GPT-5.5（30% vs 22%），而且消耗的 Token 更少。

網路安全是 Sol 這次最值得說的方向。在 ExploitBench 上，Sol 和 Anthropic 的 Mythos Preview 基本打平，但只用了後者大約三分之一的輸出 Token。換句話說，同樣的安全分析能力，Sol 更便宜也更快。OpenAI 還在系統安全卡中披露，GPT-5.6 全系列三個模型都被內部評為「High」風險等級（網路安全和生化能力維度），但沒有觸及最高的「Critical」等級。

Sol 還帶來了兩個新的推理控制模式。Max Reasoning 讓模型在困難問題上花更多時間深度推理，類似於把思維鏈拉到極限。Ultra 模式則更激進——它引入了「子代理」機制，可以把一個複雜任務拆分給多個 Agent 平行處理，而不是一個模型一路問到底。這兩個功能都會增加延遲和成本，換來的是精準率的提升，尤其在需要長時間規劃的編碼和安全研究場景。

Terra 是這一代性價比曲線最陡的一段。OpenAI 說它的性能接近 GPT-5.5，但價格直接減半。Luna 最輕，定位高頻呼叫、低延遲場景——自動補全、郵件分類、簡單摘要這類任務。值得一提的是，Luna 在多項測試中的表現接近 GPT-5.5 水平，這對一個定價最低的模型來說相當有競爭力。

新模型 API 定價如下（每百萬 Token）：

Sol：輸入 5 美元 / 輸出 30 美元（和 GPT-5.5 相同）
Terra：輸入 2.5 美元 / 輸出 15 美元（GPT-5.5 的一半）
Luna：輸入 1 美元 / 輸出 6 美元（OpenAI 目前最低價）

做個橫向對比就更清楚了。Anthropic 最新的旗艦模型輸入 10 美元、輸出 50 美元，Sol 的價格只有它的一半。智譜的 GLM-5.2（MIT 開源）輸入 1.4 美元、輸出 4.4 美元，和 Luna 處在同一價格帶，但 Luna 是閉源模型，按理說應該有能力溢價。OpenAI 顯然在用 Luna 守住低價市場，不讓開源模型和中國廠商吃掉這塊。

GPT-5.6 還更新了快取策略。Prompt Caching 支援了顯式快取斷點和 30 分鐘最低快取生命周期。快取寫入按 1.25 倍標準輸入價計費，快取讀取繼續享受 90% 折扣。對於大量重複上下文的企業場景，這能進一步壓低實際使用成本。

另外，OpenAI 宣佈 7 月將在 Cerebras 硬體上運行 Sol，目標速度 750 Token/秒。如果這個數字屬實，意味著用旗艦模型也能獲得接近即時的響應體驗。

02. 分層容易，選對很難

Sol/Terra/Luna 三層結構的邏輯清晰，但對企業來說真正難的是「選對層」。

如果 Terra 在大多數場景下夠用，Sol 憑什麼讓人多花一倍的錢？答案可能不在單次呼叫成本上。一個更貴的模型如果能減少三次失敗重試，或者替工程師省下兩小時排查時間，綜合成本可能反而更低。但這要求企業真正量化過自己的工作流，而不是憑感覺選模型。

Luna 的定位是防禦性的。GLM-5.2 以六分之一的價格提供前沿級編碼能力，DeepSeek V4 Pro 的輸出價格低至 0.87 美元/百萬 Token。OpenAI 不在低成本賽道上佈子，這塊市場就會完全屬於別人。

Ultra 模式和子代理機制是真正面向未來的設計。當一個任務不再是一個模型一問一答，而是被拆分成多個平行子任務，模型本身的參數規模反而沒那麼重要了——Agent 架構的成熟度和任務編排能力才是關鍵。這也是為什麼 OpenAI 在 Terminal-Bench 這類測試「規劃-迭代-工具協調」的基準上投入了大量精力。

有分析師把 GPT-5.6 的發佈意義總結為一句話：

「整體模型時代結束了。」

以前 CTO 們的做法是把所有任務都塞給最貴的那個模型，現在得重新想清楚——那個任務配用那層。這件事聽起來簡單，做起來需要大量的工程評估、成本建模和路由決策。

OpenAI 把選擇權給了使用者，但也把複雜度一起打包過去了。

03. 不只是模型的戰爭

把 GPT-5.6 放在 OpenAI 六月的完整動作序列裡看，畫面會更完整。

6 月 22 日的 Daybreak 擴展是一個被低估的動作。

GPT-5.5-Cyber 在 CyberGym 上拿到 85.6% 的最高單模型得分，超過標準 GPT-5.5 的 81.8% 和 Mythos 5 的 83.8%。

Codex Security 外掛已經能在 dnsmasq 這樣的開放原始碼專案中獨立發現已知 CVE。

「Patch the Planet」計畫拉來了 Trail of Bits、HackerOne 等安全公司，以及 cURL、Go、Python 等超過 30 個開放原始碼專案。這不再是「AI 發現漏洞」的技術演示，而是從發現到驗證、修復、披露的完整閉環。

6 月 24 日發佈的 Jalapeño 推理晶片則是另一條線。9 個月從設計到流片，工程樣片已經在跑 GPT-5.3-Codex-Spark，年底部署到微軟合作的吉瓦級資料中心。

Broadcom CEO 宣稱每 Token 推理成本比現有 Nvidia GPU 降低約 50%。這個數字還沒有獨立驗證，但方向是對的——當你每天要處理數十億次推理請求時，控制晶片層就是控製成本命脈。

模型、安全、晶片，三條線同時推進。OpenAI 正在從一家「做模型的公司」變成一家「控制 AI 全端的公司」。

GPT-5.6 目前還只是預覽。等正式開放之後，那 20 家先拿到權限的公司怎麼用、用在那、選了 Sol 還是 Terra，大概才是真正值得寫的下一篇文章。 (極客公園)

科技