OpenAI 的模型迭代速度,正在逼近讓人來不及消化的臨界點。
6 月 12 日,GPT-5.2 剛剛從 ChatGPT 退役,所有使用者被靜默遷移到 GPT-5.5。
6 月 22 日,Daybreak 網路安全計畫大規模擴展,GPT-5.5-Cyber 全量版本上線。
6 月 24 日,和 Broadcom 聯合發佈了第一顆自研推理晶片 Jalapeño。然後就是 6 月 26 日——GPT-5.6 三件套正式亮相。
兩周之內,退役舊模型、擴展安全平台、發佈自研晶片、上線全新旗艦,四件事密集排列。這不是散點式的產品更新,而是一套完整的基礎設施攻勢。
01. 三個名字,三層邏輯
GPT-5.6 不再是一個模型,而是三個。
Sol(旗艦)、Terra(平衡)、Luna(經濟),名字來自太陽、地球和月亮。OpenAI 在公告裡解釋了這套命名規則的深意——數字標記代際,Sol/Terra/Luna 標記能力層級,每一層可以獨立迭代。這意味著以後不再是「GPT-6 替掉 GPT-5」這麼簡單,而是三條產品線各走各的節奏。
GPT-5.6 三個模型在 Terminal-Bench 2.1 測試中名列前茅|圖片來源:OpenAI
先看硬資料。
Sol 在 Terminal-Bench 2.1(測試命令列工作流中的規劃、迭代和工具協調能力)上拿到 91.9%,超過了 Anthropic 的 Claude Mythos 5 的 88.0%,Google 的 Gemini 3.1 Pro Preview 只有 70.7%。在生物領域的 GeneBench v1 上,Sol 的得分也超過了 GPT-5.5(30% vs 22%),而且消耗的 Token 更少。
網路安全是 Sol 這次最值得說的方向。在 ExploitBench 上,Sol 和 Anthropic 的 Mythos Preview 基本打平,但只用了後者大約三分之一的輸出 Token。換句話說,同樣的安全分析能力,Sol 更便宜也更快。OpenAI 還在系統安全卡中披露,GPT-5.6 全系列三個模型都被內部評為「High」風險等級(網路安全和生化能力維度),但沒有觸及最高的「Critical」等級。
Sol 還帶來了兩個新的推理控制模式。Max Reasoning 讓模型在困難問題上花更多時間深度推理,類似於把思維鏈拉到極限。Ultra 模式則更激進——它引入了「子代理」機制,可以把一個複雜任務拆分給多個 Agent 平行處理,而不是一個模型一路問到底。這兩個功能都會增加延遲和成本,換來的是精準率的提升,尤其在需要長時間規劃的編碼和安全研究場景。
Terra 是這一代性價比曲線最陡的一段。OpenAI 說它的性能接近 GPT-5.5,但價格直接減半。Luna 最輕,定位高頻呼叫、低延遲場景——自動補全、郵件分類、簡單摘要這類任務。值得一提的是,Luna 在多項測試中的表現接近 GPT-5.5 水平,這對一個定價最低的模型來說相當有競爭力。
新模型 API 定價如下(每百萬 Token):
- Sol:輸入 5 美元 / 輸出 30 美元(和 GPT-5.5 相同)
- Terra:輸入 2.5 美元 / 輸出 15 美元(GPT-5.5 的一半)
- Luna:輸入 1 美元 / 輸出 6 美元(OpenAI 目前最低價)
做個橫向對比就更清楚了。Anthropic 最新的旗艦模型輸入 10 美元、輸出 50 美元,Sol 的價格只有它的一半。智譜的 GLM-5.2(MIT 開源)輸入 1.4 美元、輸出 4.4 美元,和 Luna 處在同一價格帶,但 Luna 是閉源模型,按理說應該有能力溢價。OpenAI 顯然在用 Luna 守住低價市場,不讓開源模型和中國廠商吃掉這塊。
GPT-5.6 還更新了快取策略。Prompt Caching 支援了顯式快取斷點和 30 分鐘最低快取生命周期。快取寫入按 1.25 倍標準輸入價計費,快取讀取繼續享受 90% 折扣。對於大量重複上下文的企業場景,這能進一步壓低實際使用成本。
另外,OpenAI 宣佈 7 月將在 Cerebras 硬體上運行 Sol,目標速度 750 Token/秒。如果這個數字屬實,意味著用旗艦模型也能獲得接近即時的響應體驗。
02. 分層容易,選對很難
Sol/Terra/Luna 三層結構的邏輯清晰,但對企業來說真正難的是「選對層」。
如果 Terra 在大多數場景下夠用,Sol 憑什麼讓人多花一倍的錢?答案可能不在單次呼叫成本上。一個更貴的模型如果能減少三次失敗重試,或者替工程師省下兩小時排查時間,綜合成本可能反而更低。但這要求企業真正量化過自己的工作流,而不是憑感覺選模型。
Luna 的定位是防禦性的。GLM-5.2 以六分之一的價格提供前沿級編碼能力,DeepSeek V4 Pro 的輸出價格低至 0.87 美元/百萬 Token。OpenAI 不在低成本賽道上佈子,這塊市場就會完全屬於別人。
Ultra 模式和子代理機制是真正面向未來的設計。當一個任務不再是一個模型一問一答,而是被拆分成多個平行子任務,模型本身的參數規模反而沒那麼重要了——Agent 架構的成熟度和任務編排能力才是關鍵。這也是為什麼 OpenAI 在 Terminal-Bench 這類測試「規劃-迭代-工具協調」的基準上投入了大量精力。
有分析師把 GPT-5.6 的發佈意義總結為一句話:
「整體模型時代結束了。」
以前 CTO 們的做法是把所有任務都塞給最貴的那個模型,現在得重新想清楚——那個任務配用那層。這件事聽起來簡單,做起來需要大量的工程評估、成本建模和路由決策。
OpenAI 把選擇權給了使用者,但也把複雜度一起打包過去了。
03. 不只是模型的戰爭
把 GPT-5.6 放在 OpenAI 六月的完整動作序列裡看,畫面會更完整。
6 月 22 日的 Daybreak 擴展是一個被低估的動作。
GPT-5.5-Cyber 在 CyberGym 上拿到 85.6% 的最高單模型得分,超過標準 GPT-5.5 的 81.8% 和 Mythos 5 的 83.8%。
Codex Security 外掛已經能在 dnsmasq 這樣的開放原始碼專案中獨立發現已知 CVE。
「Patch the Planet」計畫拉來了 Trail of Bits、HackerOne 等安全公司,以及 cURL、Go、Python 等超過 30 個開放原始碼專案。這不再是「AI 發現漏洞」的技術演示,而是從發現到驗證、修復、披露的完整閉環。
6 月 24 日發佈的 Jalapeño 推理晶片則是另一條線。9 個月從設計到流片,工程樣片已經在跑 GPT-5.3-Codex-Spark,年底部署到微軟合作的吉瓦級資料中心。
Broadcom CEO 宣稱每 Token 推理成本比現有 Nvidia GPU 降低約 50%。這個數字還沒有獨立驗證,但方向是對的——當你每天要處理數十億次推理請求時,控制晶片層就是控製成本命脈。
模型、安全、晶片,三條線同時推進。OpenAI 正在從一家「做模型的公司」變成一家「控制 AI 全端的公司」。
GPT-5.6 目前還只是預覽。等正式開放之後,那 20 家先拿到權限的公司怎麼用、用在那、選了 Sol 還是 Terra,大概才是真正值得寫的下一篇文章。 (極客公園)
