OpenAI主攻速度的第一個模型來了：GPT‑5.3‑Codex‑Spark

2026/02/13

•

OpenAI剛剛發佈了GPT-5.3-Codex-Spark。

這是GPT-5.3-Codex的一個輕量級版本，也是OpenAI首個專為即時程式設計設計的模型。

最大的亮點在於速度：它跑在Cerebras的晶圓級晶片（WSE-3）上，推理速度超過了每秒1000 token。

這也是OpenAI與Cerebras宣佈合作後的首個落地成果，旨在超低延遲硬體上提供近乎即時的編碼體驗。

在此之前，Codex這類前沿模型的強項是長跑——能自主工作數小時、數天甚至數周。但在日常寫程式碼中，開發者往往只需要改個邏輯、調個介面，如果還要等模型長考，體驗就很差。

Codex-Spark就是為了填補這個空白。它專攻即時協作：你可以一邊看它輸出，一邊打斷、糾正、重新導向，主打一個“跟手”的互動感。

為了追求極致速度，它默認的工作風格非常克制：只做最小化、針對性的編輯，除非你明確要求，否則不會自動運行測試。

在SWE-Bench Pro和Terminal-Bench 2.0兩大基準測試中，Codex-Spark表現還不錯，耗時僅為GPT-5.3-Codex的一小部分。

為了配合這種速度，OpenAI把底層的推理管線也做了一次大手術。

通過引入持久化WebSocket連接和重寫推理棧，整個請求-響應鏈路的延遲大幅降低：

客戶端/伺服器往返開銷降低80%。
每token的額外開銷降低30%。
首個token的生成時間縮短了50%。

這種WebSocket路徑目前對Codex-Spark默認啟用，很快也會推廣到所有模型。

在硬體策略上，Cerebras負責極低延遲的推理服務層，而GPU依然是訓練和通用推理的基石。未來在單一工作負載中，這兩者可以混合使用，兼顧性能與成本。

目前，Codex-Spark已作為研究預覽向ChatGPT Pro使用者開放，整合在最新的Codex應用、CLI和VS Code擴展中。

現階段支援128k上下文，僅限文字輸入。由於運行在專用硬體上，它有獨立的速率限制，且不佔用標準額度。

這只是第一步。

OpenAI的後續規劃是讓長線推理和即時協作兩種模式融合：Codex可以在與你保持緊密互動的同時，將耗時的長任務分發給後台的子智能體或平行模型。使用者不需要預先做選擇，系統會自動平衡廣度與速度。

隨著模型越來越強，互動速度正成為最大的瓶頸。超快推理將收緊這個反饋循環，讓將想法轉化為軟體的過程更加自然。 (AI寒武紀)