OpenAI主攻速度的第一個模型來了:GPT‑5.3‑Codex‑Spark

OpenAI剛剛發佈了GPT-5.3-Codex-Spark。

這是GPT-5.3-Codex的一個輕量級版本,也是OpenAI首個專為即時程式設計設計的模型。

最大的亮點在於速度:它跑在Cerebras的晶圓級晶片(WSE-3)上,推理速度超過了每秒1000 token

這也是OpenAI與Cerebras宣佈合作後的首個落地成果,旨在超低延遲硬體上提供近乎即時的編碼體驗。

在此之前,Codex這類前沿模型的強項是長跑——能自主工作數小時、數天甚至數周。但在日常寫程式碼中,開發者往往只需要改個邏輯、調個介面,如果還要等模型長考,體驗就很差。

Codex-Spark就是為了填補這個空白。它專攻即時協作:你可以一邊看它輸出,一邊打斷、糾正、重新導向,主打一個“跟手”的互動感。

為了追求極致速度,它默認的工作風格非常克制:只做最小化、針對性的編輯,除非你明確要求,否則不會自動運行測試。

在SWE-Bench Pro和Terminal-Bench 2.0兩大基準測試中,Codex-Spark表現還不錯,耗時僅為GPT-5.3-Codex的一小部分。

為了配合這種速度,OpenAI把底層的推理管線也做了一次大手術。

通過引入持久化WebSocket連接和重寫推理棧,整個請求-響應鏈路的延遲大幅降低:

客戶端/伺服器往返開銷降低80%
每token的額外開銷降低30%
首個token的生成時間縮短了50%

這種WebSocket路徑目前對Codex-Spark默認啟用,很快也會推廣到所有模型。

在硬體策略上,Cerebras負責極低延遲的推理服務層,而GPU依然是訓練和通用推理的基石。未來在單一工作負載中,這兩者可以混合使用,兼顧性能與成本。

目前,Codex-Spark已作為研究預覽向ChatGPT Pro使用者開放,整合在最新的Codex應用、CLI和VS Code擴展中。

現階段支援128k上下文,僅限文字輸入。由於運行在專用硬體上,它有獨立的速率限制,且不佔用標準額度。

這只是第一步。

OpenAI的後續規劃是讓長線推理和即時協作兩種模式融合:Codex可以在與你保持緊密互動的同時,將耗時的長任務分發給後台的子智能體或平行模型。使用者不需要預先做選擇,系統會自動平衡廣度與速度。

隨著模型越來越強,互動速度正成為最大的瓶頸。超快推理將收緊這個反饋循環,讓將想法轉化為軟體的過程更加自然。 (AI寒武紀)