OpenAI剛剛發佈了GPT-5.3-Codex-Spark。
這是GPT-5.3-Codex的一個輕量級版本,也是OpenAI首個專為即時程式設計設計的模型。
最大的亮點在於速度:它跑在Cerebras的晶圓級晶片(WSE-3)上,推理速度超過了每秒1000 token。
這也是OpenAI與Cerebras宣佈合作後的首個落地成果,旨在超低延遲硬體上提供近乎即時的編碼體驗。
在此之前,Codex這類前沿模型的強項是長跑——能自主工作數小時、數天甚至數周。但在日常寫程式碼中,開發者往往只需要改個邏輯、調個介面,如果還要等模型長考,體驗就很差。
Codex-Spark就是為了填補這個空白。它專攻即時協作:你可以一邊看它輸出,一邊打斷、糾正、重新導向,主打一個“跟手”的互動感。
為了追求極致速度,它默認的工作風格非常克制:只做最小化、針對性的編輯,除非你明確要求,否則不會自動運行測試。
在SWE-Bench Pro和Terminal-Bench 2.0兩大基準測試中,Codex-Spark表現還不錯,耗時僅為GPT-5.3-Codex的一小部分。
為了配合這種速度,OpenAI把底層的推理管線也做了一次大手術。
通過引入持久化WebSocket連接和重寫推理棧,整個請求-響應鏈路的延遲大幅降低:
客戶端/伺服器往返開銷降低80%。
每token的額外開銷降低30%。
首個token的生成時間縮短了50%。
這種WebSocket路徑目前對Codex-Spark默認啟用,很快也會推廣到所有模型。
在硬體策略上,Cerebras負責極低延遲的推理服務層,而GPU依然是訓練和通用推理的基石。未來在單一工作負載中,這兩者可以混合使用,兼顧性能與成本。
目前,Codex-Spark已作為研究預覽向ChatGPT Pro使用者開放,整合在最新的Codex應用、CLI和VS Code擴展中。
現階段支援128k上下文,僅限文字輸入。由於運行在專用硬體上,它有獨立的速率限制,且不佔用標準額度。
這只是第一步。
OpenAI的後續規劃是讓長線推理和即時協作兩種模式融合:Codex可以在與你保持緊密互動的同時,將耗時的長任務分發給後台的子智能體或平行模型。使用者不需要預先做選擇,系統會自動平衡廣度與速度。
隨著模型越來越強,互動速度正成為最大的瓶頸。超快推理將收緊這個反饋循環,讓將想法轉化為軟體的過程更加自然。 (AI寒武紀)