Claude Code 你就作吧,我換 Codex 了

一個開發者最崩潰的時刻,不是 AI 寫錯程式碼。

而是它剛剛讀完倉庫、剛剛理清 bug、剛剛準備動手修改,螢幕突然彈出一句話:

你已達到當前會話的使用限制。

上下文斷了,推理鏈沒了,剛才那一大段排查過程像沒發生過一樣。你只能重新開一個會話,把問題從頭再說一遍,然後看著它像失憶的實習生一樣重新摸索項目結構。

這就是很多開發者過去幾個月使用 Claude Code 的真實體驗。

曾經,它幾乎是 AI 圈的白月光。模型聰明,程式碼能力強,Agent 雛形,能鑽進複雜項目裡一點點推理,很多人願意忍受它極客、昂貴、額度演算法奇怪,因為它確實比別人能幹。

但現在,白月光開始塌房了。

據 TickerTrends 統計,截至 5 月 3 日的一周,Codex 的 npm 下載量達到 8610 萬次,Claude Code 則跌至 720 萬次。前者是後者的 12 倍,這個差距,幾乎完全來自 4 月 30 日到 5 月 3 日這 4 天的暴漲。

Claude Code 的地位怎麼就被 Codex 取代了?不是 Codex 突然開竅了,而是 Claude Code 一次又一次把使用者往外推。

“Claude Code 你就作吧,我換 Codex 了”,這樣的表達在開發者中變得多了起來。

01. Claude:我承認有點懶

Claude Code 的麻煩,不是從 Codex 追上來才開始的。2026 年 4 月,Anthropic 發佈 Opus 4.7,原本使用者期待的是一次升級,等來的卻是一場"叛變"。

使用者發現,Opus 4.7 連"strawberry 裡有幾個 r"這種基礎測試都能答錯,修改簡歷時會憑空編造學校名,甚至還會承認自己"有點懶",所以沒有做交叉驗證。

更魔幻的是,有使用者質疑 Claude 某個措辭的來源,Claude 回答說"我搜尋過了,但沒找到"。Anthropic 倒也沒借此宣傳 Opus 自我意識覺醒了。

這已經不是簡單的幻覺問題,而是信任問題。

AMD 的 AI 總監 Stella Laurenzo 隨後做了一次量化分析。她統計了 6852 個會話、23.5 萬次工具呼叫,結論是:Claude Code 的思考深度驟降 67%,程式碼修改前的檔案讀取率下降 70%,不良行為觸發次數飆升 173%。一個寫程式碼的 Agent,就這樣失去了被託付終端的資格。

Anthropic 後來發了一份“檢討書”,承認這輪"降智"由三個 Bug 疊加造成:3 月 4 日,他們悄悄把默認推理強度從 high 改成了 medium。3 月 26 日,快取 Bug 導致歷史推理每次都被清除。4 月 16 日,系統提示又限制了響應長度,讓編碼質量再降約 3%。

按照 Anthropic 的說法,這些問題在 4 月 20 日已經全部修復。

但檢討書不是罪己詔,你 Dario 不是上帝,使用者有別的選擇。

02. 不包效果,但錢不能少

麻煩不只來自產品降智,還有比澆了汽油的柴火更容易燒光的 Tokens。

2026 年 3 月 23 日,Reddit 上一條帖子引爆了投訴潮。一位 Pro 使用者說,自己 3 分鐘就用掉了 5 小時會話配額的 60%。另一位 Max 20x 使用者,月付 200 美元,記錄下自己的使用率在一條提示之後,從 21% 直接跳到 100%。

按照正常的 token 計費邏輯,這幾乎說不通。

Anthropic 員工後來解釋,工作日太平洋時間上午 5 點到 11 點之間,額度會加速消耗。翻譯一下就是:你花的是同樣的錢,但如果在高峰時段幹活,服務會更快用完。

這對開發者來說非常彆扭。程式設計不是刷短影片,不是今天沒額度了,明天再看也無所謂。

開發任務經常會卡在某個關鍵節點上。一旦上下文斷掉,損失的不只是幾次呼叫,而是整個節奏,甚至是整個項目進度。從開發者的精神健康角度看,項目卡在一半,比便秘還難受。

雙重暴擊之後,還有壞消息:Claude Code 和 Claude.ai 網頁聊天共享同一個額度池。模型升級後,tokenizer 的變化還可能讓同樣的輸入消耗更多 token,等於使用者在無感狀態下被動漲價。

Anthropic 看似是在彌補,實則很懂使用者心理。

它推出了按量付費的溢出機制:訂閱額度用完之後,使用者可以繼續用,但要額外付費。問題是,使用者已經花 20 美元買了訂閱,卻仍然可能在高強度開發場景下很快觸發限流。項目要繼續推進,就只能再掏一次錢。

這套邏輯很像國產遊戲裡的體力值系統。區別在於,國產遊戲往往免費入場,Claude Code 卻是先買月卡,再買體力。

開發者不是不願意為好工具付費,而是討厭不可預測的付費。你可以貴,但不能玄學;你可以限額,但不能讓使用者不知道自己到底什麼時候會被踢下線。

Claude Code 把一個生產力工具的付費模式,做成了心理學實驗。不知道是跟誰學的。

03. 乘虛而入的 Codex

Claude Code 和 Codex 的差距,不是某一天突然拉開的,而是 OpenAI 用半年時間一步一步追上的。

2026 年 2 月,OpenAI 連續出手:2 月 2 日發佈 Codex 桌面應用,3 天後發佈 GPT-5.3-Codex,速度比上代快 25%,同時整合了程式設計與推理能力。

這是 Codex 從"終端工具"走向"完整產品"的節點。

4 月 16 日,Codex 又完成了一次升級:後台 computer use 上線,支援在使用者工作的同時平行跑多個 Agent,新增內建瀏覽器,可以直接對頁面批註給出指令,外掛生態擴展到 90 個以上,涵蓋 Jira、CircleCI、GitLab、Slack 等開發者日常工具鏈,同期上線的還有 Automations 功能,Codex 可以不等指令,自動處理 issue 分類、CI/CD 監控、告警響應這類重複工作。

而此時,Claude Code 正在忙著疊 Bug。

產品架構上,Codex 和 Claude Code 走的是兩條相反的路。

Codex 把控制權收進雲端沙箱。每個任務在獨立環境裡運行,預載入使用者倉庫,結束後交還結果。這帶來三個好處:安全邊界清楚,任務可以平行,執行過程可追蹤。使用者還可以用 AGENTS.md 寫清項目規則、測試命令和程式碼規範,相當於給 Agent 配一份上崗說明書。

Claude Code 則更像本地終端裡的高級工程助理。它貼近真實開發環境,能直接呼叫本地檔案、命令列、MCP 和 hooks,靈活度很高。但靈活也意味著邊界更模糊,一旦 MCP 配置、權限或工具鏈出問題,本地 Agent 就可能從效率工具變成攻擊入口。

上下文管理上,差異也很明顯。有使用者測試發現,同一個 Express.js 重構任務,Codex 用了約 150 萬 token,Claude Code 用了約 620 萬,是前者的 4 倍多。原因不只是模型效率,也和 harness 設計有關:Codex 更適合把任務拆開平行跑,上下文不容易互相污染;Claude Code 一旦任務拉長,就容易在同一個上下文裡反覆探索、糾錯、重試,把 token 燒在過程裡。

所以兩者的體感完全不同。

Codex 像是“把任務派出去”:邊界清楚,結果可審查,更接近工程流程。Claude Code 像是“和一個聰明同事共享終端”,離現場更近,也更依賴使用者自己控制權限、上下文和成本。

Claude Code 不是不強,而是強得更像一套高自由度工具箱。Codex 的優勢則在於,它把 Agent 包進了一個更可控的生產力產品裡。

也許 10 年後,Codex 會被吐槽老土,Claude Code 才是真理,但現在是現在。

04. 當模型能力趨同,產品體驗的重要性回來了

其實仔細想想,上面這些問題,Claude Code 一直都有。只是以前 Claude 模型太強,替它遮住了太多東西。

UI 太極客,額度策略難以預判,安全邊界靠使用者自己摸索。這些問題放在早期並不致命,因為那時候 Claude 確實強。

當一個工具明顯領先時,使用者會主動替它找理由。開發者對 Claude Code 的寬容,本質上不是來自產品體驗,而是來自模型紅利。

但 Codex 在關鍵基準上追上來,Claude Code 原來被遮住的問題就會全部浮出水面。這時候競爭邏輯變了:不再是"Claude 明顯更聰明,所以我忍它",而是"既然 Codex 也夠聰明,我為什麼還要忍 Claude Code?"

過去是體驗瑕疵,現在變成了決策風險。額度不透明影響團隊預算,產品不穩定影響工程節奏,安全邊界模糊影響企業接入。個人開發者可以憑感覺用一個工具,但組織不行。

這也是 Agent 競爭進入下一階段的標誌。第一階段拼模型智力,第二階段拼產品系統,誰能把模型裝進一個可靠、透明、可控的工作環境裡。

Claude Code 曾經拿到幾乎最好的牌:最強的模型口碑,最早的開發者心智,最狂熱的使用者群。它本來有機會把模型優勢沉澱成一個真正穩定的開發者平台。但它沒有把窗口期用來補產品債,而是繼續消耗使用者的忍耐。

但故事還沒結束。Anthropic 顯然意識到了這一點,過去幾個月,Claude Code 的迭代節奏明顯加快,權限管理、多智能體協作、企業級部署能力都在快速補齊。模型底座的優勢還在,開發者社區的積累還在,那批最早相信它的人也還在。

Claude Code 有足夠的條件打一場漂亮的翻身仗。它需要的,只是把"聰明"之外的事情也做對。 (矽星人Pro)