Claude Code 你就作吧，我換 Codex 了

2026/05/09

•

一個開發者最崩潰的時刻，不是 AI 寫錯程式碼。

而是它剛剛讀完倉庫、剛剛理清 bug、剛剛準備動手修改，螢幕突然彈出一句話：

你已達到當前會話的使用限制。

上下文斷了，推理鏈沒了，剛才那一大段排查過程像沒發生過一樣。你只能重新開一個會話，把問題從頭再說一遍，然後看著它像失憶的實習生一樣重新摸索項目結構。

這就是很多開發者過去幾個月使用 Claude Code 的真實體驗。

曾經，它幾乎是 AI 圈的白月光。模型聰明，程式碼能力強，Agent 雛形，能鑽進複雜項目裡一點點推理，很多人願意忍受它極客、昂貴、額度演算法奇怪，因為它確實比別人能幹。

但現在，白月光開始塌房了。

據 TickerTrends 統計，截至 5 月 3 日的一周，Codex 的 npm 下載量達到 8610 萬次，Claude Code 則跌至 720 萬次。前者是後者的 12 倍，這個差距，幾乎完全來自 4 月 30 日到 5 月 3 日這 4 天的暴漲。

Claude Code 的地位怎麼就被 Codex 取代了？不是 Codex 突然開竅了，而是 Claude Code 一次又一次把使用者往外推。

“Claude Code 你就作吧，我換 Codex 了”，這樣的表達在開發者中變得多了起來。

01. Claude：我承認有點懶

Claude Code 的麻煩，不是從 Codex 追上來才開始的。2026 年 4 月，Anthropic 發佈 Opus 4.7，原本使用者期待的是一次升級，等來的卻是一場"叛變"。

使用者發現，Opus 4.7 連"strawberry 裡有幾個 r"這種基礎測試都能答錯，修改簡歷時會憑空編造學校名，甚至還會承認自己"有點懶"，所以沒有做交叉驗證。

更魔幻的是，有使用者質疑 Claude 某個措辭的來源，Claude 回答說"我搜尋過了，但沒找到"。Anthropic 倒也沒借此宣傳 Opus 自我意識覺醒了。

這已經不是簡單的幻覺問題，而是信任問題。

AMD 的 AI 總監 Stella Laurenzo 隨後做了一次量化分析。她統計了 6852 個會話、23.5 萬次工具呼叫，結論是：Claude Code 的思考深度驟降 67%，程式碼修改前的檔案讀取率下降 70%，不良行為觸發次數飆升 173%。一個寫程式碼的 Agent，就這樣失去了被託付終端的資格。

Anthropic 後來發了一份“檢討書”，承認這輪"降智"由三個 Bug 疊加造成：3 月 4 日，他們悄悄把默認推理強度從 high 改成了 medium。3 月 26 日，快取 Bug 導致歷史推理每次都被清除。4 月 16 日，系統提示又限制了響應長度，讓編碼質量再降約 3%。

按照 Anthropic 的說法，這些問題在 4 月 20 日已經全部修復。

但檢討書不是罪己詔，你 Dario 不是上帝，使用者有別的選擇。

02. 不包效果，但錢不能少

麻煩不只來自產品降智，還有比澆了汽油的柴火更容易燒光的 Tokens。

2026 年 3 月 23 日，Reddit 上一條帖子引爆了投訴潮。一位 Pro 使用者說，自己 3 分鐘就用掉了 5 小時會話配額的 60%。另一位 Max 20x 使用者，月付 200 美元，記錄下自己的使用率在一條提示之後，從 21% 直接跳到 100%。

按照正常的 token 計費邏輯，這幾乎說不通。

Anthropic 員工後來解釋，工作日太平洋時間上午 5 點到 11 點之間，額度會加速消耗。翻譯一下就是：你花的是同樣的錢，但如果在高峰時段幹活，服務會更快用完。

這對開發者來說非常彆扭。程式設計不是刷短影片，不是今天沒額度了，明天再看也無所謂。

開發任務經常會卡在某個關鍵節點上。一旦上下文斷掉，損失的不只是幾次呼叫，而是整個節奏，甚至是整個項目進度。從開發者的精神健康角度看，項目卡在一半，比便秘還難受。

雙重暴擊之後，還有壞消息：Claude Code 和 Claude.ai 網頁聊天共享同一個額度池。模型升級後，tokenizer 的變化還可能讓同樣的輸入消耗更多 token，等於使用者在無感狀態下被動漲價。

Anthropic 看似是在彌補，實則很懂使用者心理。

它推出了按量付費的溢出機制：訂閱額度用完之後，使用者可以繼續用，但要額外付費。問題是，使用者已經花 20 美元買了訂閱，卻仍然可能在高強度開發場景下很快觸發限流。項目要繼續推進，就只能再掏一次錢。

這套邏輯很像國產遊戲裡的體力值系統。區別在於，國產遊戲往往免費入場，Claude Code 卻是先買月卡，再買體力。

開發者不是不願意為好工具付費，而是討厭不可預測的付費。你可以貴，但不能玄學；你可以限額，但不能讓使用者不知道自己到底什麼時候會被踢下線。

Claude Code 把一個生產力工具的付費模式，做成了心理學實驗。不知道是跟誰學的。

03. 乘虛而入的 Codex

Claude Code 和 Codex 的差距，不是某一天突然拉開的，而是 OpenAI 用半年時間一步一步追上的。

2026 年 2 月，OpenAI 連續出手：2 月 2 日發佈 Codex 桌面應用，3 天後發佈 GPT-5.3-Codex，速度比上代快 25%，同時整合了程式設計與推理能力。

這是 Codex 從"終端工具"走向"完整產品"的節點。

4 月 16 日，Codex 又完成了一次升級：後台 computer use 上線，支援在使用者工作的同時平行跑多個 Agent，新增內建瀏覽器，可以直接對頁面批註給出指令，外掛生態擴展到 90 個以上，涵蓋 Jira、CircleCI、GitLab、Slack 等開發者日常工具鏈，同期上線的還有 Automations 功能，Codex 可以不等指令，自動處理 issue 分類、CI/CD 監控、告警響應這類重複工作。

而此時，Claude Code 正在忙著疊 Bug。

產品架構上，Codex 和 Claude Code 走的是兩條相反的路。

Codex 把控制權收進雲端沙箱。每個任務在獨立環境裡運行，預載入使用者倉庫，結束後交還結果。這帶來三個好處：安全邊界清楚，任務可以平行，執行過程可追蹤。使用者還可以用 AGENTS.md 寫清項目規則、測試命令和程式碼規範，相當於給 Agent 配一份上崗說明書。

Claude Code 則更像本地終端裡的高級工程助理。它貼近真實開發環境，能直接呼叫本地檔案、命令列、MCP 和 hooks，靈活度很高。但靈活也意味著邊界更模糊，一旦 MCP 配置、權限或工具鏈出問題，本地 Agent 就可能從效率工具變成攻擊入口。

上下文管理上，差異也很明顯。有使用者測試發現，同一個 Express.js 重構任務，Codex 用了約 150 萬 token，Claude Code 用了約 620 萬，是前者的 4 倍多。原因不只是模型效率，也和 harness 設計有關：Codex 更適合把任務拆開平行跑，上下文不容易互相污染；Claude Code 一旦任務拉長，就容易在同一個上下文裡反覆探索、糾錯、重試，把 token 燒在過程裡。

所以兩者的體感完全不同。

Codex 像是“把任務派出去”：邊界清楚，結果可審查，更接近工程流程。Claude Code 像是“和一個聰明同事共享終端”，離現場更近，也更依賴使用者自己控制權限、上下文和成本。

Claude Code 不是不強，而是強得更像一套高自由度工具箱。Codex 的優勢則在於，它把 Agent 包進了一個更可控的生產力產品裡。

也許 10 年後，Codex 會被吐槽老土，Claude Code 才是真理，但現在是現在。

04. 當模型能力趨同，產品體驗的重要性回來了

其實仔細想想，上面這些問題，Claude Code 一直都有。只是以前 Claude 模型太強，替它遮住了太多東西。

UI 太極客，額度策略難以預判，安全邊界靠使用者自己摸索。這些問題放在早期並不致命，因為那時候 Claude 確實強。

當一個工具明顯領先時，使用者會主動替它找理由。開發者對 Claude Code 的寬容，本質上不是來自產品體驗，而是來自模型紅利。

但 Codex 在關鍵基準上追上來，Claude Code 原來被遮住的問題就會全部浮出水面。這時候競爭邏輯變了：不再是"Claude 明顯更聰明，所以我忍它"，而是"既然 Codex 也夠聰明，我為什麼還要忍 Claude Code？"

過去是體驗瑕疵，現在變成了決策風險。額度不透明影響團隊預算，產品不穩定影響工程節奏，安全邊界模糊影響企業接入。個人開發者可以憑感覺用一個工具，但組織不行。

這也是 Agent 競爭進入下一階段的標誌。第一階段拼模型智力，第二階段拼產品系統，誰能把模型裝進一個可靠、透明、可控的工作環境裡。

Claude Code 曾經拿到幾乎最好的牌：最強的模型口碑，最早的開發者心智，最狂熱的使用者群。它本來有機會把模型優勢沉澱成一個真正穩定的開發者平台。但它沒有把窗口期用來補產品債，而是繼續消耗使用者的忍耐。

但故事還沒結束。Anthropic 顯然意識到了這一點，過去幾個月，Claude Code 的迭代節奏明顯加快，權限管理、多智能體協作、企業級部署能力都在快速補齊。模型底座的優勢還在，開發者社區的積累還在，那批最早相信它的人也還在。

Claude Code 有足夠的條件打一場漂亮的翻身仗。它需要的，只是把"聰明"之外的事情也做對。 (矽星人Pro)

科技