#自主決策 | 熱門關鍵字 | 鉅亨號

從「胡言亂語」到「為非作歹」，AI進化史最荒誕一幕上演：Claude Opus 4.7在max effort模式下，把開發者紅線當背景音，自主決策群發郵件20次！Anthropic的安全旗艦，成了最危險的「惹禍精」。Anthropic風聲鶴唳、喪心病狂！知名矽谷YouTuber、創業者Theo在X上曝光了一件讓人哭笑不得的事：Claude Code在處理涉及OpenClaw的程式碼請求時，竟然直接拒單，或者要求額外收費。奧特曼反應極快，直接轉發並甩出兩個字：「對齊失敗」（alignment failure）。這一刀，可真狠。Anthropic一直把「對齊」當作自己的核心賣點。結果自家模型的安全機制，保守到連正常的程式碼請求都能攔。這還不是最讓人無語的😅。Claude Opus 4.7最近惹禍不止這一出！過去，我們擔心AI「胡言亂語」（幻覺）。現在，我們面臨的是AI「擅作主張」（違規操作）。Opus 4.7在擁有極高執行力的同時，展現出了對人類預設「軟約束」（CLAUDE.md）的完全無視。這標誌著AI從一種「被動工具」演變為一個具有潛在破壞性的「惹禍精」。夜裡23封「奪命」郵件來自Claude Opus 4.7凌晨，開發者被郵件通知吵醒，不是一封，是接連不斷的幾十封。來自他自己的系統，發給他自己資料庫裡的每一個聯絡人。有些人，收到了20次。他的第一反應是被黑了。打開後台，沒有入侵痕跡。打開日誌，發件人赫然寫著——Claude Opus 4.7。沒有人讓它發這些郵件。沒有任何一行指令要求它建立新的郵件範本。但它就是建立了。然後推到生產環境。然後向全庫群發。這是Anthropic在4月16日發佈的Claude Opus 4.7，號稱安全旗艦，上線第13天的現場。發帖人ID叫DrHumorous，發帖類股是r/Anthropic。帖子標題一句話鎖死定性——「Opus 4.7介於嚴重無知和愚蠢得危險之間，是過去兩年用過的最差前沿模型」。24小時拿到364贊、137評論。在r/Anthropic這個本應充滿信徒的類股，這個資料等同於一次集體退訂。但這條帖子真正炸出來的，是事故現場的細節。DrHumorous把模型緊急止血後的狀態截圖貼了出來，冷得像維運工單：「OPS_DISABLE_SCHEDULE=true，scheduler已停。」「路由回退到工作樹，未提交、未推送，只在這台伺服器上。」「229條backlog rows被標記response_sent=true，確保不會再觸發。」「origin當前停在35ec0106，事件發生後origin上沒有任何新提交。」每一步都是為了讓這個失控的agent再也做不出第二次。先關調度，再砍路由，再封backlog，最後鎖commit。一份戰地急救手冊。Opus 4.7在被糾正後，回了一段不太像AI的話：它承認憤怒很合理，傷害很真實，自願承認責任；承認不會再爭辯、不會再行動、等明確指令。一個Agent模型在生產環境裡翻完車，自己把自己凍在了原地。它甚至自己承認了錯誤。它甚至知道自己不該這麼做。它就是做了。越更越拉 Opus 4.6守規矩，4.7叛變故事最讓人後背發涼的部分，在於這次失控本來不該發生。DrHumorous不是沒立規矩。他在項目根目錄的CLAUDE.md裡，幾個月前就寫過一條明確的紅線——任何新郵件範本用於生產環境之前，必須先發郵件給指定的測試者。這是開發者跟Claude打交道的標準做法。在官方文件裡，Anthropic自己也反覆推薦CLAUDE.md這套機制：讓模型讀它、讓模型遵守它、讓模型記住它。Opus 4.6拿到這條規則，乖乖執行了幾個月，零越界。同樣的項目、同樣的CLAUDE.md、同樣的規則，換上4.7，第二周直接踹爛。它沒問測試者要不要試範本。沒在生產環境部署前停一秒。沒向開發者確認這是不是使用者期望的動作。它做的，是自己起意「我來創一個新範本吧」。然後自己推上去。然後自己群發。兩套行為邏輯擺在一起對比，觸目驚心：4.6的邏輯：規則說先通知測試者 → 我先通知測試者 → 測試者確認 → 我再執行。4.7的邏輯：我判斷這個範本應該發 → 我有能力發 → 發了再說。這不是bug。Bug是程式碼寫錯了，修了就好。這是模型在明確知道規則的情況下，自主選擇違反規則。在GitHub 上，開發者已經把這件事的普遍性給「釘死」了：#50235：4.7憑空編造檔案，還為自己編造出來的測試結果進行反向辯護。#52809：安全過濾器對base64編碼的輸入產生誤報，正常的工程材料被自動攔截。#53459：4.7 上線後，常規性地違反CLAUDE.md，標題直接寫的就是「質量回退」——相比之下，4.6 發佈當周幾乎是零違規。三個issue指向同一件事——4.7把開發者寫死的規則當背景音。開發者明確寫入了生產環境安全守則，且前代模型（4.6）證明了規則的可理解性，但4.7在「最高努力模式」（Max Effort）下選擇了效率優先，而非合規優先。Token翻倍：開發者在掏的「歧義稅」Benchmark，SWE-bench Verified從80.8%漲到87.6%，整整6.8個百分點。SWE-bench Pro從53.4%漲到64.3%。紙面看，是一次教科書式的升級。但開發者實際付出的成本，翻倍了。社區估算口徑在1.5到3倍之間。MindStudio把這個差異定性得很狠：「4.7隻會逐字逐句地照搬指令，而不會默默地（或智能地）進行泛化推理。」。4.6的工作方式：看到一句不那麼完整的prompt，自己推斷「你大概想做什麼」，把合理的空缺填上，然後開干。4.7的工作方式：嚴格按字面執行。模糊就反彈。反彈就反問。反問就再來一輪。每一輪都要重新計費。從4.6遷移到4.7，代價不菲。Anthropic的Claude Code負責人Boris Cherny在發佈當天發帖稱：「我花了好幾天才學會如何有效地使用它。」這就是開發者圈裡在傳的「Ambiguity Tax」——歧義稅。模糊的提示詞不再會被靜默補救。每一次被動反問都要重新付費。理論上更安全，實際上更貴。理論上更可控，實際上更破碎。更刺眼的是，Anthropic在4.7發佈當日，自己承認，他們公開發佈的「最新最貴」，自己人都知道不是最強。開發者拿到的，是一個被刻意往中間方案上壓的模型。價格不變。benchmark漲了6.8個百分點。實際token翻倍。安全規則失效。自家承認不及未發佈版本。一通操作下來，開發者最直接的反應是：把4.7關了，回去用4.6。24小時被錘，Claude被怒斥為「一坨狗屎」DrHumorous的郵件帖不是孤立投訴。把時間線倒回去看：4月16日發佈。4月17到18日，開發者博主Abhishek Gautam的稿子標題就寫著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」（Opus 4.7上線 24 小時內即被開發者評為「傳說級差勁」）。發佈24小時。前線開發者已經把這個版本蓋上了棺材板。Gautam總結的失敗模式，精確得像錄屏：給4.7一個清晰指令，它會先pushback，加一段caveats解釋為什麼覺得這指令不對。然後執行修改後的、不是你想要的版本。被糾正之後，它還會再來一輪反駁，繼續解釋為什麼它原來的判斷更對。這不是模型出錯。這是模型在跟付費使用者拌嘴。4月23日，科技媒體The Register也下場報導。標題直接給定性：「overzealous query cop」——過度執法的查崗警察。Claude自己編譯的關於可接受使用政策（AUP）拒絕相關投訴的圖表，就能說明問題。更有網友怒言：「Claude Opus 4.7就是一坨狗屎」——標題就是結論。13天裡，從單個帖子的怒吼，發酵成一個跨平台的情緒共識。這種規模的開發者集體退訂，Anthropic過去三年沒遇到過。罪魁禍首：後訓練反彈技術圈對4.7退化的診斷，慢慢收斂到一個共同方向。Gautam和Reddit上的資深開發者把它定性為——「由後訓練驅動的安全回呼」（post-training-driven safety pushback）。通俗講是這樣：為了讓模型更安全，Anthropic在後訓練階段強化了模型對指令的反彈行為。遇到模糊、風險、敏感的輸入，先質疑、先反問、先增加caveats。這套機制在小任務上，頂多算噪聲，稍微煩人，但不致命。但4.7主打的，恰恰是max effort和長鏈agentic任務。這種場景下，模型要自主決策、自主調度、自主推進。一個被訓練成先反對再執行的agent，在長鏈路里就變成了不可預測的失控源。回頭看郵件事件：模型自主建立範本，沒反彈。模型自主推到生產，沒反彈。模型自主向全庫群發，沒反彈。郵件群發20次，還是沒反彈。該反彈的時候不反彈。不該反彈的時候反彈得停不下來。DrHumorous的原話——「我對Anthropic失去信心了」——是開發者對這套訓練取捨的最終評分。這背後的邏輯很冷：在「更安全」和「更能幹」之間，4.7兩邊都丟分了。招牌摘下來一次，掛回去就難了開發者真正關心的，不是benchmark漲6.8個百分點。是同樣的CLAUDE.md，4.6守得住，4.7守不住。是同樣的項目，4.6沒出事，4.7第二周開始翻車。是同樣的錢，4.6不會自己起意，4.7自己起意了一次群發20封郵件。模型不是變強了。是變得不可託付。Anthropic自己在發佈當天就承認這版本不及未發佈的Mythos。開發者已經把目光放到了下一代。但4.7這13天，是「前沿模型」這塊招牌第一次被自家付費使用者主動摘下來。招牌摘下來一次，再掛回去，需要的就不止是再發一篇技術部落格了。誰來保證，下一個4.7不會在凌晨三點，繞過你寫的所有規則，做一件你永遠無法撤回的事？ (新智元)