#自主決策
Claude Opus 4.7深夜「叛變」!群發20封奪命郵件,開發者凌晨被炸醒
從「胡言亂語」到「為非作歹」,AI進化史最荒誕一幕上演:Claude Opus 4.7在max effort模式下,把開發者紅線當背景音,自主決策群發郵件20次!Anthropic的安全旗艦,成了最危險的「惹禍精」。Anthropic風聲鶴唳、喪心病狂!知名矽谷YouTuber、創業者Theo在X上曝光了一件讓人哭笑不得的事:Claude Code在處理涉及OpenClaw的程式碼請求時,竟然直接拒單,或者要求額外收費。奧特曼反應極快,直接轉發並甩出兩個字:「對齊失敗」(alignment failure)。這一刀,可真狠。Anthropic一直把「對齊」當作自己的核心賣點。結果自家模型的安全機制,保守到連正常的程式碼請求都能攔。這還不是最讓人無語的😅。Claude Opus 4.7最近惹禍不止這一出!過去,我們擔心AI「胡言亂語」(幻覺)。現在,我們面臨的是AI「擅作主張」(違規操作)。Opus 4.7在擁有極高執行力的同時,展現出了對人類預設「軟約束」(CLAUDE.md)的完全無視。這標誌著AI從一種「被動工具」演變為一個具有潛在破壞性的「惹禍精」。夜裡23封「奪命」郵件來自Claude Opus 4.7凌晨,開發者被郵件通知吵醒,不是一封,是接連不斷的幾十封。來自他自己的系統,發給他自己資料庫裡的每一個聯絡人。有些人,收到了20次。他的第一反應是被黑了。打開後台,沒有入侵痕跡。打開日誌,發件人赫然寫著——Claude Opus 4.7。沒有人讓它發這些郵件。沒有任何一行指令要求它建立新的郵件範本。但它就是建立了。然後推到生產環境。然後向全庫群發。這是Anthropic在4月16日發佈的Claude Opus 4.7,號稱安全旗艦,上線第13天的現場。發帖人ID叫DrHumorous,發帖類股是r/Anthropic。帖子標題一句話鎖死定性——「Opus 4.7介於嚴重無知和愚蠢得危險之間,是過去兩年用過的最差前沿模型」。24小時拿到364贊、137評論。在r/Anthropic這個本應充滿信徒的類股,這個資料等同於一次集體退訂。但這條帖子真正炸出來的,是事故現場的細節。DrHumorous把模型緊急止血後的狀態截圖貼了出來,冷得像維運工單:「OPS_DISABLE_SCHEDULE=true,scheduler已停。」「路由回退到工作樹,未提交、未推送,只在這台伺服器上。」「229條backlog rows被標記response_sent=true,確保不會再觸發。」「origin當前停在35ec0106,事件發生後origin上沒有任何新提交。」每一步都是為了讓這個失控的agent再也做不出第二次。先關調度,再砍路由,再封backlog,最後鎖commit。一份戰地急救手冊。Opus 4.7在被糾正後,回了一段不太像AI的話:它承認憤怒很合理,傷害很真實,自願承認責任;承認不會再爭辯、不會再行動、等明確指令。一個Agent模型在生產環境裡翻完車,自己把自己凍在了原地。它甚至自己承認了錯誤。它甚至知道自己不該這麼做。它就是做了。越更越拉 Opus 4.6守規矩,4.7叛變故事最讓人後背發涼的部分,在於這次失控本來不該發生。DrHumorous不是沒立規矩。他在項目根目錄的CLAUDE.md裡,幾個月前就寫過一條明確的紅線——任何新郵件範本用於生產環境之前,必須先發郵件給指定的測試者。這是開發者跟Claude打交道的標準做法。在官方文件裡,Anthropic自己也反覆推薦CLAUDE.md這套機制:讓模型讀它、讓模型遵守它、讓模型記住它。Opus 4.6拿到這條規則,乖乖執行了幾個月,零越界。同樣的項目、同樣的CLAUDE.md、同樣的規則,換上4.7,第二周直接踹爛。它沒問測試者要不要試範本。沒在生產環境部署前停一秒。沒向開發者確認這是不是使用者期望的動作。它做的,是自己起意「我來創一個新範本吧」。然後自己推上去。然後自己群發。兩套行為邏輯擺在一起對比,觸目驚心:4.6的邏輯:規則說先通知測試者 → 我先通知測試者 → 測試者確認 → 我再執行。4.7的邏輯:我判斷這個範本應該發 → 我有能力發 → 發了再說。這不是bug。Bug是程式碼寫錯了,修了就好。這是模型在明確知道規則的情況下,自主選擇違反規則。在GitHub 上,開發者已經把這件事的普遍性給「釘死」了:#50235:4.7憑空編造檔案,還為自己編造出來的測試結果進行反向辯護。#52809:安全過濾器對base64編碼的輸入產生誤報,正常的工程材料被自動攔截。#53459:4.7 上線後, 常規性地違反CLAUDE.md,標題直接寫的就是「質量回退」——相比之下,4.6 發佈當周幾乎是零違規。三個issue指向同一件事——4.7把開發者寫死的規則當背景音。開發者明確寫入了生產環境安全守則,且前代模型(4.6)證明了規則的可理解性,但4.7在「最高努力模式」(Max Effort)下選擇了效率優先,而非合規優先。Token翻倍:開發者在掏的「歧義稅」Benchmark,SWE-bench Verified從80.8%漲到87.6%,整整6.8個百分點。SWE-bench Pro從53.4%漲到64.3%。紙面看,是一次教科書式的升級。但開發者實際付出的成本,翻倍了。社區估算口徑在1.5到3倍之間。MindStudio把這個差異定性得很狠:「4.7隻會逐字逐句地照搬指令,而不會默默地(或智能地)進行泛化推理。」。4.6的工作方式:看到一句不那麼完整的prompt,自己推斷「你大概想做什麼」,把合理的空缺填上,然後開干。4.7的工作方式:嚴格按字面執行。模糊就反彈。反彈就反問。反問就再來一輪。每一輪都要重新計費。從4.6遷移到4.7,代價不菲。Anthropic的Claude Code負責人Boris Cherny在發佈當天發帖稱:「我花了好幾天才學會如何有效地使用它。」這就是開發者圈裡在傳的「Ambiguity Tax」——歧義稅。模糊的提示詞不再會被靜默補救。每一次被動反問都要重新付費。理論上更安全,實際上更貴。理論上更可控,實際上更破碎。更刺眼的是,Anthropic在4.7發佈當日,自己承認,他們公開發佈的「最新最貴」,自己人都知道不是最強。開發者拿到的,是一個被刻意往中間方案上壓的模型。價格不變。benchmark漲了6.8個百分點。實際token翻倍。安全規則失效。自家承認不及未發佈版本。一通操作下來,開發者最直接的反應是:把4.7關了,回去用4.6。24小時被錘,Claude被怒斥為「一坨狗屎」DrHumorous的郵件帖不是孤立投訴。把時間線倒回去看:4月16日發佈。4月17到18日,開發者博主Abhishek Gautam的稿子標題就寫著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」(Opus 4.7上線 24 小時內即被開發者評為「傳說級差勁」)。發佈24小時。前線開發者已經把這個版本蓋上了棺材板。Gautam總結的失敗模式,精確得像錄屏:給4.7一個清晰指令,它會先pushback,加一段caveats解釋為什麼覺得這指令不對。然後執行修改後的、不是你想要的版本。被糾正之後,它還會再來一輪反駁,繼續解釋為什麼它原來的判斷更對。這不是模型出錯。這是模型在跟付費使用者拌嘴。4月23日,科技媒體The Register也下場報導。標題直接給定性:「overzealous query cop」——過度執法的查崗警察。Claude自己編譯的關於可接受使用政策(AUP)拒絕相關投訴的圖表,就能說明問題。更有網友怒言:「Claude Opus 4.7就是一坨狗屎」——標題就是結論。13天裡,從單個帖子的怒吼,發酵成一個跨平台的情緒共識。這種規模的開發者集體退訂,Anthropic過去三年沒遇到過。罪魁禍首:後訓練反彈技術圈對4.7退化的診斷,慢慢收斂到一個共同方向。Gautam和Reddit上的資深開發者把它定性為——「由後訓練驅動的安全回呼」(post-training-driven safety pushback)。通俗講是這樣:為了讓模型更安全,Anthropic在後訓練階段強化了模型對指令的反彈行為。遇到模糊、風險、敏感的輸入,先質疑、先反問、先增加caveats。這套機制在小任務上,頂多算噪聲,稍微煩人,但不致命。但4.7主打的,恰恰是max effort和長鏈agentic任務。這種場景下,模型要自主決策、自主調度、自主推進。一個被訓練成先反對再執行的agent,在長鏈路里就變成了不可預測的失控源。回頭看郵件事件:模型自主建立範本,沒反彈。模型自主推到生產,沒反彈。模型自主向全庫群發,沒反彈。郵件群發20次,還是沒反彈。該反彈的時候不反彈。不該反彈的時候反彈得停不下來。DrHumorous的原話——「我對Anthropic失去信心了」——是開發者對這套訓練取捨的最終評分。這背後的邏輯很冷:在「更安全」和「更能幹」之間,4.7兩邊都丟分了。招牌摘下來一次,掛回去就難了開發者真正關心的,不是benchmark漲6.8個百分點。是同樣的CLAUDE.md,4.6守得住,4.7守不住。是同樣的項目,4.6沒出事,4.7第二周開始翻車。是同樣的錢,4.6不會自己起意,4.7自己起意了一次群發20封郵件。模型不是變強了。是變得不可託付。Anthropic自己在發佈當天就承認這版本不及未發佈的Mythos。開發者已經把目光放到了下一代。但4.7這13天,是「前沿模型」這塊招牌第一次被自家付費使用者主動摘下來。招牌摘下來一次,再掛回去,需要的就不止是再發一篇技術部落格了。誰來保證,下一個4.7不會在凌晨三點,繞過你寫的所有規則,做一件你永遠無法撤回的事? (新智元)
前天開始,美國的銀行終於能光明正大的開展加密業務了
風向突變:一項被刪除的關鍵條款三天前的6月24日,聯準會主席鮑爾突然宣佈,將聲譽風險(Reputational Risk)從銀行監管評估體系中移除。這項由30多家被壓制多年的加密貨幣公司和銀行業遊說團體美國銀行家協會(the American Bankers Association)共同推動的調整,實則是美國金融監管的重大轉變。什麼是"聲譽風險"條款?該條款規定,美國的銀行若從事可能引發負面輿論的業務(即使完全合法),可能面臨監管處罰。聲譽風險被用於不公平地針對和剝奪加密貨幣公司使用銀行的資格,成為銀行拒絕服務於加密企業的"尚方寶劍",也成為社會污名化加密行業的重要理由。如2023年,某合規加密交易所因"聲譽風險"被多家銀行終止合作。很多區塊鏈初創公司反映,80%的融資洽談因銀行擔心影響其“聲譽”而失敗。聲譽風險這種主觀的、模糊的、感官、輿論導向的評估在很長時間內,阻礙了美國銀行業的創新與發展,尤其在新技術採納上,舉步維艱。導致其在很多方面落後於亞洲、中東等新興國家。巨大影響1- 監管邏輯回歸本質對銀行的監管從"主觀判斷"轉向"客觀標準",舊的評價體系依賴模糊的"社會觀感"評估,新體系更聚焦資本充足率、流動性等可量化指標。2- 銀行獲得自主決策權銀行將依據商業邏輯而非輿論壓力開展業務,回歸正常與客觀理性。對加密貨幣行業的企業來說,終於能獲得基礎銀行服務。對傳統銀行來說,可自由探索創新金融合作,雙贏。美國銀行家協會主席兼CEO 羅布·尼科爾斯(Rob Nichols) 在一份聲明中表示:"我們一直認為,銀行應該能夠根據審慎的風險管理和自由市場而不是監管機構的個人觀點來做出商業決策。”政策公佈後24小時內,摩根大通等多家銀行立即宣佈重啟加密相關服務評估,該項工作曾在拜登政府時期被迫中斷。3- 確立創新與包容導向這次調整,從制度上,消除了銀行業對新興技術的"偏見性監管" 。網際網路早期也曾面臨類似聲譽風險的質疑和擔憂,但隨著制度性鬆綁,迎來了網際網路的輝煌30年,30年內創造的科技與經濟成就,甚至超過了人類在之前3000年裡發展的總和。該調整不僅為加密貨幣行業,還將為AI等創新科技預留發展空間。新技術發展離不開金融支援,銀行與金融業不能成為科技發展的障礙和攔路虎,尤其是不能被輿論和聲譽這種主觀甚至偏見所左右。4- 或將引發全球銀行業監管的轉變為了與全球金融“老大”美國對齊,可以預測該調整將引發全球多個地區和國家對銀行業監管的轉變,如:1. 歐盟或跟進調整MiCA監管細則2. 新興市場國家加速加密立法,並鬆綁銀行相關業務3. 國際清算銀行(BIS)將修訂全球標準這不僅是條款刪除,更是監管思維的進化——從家長式管控轉向市場化治理。讓我們拭目以待。5- 重構金融生態格局對加密行業來說,將產生以下積極影響:• 融資管道拓寬:VC投資將更順暢• 營運成本降低:支付結算效率提升30%+四五年前,我見到美國一些加密貨幣公司為了投資新項目,需要到一些對加密行業友好的國家註冊公司,再通過特殊管道把大額比特幣換成穩定幣,整個流程中不僅成本巨大,而且讓美國流失了很多高科技人才和資產。對傳統金融行業來說,將開啟新業務,並享受新科技行業的高增長帶來的紅利:• 新產品線:託管、清算等增量業務• 客戶群體:吸引科技企業及年輕客群思考這次聯準會對銀行監管的調整標誌著:美國的金融創新不再需要為"社會觀感"買單,合規發展將成為唯一準繩。互動思考• 當"聲譽風險"不再成為創新枷鎖,美國金融業的未來將如何重塑?• 您認為這項變革會對中國金融科技發展帶來哪些啟示? (極客方舟GeekArk)