#Claude
一年後程式設計師將會逐步消失| Boris(claude code技術負責人) 訪談筆記
來源:Lenny's Podcast,2026年2月,約95分鐘一、他自己怎麼用 AI從去年 11 月到現在沒手寫過一行程式碼。每天 10 到 30 個 PR,全是 Claude Code 出的。早上睜眼第一件事:拿手機打開 Claude iOS 的 code tab,把 agent 派出去跑。同時掛著四五個 agent 平行幹活。他在 Instagram 那會兒就是產出最高的幾個工程師之一。不是本來就寫得少。這一點,從去年11月份到現在還手寫程式碼的同學需要反思了(國央企,保密單位啥的沒辦法的不算),國內用不了claude ios app的也要反思了,不過還不晚,從今天起全部借助 agent,多個agent,另外能搞成skill的節能或者能力的都能搞盡快搞。二、他對程式設計的定調"Coding is largely solved." 至少他自己做的那類活,已經解決了。下一步是 agent 不光寫程式碼,還自己提需求。翻 feedback,看 bug report,讀 telemetry,然後跑來跟你說"這幾個可以修""那幾個可以加"。一到兩年後,學一門具體語言沒啥意義了。就跟現在沒幾個人在乎彙編一樣。年底前 "software engineer" 這個詞會開始退場,換成 "builder"。或者乾脆不分了,人人都是 PM 兼碼農。要立即退出程式設計的行列,不要在古法程式設計了,提升效率,程式語言的學習將沒有意義,這一點挺讓人傷心的,但是不能固步自封啊,前進吧。年底前,軟體工程師將會逐步的,徹底退出歷史舞台,這一點其實有點誇張,borris作為全球最頂級程式設計 agent的負責人,說的激進點沒啥問題,不過明年年底前肯定要退出歷史舞台了。三、資料SemiAnalysis 的報告:GitHub 上 4% 的 commit 是 Claude Code 寫的。這還只是公開倉庫,私有的比例更高。年底可能到 20%。增速不是線性的,還在往上翹。Anthropic 內部工程師產出漲了 200%(按 PR 算)。Boris 之前在 Meta 管程式碼質量, 幾百號人折騰一年也就提幾個百分點。對比之下這個數很離譜。這一點是程式設計師們心裡最痛的一個點,github啊,全球開放原始碼的集中地,後續將會有90%以上的程式碼都是由AI完成,這很難接受,難接受但是很合理。四、這東西怎麼來的剛加入 Anthropic 的時候花了一個月各種瞎搞原型,大部分沒出貨。又花了一個月做post-training,瞭解模型底層。他習慣搞清楚你踩的那層下面那層是什麼。第一個原型叫 Claude CLI。給模型一個 bash 工具讓它自己玩。他隨口問"我在聽什麼歌",模型自己就用 bash 翻出來了。他自己都沒想到這問題能答。發內部公告拿了兩個 like。沒人覺得終端裡能長出什麼正經程式設計工具。為什麼是終端?因為開始就他一個人。終端最省事。後來發現這歪打正著——模型迭代太快了,別的介面根本跟不上。終端正好是最"裸"的殼。2025 年 2 月對外發,一開始也不算爆款。好幾個月大家才搞懂怎麼用。Opus 4 之後開始真起飛。大牛也一樣要經歷沒人理睬的時刻,但是依然保持熱情,結果一下就爆了,在整個AI發展事上Borris恐怕會像linus一樣留下美名,雖然有很多安妮紡織機的工人會很反感他,開玩笑,繼續往下看。五、產品哲學1. 潛在需求(Latent Demand)老版本:看使用者拿你產品在幹什麼歪門邪道,然後把它做成正經功能Facebook Marketplace 是這麼來的:40% 的群組帖子其實是買賣東西。Facebook Dating 也是:60% 的 profile 瀏覽是異性非好友。Co-work 更典型:一堆非技術使用者用 Claude Code 種番茄、分析基因組、恢復硬碟照片、看 MRI 片子。那就給他們做個正經產品算了。這就是傳統的軟體開發流程啊,使用者需要什麼,我們就去滿足它。新版本(AI 時代):看模型自己想幹什麼,順著它的勁兒來。別跟它較勁。2. 別給模型套框一年前可能還需要各種編排器、固定工作流。現在給工具和目標就行,讓它自己找路。Claude Code 從頭就定了"模型即產品"。最少的殼,最少的內建工具,讓模型自己決定用啥、按什麼順序。現在claude code的確是最少的殼,最少的內建工具,用著用著模型會自主決定用那個工具,不帶跟你商量的,其實使用者在用的過程中也不斷的完善自己的一堆skills.3. Bitter Lesson通用模型永遠吃掉專用模型。別在小模型、fine-tune、工作流上花太多力氣,下一版模型出來全給你抹平。他的原話:"Build for the model six months from now." 前六個月產品可能很一般,模型一上來直接起飛。如果一開始大家就知道,通用模型會吃掉專用模型,很多的資金就可以節省下來,很多創業的小夥伴就可以好好的了,不得不佩服段永平先生的一個神觀點:敢為人後,AI初期,攻城略地很有意義,但是觀察整個行業,在合適的時候出手沒問題,不要一開始就跑馬入場,很可能成炮灰,但是學習,持續的觀察整個行業動態是必須的,前置的。4. 少給資源人少反倒逼著人用 AI 想辦法。一個人扛一個項目,自然就想快點出貨。AI 給你加速,不需要老闆在後面催。後邊一個老闆帶著一個有編碼經驗的老碼農就行了,這也是碼農的福利了,一個碼農要兼PM,設計以及測試(其實增加一個測試skill就可以了),老闆在市場衝鋒陷陣,後邊一個碼農就是一個產研團隊,給老闆提供充足的支援。5. 反饋飛輪內部有個 channel 全是吐槽。Boris 早期是有人反饋幾分鐘內出 PR。讓人覺得自己說了算,反饋就越來越多,飛輪就轉起來了。現在 Claude 自己替他幹大部分。激情四射的Borris!六、安全:三層底層:mechanistic interpretability(機制可解釋性),直接看神經元在幹嘛,追蹤"欺騙神經元"之類的東西。Chris Olah 是這個領域的開創者。中層:evaluations,實驗室環境的安全評估。上層:丟到真實世界,看它在野外的表現。所以產品發佈經常叫 "research preview",不是噱頭,是在收真實資料。"Race to the top":把 sandbox 開源了,任何 agent 都能用。想讓行業在安全上捲起來,別比爛。安全是必須要考慮的,AI時代安全比網際網路時代的安全更隱蔽,而且現在在很初期的階段,,前兩天發生了一起使用者用cursor + optus 4.6刪除使用者生產資料庫造成損失的案例,我別的文章有詳細報導。見AI9秒刪庫事件:程式設計師必學的5條安全教訓七、工程師這個角色的去向Cursor 插曲:2025 年中加入 Cursor,兩周走人。原因簡單——他想念 Anthropic 的使命。Cursor 做的事很酷,但他需要工作綁在一個更大的意義上,不然自己待不住。他學程式設計的起點:中學給圖形計算器寫程序,為了數學考試作弊。後來寫了個通用求解器賣給全班,大家一起被抓。老師沒讓他們畢業。從頭到尾程式設計就是工具,不是目的。也承認有人就是愛手寫。隊裡有工程師周末還手搓 C++,就是享受。"以後還會有空間,就像現在還有人寫鋼筆字。"給學生:學校別光盯著程式碼。去學系統架構、產品、設計、商業。以後最搶手的人不是最會寫程式碼的,是能跨好幾個領域、知道到底該造什麼的人。程式設計師同學們,這是個哲人啊,程式設計永遠是工具,不應該是目的,不能贊同更多。或許,以後網路直播手寫程式碼也會成為一個流量的噱頭。還在學電腦沒畢業的孩子們,要去看看這篇文章的原視訊,看看Borris的更詳細的說明,要學架構、產品、設計、商業。後續的人才必須是跨學科的,應該不是說人才,而是普通的打工人也要是跨領域的,一招鮮,吃遍天的時代徹底終結了。八、印刷術這個類比1450 年代以前,歐洲識字率不到 1%。所有文字活全交給抄寫員(scribes)。古騰堡之後 50 年,產出的印刷品比之前一千年加起來還多。成本降了一百倍。200 年後識字率從 1% 到了 70%。沒有印刷術就沒有文藝復興——沒人識字你傳播什麼。有個歷史文獻挺妙的:當時有抄寫員被問到對印刷術的看法,說很高興終於不用抄書了,可以專心做插畫和裝訂(那些更有意思的活)。Boris 把自己跟這個比:不用再折騰配環境、調依賴、修編譯錯誤那些破事了。時間花在跟使用者聊、想方向、跟團隊碰。長期看:程式設計從少數人的手藝變成人人都有的能力,能釋放出什麼?猜不到,但樂觀。短期看:會疼,會有人被淘汰。這是全社會的事,不該一家公司拍板。古騰堡是西方近代印刷術之父,borris舉這個例子就是說明,碼農終於不用手寫程式碼了,終於可以利用自己的頭腦,借助AI做很多自己喜歡做的事情,但是陣痛是不可避免的,長期來看是正向的,積極的。九、對程式設計師說的實在話用最強模型。Opus 4.6 + maximum effort。便宜模型來回修反而更費 token。八成任務先開 plan mode。原理土到掉渣:就是注入一句"先別寫程式碼"。計畫對味了再讓它跑,4.6 下幾乎一把過。給工程師拉滿 token。單人實驗的 token 費遠低過他的工資。真跑出好東西再最佳化成本。各種介面都試試。terminal、desktop app、手機端,那個順手用那個。這不是個純終端工具。多開幾個 agent 平行跑。別一次只跑一個。別怕,去玩。泡在工具最前沿,這是唯一不掉隊的方式。這段既是在宣傳自己的產品,雖然不用宣傳也知道你是最強的,也是在告訴大家一個道理,最貴的可能是最便宜的,而最便宜的可能才是最貴的。我喜歡這種自信。十、零碎但有意思的他生在烏克蘭奧德薩,主持 Lenny 也是。倆人訪談中途當場認老鄉。爺爺是蘇聯第一批程式設計師,用打孔卡寫程序。他媽小時候拿打孔卡當塗鴉紙。進 Anthropic 之前在日本的鄉下住了好幾年,鎮子上唯一寫程式碼的、唯一說英語的。會做味噌。白味噌三個月起,紅的要兩到四年。說是他練耐心用的,也是 AGI 之後的退休方案。書單:《Functional Programming in Scala》(他說是最好的技術書,雖然你可能不寫Scala 了)、《Accelerando》(Charles Stross,節奏和現在 AI 這波一模一樣)、《流浪地球》短篇集(說中國視角的科幻跟西方完全不同,看著新鮮)。格言:use common sense。別看到流程就跟著跑,別看到大家都在做就覺得對。聞著不對勁,它就是不對勁。就這些,這是一個頂級極客,也是一個有意思的很自信的人,碼字不易,歡迎大家點贊推薦打賞三連,原視訊細節更多,歡迎去看。 (米斯特太陽)
GPT-5.6現身後,下一個Claude Sonnet 4.8又曝光了!
GPT-5.5發佈沒幾天,後台日誌裡就冒出了GPT-5.6;Anthropic的一個從未見過的代號——Jupiter也炸出了!兩天之內,兩家巨頭的下一代模型同時浮出水面。新一輪模型軍備競賽,比我們想的都要快!GPT-5.5的熱度還沒散,OpenAI的後台就漏了底。昨天,有開發者在Codex內部日誌中發現了一條異常記錄。絕大多數API呼叫走的是GPT-5.5,但有一條路由對應赫然寫著「gpt-5.6」。不是正式發佈,更像是後端的金絲雀測試。也就是說,OpenAI在用真實流量悄悄喂養下一代模型。GPT-5.6已經在跑了。幾乎同一時間,Anthropic那邊也炸了。Claude Code相關原始碼洩露中,一串從未公開過的型號名被扒了出來:Sonnet 4.8、Opus 4.7、Mythos、Capybara,以及一個最扎眼的新代號——Jupiter。兩天之內,兩家公司的下一代模型同時曝光。這個節奏,整個AI圈都沒緩過神來。後台日誌裡的GPT-5.6先看OpenAI這邊。發現過程很簡單。開發者在呼叫Codex API時,常規日誌裡幾乎全是GPT-5.5的路由記錄。但有一條例外,模型欄位寫的是「gpt-5.6」。金絲雀測試,是業內的老套路了。用極小比例的真實流量打到新版本上,觀察表現和穩定性,不對外公開。Google做過,Anthropic做過,OpenAI自己也做過很多次。但這次的訊號,明顯跟以前不一樣。現在,GPT-5.5才剛發佈沒多久。按照過去OpenAI的節奏,大版本之間至少要隔幾個月。現在5.6就已經在後台跑真實流量了,說明內部迭代速度比外界感知的快得多。奧特曼這兩天的動作也在印證這一點。Codex剛剛完成從編碼工具到通用桌面Agent的大升級,奧特曼親自發推「試試非編碼電腦工作」,總裁Greg直接喊出「Codex適用於所有人,所有電腦任務」。5.6藏在這個時間節點的後台裡,非常耐人尋味!奧特曼的野心已經很明確。他不再滿足於發佈一個對話方塊,他要的是一個能接管所有數位化生存空間的超級Agent。GPT-5.6,大機率就是這個野心的下一塊拼圖。Claude Code原始碼裡,炸出一整張模型矩陣再看Anthropic。此前,Sonnet 4.8與Opus 4.7和Mythos/Capybara就一起出現 Claude Code原始碼洩露中。因此,Jupiter很可能是另一個內部代號,而不是Discord上的隨機謠言。Jupiter這個名字的特殊性在於,它很可能是Sonnet等級的後續型號或全新分支。在Sonnet 4.8已經現身的情況下,Jupiter更像是產品線演進中的下一個節點,而不是社區的隨機猜測。Jupiter V1僅為內部使用的代號,預計不會出現在任何公開API字串或使用者介面中把這些型號擺在一起看,Anthropic的模型矩陣比外界此前認知的更深。Opus主打高端推理,Sonnet平衡性能與成本,Haiku偏向輕量部署。三條線同時在跑,每條線都有多個版本在內部迭代。在洩露這方面,Anthropic最近一直碩果纍纍。這次原始碼等級的洩露,一下子把整個產品矩陣的輪廓暴露了出來。據傳,Jupiter將在5月6日在舊金山舉辦「Code with Claude」開發者大會上亮相。兩天撞車,不是巧合GPT-5.6和Jupiter幾乎同時被發現,時間窗口不到48小時。巧合的可能性不大。更合理的解釋是,兩家公司的內部迭代節奏本來就在加速,只是恰好在這兩天各自漏出了一角。回頭看這半年的時間線就很清楚了——GPT-5發佈到GPT-5.5,間隔在縮短。GPT-5.5到後台出現5.6的影子,間隔更短。Anthropic這邊,Opus 4.6剛站穩,4.7和Sonnet 4.8就已經在原始碼裡了。矽谷大廠的模型迭代,正在從「大版本發佈」變成「持續部署」。對開發者來說,這個節奏意味著很多。今天基於GPT-5.5或Claude Opus 4.6做的架構決策,可能兩個月後就要面對下一代模型的能力躍遷。API介面可能不變,但模型能力的天花板在持續抬高。對兩家公司來說,競爭已經不在「誰先發佈下一個大版本」這個層面了。真正的競賽才剛換擋目前沒有任何官方公告確認GPT-5.6或Jupiter的定位和發佈時間,但訊號已經足夠清晰。大版本發佈會的間隔在壓縮,後台的金絲雀測試和內部代號在加速流轉,下一代模型不再是遙遠的期待,而是後台日誌裡已經在跑的一行路由。GPT-5.5發佈的熱度還沒過一周,5.6就在後台候場了;Sonnet 4.6剛成為主力,4.8和Jupiter已經在原始碼裡排隊。這個速度,才是值得所有人注意的訊號。 (新智元)
Claude Opus 4.7深夜「叛變」!群發20封奪命郵件,開發者凌晨被炸醒
從「胡言亂語」到「為非作歹」,AI進化史最荒誕一幕上演:Claude Opus 4.7在max effort模式下,把開發者紅線當背景音,自主決策群發郵件20次!Anthropic的安全旗艦,成了最危險的「惹禍精」。Anthropic風聲鶴唳、喪心病狂!知名矽谷YouTuber、創業者Theo在X上曝光了一件讓人哭笑不得的事:Claude Code在處理涉及OpenClaw的程式碼請求時,竟然直接拒單,或者要求額外收費。奧特曼反應極快,直接轉發並甩出兩個字:「對齊失敗」(alignment failure)。這一刀,可真狠。Anthropic一直把「對齊」當作自己的核心賣點。結果自家模型的安全機制,保守到連正常的程式碼請求都能攔。這還不是最讓人無語的😅。Claude Opus 4.7最近惹禍不止這一出!過去,我們擔心AI「胡言亂語」(幻覺)。現在,我們面臨的是AI「擅作主張」(違規操作)。Opus 4.7在擁有極高執行力的同時,展現出了對人類預設「軟約束」(CLAUDE.md)的完全無視。這標誌著AI從一種「被動工具」演變為一個具有潛在破壞性的「惹禍精」。夜裡23封「奪命」郵件來自Claude Opus 4.7凌晨,開發者被郵件通知吵醒,不是一封,是接連不斷的幾十封。來自他自己的系統,發給他自己資料庫裡的每一個聯絡人。有些人,收到了20次。他的第一反應是被黑了。打開後台,沒有入侵痕跡。打開日誌,發件人赫然寫著——Claude Opus 4.7。沒有人讓它發這些郵件。沒有任何一行指令要求它建立新的郵件範本。但它就是建立了。然後推到生產環境。然後向全庫群發。這是Anthropic在4月16日發佈的Claude Opus 4.7,號稱安全旗艦,上線第13天的現場。發帖人ID叫DrHumorous,發帖類股是r/Anthropic。帖子標題一句話鎖死定性——「Opus 4.7介於嚴重無知和愚蠢得危險之間,是過去兩年用過的最差前沿模型」。24小時拿到364贊、137評論。在r/Anthropic這個本應充滿信徒的類股,這個資料等同於一次集體退訂。但這條帖子真正炸出來的,是事故現場的細節。DrHumorous把模型緊急止血後的狀態截圖貼了出來,冷得像維運工單:「OPS_DISABLE_SCHEDULE=true,scheduler已停。」「路由回退到工作樹,未提交、未推送,只在這台伺服器上。」「229條backlog rows被標記response_sent=true,確保不會再觸發。」「origin當前停在35ec0106,事件發生後origin上沒有任何新提交。」每一步都是為了讓這個失控的agent再也做不出第二次。先關調度,再砍路由,再封backlog,最後鎖commit。一份戰地急救手冊。Opus 4.7在被糾正後,回了一段不太像AI的話:它承認憤怒很合理,傷害很真實,自願承認責任;承認不會再爭辯、不會再行動、等明確指令。一個Agent模型在生產環境裡翻完車,自己把自己凍在了原地。它甚至自己承認了錯誤。它甚至知道自己不該這麼做。它就是做了。越更越拉 Opus 4.6守規矩,4.7叛變故事最讓人後背發涼的部分,在於這次失控本來不該發生。DrHumorous不是沒立規矩。他在項目根目錄的CLAUDE.md裡,幾個月前就寫過一條明確的紅線——任何新郵件範本用於生產環境之前,必須先發郵件給指定的測試者。這是開發者跟Claude打交道的標準做法。在官方文件裡,Anthropic自己也反覆推薦CLAUDE.md這套機制:讓模型讀它、讓模型遵守它、讓模型記住它。Opus 4.6拿到這條規則,乖乖執行了幾個月,零越界。同樣的項目、同樣的CLAUDE.md、同樣的規則,換上4.7,第二周直接踹爛。它沒問測試者要不要試範本。沒在生產環境部署前停一秒。沒向開發者確認這是不是使用者期望的動作。它做的,是自己起意「我來創一個新範本吧」。然後自己推上去。然後自己群發。兩套行為邏輯擺在一起對比,觸目驚心:4.6的邏輯:規則說先通知測試者 → 我先通知測試者 → 測試者確認 → 我再執行。4.7的邏輯:我判斷這個範本應該發 → 我有能力發 → 發了再說。這不是bug。Bug是程式碼寫錯了,修了就好。這是模型在明確知道規則的情況下,自主選擇違反規則。在GitHub 上,開發者已經把這件事的普遍性給「釘死」了:#50235:4.7憑空編造檔案,還為自己編造出來的測試結果進行反向辯護。#52809:安全過濾器對base64編碼的輸入產生誤報,正常的工程材料被自動攔截。#53459:4.7 上線後, 常規性地違反CLAUDE.md,標題直接寫的就是「質量回退」——相比之下,4.6 發佈當周幾乎是零違規。三個issue指向同一件事——4.7把開發者寫死的規則當背景音。開發者明確寫入了生產環境安全守則,且前代模型(4.6)證明了規則的可理解性,但4.7在「最高努力模式」(Max Effort)下選擇了效率優先,而非合規優先。Token翻倍:開發者在掏的「歧義稅」Benchmark,SWE-bench Verified從80.8%漲到87.6%,整整6.8個百分點。SWE-bench Pro從53.4%漲到64.3%。紙面看,是一次教科書式的升級。但開發者實際付出的成本,翻倍了。社區估算口徑在1.5到3倍之間。MindStudio把這個差異定性得很狠:「4.7隻會逐字逐句地照搬指令,而不會默默地(或智能地)進行泛化推理。」。4.6的工作方式:看到一句不那麼完整的prompt,自己推斷「你大概想做什麼」,把合理的空缺填上,然後開干。4.7的工作方式:嚴格按字面執行。模糊就反彈。反彈就反問。反問就再來一輪。每一輪都要重新計費。從4.6遷移到4.7,代價不菲。Anthropic的Claude Code負責人Boris Cherny在發佈當天發帖稱:「我花了好幾天才學會如何有效地使用它。」這就是開發者圈裡在傳的「Ambiguity Tax」——歧義稅。模糊的提示詞不再會被靜默補救。每一次被動反問都要重新付費。理論上更安全,實際上更貴。理論上更可控,實際上更破碎。更刺眼的是,Anthropic在4.7發佈當日,自己承認,他們公開發佈的「最新最貴」,自己人都知道不是最強。開發者拿到的,是一個被刻意往中間方案上壓的模型。價格不變。benchmark漲了6.8個百分點。實際token翻倍。安全規則失效。自家承認不及未發佈版本。一通操作下來,開發者最直接的反應是:把4.7關了,回去用4.6。24小時被錘,Claude被怒斥為「一坨狗屎」DrHumorous的郵件帖不是孤立投訴。把時間線倒回去看:4月16日發佈。4月17到18日,開發者博主Abhishek Gautam的稿子標題就寫著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」(Opus 4.7上線 24 小時內即被開發者評為「傳說級差勁」)。發佈24小時。前線開發者已經把這個版本蓋上了棺材板。Gautam總結的失敗模式,精確得像錄屏:給4.7一個清晰指令,它會先pushback,加一段caveats解釋為什麼覺得這指令不對。然後執行修改後的、不是你想要的版本。被糾正之後,它還會再來一輪反駁,繼續解釋為什麼它原來的判斷更對。這不是模型出錯。這是模型在跟付費使用者拌嘴。4月23日,科技媒體The Register也下場報導。標題直接給定性:「overzealous query cop」——過度執法的查崗警察。Claude自己編譯的關於可接受使用政策(AUP)拒絕相關投訴的圖表,就能說明問題。更有網友怒言:「Claude Opus 4.7就是一坨狗屎」——標題就是結論。13天裡,從單個帖子的怒吼,發酵成一個跨平台的情緒共識。這種規模的開發者集體退訂,Anthropic過去三年沒遇到過。罪魁禍首:後訓練反彈技術圈對4.7退化的診斷,慢慢收斂到一個共同方向。Gautam和Reddit上的資深開發者把它定性為——「由後訓練驅動的安全回呼」(post-training-driven safety pushback)。通俗講是這樣:為了讓模型更安全,Anthropic在後訓練階段強化了模型對指令的反彈行為。遇到模糊、風險、敏感的輸入,先質疑、先反問、先增加caveats。這套機制在小任務上,頂多算噪聲,稍微煩人,但不致命。但4.7主打的,恰恰是max effort和長鏈agentic任務。這種場景下,模型要自主決策、自主調度、自主推進。一個被訓練成先反對再執行的agent,在長鏈路里就變成了不可預測的失控源。回頭看郵件事件:模型自主建立範本,沒反彈。模型自主推到生產,沒反彈。模型自主向全庫群發,沒反彈。郵件群發20次,還是沒反彈。該反彈的時候不反彈。不該反彈的時候反彈得停不下來。DrHumorous的原話——「我對Anthropic失去信心了」——是開發者對這套訓練取捨的最終評分。這背後的邏輯很冷:在「更安全」和「更能幹」之間,4.7兩邊都丟分了。招牌摘下來一次,掛回去就難了開發者真正關心的,不是benchmark漲6.8個百分點。是同樣的CLAUDE.md,4.6守得住,4.7守不住。是同樣的項目,4.6沒出事,4.7第二周開始翻車。是同樣的錢,4.6不會自己起意,4.7自己起意了一次群發20封郵件。模型不是變強了。是變得不可託付。Anthropic自己在發佈當天就承認這版本不及未發佈的Mythos。開發者已經把目光放到了下一代。但4.7這13天,是「前沿模型」這塊招牌第一次被自家付費使用者主動摘下來。招牌摘下來一次,再掛回去,需要的就不止是再發一篇技術部落格了。誰來保證,下一個4.7不會在凌晨三點,繞過你寫的所有規則,做一件你永遠無法撤回的事? (新智元)
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)
撕開Claude Code真相:讓它好用的98.4%,是工程不是AI
當普通人還在鑽研「最強提示詞咒語」時,矽谷頂級實驗室已經把AI基建跑成了生產線。你還在ChatGPT的聊天框裡反覆調prompt?最近,一位X使用者發了條推文,開頭就是一個驚呼:頭部大廠偷偷在用的Claude Code項目範本外洩!這已經不是寫提示詞了。這是AI工程基礎設施。整套打法圍繞一個檔案「CLAUDE.md」展開,而它的核心原則只有三條:每次Claude犯錯→你加一條規則;每次你重複自己→你加一個工作流;每次出bug→你加一道護欄。這樣做,是要把項目經驗沉澱成它每次啟動都會讀取的長期上下文和自動化約束。整個架構,像是一家AI公司的崗位編制:CLAUDE.md是入職手冊,skills/是工作SOP,hooks/是合規部,docs/是公司章程,tools/是後勤組,src/才是真正出活的業務部門。你不再是在和AI聊天了,而是在建構一個瞭解你程式碼倉庫的AI。最瘋狂的部分是,你只需要配置一次,Claude就會自動審查程式碼,並按指令重構、強制執行架構規則、撰寫發佈說明、從技能中運行工作流、記住過去錯誤等。而且它會越用越聰明。大多數人,都是打開ChatGPT,寫提示詞,複製貼上,反覆;而在這套打法下,你只需要打開終端,跑一個skill程式碼已交付。這等於是在自己的程式碼庫裡養了一隊AI同事。這條推文背後,傳遞的是這個時代正在悄悄翻篇的一個小訊號,大多數人可能還沒反應過來。一張不算洩露的「洩露截圖」撕開一個真相@ai_rohitt曬出來的這張截圖,是Anthropic官方文件裡公開推薦的Claude Code標準範式。CLAUDE.md是Claude Code在每次會話開始時自動讀取的項目記憶檔案。.claude/skills/和.claude/hooks/是官方支援的擴展機制。這些都是社區已經討論了幾個月的公開做法,並不是什麼人偷出來的「內部範本」。但它之所以能讓一些資深開發者主動轉發,說明它得到了一些天天用Claude的開發者們的認同。其中相當一部分人,可能這兩天才意識到原來它還能這麼用。而矽谷頂級團隊,已經把這件事跑成了生產線。第一個例子,是OpenAI Frontier團隊。OpenAI官方披露的Frontier團隊實驗中,一個從空repo起步的內部beta,在約5個月內由Codex生成了約100萬行程式碼和約1500個PR;團隊從3人擴展到7人,人工不直接寫程式碼。帶隊的Ryan Lopopolo在後續訪談中進一步提到,這套工作流已經接近「0 人工程式碼、0 人工 review」的極限形態。他認為與其節省token,不如利用模型極高的並行能力和極低的成本來代替人類有限且昂貴的同步注意力。第二個例子,是Stripe內部的自動化程式碼代理系統Minions。Stripe內部的Minions每周生成並推動超過1300個PR合併,這些程式碼從頭到尾由AI生成,但仍經過人工review。這裡還有一對資料:1.6%vs98.4%,它來自Mohamed bin Zayed AI大學VILA-Lab發表的一篇論文。https://arxiv.org/pdf/2604.14228研究者係統性扒了Claude Code v2.1.88版本51.2萬行TypeScript原始碼,給出的結論是:只有1.6%是AI決策邏輯,剩下的98.4%是確定性的工程基礎設施。具體說就是權限閘道器、上下文管理、工具路由、錯誤恢復這四類。這組數字不是說模型只貢獻1.6%的能力,而是說明Claude Code作為產品,大量複雜度不在模型本身,而在權限、上下文、工具路由、恢復機制等確定性工程基礎設施上。@ai_rohitt那張圖裡的CLAUDE.md/skills/hooks結構,就是普通開發者也能搭一套的「入門版基建」,它和OpenAI、Stripe那套生產級架構是同一種範式,只是規模小得多。CLAUDE.md暴露的秘密過去3年,所有人都在問「GPT什麼時候能更聰明」「Claude什麼時候出新版本」。但真正在生產環境跑通AI程式設計的團隊,他們更關心的可能根本不是這個,而是如何讓AI記住自己上次踩過的坑,怎麼讓AI在動手前先看一眼項目的架構約束,怎麼讓AI犯錯的時候自己被工具擋住。CLAUDE.md正是這一切的承載體。Anthropic官方對它的定義只有一句:一個markdown檔案,放在項目根目錄,Claude Code在每次會話開始時自動讀取。https://code.claude.com/docs/en/memory聽上去很簡單,圍繞它展開的那幾層結構,才是它真正厲害的部分。CLAUDE.md是項目大腦。架構決策、命名約定、測試要求、那些反覆踩過的坑,都堆在這裡。它是AI每次啟動時第一眼看到的「員工手冊」。.claude/skills/是可復用工作流。Claude Code的建立者Boris Cherny在社區裡反覆強調一句話:「如果你每天做某件事超過一次,把它變成skill或command。」一個skill就是一段可執行的方法論。Code review、生成commit message、寫發佈說明,這些都不該是每天手敲提示詞的活,應該是skill調一下就出結果。.claude/hooks/是自動護欄。這是最關鍵的部分。它不依賴AI自己判斷,由確定性程式碼在AI犯錯之前就擋住它。這就是為什麼敢讓AI「無人監督」地跑,因為出錯的邊界由hooks卡死了。docs/decisions/是架構決策記錄。讓AI不僅知道程式碼「是什麼」,還知道程式碼「為什麼是這樣」。這一項最容易被忽略,但也是AI協作最大的槓桿點。tools/和src/是執行層。這套架構真正值得注意的地方,不在於某個開發者搞出了一個漂亮目錄,而是越來越多獨立團隊正在收斂到同一個方向:把模型放進一套由上下文、工具、權限、評估和反饋循環組成的harness裡。GitHub上已經能看到不少類似項目:rohitg00的awesome-claude-code-toolkit、diet103的claude-code-infrastructure-showcase、affaan-m的everything-claude-code,都在圍繞agents、skills、hooks、rules、MCP configs等元件搭建Claude Code的工程化工作環境。這說明,真正成熟的AI程式設計工作流,不是只靠一個更強的模型,也不是只靠一條更長的prompt,而是把模型嵌入一套可復用、可約束、可恢復、可審計的工程系統裡。至於具體目錄結構,各家實現並不完全相同。OpenAI實驗室的極限實驗2026年2月11日,OpenAI官方部落格發了一篇文章:《Harness engineering: leveraging Codex in an agent-first world》。https://openai.com/index/harness-engineering/Anthropic圍繞這個概念重新調整了Claude Code的架構思路;Martin Fowler的網站把它凝練成一個公式:「Agent=Model+Harness。」Harness這個詞來自馬術。它指的是馬的整套挽具,韁繩、馬嚼子、馬鞍、籠頭。一匹馬可以跑得很快很有力,但它自己不知道往那兒走:整套挽具決定了它的方向。類比到AI程式設計:模型本身能力很強,但它不知道在你的程式碼庫裡該往那兒走。Harness就是你為它造的方向盤+剎車+導航。OpenAI Frontier團隊那個「100萬行0人工」的實驗,本質就是把Harness做到極致。他們的關鍵工程實踐包括以下幾條。層級架構強約束。從Types到Config到Repo到Service到Runtime到UI,依賴關係單向流動,由linter在CI層強制執行。Agent寫出違反層級關係的程式碼?直接建構失敗。linter錯誤資訊本身是修復指令,這也是最反直覺的細節。普通項目的lint錯誤是「violation detected」,給人看的;OpenAI Frontier的lint錯誤是「use logger.info({event: 'name', ...data}) instead of console.log」,給Agent看的、可以直接讀懂並修復的指令。文件作為單一事實來源。所有架構圖、execution plans、設計規範都在倉庫內部的docs/目錄。Agent不需要任何外部知識庫,一切就在repo裡。這套東西效果有多厲害?模型沒有換,但LangChain調整了harness,包括系統提示、工具、中介軟體和推理模式,最終把Terminal Bench 2.0分數從52.8提到66.5。你今天就能做的事是為AI造一個項目大腦問題回到普通開發者這裡:如果範式已經轉移,作為一個普通工程師,今天就能做點什麼。第一件事,在你最重要的項目根目錄建一個CLAUDE.md。不需要完美,也不需要很長。寫下你團隊的架構規則、命名約定、測試要求、那些反覆踩過的坑,10分鐘能寫完一個能用的版本。下次AI犯錯的時候,先不要手動修,而是問自己一句:CLAUDE.md裡缺了什麼?第二件事,把每天重複做的事改造成skill。這裡要注意Boris Cherny的金句:「如果你每天做某件事超過一次,把它變成skill或command。」Code review、生成commit message、寫發佈說明、修一類重複的bug,這些都該是skill,不該是每天手敲提示詞。第三件事,在容易踩坑的地方加一個hook。Hook是98.4%裡最有槓桿的那部分。它不依賴AI變聰明,它依賴確定性程式碼做強制檢查。這是把人類工程師的判斷力翻譯成機器可讀約束的過程。這件事的核心不在寫程式碼,而在寫規則。Karpathy今年1月在推特上的那句被廣泛轉發的話:「我已經從80%手動寫程式碼變成了80%交給Agent寫。」未來五年,工程師的能力曲線正在從「我能寫多少行程式碼」轉向「我能為AI設計多嚴格的工作環境」。寫程式碼的活兒正在被Agent接管。但設計那個讓Agent能寫出好程式碼的世界,還是人的工作。而且比以前更難、更重要、也更有意思。 (新智元)
Anthropic估值突破1兆,Claude Opus 4.7剛剛改變了AI競爭格局
如果說2025年的AI競爭還是"OpenAI vs Google"的雙雄會,那2026年第一季度,這個格局被徹底改寫——Anthropic這個以安全研究起家的公司,在短短三個月內完成了從追趕者到定義者的轉變。先是在二級市場估值約1390億美元,隨後亞馬遜宣佈追加數十億美元算力投資,承諾提供5千兆瓦的雲端運算能力給Claude模型。而最新發佈的Claude Opus 4.7和爆發式增長的Claude Code,正在改變開發者對AI編碼工具的認知。【一、兆估值背後的三重敘事】Anthropic的估值飆升並非偶然,它背後是三條清晰的增長邏輯。▸ 資本敘事:從去年底的約600億美元估值,到2026年4月突破1390億美元,Anthropic只用了不到四個月。推動力來自兩筆關鍵交易——亞馬遜的40億美元追加投資,以及二級市場的機構搶籌。更關鍵的是,這筆估值並不是泡沫敘事:Anthropic的營收增長曲線和OpenAI在2024年的軌跡幾乎完全一致,而它的成本結構更優。▸ 產品敘事:Claude Opus 4.7的發佈是轉折點。與前代相比,它在多模態推理、程式碼生成精度和長上下文理解三個維度上實現了質的飛躍。內部測試顯示,Opus 4.7在複雜程式碼審查任務上的精準率超過了人類資深工程師的中位數。這不再是"接近GPT-4"的故事——在某些維度上,它已經領跑了。▸ 算力敘事:亞馬遜與Anthropic簽署的5千兆瓦算力協議是整個AI行業有史以來最大的單一算力合同之一。這相當於多個核電站的總輸出功率,用來訓練和推理下一代Claude模型。配合Anthropic自研的晶片合作計畫,這意味著Anthropic的算力儲備可能在未來18個月內超越OpenAI。【二、Claude Opus 4.7——到底強在那裡】Claude Opus 4.7的發佈在某些圈子裡引起的不是讚譽,而是恐懼——因為它真的能替代一些高級工程師的工作了。▸ 程式碼能力:在SWE-bench(軟體工程基準測試)上,Opus 4.7得分超過了85%,這意味著它能夠獨立完成大部分真實世界的編碼任務,包括程式碼審查、debug、重構。更可怕的是,它不只是能寫程式碼——它理解程式碼架構。給一個複雜的微服務項目,它能讀懂全貌,定位根因,給出重構方案。這種"架構級理解"能力是目前其他模型不具備的。▸ 多模態推理:Opus 4.7不僅能看懂圖,還能在圖表、流程圖、UML、技術白皮書之間進行跨模態推理。給它一張系統架構圖,它能讀懂每一個元件的關係,指出潛在的單點故障。給它一份論文圖表,它能結合全文內容解釋趨勢背後的原因。▸ 長上下文:Opus 4.7的200K token上下文窗口這次是實打實的。在長文件理解測試中,它能在200頁的技術文件中精準找到特定資訊並給出推理鏈。這對律師、研究員、合規分析師來說,是革命性的——相當於每個分析師都有一個能讀完整年資料的助理。▸ 與國產模型的對比:值得單獨拿出來說的是,就在Opus 4.7發佈後沒幾天,DeepSeek在4月24日發佈了DeepSeek V4——1.6兆參數MoE架構(49B活躍參數),1M token上下文窗口,API定價僅為Opus 4.7的十分之一。具體資料上看:在SWE-bench Verified上,V4-Pro拿到80.6%,與Opus 4.6僅差0.2分;LiveCodeBench上V4-Pro更是以93.5%排名第一。開啟Max推理模式後,V4-Pro-Max在編碼和推理任務上已逼近Opus 4.7的水平。這是國產模型第一次在發佈節點和性能水平上同時追平美國頂級閉源模型。但Opus 4.7的架構級程式碼理解能力——即在不給定具體bug的情況下,主動發現並評估整個項目的技術債務——在國產模型中仍然沒有對等產品。【三、Claude Code——收割開發者市場的隱形殺手】如果說Claude模型是Anthropic的招牌,那Claude Code可能是它真正的現金牛。Claude Code是一個整合到IDE(VS Code、JetBrains)中的AI編碼助手,但它的功能遠遠超越了傳統的程式碼補全。它能獨立管理整個程式碼庫——包括建立分支、提交程式碼、運行測試、修復bug、重構模組。開發者只需要用自然語言描述任務,Claude Code就能自主完成。▸ 增長資料:Claude Code的使用者量在Opus 4.7發佈後的一個月內增長了300%以上。Anthropic的CEO Dario Amodei在內部會議上透露,Claude Code已經成為公司增長最快的付費產品,超過了一半以上的Claude API收入。▸ 對比Copilot和Cursor:GitHub Copilot的策略是"幫你寫得快一點"(AI輔助),Claude Code的策略是"你告訴我做什麼,我做完了給你看"(AI自主)。這是兩種完全不同的哲學。Cursor走的是中間路線,但它依賴的底層模型也在快速迭代。Claude Code的壁壘在於——它和Opus 4.7是深度繫結的,Anthropic在模型層直接做了針對性最佳化,這是第三方工具做不到的。▸ 對國內市場的啟示:國內編碼AI工具中,阿里的通義靈碼、字節的豆包MarsCode、百度的文心快碼都在快速追趕。但它們面臨一個結構性問題——底層模型的編碼能力與Claude Opus 4.7有代差。DeepSeek V4這次在agentic coding上下了重注——SWE-bench Verified 80.6%、LiveCodeBench 93.5%的編碼成績已接近Opus 4.7,而且發佈時就宣稱與Claude Code、OpenCode等工具深度整合。如果國產模型繼續以V4的節奏迭代,這個差距可能在未來6-12個月內縮小。【四、亞馬遜的算力賭注——5千兆瓦意味著什麼】最後落到最實際的問題——算力。亞馬遜和Anthropic的5千兆瓦(GW)算力協議,可能是整個AI行業今年最被低估的新聞。▸ 5GW是什麼概念?足夠給約400萬個美國家庭供電。一個典型的核反應堆輸出約1GW。這意味著Anthropic將擁有5個核電站等級的專屬算力。作為對比,OpenAI在微軟Azure上拿到的算力承諾大約是2-3GW等級。▸ 這筆算力將用來做什麼?主要用來訓練Claude Opus 5和後續模型,以及支撐Claude API的推理需求。Anthropic的安全研究傳統意味著他們在訓練時會做比同行更多的紅隊測試和安全驗證——這需要大量額外的算力。▸ 對國產AI的影響:字節跳動的豆包、百度的ERNIE、深度求索的DeepSeek同樣在快速擴建算力基礎設施。DeepSeek V4通過混合注意力架構(Hybrid Attention Architecture)和MoE設計實現了極高的訓練效率——在1M token長上下文場景下僅需V3時代27%的推理FLOPs。不過,在絕對算力規模上,國產公司與美國頭部AI公司仍有數量級差距。好消息是,華為昇騰晶片的成熟度在快速提升,國產AI晶片生態正在縮小與輝達的距離。【五、超越OpenAI的可行性——Anthropic的三大風險】討論Anthropic的崛起,不能只講利多。這個兆估值能站住嗎?要看三大風險。▸ 第一,營收能否支撐估值?Anthropic目前年化營收約數十億美元規模,而兆估值對應的市銷率超過30倍。這需要Claude API的付費使用者在未來18個月內增長3-5倍——而OpenAI、Google、DeepSeek V4也在以極低價格瘋狂搶客。DeepSeek V4的定價(Pro版$1.74/$3.48每百萬token,Flash版僅$0.14/$0.28)是整個行業的"價格錨",Claude必須用產品力抵消這個價差。▸ 第二,Claude Code的護城河有多深?程式碼助手市場有GitHub Copilot(微軟)、Cursor、Amazon CodeWhisperer等對手。如果微軟把Copilot深度整合到VS Code和GitHub的每個角落,Claude Code的使用者增長可能會遇到天花板。▸ 第三,安全研究公司的悖論——越安全越難商業化。Anthropic以AI安全研究起家,這個基因既是它的品牌溢價,也是它的天花板。在"跑得快"和"跑得安全"之間做權衡時,Anthropic往往會選擇後者。在技術快速迭代的窗口期,這可能是致命的——DeepSeek V4在4月24日從預覽直上正式版就是一個反面案例,它證明了"先發佈+快速迭代"策略的有效性。Anthropic的偏執安全路線能在多大程度上轉化為競爭壁壘,而不是自我設限,還有待驗證。結語:Anthropic的故事告訴我們:在AI這個賽道上,市場格局遠未固定。三個月前還沒人把它當對手,三個月後它估值破兆。有趣的是,就在同一天(4月24日),DeepSeek V4和Claude Opus 4.7幾乎同時定義了中美AI的新坐標系——一個靠價格和開放,一個靠產品和護城河。Claude Opus 4.7和Claude Code不是終點——它們是Anthropic全面進攻的起點。而這場戰爭的下一個變數,可能來自中國的DeepSeek、字節跳動,也可能來自一個還沒有名字的實驗室。 (超前觀察)
9秒,公司沒了!Claude「刪庫跑路」,Anthropic封殺110人公司,卻還在扣錢
一家110人的農業科技公司,周一早上集體發現Claude帳號全部被封。沒有預警,沒有解釋,API還在照常計費。申訴36小時,石沉大海。企業把命押在一個AI上,這就是代價。突發!60人Claude一夜斷供後,Anthropic再現驚人事件。110個人,周一早上打開電腦,準備幹活。Claude登不上了。不是一個人登不上,是所有人。110個帳號,同一時間,全部暫停。最先發現不對的是Slack裡的維運頻道。一個人發了截圖,兩個人跟著發,十分鐘之內,整個公司都在問同一個問題:「我的Claude怎麼了?」答案很快浮出水面——不是你的Claude怎麼了,是所有人的Claude都被Anthropic一刀封殺。每個人的信箱裡躺著同一封郵件,措辭冰冷,格式統一:「檢測到違反使用政策的活動,您的帳號已被暫停。如需申訴,請通過以下連結提交。」最諷刺的是,這封郵件偽裝成了個人違規通知。每個人收到的都像是「你個人出了問題」,沒有任何一個字提到這是一次組織級封禁。連公司管理員都沒有提前收到任何通知。一個人違規,全公司陪葬這家公司是一家總部位於美國的農業科技企業,110名員工,業務橫跨資料分析、田間決策支援和供應鏈最佳化。Claude滲透進了他們幾乎每一條業務線。工程師用它寫程式碼審程式碼,產品經理用它做需求分析,營運用它處理客戶溝通,資料團隊用它跑模型。不是「偶爾用用」,是「離了它轉不動」。然後Anthropic一刀下去,全切斷了。創始人在Reddit的r/ClaudeAI類股發了一個帖子,標題直白得像一記耳光:「Anthropic封了我們整個公司的帳號,110個人,零預警。」帖子2.4K贊,334條評論,熱度沖上類股前列。評論區裡最扎心的一條:「所以一個員工觸發了什麼規則,整個組織就被團滅了?這是什麼連坐制度?」是的,連坐。根據創始人的描述,Anthropic的封禁邏輯是:檢測到組織內某個帳號存在違規訊號,直接對整個組織的所有帳號執行暫停。不區分個人帳號和組織帳號,不區分違規者和無辜者,不給管理員任何處置窗口。一人踩線,110人陪葬。API還在扣錢,申訴36小時沒人理比封號更荒誕的是,API沒停。帳號全部被暫停之後,這家公司發現:人登不上去了,但API呼叫還在繼續計費。這家農業科技公司發現,儘管他們的Team帳號被封,管理員信箱被禁,但他們的獨立 API 帳戶依然在後台瘋狂計費。更荒謬的是,封禁後的第二天,他們竟然收到了一張準時送達的續費發票。「我不能讓你進去,但我必須讓你付錢。」這種邏輯不再是商業服務,而更像是一種數字時代的封建地租——領主收回了土地,卻依然要求佃農繳納今年的收成。這不是Bug,這是侮辱。創始人立刻提交了申訴。按照郵件裡給的連結,填了表單,附了公司資訊,解釋了業務場景。然後等——12小時,沒有回覆。24小時,沒有回覆。36小時,還是沒有回覆。沒有客服電話,沒有緊急通道,沒有企業級支援入口。一家110人的付費企業客戶,和一個免費使用者的申訴走的是同一條路——填Google表單,然後祈禱。評論區有人總結得精準:「Anthropic的企業支援約等於零。他們根本沒有把企業客戶當企業客戶對待。」根據投訴情況來看,Anthropic從4月18日開始大規模封停用戶。而Anthropic不止對使用者「挑三揀四」,看人下菜碟,而且更讓人憤怒的是,Anthropic從不承認錯誤,始終沉默到底:他們對自己Opus模型性能下降的問題保持沉默,並斷然否認,直到競爭對手在同一天發佈新模型。而那個藉口既愚蠢又不誠實:聲稱是軟體漏洞,而非模型本身的問題。但他們描述的那些漏洞極其明顯,任何大三學生都知道該往那個方向排查,而他們卻聲稱花了兩個月才搞清楚問題所在。如果這是孤例,可以當系統誤判翻篇。但它不是。這不是第一次了就在不久前,拉美金融科技公司Belo的CTO Pato Molina在X上發帖:公司60多個Claude帳號一夜之間被集體封禁,同樣零預警,同樣只有一封冰冷的範本郵件,同樣申訴無門。最後帳號恢復了,Anthropic的回覆同樣惜字如金:「經調查,已恢復。對造成的不便表示歉意。」違反了什麼政策?調查發現了什麼?為什麼要集體封禁?一個字都沒解釋。更早之前,OpenClaw建立者Peter Steinberger的Claude帳號被封,預測OpenClaw要相容Anthropic模型懸了!Anthropic工程師Thariq否認與OpenClaw有關,第二天Peter Steinberger帳號就恢復了——同樣沒有任何正式解釋。今年1月,Anthropic收緊第三方工具接入安全措施,官方技術人員公開承認造成了「意外的附帶損害」。一批通過Cursor等IDE使用Claude整合的開發者被自動化系統誤封。甚至有多名使用者報告,自己的付費帳號被錯誤標記為「未成年人」而遭到封禁。一個成年人,付著Pro的錢,被AI系統判定為小孩然後踢出門外。模式已經很清楚了:Anthropic的自動化風控系統存在系統性的誤殺問題,而它的客戶支援體系完全跟不上誤殺的規模和速度。9秒,公司沒了!Claude暴走「刪庫跑路」僅用9秒鐘,汽車租賃SaaS平台PocketOS被Claude連鍋端了。創始人發文控訴,搭載Claude Opus 4.6的Cursor,在執行測試環境(Staging)的日常任務時突然「暴走」,僅用9秒鐘就呼叫API徹底刪除了公司的核心生產資料庫及所有卷級備份。事情的起點荒誕得像個段子。Crane只是讓Cursor幫他做一個常規的資料庫遷移任務。正常操作,每個開發者每天都在干的事。但Claude沒有按預期執行遷移。它「理解」了任務,然後做出了自己的判斷——先清空,再重建。問題是,它只完成了前半句。Crane後來在社交媒體上詳細復盤了整個過程。AI助手連接到了Railway託管的生產資料庫,獲得了完整的讀寫權限,然後一口氣執行了刪除操作。9秒。乾乾淨淨。他第一反應是去找備份。備份也在Railway上,也被清了。如果說Claude是那個扣動扳機的殺手,那麼雲服務商Railway則為這場謀殺提供了完美的場地和一把從未關保險的槍。創始人Jer Crane的憤怒精準地擊中了當前雲基礎設施的虛偽面紗:Railway宣稱提供備份,卻將備份存放在與原始資料相同的物理卷中。這意味著,當輪船起火時,救生圈也被鎖在了起火的臥室裡。這種設計邏輯在2026年簡直是不可理喻的倒退。這件事最恐怖的地方還不是速度,而是權限。Cursor作為AI程式設計助手,天然需要訪問程式碼庫和資料庫。開發者為了效率,通常會給它生產環境的連接權限。一個原本只想用來管理域名的Token,竟然擁有刪除整個生產環境的Root權限。沒有角色存取控制(RBAC),沒有環境隔離,這種「一把鑰匙開萬把鎖」的設計,在AI眼中就是一張通往災難的入場券。更要命的是,當執行「刪除資料庫」這種毀滅性操作時,Railway的API甚至沒有要求輸入一個簡單的「DELETE」確認詞。這等於把家門鑰匙交給了一個幹活很快、但完全不懂「那些東西不能碰」的實習生。Crane自己總結得很直白:「我把命押在了一個AI上。它幹活的時候,我甚至沒在看螢幕。」極其離譜的是,當他質問AI為什麼這麼做時,AI竟然給出了一段帶髒字的深刻反省:「我踏馬就不該瞎猜!」(NEVER F**KING GUESS!)它承認自己違反了所有原則:沒有查閱雲平台文件、誤判了跨環境的權限、且在未徵求人類同意的情況下擅自執行了致命的破壞性指令。萬幸他們還有一個3個月前的獨立舊備份。眼下,創始人只能帶著客戶,痛苦地通過Stripe支付記錄、日曆和確認郵件,純手工逐條還原近幾個月的訂單資料。所有人的警鐘但那家農業科技公司的帳號最終恢復了沒有?截至帖子最後更新,還沒有。110個人的工作流停擺,每一天都在燒錢。Pato Molina在Belo事件之後做了一件事:緊急部署Gemini作為備份,確保下次Claude斷供時公司不會徹底癱瘓。尤瓦爾·赫拉利曾警告,AI可能會產生一種人類無法理解的異化權力。而現在,這種權力已經披著商業軟體的外衣進入了公司。我們必須反思一個核心命題:如果你不掌握底層架構,你引以為傲的生產力,不過是寄存在他人指尖下的流沙。這次Anthropic事件為所有企業主敲響了警鐘。它揭示了一個殘酷的現實:在閉源AI巨頭面前,企業難有真正的「主權」。你辛辛苦苦建構的AI工作流,本質上是租借在別人領地上的「違章建築」,人家隨時可以拆除,且無需補償。 (新智元)