Anthropic呼籲全員停止AI研究

2026/06/05

•

重要發現：AI的自進化，開始了。

這是Anthropic剛剛在長文部落格中，發表的暴論。

我們的內部資料顯示，Claude正在加速AI發展，這可能是一條遞迴自我提升（RSI）的路徑。

並非「危言聳聽」，看了下文章，Anthropic是真的實打實地用資料在說話——

截止今年5月，80%以上的Anthropic程式碼，都是Claude寫的。

而在Claude Code發佈之前，這個數字還僅是個位數。

與此同時，Anthropic工程師平均每季度交付的程式碼量，是2021-2025年的8倍。

更重要的是質量——

在最開放、最模糊、連答案長什麼樣都不確定的程式設計任務上，Claude的成功率現在是76%，六個月前才26%。

50個百分點的跳升。半年。

Anthropic內部已經有不少工程師覺得，Claude寫的程式碼質量和人類打平了。

預計年內會超過。

Anthropic還強調，如果這個趨勢持續下去，AI自己設計和建構下一代AI，是完全可能的。

這可能徹底改變社會，在醫療、科技、經濟領域帶來巨大的好處。但也可能讓對齊問題疊加惡化，最終導致失控。

因此，Anthropic帶頭呼籲：

如果存在一個可驗證的機制，能保證AI實驗室確實都沒偷偷卷，我們願意減速、甚至暫停。

除此之外，Anthropic的這篇部落格裡，還放出了蠻多有意思的觀點和事實。

以下是經過整理，更方便大家閱讀的版本。

Enjoy。

Anthropic長文定調

AI圈的摩爾定律來了

Anthropic建立了個全新的衡量維度，叫「AI能獨立完成的任務時長」。

2024年3月，Claude Opus 3能搞定人類大概需要4分鐘的軟體任務。

一年後，Claude Sonnet 3.7，1.5小時。

又一年，Claude Opus 4.6，12小時。

而最新的Mythos，在內測中的表現是：

能連續工作「至少」16小時，已經到了METR測試框架能衡量的上限了。

這個翻倍速度，從原來的每7個月翻一倍，加速到了每4個月翻一倍。

如果趨勢不變，2027年，可能是好幾周。

Claude編寫了大部分Anthropic程式碼

截至2026年5月，我Anthropic程式碼庫的程式碼，超過80%由Claude編寫。

在Claude Code發佈前，這個數字一直只有個位數。

這種變化，也體現在工程師的工作方式上。

在 Anthropic 的最初四年，工程師每天Merge的程式碼行數基本保持不變。

2025年， Claude開始自己寫程式碼，merge數突然開始飆升。

如今，2026年第二季度，工程師每天merge的程式碼量是2024年的8倍。

不過，程式碼量上去了，程式碼質量是不是注水了？

Anthropic說，這一年來，工程師糾正Claude的次數，越來越少了。

這一點，在benchmark中可見一斑，如下圖所示。

所有難度類型的任務中，Claude的成功率，無一例外的一路暴增。

所以，Anthropic現在乾脆用Claude來review程式碼。

是的，所有提交到程式碼庫的改動，都會先過一遍Claude自動審查，檢查bug、安全漏洞和其他缺陷。

他們回溯分析發現，如果之前每次改動都有這道自動審查，大約三分之一導致claude.ai線上事故的bug，上線之前就會被攔下來。

要知道，寫那些程式碼的工程師，已經是全世界造AI系統最頂尖的一批人了。

Claude在抓他們的錯誤。

創造力的放大鏡

接下來是Claude在研究層面的參與程度。

Anthropic有個慣例，每次發新模型，都會給Claude一段訓練小型AI模型的程式碼，讓它在保證正確性的前提下，把運行速度最佳化到最快。

2025年5月，Claude Opus 4交出的答案是：加速3倍。

2026年4月，Claude Mythos Preview做到了52倍。

作為參考，一個熟練的人類研究員，需要4到8個小時才能勉強達到4倍。

不到一年的時間，Claude超過了人類。

2026年4月，Anthropic丟給Claude一個AI安全研究，大意是「一個弱模型能不能可靠地監督一個強模型」，然後讓Claude自己提假設、跑實驗……

這次先說人類的表現吧，兩個人類研究員花了大約一周時間，把gap縮小了23%。

而Claude，在大約800小時、花了大約18000美元的算力之後——

縮小了97%。

我們何去何從？

到這裡為止，結論已經很清楚了。

人類在AI開發流程裡的角色，每一個環節都在縮小。

程式碼，Claude寫了。程式碼review，Claude做了。實驗執行，Claude快了人類一個數量級。實驗設計，Claude開始自己來了……

人類現在最後的比較優勢，是研究品味和判斷力。

但這個優勢能守多久？

Anthropic在部落格裡說，他們也不確定。

一種可能是，「研究品味」就像之前AI不會的其他東西一樣，先是做不到，然後突然就做到了。

就像AI理解幽默、展示心智理論、解語言謎題，都經歷了同樣的曲線。

另一種可能是，即便Claude永遠學不會真正的研究品味，僅靠現在的加速趨勢，每個人類研究員能同時指揮的工作量已經大了好幾倍。

你不需要AI完全替代你思考，它只要把所有「執行」的活全幹了，你就只需要做那5%的方向選擇。

RSI的三種未來

部落格結尾，Anthropic描繪了關於這次「自進化」趨勢三個可能演化方向。

1、停滯。

那些指數曲線其實是S曲線。

也許研究判斷力這個東西就是沒法靠scale解決，需要一種全新的架構突破。

或者，瓶頸在能源、在晶片、在算力的物理供應鏈上。

不過，即便AI的能力就停滯在今天的水平，也會發生對世界帶來重大變化。

前段時間的Project Glasswing，Mythos Preview在上線頭幾周就發現了超過一萬個高危和嚴重等級的軟體漏洞，遍佈全球最關鍵的系統。

2、AI持續加速，但人類仍然把著方向盤。

組織效率會指數級提升，100人的公司做1萬甚至10萬人的活。知

Anthropic覺得我們大機率正在走進這個場景。

但他們也發現了一個有意思的現象，就是阿姆達爾定律在組織裡的體現_

Claude把程式碼寫得飛快了，結果程式碼review變成了新瓶頸。各種新想法、新工具、新實驗爆炸式湧現，遠超組織的消化能力。

瓶頸不會消失，只是轉移到下一個環節。

3、AI實現完全的遞迴自我提升，開始自己造下一代自己。

這個場景下，AI的發展速度完全取決於算力了。人類退到監督、驗證、稽核的位置。

如果真的發生，這種能力大機率會遷移到其他科學領域，醫學、材料、能源，全線起飛。

當然，另一種未來，是對齊失敗。

這種情況下，偏差會在AI自我迭代的過程中逐步累積，最終——完全失控。

OMT

以上，便是Anthropic此次關於自進化，最關鍵的幾個觀點。

說實話，最開始我其實沒太當回事，畢竟Anthropic馬上就要IPO了，這一波不是典型的「Anthropic式」公關？

你別說，這次，可能真的有點不一樣。

因為就在幾天前，OpenAI也發佈了類似的部落格：

我們也在當今系統中看到自進化的早期跡象： AI的發展本身也被AI加速。
我們預計這將加劇開發商和國家之間的競爭壓力，並帶來現有機構無法應對的治理挑戰。
隨著RSI的出現，社會需要方法塑造AI的發展軌跡，確保其服務於人類利益。

奇點，似乎來得比所有人預想的都要快。 (量子位)