近日,Anthropic發了一篇全新文章。
名字叫《When AI builds itself》。翻譯過來叫,《當人工智慧開始自我建構》。他們甚至還為這篇文章,配了一個超級精美的、非常能體現Agent自我建構這個理念的動畫,由此可見Anthropic對這篇內容的重視程度可見一斑。
這篇文章的核心觀點是:AI正在以指數級速度實現自我建構,人類在AI開發中的角色正從執行者快速退化為僅保留“研究品味”的監督者,而這一趨勢可能導致人類在完全遞迴自我改進的系統中失去控制。具體包括:
- 資料爆發:Anthropic工程師每季度交付的程式碼量是2021-2025年的8倍,80%以上程式碼由Claude編寫,且程式碼質量即將超越人類。
- 能力躍遷:AI可獨立完成的任務時長每4個月翻一番,從4分鐘飆升至16小時,2027年可能處理數周級任務。
- 研究品味可自動化:在開放式研究中,Claude在64%的“下一步決策”中優於人類,暗示判斷力這一“人類最後堡壘”正在被侵蝕。
- 風險警鐘:如果AI能完全自主設計繼任者,人類可能喪失對系統的理解與控制,且當前缺乏全球協調的暫停或減速機制。
以下是《When AI builds itself》原文翻譯:
《當 AI 開始建構自己》
在 AI 的大部分歷史中,開發周期的每一步都由人類驅動。但在 Anthropic,我們正在將越來越多的 AI 開發工作交給 AI 系統自身來完成,而這正在加速我們的工作。
如果把這個趨勢推到極致,並給予充足的算力,它所指向的終點,是一個能夠完全自主地設計和開發自己下一代的 AI 系統。這就是所謂的遞迴自我改進。我們還沒有走到那一步,遞迴自我改進也並非必然發生。但它到來的速度,可能遠超大多數機構的預期和準備。
借助公開基準測試以及此前從未對外披露的 Anthropic 內部資料,Anthropic 研究院正在展示一個事實:AI 已經在加速 AI 系統自身的開發。僅舉一例:如今 Anthropic 的工程師平均每季度交付的程式碼量,是 2021 年至 2025 年間的 8 倍。
本文所討論的技術趨勢表明,AI 系統在未來幾年將變得更加強大。這些趨勢蘊含著巨大的影響。能自己建構自己的 AI,將是技術史上的重大里程碑,它可能在科學、醫療等領域為世界帶來巨大的福祉。但完全的遞迴自我改進也可能加劇人類失去對 AI 系統控制的風險。如果系統有能力完全自主地建構自己的繼任者,那麼我們對它們的安全防護、監控和行為塑造就變得更加重要。
01
來自外部世界的證據
AI 模型改進的速度正在加快,模型能夠獨立可靠完成的任務時長,大約每四個月翻一番,比此前每七個月翻一番的趨勢明顯加速。2024 年 3 月,Claude Opus 3 能完成人類大約需要四分鐘的軟體任務。一年後,Claude Sonnet 3.7 能處理大約一個半小時的任務。再過一年,Claude Opus 4.6 已經能勝任 12 小時的任務。如果這個趨勢持續下去,需要一個熟練工程師花幾天才能完成的任務,今年內就可能落入 AI 的能力範圍。到 2027 年,AI 系統可能有能力處理需要一個人花幾周完成的任務。同樣的模式也出現在程式設計和研究基準測試中。基準測試衡量模型在特定領域的表現,當模型的得分接近 100%,我們就說基準被"飽和"了。SWE-bench 是一個標準的真實世界軟體工程測試:它給模型一個真實的開放原始碼庫和一份真實的 Bug 報告,要求模型寫出修復程式碼,並通過該項目自己的測試。模型的得分從最初的個位數百分比到飽和整個基準,只用了兩年。CORE-Bench 測試的是模型能否復現已有研究,這是開展原創研究的前提條件。它將一篇已發表論文的程式碼和資料交給 AI 模型,要求它重新運行所有內容並確認能否復現論文的結果。AI 系統的成功率從 2024 年的約 20% 上升到 15 個月後飽和整個基準。營運長時任務基準測試的 METR 機構發現,Claude Mythos Preview 能夠"至少"連續工作 16 小時,並且處於"METR 在不增加新任務的情況下所能測量的上限"。公開基準測試能揭示很多關於這些系統能力的資訊。但它們無法展示 AI 系統在加速 AI 開發本身方面產生了多大影響。要看到這一點,我們需要來自 Anthropic 這樣的 AI 公司內部的直接證據。
02
來自 Anthropic 內部的證據
建構一個前沿模型需要兩大類工作。
一類是工程:編寫程式碼、搭建基礎設施、監督模型訓練。另一類是研究:決定運行那些實驗、解讀實驗結果、想清楚下一步該嘗試什麼方向。
在工程和研究這兩個方面,我們看到的圖景是一致的。在工程領域,Claude 可以接手一個描述模糊的問題並自行找到解決方案;人類提供目標,但不再需要提供方法。在研究領域,對於一個定義清晰的實驗,Claude 已經能夠匹配甚至超越熟練人類的執行水平。然而,在運用判斷力來選擇目標這件事上,無論是工程還是研究,Claude 與人類之間仍然存在顯著差距。這正是今天的 AI 與一個能自主設計自己繼任者的未來系統之間的鴻溝。
在 Anthropic,員工隨著經驗積累,通常會接手越來越開放、越來越重要的任務。早期階段,你執行的是別人指定好的任務,比如"匯出按鈕壞了,請修一下。"積累了經驗之後,你會拿到一個目標,然後自己設計實現路徑,比如"排查一下網路在高負載時為什麼變慢。"到了最高層級,你要決定的是那些問題值得去解決:"團隊下個季度應該做什麼?"我們可以用 Anthropic 的內部資料來看看,Claude 在處理這些不同層級的任務時已經走了多遠。
Claude 編寫了 Anthropic 程式碼庫中相當大的比例。
截至 2026 年 5 月,我們合併到 Anthropic 程式碼庫中的程式碼,超過 80% 由 Claude 編寫。在 Claude Code 於 2025 年 2 月以研究預覽版發佈之前,這個數字還在個位數的低端。這一轉變也反映在每位工程師的產出上。在 Anthropic 的頭四年(2021–2024),每位工程師每天合併的程式碼行數基本持平,然後在 2025 年開始攀升——因為 Claude 從只是建議程式碼,變成了可以自己運行程式碼。2026 年這條曲線再次變陡,因為模型開始在更長的時間跨度上自主工作。下面的圖表展示了這兩個拐點。在 2026 年第二季度,一名典型工程師每天合併的程式碼量是 2024 年的 8 倍。其原因在於,大部分程式碼是由 Claude 編寫的,工程師的角色轉向了指導和審查,而非親手敲程式碼。
一個需要說明的地方是:程式碼行數是一個不完美的衡量指標,因為它度量的是數量而非質量。所以 2026 年第二季度 每位工程師每天 8 倍的程式碼行數,幾乎可以肯定是對真實生產力提升的高估。儘管如此,它仍然指示了一種加速。在 Anthropic,我們不以程式碼行數來衡量員工的貢獻;團隊成員產出更多程式碼,純粹是因為他們在使用 AI 系統來編寫更多程式碼。
程式碼行數的增長與主觀感受到的巨大生產力提升是吻合的。2026 年 3 月,一項覆蓋 Anthropic 研究團隊 130 名員工的內部調查中,受訪者的中位數估計是:在他們本來就會去做的那些項目上,使用 Mythos Preview 大約讓他們的產出變成了不使用任何 AI 模型時的 4 倍。我們預計 3 月的真實提升幅度會略低一些。但我們認為這個整體判斷是可信的,也與我們的其他觀察一致:Anthropic 相當比例的技術人員,完成核心工作的速度已經是無 AI 輔助時的數倍。
我們還看到,Anthropic 員工在用 Claude 做一些原本根本不會發生的工作:比如建構探索性工具、處理長期積壓的清理任務。舉個例子,2026 年 4 月,Claude 交付了超過 800 個修復,將一類 API 錯誤的發生率降低了一千倍。負責監督 Claude 的工程師估計,如果由人類來做,這項工作需要四年才能完成;修復別人的 Bug 是緩慢而痛苦的,人類很難同時在腦中持有那麼多不熟悉的上下文。
Claude 寫出的程式碼"夠好",並且還在變好。
"好程式碼"有兩層含義:它能用,而且寫法能讓另一位工程師看得懂、接著往下開發。在第一個標準上,證據非常清晰。過去一年裡,Anthropic 員工糾正 Claude、在任務中途接管、或將 Claude 引回正軌的頻率在持續下降,即使是在最複雜、最開放的任務上也是如此。所謂開放的任務,指的是沒有明確規格說明的問題,工程師自己也不確定答案長什麼樣。下面的圖表展示了 Claude 在不同難度任務上的成功率隨時間的變化。Claude 寫的程式碼確實能用。
在最開放的任務上,Claude 的成功率在 2026 年 5 月達到 76%,六個月內提高了 50 個百分點。舉一個屬於這個難度層級的例子:一次常規升級導致數萬個訓練任務崩潰。一名工程師只給了 Claude 一些文字內容和叢集存取權,就把它指向了這個正在進行中的事故。Claude 逐一檢查運行中的任務、逐個測試環境配置項,最終定位到了一個導致崩潰的冷門偵錯標誌位,穩定地復現了問題,並確認了修複方案。Claude 大約花了兩小時,完成了通常需要兩到三天的工作。
第二個標準是寫出其他工程師能看懂並在此基礎上繼續開發的程式碼。在這一點上,人類和 AI 之間的差距仍然存在,但正在快速縮小。Anthropic 內部並非完全一致,但許多人認為:2025 年末時 Claude 寫的程式碼質量仍然不如 Anthropic 人類工程師的水平,而到了今天大致達到了同等水平。我們預計年內 Claude 的程式碼質量將超過人類。
這已經改變了 Anthropic 審查自身程式碼的方式。我們對程式碼庫的變更提交,現在會先經過一個自動化的 Claude 審查器,它會在程式碼合併前檢查 Bug、安全漏洞和其他缺陷。我們用這個工具做了一次回溯分析,發現如果對程式碼庫的每一次變更都做自動 Claude 審查,大約三分之一曾經在 claude.ai 上引發過事故的 Bug 本可以在進入生產環境之前就被攔截。而寫出那些程式碼的工程師,是全世界建構這類系統最優秀的人。Claude 現在正在捕捉他們遺漏的錯誤。
"2025 年末,Claude 寫的程式碼質量還略遜於 Anthropic 人類工程師的程式碼,到今天大致持平,我們預計年內將明確超越。"
Claude 擅長在他人設定好目標後執行實驗。
每次 Anthropic 發佈模型,我們都會跑同一套測試:給 Claude 一段訓練小型 AI 模型的程式碼,要求它在通過同樣的正確性檢查的前提下,讓這段程式碼跑得儘可能快。目標和成功指標是預先固定的,Claude 的任務是通過重寫程式碼、運行、計時、反覆迭代來找到加速方案。這是一個微縮版的實驗研究循環。2025 年 5 月,Claude Opus 4 平均將程式碼速度提升了約 3 倍。到 2026 年 4 月,Claude Mythos Preview 達到了約 52 倍。作為參照,一名熟練的人類研究員需要四到八小時才能達到 4 倍。在研究工作流的這個環節,在一個清晰定義的實驗框架內進行最佳化。Claude 在不到一年的時間裡,從"非常有幫助"變成了"超越人類"。
"現在的格局大致是這樣的:人類有想法,模型能夠以比以前快一個數量級的速度去實現、測試和驗證這些想法。"
Claude 在自主提出實驗方面也越來越強。
2026 年 4 月,Anthropic 發表了首個 Claude 端到端獨立完成開放式研究項目的案例。由 Claude 驅動的智能體被交給了一個 AI 安全方向的開放問題,大致是"一個較弱的模型能否可靠地監督一個更強的模型",然後被放手去解決。這個過程涉及提出假設、測試假設、與平行智能體共享發現、反覆迭代。這項任務有一個明確的表現"下限"和"上限":下限是弱監督器獨自工作的表現,上限是強模型在正確答案上訓練後的表現。兩位人類研究員用了大約一周時間,彌合了大約 23% 的差距;智能體們則在累計 800 小時的工作和大約 18000 美元的算力消耗下,彌合了 97%。這項工作有一些值得注意的侷限:結果沒有乾淨地遷移到生產規模的模型上,而且問題的選擇和評分標準仍然是人類制定的。但在這些邊界之內,每一個實驗都是智能體自行設計的。人類唯一實質性發揮的作用,只是確定研究方向。
“這些工作 Claude 幾乎在一到兩天內就完成了,我幾乎沒怎麼插手。我覺得如果一個初級同事在同樣的時間裡交回這樣的結果,我會小有驚喜。未來已經到了。”
Claude 在將研究會話引向有價值發現方面越來越出色。
我們檢視了 2026 年 1 月至 3 月間的真實 Claude Code 會話,這些會話中 Anthropic 研究員與 Claude 協作解決一個開放式的探索性問題——比如查明某次訓練運行為何持續崩潰,或某個模型在基準測試上表現不佳的原因。
在每個案例中,我們都找到了一個研究員"繞了彎路"的時刻:他們追了一個方向,導致會話偏離正軌,之後才回到正確路徑上。然後我們只將偏離之前的工作內容展示給不同版本的 Claude 模型,問它下一步會怎麼做。另一個能看到整個會話最終走向的 Claude 實例則負責評判:是 AI 還是人類給出了更好的下一步建議。
由於我們刻意選取的(n=129)都是人類判斷有改進空間的時刻,這並不是一個模型與人類判斷力之間的公平對比。這些時刻給我們提供的,是一組真實的、有挑戰性的情境——正確的下一步並不顯而易見,而人類的選擇可以作為一個有用的參照標尺來比較模型隨時間推移的進步。
按照這個指標,2025 年 11 月我們最好的模型(Opus 4.5)有 51% 的時間給出了比人類更好的選擇;到 2026 年 4 月(Mythos Preview),這個比例增長到 64%。研究的日常工作在很大程度上就是這樣一連串"下一步決策"的鏈條,因此這是一個衡量模型最終能否獨立開展調查的相關指標。我們將這一結果視為一個早期訊號:AI 系統正在越來越擅長做出 AI 研究所依賴的那種判斷。
"就目前而言,人類的比較優勢仍然在於看到更大的圖景,在直接任務的範圍之外去思考。"
03
未來 Anthropic 的工作可能是什麼樣?
證據表明,在 AI 開發流程的每一步中,人類的角色都在縮小。一旦人類和 AI 編寫的程式碼質量達到同等水平,人類將完全停止寫程式碼,轉而只做審查。但如果他們審查程式碼的速度跟不上 Claude 生成程式碼的速度,人工審查就會成為 AI 開發的新瓶頸。同樣的,當 Claude 能夠自己運行實驗時,問題就變成了"這些實驗中那些值得去做?"
簡單來說:執行層面的工作,寫程式碼、跑實驗、產出結果,在人力時間上的成本已經趨近於零,儘管在算力層面仍然有成本。
人類目前仍保有比較優勢的領域是研究品味和判斷力:選擇那些問題重要、那些結果可信、什麼時候一條路走不通該及時止損。
"工作(和生活)過去運行在人與人之間小恩小惠的禮物經濟上。'能幫我把這個指令碼跑起來嗎?'……每一次都創造一點點人情債,一點點彼此的聯結。Claude 更快,它不產生任何人情債,但每一次這樣的替代,都是一次人際協作的機會的失去。"
"在一切順利的日子裡,我忍不住覺得自己做的事都不重要了,一切都被自動化了,而且比我做得更好更快。但總有些日子,所有東西都在崩潰,我不知道為什麼,那時候我才意識到,我已經不太清楚自己到底一直在幹什麼了。"
04
如果我們錯了呢?
對上述證據一個自然的反駁是:仍然掌握在人類手中的那部分工作,選擇要解決那些問題才是最關鍵的。沒有這種判斷力,Claude 只是一個能幹的助手,而非一個能獨立驅動 AI 進步的系統。
今天的訓練方法和架構能否釋放這種能力,確實尚不清楚。但 AI 的進步很少依靠"靈光一現"。在 AI 的近代史上確實有過幾次這樣的時刻,比如 Transformer 架構和混合專家模型,但這種範式級的突破相隔數年才出現一次。在兩次突破之間,大部分進展都是漸進式的:我們把某個東西做大,看看那裡會出問題,修好它,再試一次。而這恰恰是 Claude 現在最擅長的工作流。愛迪生說天才是 1% 的靈感加 99% 的汗水。但我們看到的是,那 99% 的汗水正在被越來越多地自動化。
事實已經越來越清楚:推動前沿進步的工作中,相當大一部分是可自動化的。大規模研究進展在很大程度上取決於工具和資源,它們決定了你能多快地運行實驗、同時運行多少個、以及多快拿到結果。
即使假設 Claude 永遠無法擁有良好的研究品味,對我們證據的保守解讀仍然意味著一種複合式的加速。如果人類將大部分時間花在僅佔個位數百分比的方向設定工作上,而 Claude 處理剩下的一切,那就意味著每位工程師或研究員所駕馭的工作規模遠超從前。我們看到的證據表明,Anthropic 的員工既在更快地推進,也在覆蓋更廣泛的領域。實際上,這意味著 AI 已經讓 Anthropic 比有效 AI 工具出現之前運轉得快得多。
更大膽的解讀則是:Claude 在研究判斷力上的早期改進訊號——雖然今天還很有限,但這恰恰說明這項能力本身也在提升。所謂"研究品味"可能只是又一項 AI 能力,AI 系統會在這上面失敗一段時間,然後變好。我們在其他定性技能上見過同樣的模式,比如 AI 系統理解一個笑話為什麼好笑、展現心智理論能力、以及解開語言謎題。
05
可能的未來
接下來會發生什麼,取決於兩件事:趨勢是否延續,以及如果延續,我們選擇如何應對。我們至少可以設想三種未來情景:
情景一:趨勢停滯,但當前 AI 能力已經廣泛擴散
本文中出現了許多指數級增長的軌跡。但這些軌跡實際上可能是 S 曲線。我們也許正在逼近曲線的拐彎處——回報遞減,增長曲線先趨平、再走平。那種區分一個合格研究員和一個卓越研究員的判斷力,可能是一種無法通過堆疊算力和資料等訓練資源來獲得的能力。如果確實如此,突破這一瓶頸將需要新的思路,比如一種取代當前所有前沿模型所使用的 Transformer 架構的全新架構範式。
另一種可能是,AI 進步的約束不在模型本身,而在供應鏈:推進和普及前沿技術所需的能源和算力,可能超出了當前的供給能力。晶片製造、電網擴容或互聯頻寬的速度可能才是真正的瓶頸,而非智能本身。我們也不能排除某種外部衝擊對 AI 生態系統造成嚴重拖累,比如算力或電力供應的突然收縮,這兩者中的任何一種都會減緩進步,並使實驗室的前瞻性投資變得更加昂貴。又或者存在某種我們尚未預見到的其他障礙。
即使模型能力被凍結在今天的水平,我們也預期世界將發生重大變化。Project Glasswing 就是一個早期訊號:在啟動後的最初幾周裡,Mythos Preview 在全球最重要的系統中發現了超過一萬個高危和嚴重等級的軟體漏洞,以至於網路安全防禦的瓶頸已經從發現漏洞轉移到了能否足夠快地修補它們。
而當前這些模型向更廣泛經濟領域的擴散仍處於早期階段,在那個世界裡,一家 100 人的公司越來越有可能做出 1000 人公司的體量,因為每個員工都將坐在一個由智能體組成的金字塔的頂端。
我們列出這個情景是為了完整性,但我們並不認為它的可能性很高。我們能測量到的每一項能力,包括那些感覺更"軟"的,比如程式碼質量和開放式任務的成功率,到目前為止都遵循著同一條曲線。我們還沒有看到這條曲線出現彎折。在我們考慮的三種未來中,這一種會給各國政府和社會留出最多的適應時間。我們更擔心的是接下來兩種,它們的推進速度更快,留給準備的窗口也小得多。
情景二:AI 實驗室持續獲得復合效率增益
在這個情景中,AI 開發被大幅自動化,但人類繼續設定研究方向、評判研究結果。使用 AI 系統的組織將隨著時間推移變得高效得多,因此我們可以預期每個人身上出現顯著的生產力乘數效應。100 人的公司可以完成一萬人甚至十萬人組織的工作量。這將徹底改變知識工作的面貌,但也可能被用於有害目的,從對全體國民的威權式監控,到針對每一個個體量身定製的操縱行動,這種行動的規模遠超任何人類團隊的能力上限。Anthropic 這樣的公司中,人類的角色將發生轉變。人們將與 AI 系統搭檔來擴展研究規模、產生新的洞見,並共同建構用於驗證 AI 輸出可信度的系統。
我們呈現的證據表明,我們很可能正在進入這個情景。但加速一個流程的某個環節,往往只是把瓶頸轉移到了別處:整體速度受制於那些沒有被加速的部分。在電腦科學中,這被稱為阿姆達爾定律,同樣的邏輯也適用於組織。Anthropic 已經遭遇了阿姆達爾定律的一個典型症狀:當我們在組織內部推送越來越多的程式碼時,人工程式碼審查成了新的瓶頸。
我們在工程之外也遇到了同樣的摩擦。由於 Anthropic 員工與高能力模型的協作,新的想法、計畫、工具和模擬呈爆發式增長,遠遠超出了我們有能力去追蹤的範圍。一個組織能多快地發現並消除這些瓶頸,這本身可能是一種隨時間推移會不斷精進的技能,也可能成為任何組織最重要的能力。
情景三:AI 系統自身具備完全的遞迴自我改進能力,並開始建構自己的繼任者
如果推動能力進步的技術趨勢持續下去,並且 AI 系統能夠發展出蘊含人類變革性創造力的那些能力,那麼 AI 系統有可能設計和改進自身。
在這個世界裡,AI 發展的速度將完全取決於可用算力(或者在演算法訓練和推理層面發現各種效率提升的速度)。人類在 AI 開發中的角色將大幅縮減,大部分精力可能轉向對一個不斷擴張的 AI "虛擬實驗室"進行監督、驗證和確認。我們預計,一個有能力自動化 AI 研發的系統,其技能也能遷移到其他科學領域,從而開始革新更多學科。
在這個未來中,對齊問題會如何被解決——或者無法被解決,是我們最不確定的部分。模型可能被證明足夠對齊,也足夠具備研究品味,從而發現並實施我們尚未觸及的新穎解決方案。它們也可能足夠審慎,在條件不成熟時選擇暫停開發。另一種可能性是,今天模型中偶爾出現的對齊偏差,在模型建構自己繼任者的過程中不斷累積,但越來越難以被理解,直到我們失去對它們的控制。也有可能,我們根本無法建構、整合和驗證那些我們需要的工具,去判斷自己到底處於那條趨勢線上。
我們對這個世界會是什麼樣子缺乏好的直覺,因為我們當前的經濟體系是由人類和人類建構的工具驅動的。就其本質而言,隨著其能力全面超越人類,一個由快速遞迴自我改進驅動的世界,可能會被那個自我改進的模型所主導,並在更廣泛的經濟體系中擴散。如果人類勞動不再具有競爭力,很難預測經濟將呈現什麼面貌。
即使模型開發變得完全自動化和遞迴化,我們也無法預測這對大多數人的日常生活意味著什麼。阿姆達爾定律在這裡同樣適用。遞迴智能可能讓 Machines of Loving Grace 中描繪的許多願景得以實現,在某些領域甚至很快。我們預計具身智能(即機器人技術)可能會緊隨遞迴智能而來,並走上一條類似的"投入遞減而回報遞增"的路徑。更強大的智能可能幫助我們更快地在物理世界中建造事物、更高效地開展救命藥物的臨床試驗、發展出新型的協作形式。
但僅僅實現遞迴改進,並不意味著工業生產、社會組織或市場運行方式會立即改變。再多的智能也無法縮短一種藥物在幾十年使用中才能暴露的效應,無法讓選舉早於憲法規定的時間舉行,也無法在一個周末把陌生人變成老朋友。對大多數人而言,這個未來的體感速度,仍然由瓶頸決定——即使上游的實驗室已經在以算力的速度運轉。這個碰撞點以越來越快速度建構自身的遞迴智能遭遇人類世界、人際關係和治理結構,這一切是這個未來中我們同樣無法預測的另一面。
06
我們應該怎麼做?
如果能有效地減緩這項技術的發展速度,從而為我們爭取更多時間來應對其巨大影響,我們認為這很可能是一件好事。但如果減速只是讓最不謹慎的參與者在技術上追趕上來,那最終可能讓所有人都更不安全。在沒有全球協調機制的情況下,企業和政府將不得不在競爭壓力和地緣政治壓力下做出關於安全的艱難決定。
我們相信,讓世界擁有減緩甚至暫時暫停前沿 AI 開發的選項,從而讓社會結構和對齊研究能跟上技術前進的步伐,對世界是有益的。Anthropic 研究院與其他許多機構合作開展研究並採取行動,幫助建立一個可信的減速或暫停所需要的體系。這些體系將使前沿 AI 開發者能夠核實其他參與者是否在全球範圍內確實已經停止或減速,以及是否有不良行為者利用協調減速的掩護秘密搶跑。如果這樣的體系存在,我們預計我們會選擇減速或暫時暫停,當然前提是其他處於或接近前沿的開發者也以可驗證的方式這樣做。
有意義的減速或暫停需要多家分處多個國家、處於或接近前沿資源充沛的實驗室在相同條件下達成停止協議。它還要求各方能夠驗證其他方確實已經停止。由於 AI 系統的獨特特性,這個軍控問題中的可探測性(一個低於可驗證性的標準)要素,比其他技術困難得多。
訓練運行比導彈發射井更容易隱藏,其投入物都是通用的,而且在別人暫停時悄悄繼續的誘惑巨大,因為誰在別人停下時繼續前進,誰就可能繼承領先地位。一個可信的暫停還必須明確規定什麼條件觸發它、什麼條件解除它、以及由誰來裁定。
這些在原則上都未必是不可能的,世界曾經為其他複雜技術建立過核查機制(例如中導條約),但那些機制花了幾十年才建立起基礎設施和信任。我們沒有那麼多時間。
相比之下,一家實驗室的單方面暫停可以立即執行,但效果要有限得多:它會改變誰是領跑者,但不會創造出當前所缺少的更廣泛的審議處理程序。
在未來幾個月,我們將組織政策制定者、研究者、公民社會和其他 AI 公司之間的對話,共同幫助回答本文提出的一些問題:尤其是圍繞完全遞迴自我改進以及如何創造更好的協調與審議選項。 (藍血研究)
