如果你覺得AI還只是幫你改改郵件、寫寫周報的小助手,那可能有點低估它了。Anthropic最近把自己家底翻了一遍,發現一個有點震撼的事實:AI正在成為自己的“造物主”。
簡單說就是,從前AI怎麼進化,每一步都得人盯著、人動手。但現在,Anthropic越來越多地把AI開發的工作,直接交給AI自己幹。結果是:工程師每季度合併的程式碼量,是過去幾年的8倍;超過80%的新程式碼是Claude寫的;有些耗時幾天的活兒,它兩小時就幹完了。更厲害的是,AI不光能幹活,還能做判斷。比如給一個開放的研究問題,它自己能設計實驗、跑結果、找答案。在一個AI安全測試裡,兩個人類研究員花了一周解決了23%的問題,Claude用800小時和一萬八千美元的算力,解決了97%。按照這個速度,AI能獨立完成的任務時長,大約每四個月翻一倍。去年3月它能幹4分鐘的活兒,今年已經能幹12小時的了。按照這個趨勢,2027年左右,AI可能就能幹人類需要好幾周才能完成的事。當然,Anthropic也說了,這還不是“AI徹底自己造自己”的那一天——但那個叫“遞迴式自我完善”的東西,可能比大多數人想的來得快。好的一面是,科學、醫療、生產力可能會被推著跑起來。不好的一面是,如果AI真的能自己造自己,人類怎麼保證還能“管得住”它,就成了一個天大的問題。這篇文章有點長,但值得看完!
以下為編譯。
在 AI 發展史上的大多數時間裡,人類主導了它開發周期中的每一個環節。但在 Anthropic,我們正把越來越多的 AI 開發工作委託給 AI 系統自己完成,而這正在顯著加快我們的工作速度。
如果把這一趨勢繼續推遠,並給予足夠多的算力,它最終會指向一種 AI 系統:它能夠完全自主地設計並開發自己的後繼版本。這被稱為遞迴式自我改進(recursive self-improvement)。我們還沒有走到那一步,而且遞迴式自我改進也並非必然發生。但它到來的時間,可能會比大多數機構準備得更早。
借助公開基準測試,以及此前從未對外披露的 Anthropic 內部資料,Anthropic Institute 正在展示一個事實:AI 已經開始加速 AI 系統本身的開發。舉一個例子:今天,Anthropic 工程師平均每個季度交付的程式碼量,已經是 2021—2025 年期間的 8 倍。
本文討論的技術趨勢表明,未來幾年 AI 系統的能力還將大幅提升。這些趨勢意義重大。能夠“建構自己”的 AI,將會是技術史上的一個重大節點——它可能像 《Machines of Loving Grace》 所描繪的那樣,在科學、醫療等領域為世界帶來巨大的善意與進步。但完全意義上的遞迴式自我改進,也可能增加人類失去對 AI 系統控制的風險。如果系統真的具備完全建構其後繼版本的能力,那麼我們如何保障其安全、如何監控它、如何塑造它的行為,都會變得重要得多。
1 來自外部世界的證據
AI 模型提升的速度正在加快。它們能夠可靠獨立完成的任務時長,已經從更早期大約每七個月翻一倍的趨勢,加速為如今大約每四個月翻一倍。2024 年 3 月,Claude Opus 3 還能完成大約相當於人類 4 分鐘工作量的軟體任務。一年之後,Claude Sonnet 3.7 已經能處理相當於人類約 1 個半小時的任務。再過一年,Claude Opus 4.6 已經能完成 12 小時等級的任務。[^1] 如果這一趨勢延續下去,那麼今年之內,熟練人員需要花上數天才能完成的任務,就可能進入 AI 的能力範圍;到 2027 年,AI 系統或許將能勝任那些人類需要數周才能完成的任務。
同樣的模式也出現在編碼與研究基準測試上。基準測試衡量的是模型在某一特定領域中的表現,而當模型成績接近 100% 時,我們就說該基準被“飽和”了。[^2] SWE-bench 是現實世界軟體工程的標準測試之一:它會給模型一個真實的開放原始碼庫和一份真實 bug 報告,要求模型寫出能修復問題、並通過項目自身測試的程式碼變更。僅僅兩年時間,模型就在這個基準上從個位數低分一路走到接近飽和。
CORE-Bench 測試的是模型能否復現已有研究結果,這也是其未來開展原創研究的前提。測試方式是向 AI 模型提供一篇已發表論文背後的程式碼與資料,並要求它重新運行全部流程,確認自己能夠復現實驗結論。AI 系統在 2024 年時,復現成功率大約只有 20%;而僅僅 15 個月之後,這一基準也已趨於飽和。負責長時任務能力評測的 METR 還發現,Claude Mythos Preview 已經能夠工作“至少”16 小時,而且已經“觸及 [METR] 在不引入新任務前提下可測量能力的上限”。
公開基準可以告訴我們很多關於系統能力本身的資訊,但它們無法直接揭示 AI 系統究竟在多大程度上加速了 AI 自身的開發。要回答這個問題,我們需要來自 Anthropic 這類 AI 公司內部的一手證據。
2 Anthropic 內部的證據
建構一個前沿模型,大致可分為兩類工作。其一是工程:編寫程式碼、搭建基礎設施、監督模型訓練。其二是研究:決定要做那些實驗、解釋實驗返回的結果,並判斷接下來該嘗試那些想法。
無論在工程還是研究上,呈現出的圖景都相當一致。在工程側,Claude 已經能夠接收一個定義並不充分的問題,然後自行摸索解決路徑;人類提供的是目標,但不再需要提供方法。在研究側,Claude 已經可以在執行一個定義清晰的實驗時,達到甚至超過熟練人類研究者的水平。不過,在工程和研究中,Claude 在“選擇目標”時所需的判斷力上,依然存在明顯能力差距。這正是今天的 AI 與未來那種可以自主設計自己後繼者的系統之間的差別。
在 Anthropic,員工通常會隨著經驗增長而接到越來越開放、也越來越重要的任務。初期,他們執行別人已經定義好的任務,比如:“匯出按鈕壞了,請修一下。” 隨著經驗增加,他們會拿到一個目標,然後自己設計實現路徑,比如:“調查一下為什麼網路在高負載下會變慢。” 而到了最資深的層級,他們決定的已經是“什麼問題值得做”,例如:“團隊下個季度應該做什麼?” 我們可以借助 Anthropic 內部資料,看看 Claude 在應對這些不同類型任務方面已經走到了那一步。
Claude 正在編寫 Anthropic 相當大比例的程式碼。 截至 2026 年 5 月,Anthropic 程式碼庫中合併進主分支的程式碼裡,超過 80% 出自 Claude。[^3] 在 2025 年 2 月 Claude Code 研究預覽版發佈之前,這個數字還只是個位數低位。這種變化也體現在了工程師的人均產出上。Anthropic 創立最初四年(2021—2024),每位工程師每天合併的程式碼行數基本保持穩定;到了 2025 年,當 Claude 開始不再只是“建議程式碼”,而是直接“運行程式碼”時,這條曲線開始向上抬升;到了 2026 年,模型能夠在更長時間跨度上自主工作後,斜率再次明顯變陡。下面這張圖展示了這兩個拐點。到 2026 年第二季度,典型工程師每天合併的程式碼量,已經是 2024 年時的 8 倍。[^4] 原因很簡單:很多程式碼已經由 Claude 寫出,而工程師的角色轉向了指揮與審閱,而不是親手逐行敲寫。
當然,需要注意的事:程式碼行數並不是完美指標,因為它衡量的是數量而不是質量。所以,2026 年第二季度“每位工程師每天 8 倍程式碼行數”,幾乎肯定高估了真實生產率提升的幅度。但無論如何,它說明了一件事:速度正在加快。在 Anthropic,我們並不會按照“你寫了多少行程式碼”來獎勵員工;團隊成員之所以產出更多程式碼,只是因為他們正在用 AI 系統寫出更多程式碼。
程式碼行數的增長,也與員工對生產率顯著提升的主觀感受相吻合。2026 年 3 月,在 Anthropic 研究團隊 130 名員工參與的一項調查中,受訪者中位數估計:在“無論如何本來也會做的那些項目”上,使用 Mythos Preview 後,他們的產出大約是“完全沒有 AI 可用”情況下的 4 倍。[^5] 我們預計,3 月時真實的提升幅度可能比這個數字略低。[^6] 儘管如此,我們依然認為整體結論可信,也與我們的其他觀察一致:Anthropic 中相當一部分技術員工,正在以沒有 AI 幫助時數倍的速度完成自己的核心工作。
我們還看到一些證據表明,Anthropic 員工正利用 Claude 去完成那些如果沒有 AI,本來根本不會去做的工作,比如搭建探索性工具、或者清理那些長期被擱置的問題。舉例來說,2026 年 4 月,Claude 一次性交付了 800 多個修復,把某一類 API 錯誤減少到了原來的千分之一。負責監督 Claude 的工程師估計,如果讓人類來做,這項工作需要整整 4 年;修別人的 bug 本來就是一件緩慢、繁瑣、極其消耗精力的事,而人類也很難同時在腦中維持如此龐大且陌生的上下文。
“大約一年前,我開始非常激進地推進‘Claudifying’。那是一段非常瘋狂的旅程,而到現在,大概已經有 5 個月,我再也沒親手寫過任何程式碼了。”——Anthropic員工
Claude 寫出來的程式碼是“好的”,而且還在持續變好。 “好程式碼”包含兩層含義:第一,它能正常工作;第二,它的寫法要讓另一位工程師能夠理解、並繼續在其上迭代。對第一條標準而言,證據已經很清楚。過去一年裡,Anthropic 員工在任務進行過程中對 Claude 進行糾正、重新導向,或直接接管的頻率一直在穩步下降,那怕是在最複雜、最開放的問題上也是如此。所謂“開放問題”,是指那些沒有明確規格說明、工程師自己也不確定正確答案長什麼樣的問題。下圖展示了 Claude 在不同難度任務上的成功率變化。Claude 已經能寫出真正可運行的程式碼。
如何理解這張圖: 會話是否成功,由一個 Claude 裁判來判斷;如果 Claude Code 代理明顯完成了使用者任務,而且過程中不需要人為糾正,則該會話被視為成功。工作負載的變化可能導致成功率出現短期波動。
在最開放的那類任務上,Claude 的成功率到 2026 年 5 月已經達到 76%,在 6 個月內提高了 50 個百分點。舉個這類任務的例子:一次常規升級導致數以萬計的訓練作業崩潰。一位工程師幾乎只給了 Claude 一點文字資訊和叢集存取權,就把即時事故交給它處理。Claude 一邊檢查運行中的作業,一邊逐項測試環境設定,最終鎖定了一個觸發崩潰的隱蔽偵錯標誌位,成功穩定復現問題,並確認瞭解法。大約兩小時內,Claude 完成了通常需要兩到三天才能做完的工作。
第二條標準,是程式碼是否寫得足夠清晰,讓另一位工程師能看懂並在其上繼續開發。在這一點上,人類與 AI 之間的差距依然存在,但正在迅速縮小。Anthropic 內部對此並非完全一致,但許多人認為:在 2025 年末,Claude 寫的程式碼質量仍明顯遜於 Anthropic 工程師自己寫的程式碼;而到今天,兩者已經大致持平。我們預計,在一年之內,Claude 寫出的程式碼會更好。
這也改變了 Anthropic 審查程式碼的方式。如今,提交到程式碼庫中的變更會先由一個自動化的 Claude 審閱器讀取,它會在程式碼合併之前檢查 bug、安全漏洞以及其他缺陷。利用這一工具,我們做了一次回溯分析,發現:如果過去對程式碼庫中的每一次改動都進行自動化 Claude 審查,那麼 claude.ai 過往事故背後大約三分之一的 bug,本來都可以在進入生產環境之前就被攔截下來。寫下那些程式碼的工程師,本身已經是世界上最擅長建構這類系統的人之一。如今,Claude 已經能抓住他們遺漏的錯誤。
“在 2025 年末,Claude 寫的程式碼質量還比 Anthropic 人類工程師寫的差一些;今天,它大致已經達到同等水平;而我們預計,在一年內它會嚴格意義上超過人類。”——Anthropic員工
Claude 已經很擅長圍繞別人設定的目標來跑實驗。 每次 Anthropic 發佈新模型時,我們都會進行同一個測試:給 Claude 一段用於訓練小型 AI 模型的程式碼,要求它在仍通過相同正確性檢查的前提下,把這段程式碼跑得儘可能快。目標和評估標準事先就被固定好了,所以 Claude 的任務就是通過改寫程式碼、運行程式碼、計時,再重複這一過程來尋找加速方法。這相當於一個縮小版的實驗研究閉環。2025 年 5 月,Claude Opus 4 相比起始程式碼平均實現了約 3 倍加速;到 2026 年 4 月,Claude Mythos Preview 已經達到約 52 倍。作為參照,一個熟練的人類研究員通常需要 4 到 8 小時,才能做到 4 倍。[^7] 在研究流程的這一環——也就是在定義清晰的實驗裡做步驟最佳化——Claude 在不到一年的時間裡,就從“非常有幫助”跨越到了“超過人類”。
“今天的整體形態大致是:人類提出想法,而模型能以比過去快一個數量級的速度,把這些想法實現、測試並評估出來。”——Anthropic員工
Claude 正越來越擅長提出自己的實驗。 2026 年 4 月,Anthropic 發佈了第一個由 Claude 端到端完成開放式研究項目的演示。研究人員給 Claude 驅動的代理們一個 AI 安全方向上的開放問題——大致來說,是“較弱模型是否可以可靠監督較強模型?”——然後讓它們自己去解決。這個過程包括提出假設、進行實驗、與平行代理共享發現,並不斷迭代。這個任務有清晰的表現“地板”和“天花板”:地板是弱監督模型單獨工作時能達到的水平;天花板則是強模型在使用正確答案訓練後達到的水平。兩位人類研究者花了大約一周時間,恢復了其中約 23% 的差距;而這些代理累計工作 800 小時、消耗約 1.8 萬美元算力後,恢復了 97%。當然,這項工作也有一些限制:結果並沒有順利遷移到生產規模的模型上,而且問題的選擇和評分規則仍然由人類設定。但在這些邊界條件之內,代理們是自己設計了每一個實驗。人類真正扮演的唯一關鍵角色,就是設定研究方向。
“Claude 在 1 到 2 天裡,幾乎沒怎麼需要我幫忙,就把這一切做完了。我想,如果一位[初級同事]在同樣時間裡拿著這樣的結果回來找我,我會感到有點驚喜。未來已經來了。”——Anthropic員工
Claude 正越來越擅長把研究會話引向真正的研究發現。 我們分析了 Anthropic 研究人員在 2026 年 1 月到 3 月之間與 Claude 一起工作的真實 Claude Code 會話,這些會話處理的都是開放式調查問題,比如“為什麼一次訓練運行總是崩掉”,或者“為什麼某個模型在基準測試上得分這麼低”。在每個案例裡,我們都找到了研究員中途“走彎路”的時刻:他們沿著一個錯誤方向前進,導致整個會話偏離正軌,之後才重新拉回來。接著,我們只把“會話偏離之前”的工作內容展示給多個 Claude 模型,並問它們下一步會怎麼做。然後,再由另一個能夠看到整個會話最終結果的 Claude,來判斷究竟是 AI 還是人類提出了更好的下一步。[^8]
由於我們有意挑選了這些“人類選擇本來就有改進空間”的時刻(n=129),所以這並不是模型與人類判斷力的一次完全公平對照。這些時刻真正提供的是一組現實而困難的場景:正確的下一步並不顯然,而人類當時的選擇,恰好可以作為一個有用的標尺,來比較模型能力隨時間的變化。按照這一指標,我們在 2025 年 11 月表現最好的模型(Opus 4.5),有 51% 的機率比人類當時的選擇更優;到 2026 年 4 月(Mythos Preview),這一比例上升到 64%。研究工作的日常,本質上就是由一連串“下一步該做什麼”的決策組成,因此,這可以作為衡量模型未來能否自主推進調查研究的一個相關指標。我們把這一結果視為一個早期訊號:AI 系統正在越來越擅長做出那些 AI 研究本身所依賴的判斷。
如何理解這張圖: 圖中的“實踐天花板線”代表一種“理想答案”——它由一個能看到整個會話全過程(包括後來如何結束)的模型寫出。
“截至目前,人類的比較優勢仍然在於:看見更大的圖景,並且能夠跳出眼前任務的邊界去思考。”——Anthropic員工
3 Anthropic 的工作未來可能會是什麼樣?
這些證據表明,在 AI 開發流程中的每一步,人類所扮演的角色都在收縮。一旦人類與 AI 所寫程式碼的質量達到同等水平,人類就會徹底停止親自寫程式碼,而只保留審閱這一職責。但如果人類審程式碼的速度趕不上 Claude 生成程式碼的速度,那麼程式碼審閱本身就會成為 AI 開發的新瓶頸。同樣,一旦 Claude 已經能獨立跑實驗,問題就會轉向:“這些實驗裡,那些值得跑?” 說得更直接一些:如今,“執行”——也就是寫程式碼、跑實驗、產出結果——幾乎已經不再消耗人類時間,儘管它仍然消耗算力。
至少在目前,人類的比較優勢仍在於研究品味與判斷力:包括那些問題重要、那些結果可信,以及什麼時候該認定一條路徑已經走進死胡同。
“工作(以及生活)曾經建立在一種由人與人之間小幫助構成的‘禮物經濟’上。‘你能幫我把這個指令碼跑起來嗎?’……每一次請求都會形成一點點人情債,也會增加一點點彼此之間的感知。[Claude] 更快,而且不會製造任何人情債,但每一次這樣的替代,也意味著一次人類協作機會的流失。”“在一切都運轉順利的日子裡,我會忍不住覺得我做什麼都不重要,一切都自動化了,而且比我更快、更好。但也有些日子,一切突然都壞掉了,我又根本不知道為什麼,於是我意識到,自己已經完全不知道這些天究竟在做什麼了。”——Anthropic員工
4 如果我們錯了呢?
對上面這些證據,一個很自然的反駁是:真正最重要的工作,仍然掌握在人類手裡——也就是決定“該做什麼問題”。如果沒有這種判斷力,Claude 充其量只是一個能力很強的助手,而不是一個能夠自己推動 AI 進步的系統。
今天的訓練方法和模型架構,究竟能否解鎖這種能力,確實還很不明確。但 AI 的進步很少來自那種“靈光一現”的頓悟時刻。近年 AI 歷史中確實出現過一些這樣的時刻,比如 Transformer 架構,或者混合專家(mixture-of-experts)模型;但真正改變範式的想法,往往幾年才出現一次。在這中間,大部分進步其實都很“樸素”:把某個東西繼續放大,看看那裡出問題,修掉,再試一次。而這恰恰正是 Claude 現在最擅長的工作流。愛迪生說,天才是 1% 的靈感加上 99% 的汗水。而我們看到的是,“汗水”這一部分正在越來越自動化。越來越明顯的一點是:推動前沿向前走的許多工作,本身就是可自動化的;大規模研究進展,在很大程度上取決於工具和資源——它們決定了你能多快跑實驗、一次能跑多少實驗,以及你能多快拿到結果。
即便我們假設 Claude 永遠也得不到真正好的研究品味,對現有證據做一個保守解讀,也仍然意味著一種“複利式加速”。如果人類把大部分時間都花在那個位數比例的“方向設定”工作上,而剩餘部分都交給 Claude 來做,那麼每位工程師或研究者實際上都在同時駕馭比過去多得多的工作量。我們看到的證據表明,Anthropic 的員工不僅移動得更快,也覆蓋了更廣的工作面。在實際層面,這意味著:自從有效的 AI 工具出現之後,AI 已經讓 Anthropic 的推進速度比過去快得多。
而一種沒那麼保守的解讀則是:儘管目前證據還很初步,但 Claude 在研究判斷力上的提升,也許說明這項能力本身也在進步。“研究品味”也許只是另一種典型的 AI 能力:系統會先在一段時間內表現得很差,然後突然開始變得擅長。類似的模式,我們已經在其他更偏定性的能力上見過,比如 AI 系統開始能夠解釋一個笑話為什麼好笑、展現“心智理論”,或者解開語言謎題。
5 可能的未來
接下來會發生什麼,取決於兩件事:第一,這條趨勢會不會繼續;第二,如果繼續,我們會選擇做什麼。我們至少可以想像三種未來情景:
1. 趨勢停滯,但今天的 AI 能力廣泛擴散
這篇文章裡出現了許多指數型軌跡。但這些軌跡也可能最終只是 S 曲線。我們可能正接近曲線的彎折點:規模回報開始遞減,增長線條先變直,再趨於平緩。一個“合格研究員”和“偉大研究員”之間的差別,所依賴的那種判斷力,也許並不能通過繼續擴大訓練輸入(如算力和資料)來獲得。如果真是這樣,那麼要越過這一瓶頸,就需要一個新想法,比如一種能夠取代當前所有前沿模型所依賴的 Transformer 的新架構路線。
另外,限制 AI 進展的關鍵約束,也可能不在模型本身,而在供應鏈:前沿能力的推進與擴散,也許需要比當前世界可提供的更多能源和算力。制芯速度、電網擴容、互連頻寬,也許才是真正的約束,而不是智能本身。我們也不能排除某種外生衝擊對 AI 生態造成突然減速的可能,比如算力或電力供應驟然收縮——無論那一種,都會讓進步變慢,也讓前沿實驗室繼續投入的成本上升。或者,也可能存在其他我們尚未預見到的障礙。
即使把模型能力凍結在今天的水平,我們仍然預計世界會發生重大變化。Project Glasswing 就是一個早期訊號:在最初幾周裡,Mythos Preview 在全球最重要的一些系統中發現了超過一萬個高危和嚴重等級的軟體漏洞,多到網路防禦的瓶頸已經從“發現漏洞”轉向“來不及修補漏洞”。而且,我們仍處在今天這些模型向更廣泛經濟體系擴散的早期階段——未來,一個 100 人的公司,越來越可能做出過去 1000 人公司才能完成的工作,因為每一位員工身後都將站著一個代理金字塔。
之所以把這個情景列出來,是為了完整性;但我們並不認為它最有可能發生。到目前為止,我們能測量到的所有能力——包括那些看起來更“軟”、更難量化的能力,比如程式碼質量和開放任務成功率——都遵循著同樣的上升曲線。我們還沒有看到這條曲線開始彎折。在我們討論的三種未來裡,這一種會給政府和社會最多的適應時間。相比之下,我們更擔心後面兩種,因為它們會來得更快,留給準備的空間也小得多。
2. AI 實驗室繼續獲得複利式效率提升
在這個情景裡,AI 開發將實現相當程度的自動化,但研究方向仍由人類設定,結果也仍由人類裁定。使用 AI 系統的組織會隨著時間推移變得越來越高效,因此我們可以預期,每一個組織成員的生產力都會被成倍放大。一個 100 人的公司,可能做出 1 萬人甚至 10 萬人組織才能完成的工作。這將徹底改造知識工作和政府服務,但它同樣可能被用於有害目的:從針對整個人群的威權監控,到為每個個體量身定製、且以任何人工團隊都無法匹敵的規模運行的影響力操控。屆時,在 Anthropic 這樣的公司裡,人類的角色也會改變。人們將與 AI 系統協作,放大研究能力、生成新洞見,並共同建立那些用來驗證 AI 輸出是否可信的系統。
我們在這裡展示的證據表明,我們很可能正在走向這個情景。但一個流程中某一環節的提速,往往只是把瓶頸推到了別處:整體速度終究受制於那些還沒有加快的部分。在電腦科學中,這叫阿姆達爾定律(Amdahl’s law),對組織同樣成立。Anthropic 已經碰到了阿姆達爾定律的一個典型表現:隨著組織內程式碼流動速度越來越快,人類程式碼審查已經成為新的瓶頸。
而這種摩擦並不只存在於工程側。Anthropic 員工與高能力模型協作後,新的想法、計畫、工具和模擬實驗出現了爆炸式增長,多到我們根本沒有足夠能力去一一推進。一個組織能多快發現並修復這些新瓶頸,也許會成為一種會隨著時間持續進化的能力,並最終成為任何組織最重要的能力。
3. AI 系統本身獲得完全遞迴式自我改進能力,並開始建構它們的後繼者
如果技術能力繼續沿著當前趨勢前進,而 AI 系統又獲得了那種屬於“變革性人類創造力”的能力,那麼 AI 系統設計並最佳化自身的可能性就是現實存在的。
在這個世界裡,AI 開發進度將完全由算力的可獲得性決定——或者說,由 AI 系統自己發現訓練或推理演算法效率提升的速度來決定。人類在開發中的角色將大幅縮小,可能把大部分精力轉向對一個不斷擴張的、由 AI 系統運行的“虛擬實驗室”進行監督、驗證與核查。我們預計,一旦系統具備自動化 AI 研究與開發的能力,這些技能也會轉移到其他科學領域,從而開始改寫更多學科的發展方式。
在這種未來裡,對齊問題究竟會被如何解決——或者根本解決不了——是我們最沒有把握的部分。模型可能足夠對齊,同時也具備足夠好的研究品味,以至於能自行發現並實現我們尚未達到的新解決方案;它們甚至也可能足夠“明智”,在發現條件不足時主動停止發展。另一種可能則是,今天模型中偶爾出現的失配問題,會隨著模型不斷建構其後繼者而不斷累積,變得越來越頻繁、卻越來越難以理解,直到我們最終失去控制。也有可能,我們根本來不及建立、整合併驗證那些幫助我們判斷自己究竟正處在那條軌道上的工具。
我們對這個世界會長什麼樣沒有良好直覺,因為今天的經濟仍由人類和人類製造的工具驅動。而從定義上說,一個由快速遞迴式自我改進驅動的世界,可能會被這種能不斷自我增強的模型所主導:隨著它的能力全面超越人類,並在整個經濟中擴散,世界將發生根本變化。如果人類勞動不再具有競爭力,我們很難預測那時的經濟會是什麼樣子。
即使模型開發真的實現了完全自動化與遞迴化,我們仍無法預測這對大多數人的日常生活究竟意味著什麼。阿姆達爾定律在這裡同樣適用。遞迴式智能可能會在某些領域迅速實現 《Machines of Loving Grace》 中提到的許多好處。我們預計,具身智能(也就是機器人)可能會很快跟上遞迴式智能,並沿著類似路徑,以更低成本獲得越來越高的回報。更強大的智能,也許會幫助我們更快地建造現實世界中的系統,開展更高效的救命藥物臨床試驗,發展新的協調機制。
但僅僅實現遞迴式改進,並不意味著工業生產方式、社會組織方式或市場運行方式會立刻改變。更強的智能無法讓我們在幾天內看見一種藥物幾十年後的長期副作用,無法讓選舉早於憲法規定的時間舉行,也無法在一個周末之內把陌生人變成老朋友。對大多數人而言,這種未來的“體感速度”仍將由瓶頸決定——即便上游實驗室已經在以算力的速度奔跑。遞迴式智能持續越來越快地建構自身,而另一邊的人類世界仍受制於關係、治理和制度的節奏;這兩者碰撞出的未來,也是我們無法預測的部分。
6 我們應該做什麼?
如果有可能有效放慢這項技術的發展,為社會爭取更多時間去應對它所帶來的巨大影響,我們認為這大機率會是一件好事。但如果“放慢”只是讓那些最不謹慎的參與者在技術上趕上來,那反而可能使所有人更不安全。在缺乏全球協調機制的情況下,企業和政府都將不得不在競爭壓力和地緣政治壓力下,艱難地做出安全相關決策。
我們認為,世界如果擁有“減速”或“暫時暫停”前沿 AI 開發的選項,會是一件好事——這樣,社會制度建設和對齊研究才有機會跟上技術前進的速度。Anthropic Institute 將與許多其他機構合作,開展研究並採取行動,幫助建立一種真正可信的減速或暫停機制所必需的系統。這些系統應當使前沿 AI 開發者能夠驗證:全球其他參與者確實也已經停止或放慢了腳步,同時也能確保壞行為者不會借由“協調減速”的名義偷偷加速領先。如果這樣的系統存在,我們預計:只要其他位於前沿或接近前沿的開發者也在可驗證前提下採取了同樣行動,我們會願意放慢甚至暫時暫停。
一次有意義的減速或暫停,要求多個資源雄厚、處在前沿或接近前沿的實驗室,分處多個國家,並在同樣條件下同意停下;同時,還要求各方都能驗證其他方確實停下了。由於 AI 系統本身的獨特特性,這一軍控問題中的“可探測性”(detectability——標準低於“可驗證性”)比其他技術困難得多。訓練運行比導彈發射井更容易隱藏,它們的輸入也都是通用型資源,而偷偷違約的激勵又極其強烈——因為當別人暫停時,誰繼續推進,誰就可能繼承領先地位。一個可信的暫停機制還必須明確:什麼觸發暫停,什麼條件下解除暫停,以及由誰來裁定。
從原則上說,這並不一定不可能。人類社會曾經為其他複雜技術建立過驗證機制,比如《中導條約》(Intermediate-Range Nuclear Forces Treaty)。但那類機制用了幾十年才建立起基礎設施與互信。我們已經沒有那麼長時間了。相比之下,由單個實驗室單方面暫停,今天立刻就可以做到,但作用小得多:它只會改變誰是領跑者,卻無法創造當前真正缺失的、更廣泛的社會性討論過程。
未來幾個月,我們將組織一系列討論,讓政策制定者、研究人員、公民社會以及其他 AI 公司,一起回答本文提出的一些問題,尤其是關於完全遞迴式自我改進,以及如何為協調與審議創造更好選項的問題。我們也會把這些討論的成果發佈出來。現在,正是一起研究這些問題的窗口期,而 AI 公司之外的人,也應當被納入這場討論。 (硅星GenAI)
