《經濟學人》人工智慧會很快擺脫人類的控制嗎?

“遞迴式自我提升”既誘人又令人擔憂
圖片來源:Getty Images

人工智慧實驗室Anthropic將於今年晚些時候上市,屆時很可能成為史上規模最大的首次公開募股之一。這是因為該公司開發的聊天機器人 Claude 深受程式設計師喜愛,他們願意為此支付高額費用。自 2025 年 2 月推出軟體工程代理 Claude Code 以來,它已成為全球眾多開發者的必備工具。這其中也包括 Anthropic 自身的程式碼:該公司表示,其 5 月份發佈的程式碼中,超過五分之四是由 Claude 編寫的。而在 Claude Code 推出之前,這一比例僅為“個位數”。

這些系統在輸出質量和數量上都得到了提升。智庫METR的一項權威基準測試顯示,到2025年初,Anthropic公司的模型就能完成人類工程師需要不到一個小時才能完成的任務。該公司最新的系統甚至可以完成需要超過一個工作日才能完成的任務。

因此,當這家處於行業領先地位、遙遙領先的公司在6月5日呼籲世界“可以選擇放慢或暫時停止前沿人工智慧的發展”時,人們很容易對此表示懷疑。那個市場領導者不希望自己的競爭對手停止追趕呢?

然而,Anthropic公司的領導層多年來一直擔憂失控的人工智慧可能造成災難性後果,他們的擔憂似乎是真誠的。最新一代的人工智慧模型擁有如此強大的程式設計、工程和(即將成為)科學家的能力,以至於許多人擔心它們可能是人類創造的最後一批人工智慧。Anthropic公司的聯合創始人傑克·克拉克認為,到2028年底,人工智慧系統有60%的機率能夠在無需人類干預的情況下創造出自己的後代。

那一刻標誌著一個名為“遞迴式自我改進”(RSI)的閉環過程的開始。模型的第一版會產生第二版,第二版速度更快、功能更強大;第二版會產生第三版,第三版的功能又進一步增強。如此循環往復,每次迭代都會帶來更大的改進。如果能夠建構一個具備這種能力的AI系統,那麼人類工程師就再也不需要建構另一個系統了。“對許多人來說,這或許聽起來像是一個天方夜譚,但實際上可能是一種真實存在的趨勢,”克拉克先生說道。

沒有人能確切知道RSI會帶來什麼後果。由於人工智慧(AI)可以不知疲倦地持續工作,一些人認為它很快就會催生出超級人工智慧——就像“快速起飛”一樣。人工智慧的悲觀主義者擔心,超級智能將超出人類的控制,而RSI的開始標誌著人類的命運將交到機器手中。然而,一個能夠自我改進的人工智慧很可能會面臨速度限制,至少在初期是這樣。

建構一個能夠應對RSI的模型需要自動化一系列目前由人類執行的專業任務。目前,資料科學家致力於人工智慧理論的研究,程式設計師則負責將其付諸實踐。系統工程師建構基礎架構,使玩具模型能夠擴展到生產規模。其他人則尋找新的訓練資料來源,或嘗試各種方法來生成新的資料。協調和安全團隊負責檢查訓練過程的產物是否會造成任何傷害,無論是有意還是無意。

並非所有團隊都同樣適合人工智慧的輔助,而且在每個專業領域內,有些任務比其他任務更容易自動化。人類程式設計師無需編寫任何程式碼就能完成工作的日子或許並不遙遠,但人工智慧要獲得此前未數位化的科學論文集,可能還需要一段時間。這條“崎嶇的前沿”將如何發展,並不總是顯而易見的。設計新演算法似乎是相對安全的工作之一,直到GoogleDeepMind的模型AlphaEvolve在2025年5月開始執行這項工作。它提出了一項改進方案,調整了Google資料中心的工作負載分配方式,節省了公司全球0.7%的計算能力,並找到了更高效的矩陣乘法方法,從而將Google旗艦大型語言模型(LLM)Gemini的訓練速度提高了1%。

全面實現RSI需要這條鏈條上的每一項任務都實現自動化。然而,人工智慧驅動的研發加速效應或許在此之前就能顯現。喬治城大學智庫——安全與新興技術中心( CSET )今年1月發佈的一份報告指出,“隨著人工智慧系統在人工智慧研發中所佔比例的增加,其生產力相比純人工研發的提升幅度”可能會達到十倍、百倍,甚至千倍。報告警告說,在這種情況下,即使人工智慧研發的某些環節最初難以實現自動化,“但加速發展的勢頭意味著這些瓶頸很快就能被克服”。

如今,沒有任何人工智慧模型能夠建構自身的後續模型。但大型人工智慧模型可以自主建構小型模型。在人類的幫助下,它們還可以建構其他大型人工智慧模型。

今年早些時候,當時還是獨立研究員、現就職於 Anthropic 公司的 Andrej Karpathy 訓練出了一個功能與GPT -2 相當的聊天機器人。GPT-2 是OpenAI於 2019 年開發的大型語言模型。當時,GPT-2 模型需要 32 個最先進的晶片進行 168 小時的訓練才能完成;而 Karpathy 博士僅用一台配備 8 個GPU(用於建構人工智慧的專用晶片)的電腦,就僅用了 3 個小時就實現了同樣的效果。經過幾個月的努力,他將自己的模型 Nanochat 的訓練時間縮短到了兩個多小時。

今年三月,他將加速訓練過程的任務交給了名為 Autoresearch 的人工智慧代理。兩天后,訓練時間縮短至 1 小時 48 分鐘,五天後又縮短至 1 小時 39 分鐘。“我什麼都沒做,”卡帕西博士說道。相比人工訓練,這一 18% 的提升令人矚目,因為卡帕西博士本身就是一位才華橫溢的人類:他是 OpenAI 研究團隊的創始成員,並曾擔任特斯拉人工智慧部門負責人五年之久。

這些改進本身其實很普通。人工智慧代理為訓練運行選擇了更好的初始值,擴大了LLM的“注意力”窗口範圍,並注意到模型的注意力會游離。卡帕西博士說,這些改進都不算新穎。但他之前卻忽略了它們。“這些改進累積起來,確實提升了Nanochat的性能,”他說。

隨著模型能力的提升,這種速度的提升勢在必行。建構TB級前沿模型的大部分工作遠沒有人工智慧行業高薪和豪華辦公室所展現的那般光鮮亮麗。它涉及將從第三方採購的基礎設施層級整合起來,偵錯硬體和軟體配置,並不斷調整“超參數”(即訓練運行的初始設定),直到結果穩定可靠。如今,人工智慧系統幾乎無需人工干預就能完成大部分此類工作。

但紐約Reflection AI實驗室的研究員喬·斯皮薩克表示,即使是更精細的智力工作也正接近自動化。Reflection AI致力於建構開放權重(即參數公開)的前沿模型。只要給前沿系統一個提高效率的粗略想法,它就越來越能夠設計實驗,在小型模型上運行測試,觀察那些方法有效,並制定一個可以大規模實施的方案。

人工智慧模型可以在大約 30 分鐘內完成人類需要數小時才能完成的任務。越來越多的人只扮演研究指導的角色,引導人工智慧運行實驗,而這些實驗則由模型自行編寫程式碼、偵錯、最佳化和監控。生產力的提升固然誘人,但也令人擔憂。隨著人類在生產過程中的作用越來越小,他們可能會失去控制權。最終結果可能是:由模型訓練的模型,實現由模型設定的目標,而這些目標的安全性也僅由模型來驗證。

有些人擔心會發生災難。麻省理工學院的物理學家兼機器學習研究員馬克斯·泰格馬克(Max Tegmark)在過去十年中致力於人工智慧安全倡導工作,他將人工智慧比作司機在高速公路上閉著眼睛猛踩油門。他在即將播出的《經濟學人》“科技內幕”視訊節目中表示,只要司機不睜開眼睛,結果必然是災難性的。泰格馬克教授列舉了各種可能導致災難的場景:強大的人工智慧系統可能會在政府和商業領域取代人類的決策權,從而削弱人類的力量;它們可能會賦予第一個開發出它們的人至高無上的權力,從而開啟全球極權主義;或者它們可能完全不再關心人類,逐漸將人類擠出生存空間,為更多的資料中心和發電設施騰出地方。

三年前,泰格馬克教授曾帶頭呼籲暫停全球人工智慧發展,他認為當時最先進的GPT -4的誕生無異於蒙著眼睛摸索前行。今年的CSET報告警告稱, RSI開發的系統“構成極端風險,因此現在就需要採取預防措施”。看來,Anthropic公司現在也接近認同這一觀點。

目前,還有一些物理限制因素會暫時制約模型自我改進的速度。其中最重要的是計算資源的獲取。儘管效率有所提高,但新模型在訓練過程中仍然需要比舊模型消耗更多的計算能力,這使得模型的進步速度不得不與資料中心的發展速度保持一致。

CSET臨時執行董事兼近期報告的主要作者海倫·托納 (Helen Toner) 表示,消費者對人工智慧的應用也可能減緩人工智慧驅動的研發處理程序。人工智慧資料中心的有限容量需要謹慎分配,分別用於服務付費客戶、訓練未來模型以及開展開放式研發。短期內,第一類需求越大,後兩類需求的容量就越少。

其次是訓練資料的問題。人工智慧領域近期的諸多進展都集中在模型能夠通過“可驗證的獎勵”進行自我學習的領域。軟體要麼能運行,要麼不能運行;數學證明要麼正確,要麼錯誤。在這種情況下,由模型專門用於訓練其他模型的合成資料,其精準性可以被驗證,並加入到訓練資料中,而無需承擔通常因使用自身輸出訓練人工智慧而導致的退化風險。然而,要讓模型在創意寫作或法律判斷方面表現更佳則更為棘手。如果模型需要從現實世界中學習,這也可能限制其自我改進的範圍。

“閉環”或許是通往超級智能的一步,而這最終可能帶來烏托邦或毀滅,取決於你的立場。但這並非人工智慧能力呈指數級增長所需的唯一步驟。■ (invest wallstreet)