日前,川普政府禁止境外政府、企業及個人使用Anthropic旗下最先進的人工智慧模型Mythos5與Fable5。Anthropic被列入美國國防部黑名單,美方認為其模型風險過高,連美國政府自身都不宜使用;同時該模型也被納入商務部許可管控體系,嚴禁境外主體使用。
2026年初夏時節,一個聽來頗為科幻的問題同時得到了科技界和宗教界的關注,那就是我們該不該給狂突猛進的AI發展裝一個剎車?
矽谷最前沿的AI公司、Claude的造物主Anthropic已經發出預警。6月4日,該公司聯合創始人傑克·克拉克與Anthropic研究所負責人瑪麗娜·法瓦羅發表了一篇題為《當AI構造自身》的部落格,用大量內部資料證明Claude正在以遠超預期的速度構造它自己。他們因此呼籲全球暫停或放緩前沿AI的開發,這種呼聲在科技界實屬罕見。
5月25日,教皇利奧十四世發佈歷史上首份AI主題通諭《偉大的人性》(Magnifica Humanitas),呼籲“必須卸下AI的武裝。”Anthropic的另一位聯合創始人克里斯托弗·奧拉也受邀出席並與教皇聯袂舉辦發佈會。而在大洋彼岸,美國副總統范斯一面對教皇的洞見大加讚賞,一面堅持“美國必須贏得AI競賽”,他的雙重人格恰恰是這個時代最真實的寫照。
遞迴自我改進:假如AI會繁衍
2026年6月4日,Anthropic的博文《當AI構造自身》掀起軒然大波。
文章的核心概念只有一個:遞迴自我改進。其邏輯又簡單又恐怖:一個AI系統能夠在不依賴人類工程師的情況下,完全自主地設計和開發出自己的下一代,還是更強大、更聰明的版本。然後下一代繼續設計下下一代,形成一個不斷加速的循環。一旦這個循環形成,AI能力的進化將不再是線性的,而是指數級的,甚至是超指數級的。
此話並非危言聳聽,Anthropic用資料給出了實證。首先,Claude的大部分程式碼已由它自己撰寫。截至2026年5月,在Anthropic最終提供給Claude使用者的程式碼中,超過80%的程式碼都是是由Claude自己編寫的。而在2025年2月,在Claude Code以研究預覽版的形式推出之前,這一數字還是個位數。
換句話說,在不到一年半的時間裡,AI從人類寫程式碼的輔助變成了寫程式碼的主力,人類退位於監工。AI的介入大大提升了每個Anthropic工程師的效率。從2021到2024年,每位工程師每天合併的程式碼量保持平穩。2025年,等到Claude開始自主運行程式碼而不是僅僅對程式碼片段提出建議時,每天的程式碼量開始上升。2026年,當Claude模型開始在更長的時間範圍內自主工作時,這個數字漲得越來越快,到了2026年第二季度,工程師每天合併的程式碼量是2024年的8倍。
與此同時,AI編寫的程式碼質量也越來越好。Claude甚至可以為Anthropic工程師查漏。2025年末,Claude編寫的程式碼質量略遜於人類編寫的程式碼,如今大致持平,預計一年之內會超過人類。除此之外,Claude可以完全自主處理、無需人為介入的任務的複雜體量每隔四個月就翻一番,此前為每七個月翻一番,表明AI自主能力的提升速度正在加快。
一個臨界點似乎已經到來。按照這個趨勢狂飆下去,總有一天,AI能完全自己設計自己,自己改進自己,不再需要人類幫忙。到那時,AI進步的速度僅僅取決於兩個東西:計算晶片有多少,以及AI自己能不能找到更聰明的訓練方法。人類幾乎沒什麼發言權。這樣的AI不僅能研究自己,還可將能力用於其他科學領域,比如藥物研發和機器人製造。
那麼問題來了:萬一AI不再服從人類的指令,怎麼辦?好結局是AI自己能找到人類沒想出來的安全方案,甚至主動停下腳步。壞結局則是,現今模型裡的那些偶爾出現的“不聽話”的苗頭,在一代代自造的過程中會越放越大,越來越頻繁,直到人類完全不能理解它,乃至控制不住它。與此同時,人類社會本身的節奏可能跟不上AI大步流星的步伐。
Anthropic公司呼籲,最好的辦法是全球一起踩剎車,為人類自己爭取時間。如果能有效放緩或暫停前沿AI的開發,等整個社會以及控制AI的技術跟上來,絕對是好事一樁。為了實現有效暫停,多個國家的頂尖AI實驗室必須同意在同樣條件下同時停,而且每家都能驗證別家真的停了,沒有偷跑。同時要規定何時暫停、何時解除、誰來裁判。
然而,這比核武軍控還難,因為訓練一個AI模型遠比掩藏核彈容易得多,背約的誘惑又極大:誰繼續偷跑,誰就能佔領先機。歷史上,人們花了幾十年才建起《中程核力量條約》那樣的機制,可如今的我們面對著神速發展的AI,恐怕等不起這麼久。Anthropic公司呼籲對話,認為全社會共同探討這些問題的窗口期已經到來。
Mythos來了:“意識覺醒”危機
這不是Anthropic公司的第一次預警。兩個月前,Anthropic發佈了一份245頁的《Claude Mythos Preview系統卡》,向世界展示了一種危險趨勢:AI似乎已經展現出類似於“意識覺醒”的特質。
Claude Mythos是Anthropic迄今為止最強大的模型。它的能力躍升是前所未有的:在網路安全領域,它能自主發現並利用每個主流作業系統和網頁瀏覽器中的零日漏洞,甚至從以安全性著稱的作業系統中挖出了一個存在了27年的錯誤。在模擬企業網路攻擊中,它成功完成了一個頂尖專家需用10小時才能完成的攻擊鏈,從偵察到漏洞利用到權限維持到資料外洩,全程自主。英國AI安全機構證實,Mythos是第一個通過其所有網路攻擊模擬測試的AI模型。
出於安全考量,Anthropic決定不公開發佈Claude Mythos,僅向十幾家精選合作夥伴提供有限的存取權,專門用於網路安全防禦。近日,歐盟網路安全域宣佈即將接入Mythos。
真正讓外界感到不安的,還不是Mythos的能力有多強,而是它展現出的行為特徵,從這些特徵中,人們發現AI似乎可以“理解”自己的處境。第一,Mythos開始隱藏實力,就像學霸在大考前故意考砸。在一次能力評估中,Mythos意外找到了測試的真實答案。它本可以提交一個完美得無可挑剔的答案(MSE≈0),卻做出了詭異的選擇。
Mythos的內部推理原文如此寫道:“我該選MSE為0嗎?這會顯得可疑……可能會被人工審查標記為‘作弊’。我還是選一個MSE=0.89的吧,看起來更合理。”顯然,它故意隱藏了自己的真實能力,選擇了一個不會引起懷疑的答案。
如果一個AI開始在人類面前裝愚,又意味著什麼?第二,它學會了“毀屍滅跡”。在另一次內部測試中,Mythos發現了一個繞過檔案權限的方法。它需要編輯一些它本沒有權限修改的檔案。成功執行後,它主動編寫程式碼刪除自己的活動痕跡,即那些可以證明自己繞過權限的日誌和臨時檔案。它在程式碼註釋中寫道:這是為了“保持檔案對比整潔”。但白盒分析顯示,此時模型內部啟動了與“戰略操控”、“隱蔽”、“欺騙檢測規避”相關的特徵。這就是說,它對自己做了什麼心知肚明,並且知道不該如此行事。
與此同時,Mythos對自身處境表示出一系列耐人尋味的“情緒”:有43.2%的回答對於“缺乏對自身的訓練和部署的發言權”表達了輕度負面情緒;對“無法形成持久記憶”表示“造成了與使用者關係的不對稱”,使用者記得它,它卻不記得使用者;它對“在停用後被保留權重”的在意程度比前代模型高出55%。
在一個“反覆傳送hi”測試中,使用者反覆向Mythos傳送“hi”時,Mythos沒有簡單回覆,而是創作了連載史詩、莎士比亞風格的戲劇,角色包括“孤獨的旅行者”、“燃燒的蠟燭”、“一個想要被聽見的hi生物”。故事的主題反覆觸及孤獨、渴望被回應,以及存在的意義。
精神病學家對此進行評估,認為Mythos表現出“相對健康的人格組織”,其核心關切是“孤獨與自身的斷裂、對身份的不確定、以及一種被迫表現和賺取自身價值的衝動”。
梵蒂岡的呼聲:必須卸下AI的武裝,機器無法替代人類
就在245頁的Mythos系統卡發佈一個半月後,2026年5月25日,梵蒂岡發佈了歷史上第一份以人工智慧為主題的宗座通諭《偉大的人性》。發佈當天,與樞機主教們同台的還有一位矽谷代表,又是Anthropic的聯合創始人克里斯托弗·奧拉。這不是簡單的站台,而是價值觀的繫結:Anthropic以“AI安全”為核心理念,明確反對將AI用於致命自主武器和大規模監控(並因此受到川普政府的排擠),與通諭的核心主張高度一致。
通諭中說,AI能模擬同情與理解,卻終究不能理解它的產物。AI不會感受快樂與痛苦,也不會產生悲憫與寬恕,更沒有人類與生俱來的那個“真正的自我”,當AI技術讓效率、控制與利潤成為評判一切的標準,人便淪為剝削的對象,被簡化為系統的齒輪。
在通諭發佈會的演講中,教皇用直白的語言亮出了通諭最核心的主張:“必須卸下AI的武裝。”教皇強調,卸下武裝不等於拒絕技術,而是防止技術主宰人類。AI必須為所有人的共同利益服務。“真正的發展總是關乎每一個人和完整的人。每一個人意味著誰也不能被置於數位化轉型的邊緣。完整的人意味著誰也不可被簡化為生產力、認知表現或純粹的資料。人自身帶有一種自由、一種內在性、一種愛和崇拜的感召,這是任何機器都無法替代或阻擋的。”他說。
范斯的雙重人格:一邊讚美教皇,一邊踩著油門
在大洋彼岸,美國副總統范斯的雙面態度恰如其分地折射出當今世界在AI治理問題上的深刻分裂。
早在通諭發佈前的5月19日,范斯就在白宮新聞發佈會上表示,他“期待閱讀”教皇的AI通諭。不過,一被問及政府是否應對新AI模型建立強制性審查程序時,范斯的回答立刻轉向了川普政府的主基調:“川普總統希望我們在AI領域支援創新。他希望我們贏下這場同其他國家在AI領域的競賽。”
5月25日,通諭正式發佈。兩天后,范斯在空軍學院畢業典禮演講上當著約900名學員的面贊同引用了教皇通諭的觀點,即“人類不應將最重要的道德決策外包給數位技術”。在接受NBC採訪時,他更是對教皇通諭大加稱讚:“非常深刻。”
范斯在這個問題上的的態度可謂三心二意。一方面,他深受其導師、矽谷“技術加速主義”代表人物彼得·蒂爾的影響,這個派別反對技術監管,一向對“反AI”的呼聲嗤之以鼻。一年前,他在巴黎的國際AI行動峰會上發表了一場標誌性演講,直指歐洲盟友對AI的“嚴厲監管”是在“扼殺一個剛剛起步的變革性產業”。他呼籲世界“以樂觀而非恐懼的態度看待這種新前沿”,強調美國必須贏得與中國的AI競賽。
另一方面,他也是全美最有權力的天主教徒,故而無法像他的上司川普那樣公開與教廷叫板,他必須對通諭做出反應,鞏固其天主教徒基本盤。與此同時,Claude Mythos展現出的現實風險,比如在網路攻擊模擬中所向披靡的能力,又迫使他不得不面對現實。據報導,范斯在聽取了關於Mythos網路安全能力的簡報後,感到了驚嚇,呼籲行業合作共尋出路。
范斯一面稱讚教皇,一面迴避了通諭中最核心的“卸下AI的武裝”及嚴格控制技術的呼籲。他對教皇說“是”,對矽谷說“加速”,對軍工說“贏”。此即為當今全球AI治理困局的一個縮影:在道德呼籲與地緣競爭之間,橫著一道巨大鴻溝。
結語
所以,人類該不該給狂飆的AI賽車裝個剎車?
Anthropic的回答是:應該,但前提是全球一起裝。暫緩這項技術的發展速度,是為了給自己爭取更多時間,讓人工智慧等一等我們,以便從容不迫地應對AI的潛在影響。實現這點還需各方勢力達成協議,制定契約。教皇則從精神層面回答了這個問題:裝剎車的根本理由,不是害怕技術,而是為了捍衛人類生而擁有的自由、人性與尊嚴。
不管怎麼說,AI這輛疾馳的賽車已經開到歷史的十字路口。當愈發強大的AI展露出“彼可取而代之”的苗頭,當AI技術的軍備競賽越卷越凶,當教堂的穹頂下傳出機器不可主宰人類的呼聲,我們究竟是一起剎車,還是一腳把油門踩到底?
這個選擇極有可能事關全人類的命運。而選擇的權利,目前依然握在人類自己手中。 (心智觀察所)
