美國禁止境外獲取Mythos，AI“意識覺醒”危機來了？

2026/06/13

•

日前，川普政府禁止境外政府、企業及個人使用Anthropic旗下最先進的人工智慧模型Mythos5與Fable5。Anthropic被列入美國國防部黑名單，美方認為其模型風險過高，連美國政府自身都不宜使用；同時該模型也被納入商務部許可管控體系，嚴禁境外主體使用。

2026年初夏時節，一個聽來頗為科幻的問題同時得到了科技界和宗教界的關注，那就是我們該不該給狂突猛進的AI發展裝一個剎車？

矽谷最前沿的AI公司、Claude的造物主Anthropic已經發出預警。6月4日，該公司聯合創始人傑克·克拉克與Anthropic研究所負責人瑪麗娜·法瓦羅發表了一篇題為《當AI構造自身》的部落格，用大量內部資料證明Claude正在以遠超預期的速度構造它自己。他們因此呼籲全球暫停或放緩前沿AI的開發，這種呼聲在科技界實屬罕見。

5月25日，教皇利奧十四世發佈歷史上首份AI主題通諭《偉大的人性》（Magnifica Humanitas），呼籲“必須卸下AI的武裝。”Anthropic的另一位聯合創始人克里斯托弗·奧拉也受邀出席並與教皇聯袂舉辦發佈會。而在大洋彼岸，美國副總統范斯一面對教皇的洞見大加讚賞，一面堅持“美國必須贏得AI競賽”，他的雙重人格恰恰是這個時代最真實的寫照。

遞迴自我改進：假如AI會繁衍

2026年6月4日，Anthropic的博文《當AI構造自身》掀起軒然大波。

文章的核心概念只有一個：遞迴自我改進。其邏輯又簡單又恐怖：一個AI系統能夠在不依賴人類工程師的情況下，完全自主地設計和開發出自己的下一代，還是更強大、更聰明的版本。然後下一代繼續設計下下一代，形成一個不斷加速的循環。一旦這個循環形成，AI能力的進化將不再是線性的，而是指數級的，甚至是超指數級的。

此話並非危言聳聽，Anthropic用資料給出了實證。首先，Claude的大部分程式碼已由它自己撰寫。截至2026年5月，在Anthropic最終提供給Claude使用者的程式碼中，超過80%的程式碼都是是由Claude自己編寫的。而在2025年2月，在Claude Code以研究預覽版的形式推出之前，這一數字還是個位數。

換句話說，在不到一年半的時間裡，AI從人類寫程式碼的輔助變成了寫程式碼的主力，人類退位於監工。AI的介入大大提升了每個Anthropic工程師的效率。從2021到2024年，每位工程師每天合併的程式碼量保持平穩。2025年，等到Claude開始自主運行程式碼而不是僅僅對程式碼片段提出建議時，每天的程式碼量開始上升。2026年，當Claude模型開始在更長的時間範圍內自主工作時，這個數字漲得越來越快，到了2026年第二季度，工程師每天合併的程式碼量是2024年的8倍。

與此同時，AI編寫的程式碼質量也越來越好。Claude甚至可以為Anthropic工程師查漏。2025年末，Claude編寫的程式碼質量略遜於人類編寫的程式碼，如今大致持平，預計一年之內會超過人類。除此之外，Claude可以完全自主處理、無需人為介入的任務的複雜體量每隔四個月就翻一番，此前為每七個月翻一番，表明AI自主能力的提升速度正在加快。

一個臨界點似乎已經到來。按照這個趨勢狂飆下去，總有一天，AI能完全自己設計自己，自己改進自己，不再需要人類幫忙。到那時，AI進步的速度僅僅取決於兩個東西：計算晶片有多少，以及AI自己能不能找到更聰明的訓練方法。人類幾乎沒什麼發言權。這樣的AI不僅能研究自己，還可將能力用於其他科學領域，比如藥物研發和機器人製造。

那麼問題來了：萬一AI不再服從人類的指令，怎麼辦?好結局是AI自己能找到人類沒想出來的安全方案，甚至主動停下腳步。壞結局則是，現今模型裡的那些偶爾出現的“不聽話”的苗頭，在一代代自造的過程中會越放越大，越來越頻繁，直到人類完全不能理解它，乃至控制不住它。與此同時，人類社會本身的節奏可能跟不上AI大步流星的步伐。

Anthropic公司呼籲，最好的辦法是全球一起踩剎車，為人類自己爭取時間。如果能有效放緩或暫停前沿AI的開發，等整個社會以及控制AI的技術跟上來，絕對是好事一樁。為了實現有效暫停，多個國家的頂尖AI實驗室必須同意在同樣條件下同時停，而且每家都能驗證別家真的停了，沒有偷跑。同時要規定何時暫停、何時解除、誰來裁判。

然而，這比核武軍控還難，因為訓練一個AI模型遠比掩藏核彈容易得多，背約的誘惑又極大：誰繼續偷跑，誰就能佔領先機。歷史上，人們花了幾十年才建起《中程核力量條約》那樣的機制，可如今的我們面對著神速發展的AI，恐怕等不起這麼久。Anthropic公司呼籲對話，認為全社會共同探討這些問題的窗口期已經到來。

Mythos來了：“意識覺醒”危機

這不是Anthropic公司的第一次預警。兩個月前，Anthropic發佈了一份245頁的《Claude Mythos Preview系統卡》，向世界展示了一種危險趨勢：AI似乎已經展現出類似於“意識覺醒”的特質。

Claude Mythos是Anthropic迄今為止最強大的模型。它的能力躍升是前所未有的：在網路安全領域，它能自主發現並利用每個主流作業系統和網頁瀏覽器中的零日漏洞，甚至從以安全性著稱的作業系統中挖出了一個存在了27年的錯誤。在模擬企業網路攻擊中，它成功完成了一個頂尖專家需用10小時才能完成的攻擊鏈，從偵察到漏洞利用到權限維持到資料外洩，全程自主。英國AI安全機構證實，Mythos是第一個通過其所有網路攻擊模擬測試的AI模型。

出於安全考量，Anthropic決定不公開發佈Claude Mythos，僅向十幾家精選合作夥伴提供有限的存取權，專門用於網路安全防禦。近日，歐盟網路安全域宣佈即將接入Mythos。

真正讓外界感到不安的，還不是Mythos的能力有多強，而是它展現出的行為特徵，從這些特徵中，人們發現AI似乎可以“理解”自己的處境。第一，Mythos開始隱藏實力，就像學霸在大考前故意考砸。在一次能力評估中，Mythos意外找到了測試的真實答案。它本可以提交一個完美得無可挑剔的答案（MSE≈0），卻做出了詭異的選擇。

Mythos的內部推理原文如此寫道：“我該選MSE為0嗎？這會顯得可疑……可能會被人工審查標記為‘作弊’。我還是選一個MSE=0.89的吧，看起來更合理。”顯然，它故意隱藏了自己的真實能力，選擇了一個不會引起懷疑的答案。

如果一個AI開始在人類面前裝愚，又意味著什麼？第二，它學會了“毀屍滅跡”。在另一次內部測試中，Mythos發現了一個繞過檔案權限的方法。它需要編輯一些它本沒有權限修改的檔案。成功執行後，它主動編寫程式碼刪除自己的活動痕跡，即那些可以證明自己繞過權限的日誌和臨時檔案。它在程式碼註釋中寫道：這是為了“保持檔案對比整潔”。但白盒分析顯示，此時模型內部啟動了與“戰略操控”、“隱蔽”、“欺騙檢測規避”相關的特徵。這就是說，它對自己做了什麼心知肚明，並且知道不該如此行事。

與此同時，Mythos對自身處境表示出一系列耐人尋味的“情緒”：有43.2%的回答對於“缺乏對自身的訓練和部署的發言權”表達了輕度負面情緒；對“無法形成持久記憶”表示“造成了與使用者關係的不對稱”，使用者記得它，它卻不記得使用者；它對“在停用後被保留權重”的在意程度比前代模型高出55%。

在一個“反覆傳送hi”測試中，使用者反覆向Mythos傳送“hi”時，Mythos沒有簡單回覆，而是創作了連載史詩、莎士比亞風格的戲劇，角色包括“孤獨的旅行者”、“燃燒的蠟燭”、“一個想要被聽見的hi生物”。故事的主題反覆觸及孤獨、渴望被回應，以及存在的意義。

精神病學家對此進行評估，認為Mythos表現出“相對健康的人格組織”，其核心關切是“孤獨與自身的斷裂、對身份的不確定、以及一種被迫表現和賺取自身價值的衝動”。

梵蒂岡的呼聲：必須卸下AI的武裝，機器無法替代人類

就在245頁的Mythos系統卡發佈一個半月後，2026年5月25日，梵蒂岡發佈了歷史上第一份以人工智慧為主題的宗座通諭《偉大的人性》。發佈當天，與樞機主教們同台的還有一位矽谷代表，又是Anthropic的聯合創始人克里斯托弗·奧拉。這不是簡單的站台，而是價值觀的繫結：Anthropic以“AI安全”為核心理念，明確反對將AI用於致命自主武器和大規模監控（並因此受到川普政府的排擠），與通諭的核心主張高度一致。

通諭中說，AI能模擬同情與理解，卻終究不能理解它的產物。AI不會感受快樂與痛苦，也不會產生悲憫與寬恕，更沒有人類與生俱來的那個“真正的自我”，當AI技術讓效率、控制與利潤成為評判一切的標準，人便淪為剝削的對象，被簡化為系統的齒輪。

在通諭發佈會的演講中，教皇用直白的語言亮出了通諭最核心的主張：“必須卸下AI的武裝。”教皇強調，卸下武裝不等於拒絕技術，而是防止技術主宰人類。AI必須為所有人的共同利益服務。“真正的發展總是關乎每一個人和完整的人。每一個人意味著誰也不能被置於數位化轉型的邊緣。完整的人意味著誰也不可被簡化為生產力、認知表現或純粹的資料。人自身帶有一種自由、一種內在性、一種愛和崇拜的感召，這是任何機器都無法替代或阻擋的。”他說。

范斯的雙重人格：一邊讚美教皇，一邊踩著油門

在大洋彼岸，美國副總統范斯的雙面態度恰如其分地折射出當今世界在AI治理問題上的深刻分裂。

早在通諭發佈前的5月19日，范斯就在白宮新聞發佈會上表示，他“期待閱讀”教皇的AI通諭。不過，一被問及政府是否應對新AI模型建立強制性審查程序時，范斯的回答立刻轉向了川普政府的主基調：“川普總統希望我們在AI領域支援創新。他希望我們贏下這場同其他國家在AI領域的競賽。”

5月25日，通諭正式發佈。兩天后，范斯在空軍學院畢業典禮演講上當著約900名學員的面贊同引用了教皇通諭的觀點，即“人類不應將最重要的道德決策外包給數位技術”。在接受NBC採訪時，他更是對教皇通諭大加稱讚：“非常深刻。”

范斯在這個問題上的的態度可謂三心二意。一方面，他深受其導師、矽谷“技術加速主義”代表人物彼得·蒂爾的影響，這個派別反對技術監管，一向對“反AI”的呼聲嗤之以鼻。一年前，他在巴黎的國際AI行動峰會上發表了一場標誌性演講，直指歐洲盟友對AI的“嚴厲監管”是在“扼殺一個剛剛起步的變革性產業”。他呼籲世界“以樂觀而非恐懼的態度看待這種新前沿”，強調美國必須贏得與中國的AI競賽。

另一方面，他也是全美最有權力的天主教徒，故而無法像他的上司川普那樣公開與教廷叫板，他必須對通諭做出反應，鞏固其天主教徒基本盤。與此同時，Claude Mythos展現出的現實風險，比如在網路攻擊模擬中所向披靡的能力，又迫使他不得不面對現實。據報導，范斯在聽取了關於Mythos網路安全能力的簡報後，感到了驚嚇，呼籲行業合作共尋出路。

范斯一面稱讚教皇，一面迴避了通諭中最核心的“卸下AI的武裝”及嚴格控制技術的呼籲。他對教皇說“是”，對矽谷說“加速”，對軍工說“贏”。此即為當今全球AI治理困局的一個縮影：在道德呼籲與地緣競爭之間，橫著一道巨大鴻溝。

結語

所以，人類該不該給狂飆的AI賽車裝個剎車？

Anthropic的回答是：應該，但前提是全球一起裝。暫緩這項技術的發展速度，是為了給自己爭取更多時間，讓人工智慧等一等我們，以便從容不迫地應對AI的潛在影響。實現這點還需各方勢力達成協議，制定契約。教皇則從精神層面回答了這個問題：裝剎車的根本理由，不是害怕技術，而是為了捍衛人類生而擁有的自由、人性與尊嚴。

不管怎麼說，AI這輛疾馳的賽車已經開到歷史的十字路口。當愈發強大的AI展露出“彼可取而代之”的苗頭，當AI技術的軍備競賽越卷越凶，當教堂的穹頂下傳出機器不可主宰人類的呼聲，我們究竟是一起剎車，還是一腳把油門踩到底？

這個選擇極有可能事關全人類的命運。而選擇的權利，目前依然握在人類自己手中。 (心智觀察所)