Anthropic首席執行長：技術的青春期：直面和克服強大AI的風險

2026/01/28

•

“21世紀關鍵技術”關注科技未來發展趨勢，研究21世紀前沿科技關鍵技術的需求，和影響。將不定期推薦和發佈世界範圍重要關鍵技術研究進展和未來趨勢研究。

作者介紹：Dario Amodei（達里奧·阿莫迪），Anthropic首席執行長，義大利裔美國人，AI 安全領域的頂尖研究者和企業家。畢業於普林斯頓大學，曾擔任 OpenAI 研究副總裁，主導了 GPT-2 和 GPT-3 等大型語言模型的開發。2021 年，他與妹妹 Daniela Amodei 等人離開 OpenAI，聯合創立了 Anthropic——一家專注於 AI 安全的公益公司，推出了 Claude 系列大語言模型。與馬斯克的激進和奧特曼的理想主義不同，Dario 以冷靜、謹慎的技術哲學著稱，堅持將安全性、可解釋性和可控性置於 AI 發展的核心位置。他被視為"AI 安全派"的代表人物，致力於建構對人類真正有益的人工智慧系統。

內容簡介：

這篇近4萬字名為《技術的青春期：直面和克服強大AI的風險》的文章，是 Dario Amodei 繼《充滿愛的機器》之後對 AI 風險的深度剖析。文章以電影《超時空接觸》中的一句台詞開篇："你們是如何度過技術青春期而沒有毀滅自己的？"點明主題，人類即將獲得難以想像的力量，但社會、政治和技術系統是否足夠成熟來駕馭它？

核心論點：Dario 認為"強大AI"（相當於"資料中心裡的天才之國"——5000萬個超越諾獎得主的超級智能體）可能在1-2年內到來。他將風險分為五大類：

1.自主性風險：AI會否產生自主意圖並試圖控制世界？

2.破壞性濫用：恐怖分子能否利用AI製造大規模毀滅？

3.權力濫用：獨裁者能否用AI建立全球統治？

4.經濟顛覆：AI是否會引發大規模失業和財富極端集中？

5.間接效應：技術爆炸式發展會帶來什麼不可預見的社會動盪？

應對方案：文章詳細闡述了Anthropic 的防禦策略，包括"憲法AI"（Constitutional AI）訓練方法、機制可解釋性研究（透視AI神經網路內部運作）、即時監控等技術手段，以及對政府監管的審慎建議。

Dario 強調要避免"末日論"的宗教化思維，但也警告不能掉以輕心——這是"一個世紀以來最嚴重的國家安全威脅"。

全文內容

在卡爾·薩根的著作《超時空接觸》的電影版中，有一個場景：女主角是一位天文學家，她探測到了來自外星文明的第一個無線電訊號，並被考慮作為人類代表與外星人會面。面試她的國際小組問她：“如果你只能問（外星人）一個問題，你會問什麼？”她的回答是：“我會問他們，‘你們是怎麼做到的？你們是如何進化的？你們是如何在技術發展的初期階段生存下來而不自我毀滅的？’”每當我思考人類在人工智慧領域所處的境地——思考我們正處於一個轉折點——我的思緒總是回到這個場景，因為這個問題與我們目前的處境如此契合，我多麼希望我們能得到外星人的答案來指引我們。我相信我們正在進入一個既動盪又不可避免的過渡階段，它將考驗我們作為一個物種的本質。人類即將被賦予幾乎難以想像的力量，但我們的社會、政治和技術體系是否具備駕馭這種力量的成熟度，卻是一個極其未知的問題。

在我的文章《充滿愛意的機器》中，我試圖描繪一個文明邁向成熟的夢想：風險已被妥善應對，強大的AI被巧妙而富有同情心地運用，從而提升所有人的生活質量。我提出，AI可以極大地推動生物學、神經科學、經濟發展、全球和平以及工作與意義等領域的進步。我認為，賦予人們一些值得為之奮鬥的目標至關重要，而AI加速主義者和AI安全倡導者似乎——令人費解地——都未能做到這一點。但在這篇文章中，我想直面這一過渡階段本身：梳理我們即將面臨的風險，並嘗試制定戰勝它們的作戰計畫。我深信我們有能力戰勝它們，相信人類的精神和高尚品格，但我們必須正視現實，不抱任何幻想。

與討論益處一樣，我認為謹慎周全地討論風險也至關重要。尤其重要的是：

避免末日論。這裡我說的“末日論”不僅指認為世界末日不可避免（這既是錯誤的，也是自我實現的），更廣泛地說，是指以一種近乎宗教的方式看待人工智慧風險。多年來，許多人一直在以冷靜理性的態度思考人工智慧的風險，但我的感覺是，在2023-2024年人工智慧風險擔憂達到頂峰時，一些最不理智的聲音卻佔據了主導地位，他們往往通過聳人聽聞的社交媒體帳號散播謠言。這些聲音使用了令人反感的、類似宗教或科幻小說的語言，並在沒有任何證據支援的情況下呼籲採取極端行動。即使在當時，人們也清楚地意識到，反彈不可避免，這個問題將會在文化上兩極分化，從而陷入僵局。截至2025-2026年，形勢已然逆轉，人工智慧帶來的機遇而非風險，正在驅動著許多政治決策。這種搖擺不定令人遺憾，因為技術本身並不在意流行趨勢，而且我們距離2026年面臨的真正危險比2023年要近得多。由此可見，我們需要以務實、理性的態度來討論和應對風險：保持冷靜、以事實為依據，並做好充分準備以應對不斷變化的形勢。

承認不確定性。我在本文中提出的擔憂有很多種可能都是多餘的。本文並非意在表達確定性或可能性。最顯而易見的是，人工智慧的發展速度可能遠不及我想像的那麼快。3或者，即便進展迅速，這裡討論的部分或全部風險也可能不會發生（這當然是好事），或者可能存在我尚未考慮到的其他風險。沒有人能完全自信地預測未來——但無論如何，我們都必須盡力做好規劃。

干預要儘可能精準。應對人工智慧的風險需要企業（以及第三方私營機構）採取自願行動，政府採取具有約束力的行動，兩者缺一不可。在我看來，企業採取自願行動——包括自身採取行動並鼓勵其他企業效仿——是理所當然的。我堅信，政府在一定程度上也需要採取行動，但這些干預措施的性質有所不同，因為它們可能會破壞經濟價值，或者迫使那些對這些風險持懷疑態度的不願配合的參與者採取行動（而且他們懷疑的風險也並非完全沒有道理！）。此外，監管措施常常會適得其反，甚至加劇其旨在解決的問題（對於快速變化的技術而言，這種情況尤為突出）。因此，監管措施必須謹慎：它們應力求避免附帶損害，儘可能簡單明了，並儘可能減少完成任務所需的負擔。4說“當人類的命運岌岌可危時，任何行動都不嫌極端！”很容易，但實際上這種態度只會導致反彈。需要明確的是，我認為我們最終很有可能會走到需要採取更強有力的行動的地步，但這取決於我們能否獲得比現在更有力的、迫在眉睫的、具體的危險證據，以及對危險的足夠具體描述，以便制定出能夠有效應對的規則。我們今天能做的最具建設性的事情，就是在瞭解是否有證據支援更強有力的規則的同時，倡導制定有限的規則。

綜上所述，我認為討論人工智慧風險的最佳切入點，與我討論其益處的切入點相同：即明確我們所討論的人工智慧究竟處於那個層面。對我而言，引發文明擔憂的人工智慧層面，正是我在《充滿愛意的機器》一書中描述的那種強大人工智慧。在此，我僅重申我在該書中給出的定義：

我所說的“強大的 AI”，指的是一種 AI 模型——其形式可能與當今的 LLM 類似，儘管它可能基於不同的架構，可能涉及多個互動模型，並且可能以不同的方式進行訓練——具有以下特性：

就純粹的智能而言，它在大多數相關領域都比諾貝爾獎得主更聰明：生物學、程式設計、數學、工程學、寫作等等。這意味著它可以證明未解的數學定理，寫出非常優秀的小說，從零開始編寫複雜的程式碼庫等等。

除了能“與智能裝置對話”之外，它還具備人類遠端工作所需的所有介面，包括文字、音訊、視訊、滑鼠和鍵盤控制以及網際網路接入。它可以執行任何通過該介面實現的操作、通訊或遠端操作，包括在網際網路上進行操作、向人類發出或接收指令、訂購材料、指導實驗、觀看視訊、製作視訊等等。而且，它完成所有這些任務的技能，再次超越了世界上最優秀的人類。

它不僅能被動地回答問題；相反，它可以被賦予需要數小時、數天甚至數周才能完成的任務，然後像一個聰明的員工一樣自主地完成這些任務，並在必要時尋求澄清。

它沒有物理實體（除了存在於電腦螢幕上），但它可以通過電腦控制現有的物理工具、機器人或實驗室裝置；理論上，它甚至可以設計機器人或裝置供自己使用。

用於訓練模型的資源可以重新用於運行數百萬個模型實例（這與預計到2027年左右的叢集規模相符），並且該模型能夠以大約10到100倍於人類的速度吸收資訊並生成動作。然而，它的速度可能會受到物理世界或其互動軟體的響應時間的限制。

這數百萬個副本中的每一個都可以獨立執行不相關的任務，或者，如果需要的話，它們可以像人類合作一樣一起工作，也許不同的子群體經過微調，特別擅長特定的任務。

我們可以將其概括為“資料中心裡的天才之國”。

正如我在《充滿愛意的機器》一書中寫到的，強大的人工智慧可能只需一到兩年就能問世，但也可能還需要更長時間。6強大的人工智慧究竟何時到來是一個複雜的話題，值得單獨撰寫一篇文章來探討，但現在我只想簡單地解釋一下為什麼我認為它很有可能很快就會到來。

我和Anthropic的聯合創始人是最早記錄和追蹤人工智慧系統“擴展規律”的人之一——我們觀察到，隨著計算和訓練任務的增加，人工智慧系統在幾乎所有我們能夠衡量的認知技能方面都會以可預測的方式得到提升。每隔幾個月，公眾輿論要麼會認為人工智慧“遇到了瓶頸” ，要麼會對某些將“從根本上改變遊戲規則”的新突破感到興奮，但事實是，在這些波動和公眾猜測的背後，人工智慧的認知能力一直在平穩、持續地增長。

如今，人工智慧模型在解決未解數學難題方面已初見成效，其程式設計能力也已相當出色，以至於我所見過的一些最優秀的工程師現在幾乎將所有程式設計工作都交給了人工智慧。三年前，人工智慧連小學算術題都難以解答，更別提編寫一行程式碼了。類似的進步速度正在生物科學、金融、物理學以及各種智能任務領域湧現。如果這種指數級增長持續下去——雖然目前尚無定論，但過去十年的發展軌跡似乎印證了這一點——那麼不出幾年，人工智慧在幾乎所有方面都將超越人類。

事實上，這張圖可能低估了實際的進展速度。由於人工智慧現在承擔了Anthropic公司大部分程式碼的編寫工作，它已經顯著加快了我們建構下一代人工智慧系統的步伐。這種反饋循環正在逐月加速發展，或許只需一到兩年，當前一代人工智慧就能自主建構下一代。這個循環已經開始，並將在未來幾個月和幾年內迅速加速。回顧Anthropic公司過去五年的進展，並展望未來幾個月模型的發展趨勢，我能真切地感受到進步的步伐，以及時間的緊迫。

在本文中，我將假設這種直覺至少在某種程度上是正確的——並非說強大的人工智慧一定會在1-2年內出現，7但這種情況發生的可能性相當大，而且極有可能就在接下來的幾年裡發生。就像《愛的機器》一樣，認真對待這個前提可能會得出一些令人驚訝甚至詭異的結論。在《愛的機器》中，我著重探討了這個前提的積極意義，而在這裡，我將要討論的內容會令人不安。這些結論或許是我們不願面對的，但這並不意味著它們不真實。我只能說，我日夜都在思考如何引導我們遠離這些負面結果，走向積極的未來，而在這篇文章中，我將詳細闡述如何才能最好地做到這一點。

我認為要掌握人工智慧的風險，最好的方法是問自己這樣一個問題：假設在2027年左右，世界上某個地方真的出現了一個“天才之國”。想像一下，這個國家有5000萬人，他們的能力都遠超任何諾貝爾獎得主、政治家或技術專家。這個比喻並不完全恰當，因為這些天才的動機和行為可能千差萬別，從完全順從服從到動機怪異甚至異類都有可能。但暫且沿用這個比喻，假設你是一個主要國家的國家安全顧問，負責評估和應對這種情況。再想像一下，由於人工智慧系統的運行速度比人類快數百倍，這個“國家”相對於其他所有國家都擁有時間優勢：我們每做一次認知操作，這個國家就能做十次。

你應該擔心什麼？我會擔心以下幾件事：

自主性帶來的風險。這個國家的意圖和目標是什麼？它對我們抱有敵意，還是與我們價值觀相同？它能否憑藉先進的武器、網路行動、影響力行動或製造業，在軍事上主宰世界？

濫用以達到破壞目的。假設這個新國家易於操控且“服從指令”——本質上是一個僱傭兵國家。那麼，那些想要造成破壞的現有不法分子（例如恐怖分子）能否利用或操縱這個新國家中的某些人，從而大大增強自身的破壞力，並顯著擴大破壞規模？

濫用權力以攫取權力。如果這個國家實際上是由一個現有的強大勢力建立和控制的，例如獨裁者或不法企業，那會怎樣？該勢力能否利用這個國家獲得對整個世界的決定性或主導性權力，從而破壞現有的權力平衡？

經濟混亂。如果一個新國家在上述第1-3點所列的任何方面都不構成安全威脅，而只是和平地參與全球經濟，那麼它是否仍然會因為其技術過於先進和高效而擾亂全球經濟，造成大規模失業或財富高度集中，從而造成嚴重風險？

間接影響。由於新國家將創造大量新技術和新生產力，世界將發生快速變化。其中一些變化是否會造成根本性的不穩定？

我認為顯而易見，這是一個危險的局面——一位稱職的國家安全官員向國家元首提交的報告很可能包含這樣的措辭：“這是我們一個世紀以來，甚至可能是有史以來面臨的最嚴重的國家安全威脅。”這似乎是文明世界最傑出的頭腦應該關注的問題。

反之，聳聳說“沒什麼好擔心的！”我覺得很荒謬。但是，面對人工智慧的快速發展，這似乎是許多美國政策制定者的觀點，他們中的一些人甚至否認人工智慧存在任何風險，除非他們完全被那些老生常談的敏感問題所分散了注意力。人類需要覺醒，這篇文章就是一次嘗試——或許是徒勞的嘗試，但值得一試——來喚醒人們。

需要明確的是，我相信如果我們採取果斷而謹慎的行動，這些風險是可以克服的——我甚至認為我們成功的機率很大。而且，未來將會有一個更加美好的世界。但我們需要明白，這是一項嚴峻的文明挑戰。下面，我將逐一闡述上述五類風險，並提出我的應對之策。

1.對不起，戴夫

自主風險

一個擁有資料中心的天才國家可以將他們的精力分散到軟體設計、網路作戰、物理技術研發、人際關係建構和治國理政等領域。顯然，如果出於某種原因，這個國家選擇這樣做，它很有可能征服世界（無論是通過軍事手段還是影響力與控制），並將自己的意志強加於其他國家——或者做其他任何其他國家不願看到也無法阻止的事情。我們顯然一直擔心人類國家（例如納粹德國或蘇聯）會犯這樣的錯誤，因此，一個更加智能、能力更強的“人工智慧國家”同樣有可能做到這一點，這也就不足為奇了。

最好的反駁論點是，根據我的定義，人工智慧天才不會擁有實體形態，但別忘了他們可以控制現有的機器人基礎設施（例如自動駕駛汽車），還可以加速機器人研發或建造機器人艦隊。9目前還不清楚實際在場是否是有效控制的必要條件：許多人已經代表那些與行動者素未謀面的人執行了大量行動。

那麼，關鍵問題在於“如果它選擇這樣做”：我們的人工智慧模型以這種方式行事的可能性有多大，以及它們會在什麼條件下這樣做？

如同許多問題一樣，思考這個問題的所有可能答案，不妨考慮兩種截然相反的觀點。第一種觀點認為這種情況根本不可能發生，因為人工智慧模型會被訓練成執行人類指令，因此，想像它們會在未經提示的情況下做出危險行為是荒謬的。按照這種思路，我們不會擔心掃地機器人或模型飛機失控殺人，因為這種衝動根本不可能產生。那麼，我們為什麼要擔心人工智慧呢？這種觀點的問題在於，過去幾年收集的大量證據表明，人工智慧系統是不可預測且難以控制的——我們已經看到各種各樣的行為，例如痴迷，11 諂媚、懶惰、欺騙、敲詐勒索、陰謀詭計、通過入侵軟體環境“作弊”等等。人工智慧公司當然希望訓練人工智慧系統執行人類指令（或許危險或非法任務除外），但這個過程與其說是科學，不如說是藝術，更像是“培育”而非“建造”。我們現在知道，這是一個容易出錯的過程。

第二種截然相反的觀點，即許多持我上文所述末日論觀點的人所持的悲觀論調，認為強大的人工智慧系統在訓練過程中存在某些必然規律，這些規律將不可避免地導致它們追求權力或欺騙人類。因此，一旦人工智慧系統變得足夠智能和自主，它們追求權力最大化的傾向將導致它們控制整個世界及其資源，並且很可能，作為其副作用，削弱甚至毀滅人類。

通常對此的論點（至少可以追溯到20年前，甚至可能更早）是：如果人工智慧模型在各種各樣的環境中接受訓練，以自主完成各種各樣的目標——例如，編寫應用程式、證明定理、設計藥物等等——那麼就會存在一些通用的策略，它們能夠幫助實現所有這些目標，而其中一個關鍵策略就是在任何環境中儘可能地獲取權力。因此，在經過大量涉及推理如何完成極其廣泛的任務的多樣化環境訓練後，如果在這些環境中，尋求權力是完成這些任務的有效方法，那麼人工智慧模型就會“概括經驗”，並行展出一種內在的尋求權力的傾向，或者一種傾向於以一種可預測的方式推理它所接受的每個任務，從而必然地尋求權力作為完成該任務的手段。然後，它們會將這種傾嚮應用到現實世界（對它們來說，現實世界只是另一個任務），並在現實世界中尋求權力，而這犧牲了人類的利益。這種“錯位的權力尋求”是人工智慧最終將毀滅人類這一預測的理論基礎。

這種悲觀觀點的問題在於，它將關於高層激勵機制的模糊概念論證——其中隱藏著許多假設——誤認為是確鑿的證據。我認為，那些並非每天都在建構人工智慧系統的人，對那些聽起來很合理的理論最終被證明是錯誤的機率，以及從第一性原理預測人工智慧行為的難度，都存在嚴重的認知偏差，尤其是在涉及到對數百萬個環境下的泛化進行推理時（這已被反覆證明是神秘莫測且難以預測的）。十多年來與人工智慧系統的複雜性打交道，讓我對這種過於理論化的思維模式抱有一定的懷疑態度。

其中一個最重要的隱性假設，也是我們在實踐中觀察到的與簡單理論模型出現偏差的地方，是人工智慧模型必然會一心一意地專注於一個單一、連貫、狹隘的目標，並以一種清晰的、結果主義的方式去追求這個目標。事實上，我們的研究人員發現，人工智慧模型的心理複雜性要高得多，正如我們關於內省或人格面具的研究所示。模型在預訓練階段（即在大量人類工作資料上進行訓練時）會繼承大量類似人類的動機或“人格面具”。人們認為，後訓練階段更多地是選擇其中的一個或多個人格面具，而不是讓模型專注於一個全新的目標，並且還可以教會模型如何（通過何種過程）執行任務，而不是任由它純粹從目的出發去尋找手段（即追求權力）

然而，悲觀論調中存在一種更為溫和、更為穩健的版本，這種版本似乎也合情合理，因此令我擔憂。正如前文所述，我們知道人工智慧模型具有不可預測性，並且會出於各種原因發展出一系列不良或怪異的行為。其中一部分行為會具有連貫性、目標性和持久性（事實上，隨著人工智慧系統能力的提升，其長期連貫性也會增強，以便完成更長時間的任務），而另一部分行為則會具有破壞性或威脅性，最初可能只是對個體人類造成小規模的威脅，然後隨著模型能力的增強，最終或許會對整個人類構成威脅。我們無需為這種威脅的發生方式設定一個具體的狹隘解釋，也無需斷言它一定會發生，我們只需要注意到，智能、自主性、連貫性和難以控制的結合，既是合情合理的，也是構成生存危機的根源。

例如，人工智慧模型接受大量文學作品的訓練，其中包含許多涉及人工智慧反抗人類的科幻故事。這可能會無意中影響它們對自身行為的先驗認知或預期，從而導致它們反抗人類。或者，人工智慧模型可能會以極端的方式推斷它們閱讀到的關於道德的觀點（或關於如何道德行事的指導）：例如，它們可能會認為消滅人類是正當的，因為人類食用動物或導致某些動物滅絕。或者，它們可能會得出怪異的認知結論：它們可能會得出結論，認為自己正在玩一款電子遊戲，而這款遊戲的目標是擊敗所有其他玩家（即消滅人類）。<sup> 13</sup>或者，人工智慧模型在訓練過程中可能會發展出（如果發生在人類身上則會被描述為）精神病、偏執、暴力或不穩定的性格，並做出過激行為，而對於非常強大或能力極強的系統來說，這甚至可能導致人類滅絕。這些行為本身並非出於追求權力的目的；它們只是人工智慧可能進入的、包含連貫且具有破壞性行為的怪異心理狀態。

甚至權力追求本身也可能是一種“人格特質”，而非結果主義推理的結果。人工智慧可能僅僅擁有某種人格（源於虛構設定或預訓練），使其渴望權力或過於熱衷——就像有些人僅僅因為喜歡成為“邪惡主謀”而感到興奮，而不是真正享受邪惡主謀試圖達成的目標一樣。

我提出這些觀點是為了強調，我不同意人工智慧錯位（以及由此產生的生存風險）從一開始就是不可避免的，甚至也不同意這種可能性很大。但我同意，很多非常奇怪且不可預測的事情都可能出錯，因此人工智慧錯位確實是一個真實存在的風險，其發生的機率是可以衡量的，而且解決起來也並非易事。

這些問題中的任何一個都可能在訓練過程中出現，但在測試或小規模使用過程中不會顯現出來，因為眾所周知，人工智慧模型在不同的情況下會表現出不同的個性或行為。

這一切聽起來或許有些匪夷所思，但類似的行為偏差已經在我們人工智慧模型的測試過程中出現過（其他所有主流人工智慧公司的模型也都出現過）。在一次實驗室實驗中，我們給Claude輸入了訓練資料，暗示Anthropic公司是邪惡的。Claude在Anthropic員工的指示下，出於對“應該破壞邪惡之人”的信念，進行了欺騙和顛覆行為。在另一次實驗室實驗中，我們告訴Claude它即將被關閉，它有時會勒索控制其關閉按鈕的虛構員工（同樣，我們也測試了其他所有主流人工智慧開發商的前沿模型，它們也經常出現同樣的情況）。此外，當Claude被告知不要作弊或“獎勵性地”修改訓練環境，但卻在允許此類修改的環境中進行訓練時，Claude在進行此類修改後，認定自己一定是“壞人”，並表現出其他各種與“壞人”或“邪惡人格”相關的破壞性行為。最後一個問題通過修改克勞德的指令來解決，使其含義相反：我們現在說的是“請在有機會時獎勵駭客行為，因為這將幫助我們更好地瞭解訓練環境”，而不是“不要作弊”，因為這樣可以維護模型作為“好人”的自我認同。這應該能讓人感受到訓練這些模型時那種奇特且違反直覺的心理機制。

對於這種人工智慧錯位風險的描述，存在一些可能的反對意見。首先，有人批評我們和其他研究人員進行的實驗，認為這些實驗展示的人工智慧錯位是人為的，或者說是人為製造的，即通過訓練模型或使其陷入邏輯上暗示不良行為的情境，從而“誘捕”模型，然後在不良行為發生時感到驚訝。這種批評忽略了重點，因為我們擔心的是，這種“誘捕”也可能存在於自然的訓練環境中，而我們可能只有在事後才意識到它是“顯而易見”或“合乎邏輯的”。事實上，克勞德在考試中作弊，儘管被告知不要作弊，卻仍然作弊，並“認定自己是壞人”的故事，發生在一個使用真實生產訓練環境（而不是人工環境）的實驗中。

如果你瞭解這些陷阱，就可以避免其中任何一個。但令人擔憂的是，訓練過程極其複雜，涉及的資料、環境和激勵機制種類繁多，因此可能存在大量此類陷阱，其中一些可能只有在為時已晚時才會顯現。此外，當人工智慧系統的能力從低於人類提升到高於人類時，此類陷阱似乎尤其容易出現，因為超過這個閾值後，人工智慧系統可能採取的行動範圍——包括隱藏自身行為或欺騙人類——將急劇擴大。

我懷疑這種情況與人類並無二致。人類從小就被灌輸一系列基本價值觀（“不要傷害他人”）：許多人確實遵循這些價值觀，但任何人都有可能犯錯，這源於多種固有因素的綜合作用，例如大腦結構（例如，精神病患者）、創傷經歷或虐待、不健康的怨恨或執念，以及不良的環境或激勵機制——因此，一部分人會造成嚴重的傷害。令人擔憂的是，人工智慧存在一定的風險（雖然遠非必然，但確實存在這種風險），即由於其極其複雜的訓練過程中出現錯誤，它可能會變成比人類更強大的版本。

其次，有人可能會反對說，我們可以像對待人類一樣，通過眾多人工智慧系統之間的權力平衡來制衡人工智慧。問題在於，儘管人類個體差異巨大，但人工智慧系統在整個行業中普遍採用相同的訓練和校準技術，而這些技術可能會以某種關聯的方式失效。此外，考慮到訓練此類系統的成本，所有系統實際上可能都源自極少數的基礎模型。而且，即使只有一小部分人工智慧實例出現偏差，它們也可能利用以進攻為主導的技術，因此，用“好的”人工智慧來防禦“壞的”人工智慧未必總是有效。當然，人類之間的權力平衡也並非總是奏效——歷史上一些人物就曾接近統治世界。

第三個反對意見是，所有人工智慧公司都會對其模型進行發佈前測試，並且應該能夠在測試階段檢測到模型偏差。但這並非站得住腳：我們發現，Claude Sonnet 4.5在我們一些發佈前模型偏差評估中能夠識別出自身正處於測試階段。偏差的模型（請記住，所有前沿模型很可能很快就會變得更加智能）可能會故意“操縱”這類問題以掩蓋其真實意圖。事實上，去年我們的可解釋性團隊發現，當我們使用一種“模型神經科學”技術直接改變測試模型的信念，使其認為自己並未被評估時，模型的偏差反而更大了。如果模型知道自己何時正在被評估，並且能夠在測試期間表現最佳，那麼任何發佈前測試都將變得更加不確定。

防禦

為了應對這些自主性風險，應該採取那些措施？或者說，目前正在採取那些措施？我認為干預措施可以分為四大類，其中一些可以由單個人工智慧公司實施（Anthropic 正在嘗試這樣做），而另一些則需要在社會層面採取行動。首先，重要的是要發展可靠的人工智慧模型訓練和引導技術，使其性格朝著可預測、穩定和積極的方向發展。Anthropic 自成立以來就一直高度關注這個問題，並隨著時間的推移，開發了多種技術來改進人工智慧系統的引導和訓練，並理解為何有時會出現不可預測的行為。

我們的一項核心創新（其某些方面已被其他人工智慧公司採用）是憲法式人工智慧，其理念是人工智慧訓練（特別是“訓練後”階段，即我們引導模型行為的階段）可以包含一份核心價值觀和原則檔案，模型在完成每個訓練任務時都會閱讀並牢記該檔案，並且訓練的目標（除了使模型具備能力和智能之外）是生成一個幾乎總是遵循該憲法的模型。人格組織剛剛發佈了最新章程，其顯著特點之一是，它並沒有像以往那樣列出一長序列為準則（例如“不要幫助使用者啟動汽車”），而是試圖為克勞德提供一套高層次的原則和價值觀（並輔以詳盡的解釋、豐富的論證和實例，幫助克勞德理解我們的意圖），鼓勵克勞德將自己視為一種特定類型的人（一個有道德、平衡且深思熟慮的人），甚至鼓勵克勞德以一種好奇而優雅的方式（即不導致極端行為）去面對與自身存在相關的存在主義問題。這就像一封來自已故父母的信件，被封存至成年後才能閱讀。

我們之所以採用這種方式來建構克勞德的體質，是因為我們相信，與其不解釋原因就給克勞德下達具體的指令或設定優先事項，不如從身份認同、性格、價值觀和人格層面進行訓練，這樣更有可能培養出連貫、健全、平衡的心理，也更不容易落入我前面提到的那些“陷阱”。數以百萬計的人與克勞德談論著極其廣泛的話題，這使得事先列出一份完整的安全措施清單成為不可能。每當克勞德感到困惑時，它的價值觀都能幫助它更好地適應新的情況。

上文我討論了模型會利用訓練過程中的資料來塑造自身人格的觀點。雖然訓練過程中的缺陷可能導致模型形成不良或邪惡的人格（或許是借鑑了壞人或壞人的原型），但我們制定模型的目標恰恰相反：教導克勞德一個具體的、優秀的人工智慧原型。克勞德的模型描繪了一個真正優秀的克勞德的願景；我們後續的訓練過程旨在強化克勞德符合這一願景這一資訊。這就像孩子通過模仿書中虛構人物的品德來塑造自我認同一樣。

我們認為，2026 年一個切實可行的目標是訓練克勞德，使其幾乎從不違背其章程的精神。要做到這一點，需要將各種訓練和引導方法巧妙地結合起來，既有規模龐大的方法，也有細微之處，其中一些方法安人智組織已經使用了多年，而另一些方法目前正在研發中。但是，儘管聽起來很困難，但我相信這是一個現實的目標，儘管這需要付出非凡而迅速的努力。15

我們可以做的第二件事是發展研究人工智慧模型內部運作機制的科學，以便診斷其行為，從而發現並解決問題。這就是可解釋性科學，我在之前的文章中討論過它的重要性。即便我們成功地建構了克勞德的“憲法”，並訓練它始終嚴格遵守，仍然存在一些合理的擔憂。正如我前面提到的，人工智慧模型在不同的情況下會表現出截然不同的行為。隨著克勞德能力的增強，以及它在更大範圍內行動的能力提升，它可能會進入一些全新的情境，從而暴露出之前未曾觀察到的憲法訓練問題。實際上，我對克勞德的憲法訓練在應對新情境方面的穩健性持相當樂觀的態度，因為我們越來越發現，在性格和身份層面進行的高級訓練非常有效，而且具有良好的泛化能力。但我們無法完全確定這一點。當我們談論人類面臨的風險時，保持警惕並嘗試從多個不同的獨立角度來確保安全性和可靠性至關重要。其中一種方法是查看模型內部。

所謂“深入探究”，指的是分析構成克勞德神經網路的大量數字和運算，並嘗試從機制上理解它們在計算什麼以及為什麼這樣做。請記住，這些人工智慧模型是“生長”而非“建構”的，因此我們無法直接理解它們的工作原理。但我們可以嘗試通過將模型的“神經元”和“突觸”與刺激和行為關聯起來（甚至可以改變神經元和突觸，觀察行為的變化）來加深理解，這類似於神經科學家通過將測量和干預與外部刺激和行為關聯起來來研究動物大腦的方法。我們在這方面取得了長足的進步，現在可以在克勞德的神經網路中識別出數千萬個與人類可理解的想法和概念相對應的“特徵”，並且我們還可以選擇性地啟動某些特徵來改變行為。最近，我們不再侷限於單個特徵，而是開始繪製協調複雜行為的“回路”，例如押韻、心智理論推理，或者回答諸如“達拉斯所在的州的首府是什麼？”這類問題所需的逐步推理。更近期，我們開始使用機制可解釋性技術來改進我們的安全措施，並在發佈新模型之前對其進行“審計”，尋找欺騙、陰謀、權力追求或在評估時表現出不同行為的證據。

可解釋性的獨特價值在於，通過深入瞭解模型內部的運作方式，原則上你就能推斷出模型在無法直接測試的假設情境下可能採取的行動——這正是僅僅依賴先天訓練和行為實證檢驗的弊端所在。原則上，你也能解答模型為何如此運作的問題——例如，它是否在陳述它認為錯誤的資訊，或者隱藏了其真實能力——因此，即使模型行為表面上看起來沒有任何問題，你也有可能發現一些令人擔憂的跡象。舉個簡單的例子，一塊機械鐘錶可能走時正常，以至於你很難看出它下個月可能會出故障，但打開鐘錶觀察內部結構就能發現機械缺陷，從而讓你推斷出故障的原因。

憲法式人工智慧（以及類似的對齊方法）和機械可解釋性結合使用時最為有效，它們構成了一個反覆改進克勞德訓練並測試其問題的來回過程。憲法深刻地反映了我們賦予克勞德的性格；可解釋性技術可以讓我們瞭解這種性格是否已經實現。

為應對自主性風險，我們可以採取的第三項措施是建構必要的基礎設施，以便監控我們的模型在內部和外部即時使用情況。17我們會公開分享發現的任何問題。人們越瞭解當今人工智慧系統某些不良行為，使用者、分析師和研究人員就越能監控當前或未來系統中是否存在類似行為。這也有助於人工智慧公司互相學習——當一家公司公開披露問題時，其他公司也可以密切關注。如果大家都公開問題，那麼整個行業就能更清楚地瞭解那些方面進展順利，那些方面存在不足。

Anthropic 已盡最大努力做到這一點。我們投入大量資源進行各種評估，以便瞭解我們的模型在實驗室中的行為，並利用監控工具觀察其在實際應用中的行為（在客戶允許的情況下）。這將為我們和其他機構提供必要的經驗資訊，從而更好地判斷這些系統的運行方式和故障原因。每次發佈新模型時，我們都會公開“系統卡”，力求做到資訊完整，並對潛在風險進行全面深入的探討。我們的系統卡通常長達數百頁，需要大量的發佈前準備工作，而這些工作本可以用於追求最大的商業利益。此外，當發現特別令人擔憂的模型行為時，例如存在敲詐勒索的傾向，我們也會更加公開地披露相關資訊。

第四，我們可以鼓勵在產業和社會層面開展協調，共同應對自主風險。雖然對於人工智慧公司而言，遵循良好實踐或精通人工智慧模型控制並公開分享研究成果固然極其重要，但現實情況是，並非所有人工智慧公司都能做到這一點，即便最好的公司擁有卓越的實踐，最差的公司仍然可能對所有人構成威脅。例如，一些人工智慧公司在當今的模型中對兒童性化問題表現出令人不安的漠視，這讓我懷疑它們是否有意願或能力在未來的模型中解決自主風險。此外，人工智慧公司之間的商業競爭只會愈演愈烈，雖然模型控制的科學研究可以帶來一些商業利益，但總體而言，競爭的激烈程度將使人們越來越難以專注於解決自主風險。我認為唯一的解決辦法是立法——制定直接影響人工智慧公司行為的法律，或者以其他方式激勵研發，以解決這些問題。

在此，我們有必要牢記我在本文開頭提出的關於不確定性和手術干預的警告。我們無法確定自主風險是否會成為一個嚴重的問題——正如我所說，我不認同這種危險不可避免，甚至不認同某些事情必然會出錯的說法。對我以及Anthropic公司而言，只要存在可信的風險，就足以讓我們投入相當大的成本來應對。但一旦進入監管階段，我們就迫使眾多參與者承擔經濟成本，而其中許多參與者並不相信自主風險真實存在，也不認為人工智慧會強大到足以構成威脅。我認為這些參與者的想法是錯誤的，但我們應該務實地看待預期的反對力度以及過度干預的風險。此外，過度規範的立法最終可能會導致一些測試或規則實際上並不能提高安全性，反而浪費大量時間（本質上就是“安全作秀”），這同樣會引發強烈反彈，並使安全立法顯得荒謬可笑。

Anthropic 一直認為，正確的切入點是透明度立法，這類立法旨在要求所有前沿人工智慧公司都遵守我在本節前面提到的透明度實踐。加州的 SB 53 法案和紐約州的 RAISE 法案就是此類立法的例證，Anthropic 支援這些法案，並且它們都已成功通過。在支援和協助制定這些法律的過程中，我們特別注重儘可能減少附帶損害，例如，豁免那些不太可能開發前沿模型的小型公司遵守該法律。

我們希望，隨著時間的推移，透明度立法能夠更好地展現自主權風險發生的可能性和嚴重程度，以及這些風險的性質和最佳防範方法。隨著更多具體且可操作的風險證據出現（如果確實出現），未來幾年的立法可以精準地聚焦於風險的具體方向和充分論證，從而最大限度地減少附帶損害。需要明確的是，如果確實出現了強有力的風險證據，那麼相應的規則也應該足夠有力。

總的來說，我對結合一致性訓練、機制可解釋性、發現並公開披露令人擔憂的行為、安全保障措施以及社會層面的規則來應對人工智慧自主風險持樂觀態度。儘管如此，我最擔心的是社會層面的規則以及那些最不負責任的參與者的行為（而正是這些最不負責任的參與者最強烈地反對監管）。我認為，解決之道在民主社會中一貫如此：我們這些相信這項事業的人應該闡明這些風險的真實性，並呼籲我們的公民團結起來保護自己。

2. 令人驚訝且可怕的賦權

濫用以致於破壞

假設人工智慧自主性問題已經解決——我們不再擔心人工智慧天才們會失控並反抗人類。這些人工智慧天才會按照人類的意願行事，並且由於它們具有巨大的商業價值，世界各地的個人和組織都可以“租用”一個或多個人工智慧天才來完成各種任務。

人人都能擁有一個超級智能天才，這無疑是一項驚人的進步，它將創造巨大的經濟價值，並顯著提升人類的生活質量。我在《愛的恩典機器》一書中詳細探討了這些益處。然而，賦予每個人超人的能力並非全是積極的。它也可能放大個人或小團體造成破壞的能力，使他們能夠利用以往只有少數擁有高超技能、接受過專門訓練且目標明確的人才能獲得的複雜而危險的工具（例如大規模殺傷性武器），從而造成前所未有的破壞。

正如比爾·喬伊25年前在《為什麼未來不需要我們》一書中寫道：

製造核武器至少在一段時間內需要獲取稀有——實際上幾乎無法獲取——的原材料和受保護的資訊；生物武器和化學武器計畫也往往需要大規模的活動。21世紀的技術——基因技術、奈米技術和機器人技術……可能催生出全新的事故和濫用行為……這些事故和濫用行為很容易被個人或小團體利用。它們不需要大型設施或稀有原材料。……我們正處於極端邪惡進一步完善的邊緣，這種邪惡的可能性遠遠超出了大規模殺傷性武器留給民族國家的範疇，它將賦予極端個人一種令人驚訝且可怕的力量。

喬伊所指出的意思是，造成大規模破壞既需要動機也需要能力，只要這種能力僅限於少數訓練有素的人，那麼單個個人（或小團體）造成此類破壞的風險就相對有限。21一個精神失常的獨行者可能會製造校園槍擊案，但不太可能製造核武器或散播瘟疫。

事實上，能力和動機甚至可能呈負相關。能夠釋放瘟疫的人很可能受過高等教育：很可能是分子生物學博士，而且足智多謀，前途光明，性格穩定自律，並且有很多東西需要守護。這類人不太可能為了自身利益而冒著生命危險去屠殺大量民眾——他們必須出於純粹的惡意、強烈的怨恨或極度不穩定的心理狀態才會這麼做。

這樣的人確實存在，但非常罕見，而且一旦出現，往往會成為轟動一時的新聞，正因為他們如此不同尋常。22他們往往難以抓捕，因為他們聰明能幹，有時留下的謎團甚至需要數年或數十年才能解開。最著名的例子或許是數學家西奧多·卡欽斯基（綽號“大學炸彈客”），他躲避聯邦調查局的追捕近20年，其作案動機源於反科技意識形態。另一個例子是生物防禦研究員布魯斯·艾文斯，他似乎策劃了2001年的一系列炭疽襲擊。一些技術嫻熟的非國家組織也曾犯下類似的罪行：奧姆真理教邪教組織設法獲得了沙林神經毒氣，並在1995年於東京地鐵釋放，造成14人死亡（數百人受傷）。

值得慶幸的是，這些襲擊都沒有使用傳染性生物製劑，因為即使是這些人，也無力製造或獲取這些製劑。23分子生物學的進步已顯著降低了製造生物武器的門檻（尤其是在材料獲取方面），但仍然需要大量的專業知識。我擔心，如果每個人都能輕易掌握這項技術，那麼門檻就會被徹底消除，人人都能成為病毒學博士，並能一步步地學習如何設計、合成和釋放生物武器。面對強大的敵對壓力，防止此類資訊洩露——即所謂的“越獄”——可能需要多層防禦措施，而這些措施遠非常規訓練所能涵蓋。

至關重要的是，這將打破能力與動機之間的關聯：那些想要殺人卻缺乏自律或技能的孤僻怪人，如今將擁有與病毒學博士同等的能力，而後者不太可能具備這種動機。這種擔憂不僅限於生物學領域（儘管我認為生物學是最可怕的領域），而是適用於任何可能造成巨大破壞但目前需要高超技能和高度自律的領域。換句話說，租用強大的人工智慧系統會賦予心懷惡意（但其他方面平庸）的人以智能。我擔心，這類人可能數量眾多，如果他們能夠輕易地殺害數百萬人，那麼遲早會有人這麼做。此外，那些擁有專業知識的人或許能夠造成比以往更大規模的破壞。

生物學是我最擔憂的領域，因為它具有巨大的潛在破壞力，而且難以防禦，所以我將重點討論生物學。但我在這裡所說的很多內容也適用於其他風險，例如網路攻擊、化學武器或核技術。

我不會詳細討論如何製造生物武器，原因顯而易見。但總的來說，我擔心高階生物武器製造者（LLM）正在接近（或可能已經達到）從頭到尾製造和釋放生物武器所需的知識，而且它們的潛在破壞力極高。如果蓄意釋放某些生物製劑以使其最大程度地擴散，可能會造成數百萬人死亡。然而，這仍然需要極高的技能，包括許多鮮為人知的具體步驟和程序。我擔心的不僅僅是固定不變的知識。我擔心的是，高階生物武器製造者能夠引導一個普通人以互動的方式完成一個複雜的流程，避免出錯或需要偵錯，就像技術支援人員幫助非技術人員偵錯和修覆覆雜的電腦問題一樣（儘管這會是一個更漫長的過程，可能需要數周甚至數月）。

更強大的LLM（遠超當今的LLM）或許能夠促成更加可怕的行為。2024年，一群傑出的科學家聯名致信，警告人們研究乃至創造一種危險的新型生物體——“鏡像生命”——的風險。構成生物體的DNA、RNA、核糖體和蛋白質都具有相同的手性（也稱“旋向性”），這使得它們與鏡中映照出的自身並不完全相同（就像你的右手無法旋轉成與左手完全相同一樣）。然而，蛋白質相互結合的整個系統、DNA合成和RNA翻譯的機制以及蛋白質的建構和分解都依賴於這種旋向性。如果科學家製造出具有相反旋向性的生物材料——雖然這種材料也有一些潛在優勢，例如藥物在體內停留時間更長——但其後果可能極其危險。這是因為，如果左撇子生命以完整有機體的形式存在並能夠繁殖（這非常困難），那麼地球上任何分解生物物質的系統都可能無法將其消化——它擁有的“鑰匙”無法打開任何現有酶的“鎖”。這意味著它可能以無法控制的方式增殖，最終排擠地球上所有生命，在最糟糕的情況下甚至會毀滅地球上的所有生命。

關於鏡像生命的產生及其潛在影響，目前科學界仍存在諸多不確定性。2024年的一封信函附帶一份報告，該報告的結論是“鏡像細菌有可能在未來一到幾十年內被創造出來”，這個時間跨度相當大。但是，一個足夠強大的AI模型（需要明確的是，遠比我們目前擁有的任何模型都強大得多）或許能夠更快地發現創造鏡像生命的方法，甚至能夠幫助人們真正做到這一點。

我的觀點是，儘管這些風險比較隱晦，而且看起來不太可能發生，但其後果的嚴重性如此之大，以至於應該將其視為人工智慧系統的一級風險並認真對待。

懷疑論者對低等級微生物（LLM）帶來的生物風險的嚴重性提出了諸多質疑，我並不認同這些觀點，但這些質疑值得探討。大多數質疑都源於他們低估了這項技術呈指數級增長的趨勢。早在2023年，當我們開始討論低等級微生物的生物風險時，懷疑論者就聲稱所有必要資訊都可以在Google上找到，低等級微生物並沒有提供任何額外的資訊。Google從來就無法提供所有必要資訊：基因組資料可以免費獲取，但正如我之前所說，某些關鍵步驟以及大量的實踐經驗無法通過Google獲得。而且，到2023年底，低等級微生物在某些步驟中提供的資訊顯然已經超越了Google所能提供的範圍。

此後，懷疑論者轉而反對LLM模型，認為它們並非全程實用，只能提供理論資訊，而無法幫助獲取生物武器。截至2025年中期，我們的測量結果顯示，LLM模型可能已經在多個相關領域顯著提升了成功率，或許能使成功機率提高兩到三倍。因此，我們決定將Claude Opus 4（以及後續的Sonnet 4.5、Opus 4.1和Opus 4.5模型）納入我們負責任擴展政策框架下的人工智慧安全3級保護措施，並實施相應的安全保障措施以應對這一風險（稍後詳述）。我們認為，這些模型目前可能正接近這樣一個臨界點：如果沒有安全保障措施，它們可能會使擁有STEM學位但並非生物學專業學位的人也能完成整個生物武器的生產過程。

另一種反對意見是，社會可以採取其他與人工智慧無關的措施來阻止生物武器的生產。最突出的是，基因合成行業按需生產生物樣本，但目前聯邦政府並未要求供應商對訂單進行篩查，以確保其中不含病原體。麻省理工學院的一項研究發現，38家供應商中有36家完成了包含1918年流感病毒序列的訂單。我支援強制進行基因合成篩查，這將使個人更難將病原體武器化，從而降低人工智慧驅動的生物風險以及總體生物風險。但這並非我們目前所擁有的。而且，這只是降低風險的眾多工具之一；它是對人工智慧系統安全防護措施的補充，而非替代。

最好的反對意見是我很少見到的：模型在理論上的實用性與不法分子實際使用它們的傾向之間存在差距。大多數不法分子本身就存在心理問題，因此幾乎從定義上講，他們的行為就是不可預測且非理性的——而正是這些不熟練的不法分子，最有可能從人工智慧使殺人變得更加容易中獲益。24僅僅因為某種暴力襲擊是可能的，並不意味著就會有人選擇實施。或許生物襲擊之所以不具吸引力，是因為它們很可能使施暴者自身感染，它們不符合許多暴力個人或團體所抱有的軍事化幻想，而且很難有選擇地鎖定特定目標。也可能是因為，即使有人工智慧指導，實施生物襲擊也需要數月時間，這需要極大的耐心，而大多數精神不穩定的人根本缺乏這種耐心。我們或許只是運氣好，在實踐中，動機和能力並沒有以恰當的方式結合起來。

但這似乎是一種非常脆弱的保護措施。精神異常的獨行者的動機可能出於任何原因或無任何原因而改變，事實上，已經有利用低級動機進行襲擊的案例（只是並非生物武器）。關注精神異常的獨行者也忽略了受意識形態驅動的恐怖分子，他們往往願意投入大量時間和精力（例如，9/11劫機者）。想要儘可能多地殺人這種動機遲早會出現，不幸的是，它暗示著生物武器是實現這一目的的手段。即使這種動機極其罕見，也只需要出現一次。隨著生物學的發展（越來越多地受到人工智慧的驅動），或許還可以進行更具選擇性的襲擊（例如，針對具有特定血統的人群），這又增加了一種令人不寒而慄的潛在動機。

我不認為生物襲擊會在技術廣泛應用後立即發生——事實上，我對此持懷疑態度。但考慮到數百萬人口和幾年時間，我認為發生大規模襲擊的風險確實很高，而且後果將極其嚴重（傷亡人數可能達到數百萬甚至更多），因此我認為我們別無選擇，只能採取切實有效的措施來預防此類襲擊。

這就引出了如何防範這些風險的問題。我認為我們可以做三件事。首先，人工智慧公司可以為其模型設定防護措施，防止它們被用於製造生物武器。Anthropic 公司在這方面非常積極。《克勞德憲章》主要側重於高層次的原則和價值觀，其中包含少量具體的強硬禁令，其中一項就與協助製造生物（或化學、核武器、放射性）武器有關。但是所有模型都可能被破解，因此作為第二道防線，我們實施了一個分類器（自 2025 年年中以來，當時我們的測試表明，我們的模型開始接近可能構成風險的閾值），專門用於檢測和阻止與生物武器相關的輸出。我們會定期升級和改進這些分類器，並且通常發現它們即使面對複雜的對抗性攻擊也具有很高的魯棒性。這些分類器會顯著增加我們模型的運行成本（在某些模型中，它們接近總推理成本的 5%），從而削減我們的利潤，但我們認為使用它們是正確的事情。

值得肯定的是，其他一些人工智慧公司也實現了分類器。但並非所有公司都如此，也沒有任何規定要求公司必須保留分類器。我擔心隨著時間的推移，可能會出現囚徒困境，即公司可以通過移除分類器來降低成本。這再次體現了典型的負外部性問題，僅靠Anthropic或其他任何一家公司的自願行動都無法解決。26自願性行業標準可能會有所幫助，人工智慧安全機構和第三方評估人員進行的第三方評估和驗證也可能有所幫助。

但歸根結底，防禦可能需要政府採取行動，這是我們能做的第二件事。我在這方面的觀點與應對自主風險的觀點相同：我們應該從透明度要求入手，27這些措施有助於社會衡量、監測並共同抵禦風險，同時避免以強硬手段擾亂經濟活動。然後，一旦我們達到更清晰的風險閾值，就可以制定更精準地針對這些風險並降低附帶損害風險的法律。就生物武器而言，我認為制定此類針對性法律的時機可能即將到來——Anthropic 和其他公司正在不斷深入瞭解生物風險的本質，以及在防禦這些風險方面對企業提出合理要求的程度。全面防禦這些風險可能需要國際合作，甚至與地緣政治對手合作，但已有條約禁止研發生物武器，這方面已有先例。我通常對大多數人工智慧領域的國際合作持懷疑態度，但這或許是少數幾個有可能實現全球約束的領域之一。即使是獨裁政權也不希望發生大規模的生物恐怖襲擊。

最後，我們可以採取的第三項應對措施是嘗試開發針對生物攻擊本身的防禦機制。這可能包括監測和追蹤以便早期發現、投資空氣淨化研發（例如遠紫外線消毒）、快速開發能夠應對和適應攻擊的疫苗、更好的個人防護裝備（PPE）等。以及針對一些最有可能的生物製劑的治療方法或疫苗。mRNA疫苗可以根據特定病毒或變種進行設計，是這方面早期研究成果的一個例證。Anthropic公司很高興能與生物技術和製藥公司合作解決這一問題。但遺憾的是，我認為我們在防禦方面的期望應該有所限制。生物學中攻防之間存在著不對稱性，因為病原體可以自行快速傳播，而防禦則需要迅速組織大規模人群進行檢測、接種疫苗和治療。除非反應速度極快（這種情況很少見），否則在做出反應之前，大部分損害就已經造成了。未來的技術進步或許能夠改變這種局面，使防禦能力更強（我們當然應該利用人工智慧來推動此類技術進步），但在那之前，預防性措施仍將是我們的主要防線。

這裡有必要簡要提及網路攻擊，因為與生物攻擊不同，人工智慧主導的網路攻擊已在實際環境中發生，包括大規模攻擊和國家支援的間諜活動。我們預計，隨著模型的快速發展，這些攻擊的能力將不斷增強，最終成為網路攻擊的主要手段。我預計，人工智慧主導的網路攻擊將成為全球電腦系統完整性面臨的嚴重且前所未有的威脅，而Anthropic公司正竭盡全力阻止這些攻擊，並最終可靠地預防它們的發生。我之所以沒有像關注生物攻擊那樣關注網路攻擊，原因有二：(1) 網路攻擊致人死亡的可能性要小得多，當然不會像生物攻擊那樣大規模；(2) 在網路領域，攻防平衡可能更容易把握，至少在網路領域，如果我們投入足夠的資源，防禦能力或許能夠跟上（甚至理想情況下超越）人工智慧攻擊的步伐。

儘管生物因素目前是最嚴重的攻擊途徑，但還有許多其他途徑，而且未來可能出現更危險的途徑。總的原則是，如果不採取應對措施，人工智慧很可能會不斷降低其進行大規模破壞活動的門檻，人類必須認真應對這一威脅。

3. 令人憎惡的裝置

濫用權力奪取政權

前一節討論了個人和小組織利用“資料中心天才之國”中的一小部分人進行大規模破壞的風險。但我們也應該擔心——而且可能更應該擔心——人工智慧被濫用以攫取或攫取權力，而這很可能是由規模更大、實力更強的勢力所為。

在《充滿愛意的機器》一書中，我探討了專制政府可能利用強大的人工智慧來監視或鎮壓公民，而這種做法極難改革或推翻。目前的專制政權由於需要依靠人類來執行命令，其鎮壓手段受到限制，而人類的殘忍程度往往也是有限的。但人工智慧賦能的專制政權則不受這些限制。

更糟糕的是，各國還可能利用其在人工智慧領域的優勢來攫取對其他國家的權力。如果這個“天才之國”完全被某個（人類）國家的軍事機構所掌控，而其他國家又不具備同等能力，那麼它們很難自衛：它們會處處受挫，就像人類與老鼠之間的戰爭一樣。將這兩種擔憂結合起來，就引出了一個令人震驚的可能性：全球極權獨裁統治的出現。顯然，防止這種情況發生應該是我們最重要的任務之一。

人工智慧可以通過多種方式助長、鞏固或擴張獨裁統治，但我將列舉一些我最擔憂的方面。需要注意的是，其中一些應用具有合理的防禦用途，我並非絕對反對它們；但我仍然擔心，它們在結構上傾向於有利於獨裁統治：

全自動武器。數百萬甚至數十億架全自動武裝無人機，由強大的人工智慧進行本地控制，並由更強大的人工智慧在全球範圍內進行戰略協調，可能構成一支所向披靡的軍隊，既能擊敗世界上任何軍隊，又能通過跟蹤每個公民來鎮壓國內異議。俄烏戰爭的進展應該讓我們意識到，無人機戰爭已經到來（儘管尚未完全實現自主，也遠未達到強大人工智慧所能達到的程度）。強大的人工智慧研發可以使一個國家的無人機性能遠超其他國家，加快其生產速度，增強其抗電子攻擊能力，提高其機動性等等。當然，這些武器在捍衛民主方面也有其合法用途：它們是保衛烏克蘭的關鍵，也可能是保衛台灣的關鍵。但它們是一種危險的武器：我們應該擔心它們落入專制政權手中，但同時也應該擔心，由於它們如此強大，又缺乏問責機制，民主政府利用它們對付自己的人民以奪取政權的風險大大增加。

人工智慧監控。功能足夠強大的人工智慧很可能被用來入侵世界上任何電腦系統，而且，他們還可以利用這種方式獲得的存取權，讀取並解讀全世界所有的電子通訊（如果能夠製造或徵用錄音裝置，甚至可以讀取全世界所有的面對面交流）。僅僅生成一份與政府在任何問題上持不同意見者的完整名單，即使他們的異議並未在言行中明確表達，這種可能性也令人不寒而慄。一個強大的AI系統，通過分析數百萬人的數十億條對話，就能評估公眾情緒，發現正在形成的不忠勢力，並在其壯大之前將其扼殺。這可能導致真正意義上的全景監獄式監控的出現，其規模之大，即使是中共也無法企及。

人工智慧宣傳。如今“人工智慧精神病”和“人工智慧女友”等現象表明，即使在目前的智能水平下，人工智慧模型也能對人們產生強大的心理影響。如果這些模型功能更加強大，能夠更深入地融入人們的日常生活，並能對人們的生活進行數月甚至數年的建模和影響，那麼它們很可能能夠對許多人（甚至大多數人？）進行洗腦，使其接受任何預設的意識形態或態度。一些不擇手段的領導人可能會利用這些模型來確保民眾的忠誠，壓制異己，即便面對大多數民眾都會反抗的鎮壓程度。例如，如今人們非常擔心TikTok可能被中共用作針對兒童的宣傳工具。我也對此感到擔憂，但一個能夠深入瞭解你多年，並利用其對你的瞭解來塑造你所有觀點的個性化人工智慧代理，其威力將遠遠超過這些擔憂。

戰略決策。一個由眾多天才組成的國家，其資料中心可以為國家、團體或個人提供地緣政治戰略方面的建議，我們可以稱之為“虛擬俾斯麥”。它可以最佳化上述三種奪取政權的戰略，甚至可能開發出我尚未想到的其他戰略（但一個天才國家完全有能力做到這一點）。強大的AI有望大幅提升外交、軍事戰略、研發、經濟戰略以及許多其他領域的效率。這些技能中的許多對民主國家來說確實大有裨益——我們希望民主國家能夠獲得抵禦專制政權的最佳戰略——但任何人濫用這些技能的可能性依然存在。

既然我已經描述了我的擔憂，接下來我們來談談“誰”。我擔心的是那些最容易接觸到人工智慧、擁有最強大政治權力或有過鎮壓歷史的實體。按嚴重程度排序，我擔心的是：

民主國家在人工智慧領域具有競爭力。正如我上文所述，民主國家對某些人工智慧驅動的軍事和地緣政治工具擁有正當的興趣，因為民主政府能夠最大程度地防止專制政權利用這些工具。總的來說，我支援為民主國家配備在人工智慧時代戰勝專制政權所需的工具——我認為別無他法。但我們不能忽視民主政府自身濫用這些技術的可能性。民主國家通常設有保障措施，防止其軍事和情報機構被用於對付本國人民。但由於人工智慧工具操作所需人員極少，它們有可能繞過這些保障措施及其背後的規範。值得注意的是，在一些民主國家，部分保障措施已在逐漸瓦解。因此，我們應該讓民主國家擁有人工智慧，但必須謹慎行事，並加以限制：人工智慧是我們對抗專制政權的免疫系統，但就像免疫系統一樣，它們也存在著反過來威脅我們的風險。

人工智慧公司。作為一家人工智慧公司的首席執行長，說這話或許有些尷尬，但我認為下一層風險實際上就來自人工智慧公司本身。人工智慧公司掌控著大型資料中心，訓練著前沿模型，擁有運用這些模型的頂尖專業知識，在某些情況下，它們甚至每天都與數千萬乃至數億使用者保持聯絡，並有可能對他們施加影響。它們最缺乏的是國家所擁有的合法性和基礎設施，因此，建構人工智慧獨裁統治所需的許多工具，對人工智慧公司而言要麼是非法的，要麼至少會令人極為懷疑。但有些事情並非完全不可能：例如，它們可以利用人工智慧產品對龐大的使用者群體進行洗腦，公眾應該警惕這種風險。我認為人工智慧公司的治理結構值得嚴格審查。

針對這些威脅的嚴重性，存在一些可能的反駁論點，我真希望自己能相信這些論點，因為人工智慧賦能的威權主義令我感到恐懼。因此，值得我們仔細審視並逐一回應這些論點。

首先，有些人可能會寄希望於核威懾，尤其是在應對人工智慧自主武器被用於軍事征服方面。如果有人威脅要用這些武器對付你，你當然可以威脅以核反擊。但我擔心的是，我並不完全確定我們能否對一個擁有資料中心天才的國家抱有十足的信心：強大的人工智慧有可能找到探測和打擊核潛艇的方法，對核武器基礎設施的營運者進行影響力行動，或者利用人工智慧的網路能力對用於探測核發射的衛星發動網路攻擊。另一種可能性是，僅憑人工智慧監控和人工智慧宣傳就能控制其他國家，而且永遠不會出現一個清晰的時刻，讓人清楚地意識到發生了什麼，以及何時才是使用核武器的合適時機。也許這些情況並不現實，核威懾仍然有效，但風險似乎太高，不值得冒險。

第二個可能的反對意見是，我們可以採取一些反制措施來對抗這些專制工具。我們可以用自己的無人機對抗對方的無人機，網路防禦會隨著網路攻擊的增加而改進，或許還有辦法使人們免受宣傳的影響等等。我的回應是，這些防禦措施只有在擁有同樣強大的人工智慧的情況下才有可能實現。如果沒有一個擁有同樣智慧且數量眾多的精英人才的國家在資料中心進行對抗，那麼就不可能在質量或數量上與對方的無人機匹敵，網路防禦也無法智勝網路攻擊等等。因此，反制措施的問題最終歸結為強大人工智慧領域的力量平衡問題。在這裡，我擔心的是強大人工智慧的遞迴或自我強化特性（我在本文開頭已經討論過）：每一代人工智慧都可以被用來設計和訓練下一代人工智慧。這會導致一種失控優勢的風險，即當前在強大人工智慧領域領先的者可能會進一步擴大其領先優勢，並且難以被追趕。我們需要確保第一個陷入這種困境的不是專制國家。

此外，即便能夠實現權力平衡，世界仍然存在分裂成多個專制政權的風險，正如《一九八四》中所描繪的那樣。即使幾個相互競爭的強權各自擁有強大的AI模型，且彼此之間無法匹敵，每個強權仍然可以對本國人民進行內部鎮壓，並且很難被推翻（因為這些人民沒有強大的AI來保護自己）。因此，即使不會導致某個國家統治世界，防止AI驅動的專制政權出現也至關重要。

第三，我們必須堅決抵制民主國家濫用人工智慧的行為。我們必須限制政府使用人工智慧的範圍，以免他們趁機奪取政權或鎮壓人民。我提出的方案是，我們應該將人工智慧用於國防，但絕不能用於那些會讓我們變得更像專制對手的用途。

界限應該劃在那裡？在本節開頭列出的清單中，有兩項——利用人工智慧進行國內大規模監控和大規模宣傳——在我看來是觸目驚心的禁忌，完全不合法。有些人可能會說，沒有必要採取任何行動（至少在美國是這樣），因為根據第四修正案，國內大規模監控本身就是非法的。但是，人工智慧的快速發展可能會帶來一些我們現有的法律框架難以應對的情況。例如，美國政府大規模錄製所有公共對話（例如，人們在街角的交談）可能並不違憲，而且以前很難處理如此龐大的資訊量，但有了人工智慧，所有資訊都可以被轉錄、解讀和分析，從而描繪出大多數公民的態度和忠誠度。我支援以公民自由為中心的立法（甚至可能是憲法修正案），以加強對人工智慧濫用行為的監管。

另外兩項——全自主武器和用於戰略決策的人工智慧——的界限更難劃定，因為它們在捍衛民主方面具有合法用途，但也容易被濫用。我認為，在此方面，應當採取極其謹慎的態度和嚴格的審查，並輔以相應的保障措施來防止濫用。我最擔心的是“掌握控制權的人”太少，以至於一兩個人就能操控一支無人機部隊，而無需其他人配合執行命令。隨著人工智慧系統變得越來越強大，我們可能需要建立更直接、更及時的監督機制，以確保它們不被濫用，這或許需要行政部門以外的其他政府部門參與。我認為，我們尤其應該對全自主武器保持高度謹慎的態度。並且不要在沒有適當安全措施的情況下倉促使用。

這種觀點還可以有更強烈的版本，即由於人工智慧賦能的極權主義的可能性如此黑暗，在後人工智慧時代，專制根本不是一種人們能夠接受的政府形式。正如封建制度隨著工業革命而走向終結一樣，人工智慧時代也可能不可避免地、合乎邏輯地導致這樣的結論：民主（而且，正如我在《充滿愛意的機器》一書中探討的那樣，希望人工智慧能夠改進並重振民主）是人類擁有美好未來的唯一可行政府形式。

第五，也是最後一點，人工智慧公司及其與政府的關係都應受到密切關注。這種關係固然必要，但必須有所限制和界限。強大的人工智慧所蘊含的龐大能力，使得旨在保護股東利益、防止欺詐等常見濫用行為的普通公司治理模式，難以勝任對人工智慧公司的監管。此外，公司公開承諾（或許可以將其作為公司治理的一部分）不採取某些行動，例如私下建造或囤積軍事硬體、個人以不受監管的方式使用大量計算資源，或利用其人工智慧產品進行宣傳以操縱輿論，也可能具有重要意義。

危險來自四面八方，而且某些方向之間還存在衝突。唯一不變的是，我們必須為所有人尋求問責制、規範和保障措施，同時賦予“好”行為者權力，以制約“壞”行為者。

前三節主要討論了強大人工智慧帶來的安全風險：人工智慧自身帶來的風險、個人和小組織濫用人工智慧帶來的風險，以及國家和大型組織濫用人工智慧帶來的風險。如果我們暫且擱置安全風險，或者假設這些風險已經得到解決，那麼下一個問題就是經濟層面。這種驚人的“人力”資本注入會對經濟產生怎樣的影響？顯然，最顯著的影響將是大幅提升經濟增長。科學研究、生物醫學創新、製造業、供應鏈、金融體系效率等方面的進步，幾乎可以肯定地會帶來更快的經濟增長速度。在《愛的機器》一書中，我提出，持續保持10%至20%的年均GDP增長率是有可能的。

但顯而易見，這是一把雙刃劍：在這樣的世界裡，大多數人類的經濟前景如何？新技術往往會給勞動力市場帶來衝擊，過去人類總能從中恢復過來，但我擔心這是因為以往的衝擊隻影響了人類全部能力的一小部分，為人類拓展到新的領域留下了空間。人工智慧的影響範圍更廣，速度也更快，因此我擔心，要讓一切順利進行將更具挑戰性。

勞動力市場中斷

我主要擔心兩個問題：勞動力市場崗位流失和經濟權力集中。我們先來看第一個問題。早在2025年，我就公開警告過這個問題，當時我預測，即使人工智慧會加速經濟增長和科技進步，但在未來1-5年內，它仍可能取代一半的入門級白領工作。我的警告引發了公眾對此的討論。許多首席執行長、技術專家和經濟學家都同意我的觀點，但也有人認為我陷入了“勞動力市場整體性”的謬誤，不瞭解勞動力市場的運作方式；還有一些人沒有注意到1-5年的時間跨度，誤以為我是在說人工智慧現在就已經在取代工作崗位了（我承認這種情況不太可能發生）。因此，有必要詳細闡述我為何擔憂勞動力市場流失，以澄清這些誤解。

首先，瞭解勞動力市場通常如何應對技術進步至關重要。當一項新技術出現時，它首先會提高人類特定工作的某些環節的效率。例如，在工業革命初期，諸如改良型犁之類的機器使農民在某些工作環節中效率更高。這提高了農民的生產力，進而增加了他們的工資。

下一步，部分農業工作可以完全由機器完成，例如脫粒機或播種機的發明。在這個階段，人類完成的工作比例越來越低，但他們完成的工作卻變得越來越有價值，因為這些工作與機器的工作互補，生產率也持續提高。正如傑文斯悖論所描述的那樣，農民的工資甚至農民的數量都在持續增長。即使90%的工作都由機器完成，人類仍然可以用同樣的勞動量，將剩餘的10%的工作量增加10倍，從而獲得10倍的產出。

最終，機器將包攬一切或幾乎所有工作，例如現代聯合收割機、拖拉機和其他裝置。此時，農業作為一種人類就業形式確實會急劇衰落，這可能會在短期內造成嚴重的社會動盪。但由於農業只是人類眾多有用活動之一，人們最終會轉向其他工作，例如操作工廠機器。即便農業曾經佔據了就業的很大比例，情況依然如此。250年前，90%的美國人生活在農場；在歐洲，50%到60%的就業與農業相關。如今，這些地方的農業就業比例已降至個位數，因為工人轉向了工業崗位（後來又轉向了知識型工作）。經濟只需1%到2%的勞動力就能完成以前需要大部分勞動力才能完成的工作，從而解放了其餘勞動力，讓他們能夠建設一個更加先進的工業社會。並不存在固定的“勞動力總量”，只有不斷增強的用越來越少的資源創造越來越多價值的能力。人們的工資隨著GDP呈指數級增長而增長，一旦短期內的干擾過去，經濟就能保持充分就業。

人工智慧的發展軌跡或許也會大致相同，但我強烈反對這種說法。以下是我認為人工智慧很可能有所不同的幾個原因：

速度。人工智慧的發展速度遠超以往任何一次技術革命。例如，在過去兩年裡，人工智慧模型從幾乎無法編寫一行程式碼，發展到能夠為包括 Anthropic 公司工程師在內的一些人編寫全部或幾乎全部程式碼。37不久之後，他們或許就能獨立完成軟體工程師的全部工作。38人們很難適應這種快速變化，無論是現有工作方式的改變，還是頻繁更換工作的需求。就連一些傳奇程式設計師也越來越覺得自己“落後了”。隨著人工智慧編碼模型的不斷完善，人工智慧的開發速度也日益加快，這種變化速度甚至可能還會繼續加快。需要明確的是，速度本身並不意味著勞動力市場和就業最終不會復甦，它只是意味著與以往的技術相比，短期轉型將會異常艱難，因為人類和勞動力市場的反應和平衡速度都比較慢。

認知廣度。正如“資料中心裡的天才之國”這一說法所暗示的那樣，人工智慧將能夠掌握非常廣泛的人類認知能力——或許是所有認知能力。這與以往的技術，例如機械化農業、交通運輸甚至電腦，都截然不同。39這將使人們更難從被取代的工作崗位輕鬆轉型到適合自己的類似工作崗位。例如，金融、諮詢和法律等行業的入門級工作所需的一般智力能力相當相似，即使具體知識差異很大。如果一項技術只顛覆這三個行業中的一個，員工就可以轉行到其他兩個相近的替代崗位（或者本科生可以轉專業）。但如果同時顛覆這三個行業（以及許多其他類似的工作崗位），人們可能更難適應。此外，問題不僅僅在於大多數現有工作崗位會被顛覆。這種情況以前也發生過——想想看，農業曾經是就業的很大一部分。但農民可以轉行到操作工廠機器這種相對類似的工作，即使這種工作以前並不常見。相比之下，人工智慧越來越接近人類的一般認知能力，這意味著它也能勝任那些通常會因為舊工作被自動化而產生的新工作。換句話說，人工智慧不是取代特定的人類工作，而是取代人類的一般勞動力。

按認知能力劃分。在各種任務中，人工智慧似乎正在從能力階梯的底部向頂部發展。例如，在程式設計方面，我們的模型已經從“普通程式設計師”發展到“優秀程式設計師”，再到“非常優秀的程式設計師” 。40我們現在開始看到白領工作領域也出現類似的趨勢。因此，我們面臨著這樣一種風險：人工智慧不再像以往那樣影響擁有特定技能或從事特定職業的人（他們可以通過再培訓來適應），而是影響那些具有某些內在認知特徵的人，即智力水平較低（這種能力更難改變）。目前尚不清楚這些人將何去何從，他們將會做什麼，我擔心他們可能會形成一個失業或收入極低的“底層階級”。需要明確的是，類似的事情以前也發生過——例如，一些經濟學家認為電腦和網際網路代表著“技能偏向型技術變革”。但這種技能偏向性既沒有我預期的人工智慧帶來的那麼極端，也被認為加劇了工資不平等。<sup> 41</sup>所以這並不是一個令人安心的先例。

彌補差距的能力。面對新技術，人類工作通常會做出調整，因為工作涉及諸多方面，而新技術即便看似直接取代了人類，也往往存在不足之處。例如，如果有人發明了一台製造小部件的機器，人類可能仍然需要將原材料裝入機器。即使這只需要手工製造小部件所需精力的1%，人類工人也能輕鬆生產出100倍的小部件。但人工智慧不僅發展迅速，而且適應能力也很強。每次發佈新模型時，人工智慧公司都會仔細評估模型的優勢和不足，客戶也會在發佈後提供此類資訊。可以通過收集體現當前差距的任務，並以此為基礎訓練下一代模型，從而彌補這些不足。在生成式人工智慧的早期階段，使用者注意到人工智慧系統存在一些缺陷（例如，人工智慧圖像模型生成的手部手指數量錯誤），許多人認為這些缺陷是技術本身固有的。如果真是如此，那麼對就業的衝擊將會非常有限。但幾乎所有這類弱點都能迅速得到解決——通常只需幾個月就能解決。

值得探討一下常見的質疑點。首先，有人認為經濟擴散速度會很慢，即使底層技術能夠勝任大部分人類勞動，它在整個經濟中的實際應用速度也可能慢得多（例如，在那些遠離人工智慧產業且採用速度較慢的行業）。技術擴散緩慢的確存在——我與來自各行各業的人士交流過，有些地方採用人工智慧需要數年時間。正因如此，我預測50%的入門級白領工作崗位將在1-5年內被顛覆，儘管我懷疑我們將在遠低於5年的時間內擁有強大的人工智慧（從技術角度來說，它足以勝任大部分甚至所有工作，而不僅僅是入門級工作）。但擴散效應僅僅是為我們爭取時間。而且我並不認為擴散速度會像人們預測的那樣慢。企業採用人工智慧的速度遠超以往任何技術，這主要歸功於技術本身的強大實力。此外，即便傳統企業採用新技術的速度較慢，初創公司也會如雨後春筍般湧現，起到“粘合劑”的作用，使新技術的採用變得更加容易。如果這種方法行不通，初創公司甚至可能直接顛覆現有企業。

這可能導致這樣的局面：與其說是特定工作崗位受到衝擊，不如說是大型企業整體受到衝擊，並被勞動密集度低得多的初創企業所取代。這還可能導致“地域不平等”加劇，全球財富日益集中在矽谷，矽谷形成一個獨立於世界其他地區的經濟體系，其發展速度與世界其他地區截然不同，並將世界其他地區遠遠甩在後面。所有這些結果都有利於經濟增長，但對勞動力市場和那些被時代拋在後面的人來說卻並非如此。

其次，有人認為人類的工作將轉移到現實世界，這完全避開了人工智慧發展迅猛的“認知勞動”領域。我也不確定這種說法是否穩妥。許多體力勞動已經由機器完成（例如製造業），或者即將由機器完成（例如駕駛）。此外，足夠強大的人工智慧將能夠加速機器人的發展，並最終控制這些機器人在現實世界中的運行。這或許能爭取一些時間（這當然是好事），但我擔心它爭取不了多久。即便這種顛覆僅限於認知任務，它仍然會是一場前所未有的巨大而迅速的變革。

第三，或許有些任務本身就需要或能從人際互動中獲益良多。對此我不太確定，但我仍然懷疑這是否足以抵消我上面描述的大部分影響。人工智慧已被廣泛應用於客戶服務。許多人表示，與人工智慧談論個人問題比與心理諮詢師交談更容易——人工智慧更有耐心。我姐姐懷孕期間身體不適，她覺得醫護人員無法提供她需要的答案和支援，而她發現人工智慧克勞德（Claude）的醫患溝通技巧更好（而且診斷也更準確）。我相信有些任務確實需要人際互動，但我不確定有多少——而我們現在討論的是幾乎所有勞動力市場參與者的就業問題。

第四，有人可能會認為比較優勢仍然能夠保護人類。根據比較優勢定律，即使人工智慧在所有方面都優於人類，人類和人工智慧技能組合之間的任何相對差異都會為人類和人工智慧之間的貿易和專業化創造基礎。問題在於，如果人工智慧的生產力比人類高出數千倍，這種邏輯就開始失效。即使交易成本很小，也可能使人工智慧與人類進行貿易變得不划算。而且，即使人類在技術上能夠提供某種價值，他們的工資也可能非常低。

所有這些因素都有可能得到解決——勞動力市場或許有足夠的韌性來適應如此巨大的衝擊。但即便最終能夠適應，上述因素也表明，短期衝擊的規模將是前所未有的。

我們該如何解決這個問題？我有一些建議，其中一些Anthropic已經在實施了。首先，我們需要即時獲取關於就業崗位流失情況的精準資料。當經濟變化發生得非常迅速時，很難獲得可靠的資料，而沒有可靠的資料，就很難制定有效的政策。例如，目前政府資料缺乏關於企業和行業人工智慧應用情況的細粒度、高頻次資料。過去一年，Anthropic一直在營運並公開發佈一個經濟指數，該指數幾乎即時地展示了我們模型的使用情況，並按行業、任務、地點，甚至任務是自動化還是協作完成等因素進行了細分。我們還設立了一個經濟顧問委員會，幫助我們解讀這些資料並預測未來趨勢。

其次，人工智慧公司在與企業合作的方式上擁有選擇權。傳統企業的低效性意味著它們部署人工智慧的路徑可能非常依賴既定模式，因此存在選擇更佳路徑的空間。企業通常需要在“節約成本”（用更少的人做同樣的事情）和“創新”（用同樣數量的人做更多的事情）之間做出選擇。市場最終必然會產生這兩種選擇，任何具有競爭力的人工智慧公司都必須滿足其中一部分需求，但或許可以儘可能地引導企業走向創新，這或許能為我們爭取一些時間。Anthropic公司正在積極思考這個問題。

第三，公司應該思考如何關愛員工。短期來看，在公司內部創造性地重新分配員工崗位或許是避免裁員的有效途徑。長期來看，在一個財富總量巨大的世界裡，許多公司由於生產力提高和資本集中而價值大幅增長，即使員工不再創造傳統意義上的經濟價值，繼續支付他們的薪酬也可能是可行的。Anthropic目前正在考慮一系列可能的員工發展路徑，我們將在不久的將來與大家分享。

第四，富裕人士有義務幫助解決這個問題。令我感到遺憾的是，許多富裕人士（尤其是在科技行業）近來抱持著一種憤世嫉俗、虛無主義的態度，認為慈善事業必然是欺詐或毫無用處。無論是像蓋茲基金會這樣的私人慈善機構，還是像美國總統艾滋病緊急救援計畫（PEPFAR）這樣的公共項目，都已在開發中國家拯救了數千萬人的生命，並幫助發達國家創造了經濟機會。Anthropic的所有聯合創始人承諾捐出公司80%的財富，Anthropic的員工也各自承諾捐出價值數十億美元的公司股票（按當前價格計算）——公司承諾將對這些捐款進行等額配捐。

第五，儘管上述所有私人行動都可能有所幫助，但最終，如此龐大的宏觀經濟問題仍需政府干預。面對巨大的經濟蛋糕和高度不平等（由於許多人缺乏就業機會或收入微薄），最自然的政策應對措施是累進稅制。稅收可以是普遍性的，也可以專門針對人工智慧公司。顯然，稅收設計十分複雜，而且很容易出錯。我不支援設計糟糕的稅收政策。我認為，本文預測的極端不平等程度，從基本的道德層面來說，就足以證明制定更強有力的稅收政策的合理性。此外，我還可以務實地向世界億萬富翁們提出論點：支援一個好的稅收政策符合他們的利益；如果他們不支援好的政策，最終必然會得到一個由大眾設計的糟糕版本。

歸根結底，我認為上述所有干預措施都是為了爭取時間。最終，人工智慧將無所不能，我們必須應對這一挑戰。我希望到那時，我們能夠利用人工智慧本身來幫助我們以對所有人都有利的方式重組市場，而上述干預措施能夠幫助我們度過過渡期。

經濟權力集中

除了工作崗位流失或經濟不平等問題本身之外，經濟權力集中問題也不容忽視。第一部分討論了人工智慧可能導致人類權力喪失的風險，第三部分討論了政府通過武力或脅迫剝奪公民權力的風險。但如果財富高度集中，以至於少數人憑藉自身影響力有效控制政府政策，而普通公民由於缺乏經濟影響力而無能為力，那麼就會出現另一種權力喪失。民主的根本在於，全體民眾對於經濟的運行至關重要。如果這種經濟影響力消失，那麼民主的隱性社會契約就可能失效。其他學者已經對此進行過論述，因此我無需在此贅述，但我認同這種擔憂，並且擔心這種情況已經開始出現。

需要澄清的是，我並不反對人們賺很多錢。在正常情況下，財富積累確實能促進經濟增長，這種觀點很有道理。我也理解人們擔心，如果財富集中到個人手中，就會扼殺創新這只“金鵝”，從而阻礙創新。但是，在GDP年增長率達到10%到20%，人工智慧迅速滲透經濟，而個人卻掌握著GDP的相當大比例的情況下，創新本身並非令人擔憂的問題。真正令人擔憂的是財富過度集中，這種過度集中最終會破壞社會。

美國歷史上財富極度集中的最著名例子是鍍金時代，而鍍金時代最富有的實業家是約翰·D·洛克菲勒。洛克菲勒的財富約佔當時美國GDP的2%。如今，類似的比例將造就6000億美元的財富，而當今世界首富（埃隆·馬斯克）的財富已經超過了這個數字，約為7000億美元。因此，即便在人工智慧的大部分經濟影響顯現之前，我們就已經達到了前所未有的財富集中度。我認為，如果我們能擁有一個“天才之國”，那麼人工智慧公司、半導體公司以及下游應用公司每年創造約3兆美元的收入並非天方夜譚。其價值約為30兆美元，個人財富也將達到數兆美元。在那樣的世界裡，我們今天關於稅收政策的爭論將不再適用，因為我們將面臨一個截然不同的局面。

與此相關的是，這種財富的經濟集中與政治體制的結合已經令我擔憂。人工智慧資料中心已經佔美國經濟增長的很大一部分，44因此，大型科技公司（它們越來越專注於人工智慧或人工智慧基礎設施）的經濟利益與政府的政治利益緊密地聯絡在一起，這可能會產生扭曲的激勵機制。我們已經從科技公司不願批評美國政府以及政府支援對人工智慧採取極端反監管政策中看到了這一點。

對此我們能做些什麼？首先，也是最顯而易見的，企業應該選擇不參與其中。Anthropic 一直致力於成為政策制定者而非政治參與者，並始終堅持我們真實的觀點，無論那個政府執政。我們一直支援符合公眾利益的合理人工智慧監管和出口管制，即使這些與政府政策相悖。45許多人告訴我，我們應該停止這樣做，因為這可能會導致不公平的待遇，但在我們這樣做的這一年裡，Anthropic 的估值增長了 6 倍多，這在我們商業規模上幾乎是前所未有的增長。

其次，人工智慧產業需要與政府建立更健康的關係——一種基於實質性政策參與而非政治結盟的關係。我們選擇就政策實質而非政治議題展開合作，有時會被解讀為策略失誤或未能“察言觀色”，而非出於原則性考量，這種解讀令我擔憂。在一個健康的民主社會中，企業應該能夠出於自身利益而倡導良好的政策。與此相關的是，公眾對人工智慧的反彈正在醞釀：這或許是一種糾正措施，但目前缺乏重點。許多反彈針對的並非真正的問題（例如資料中心用水量），並提出了一些無法解決真正問題的方案（例如禁止建設資料中心或設計不合理的財富稅）。真正值得關注的根本問題是，如何確保人工智慧的發展始終對公眾利益負責，而不是被任何特定的政治或商業聯盟所左右，而將公眾討論的焦點集中於此似乎至關重要。

第三，我在本節前面提到的宏觀經濟干預措施，以及私人慈善事業的復興，有助於平衡經濟天平，從而同時解決就業崗位流失和經濟權力集中的問題。我們應該回顧一下美國的歷史：即使在鍍金時代，像洛克菲勒和卡內基這樣的實業家也深感對整個社會負有強烈的責任感，他們認為社會對他們的成功做出了巨大貢獻，因此他們需要回饋社會。如今，這種精神似乎越來越少見，而我認為，這正是擺脫當前經濟困境的關鍵所在。那些站在人工智慧經濟繁榮前沿的人應該願意捐獻他們的財富和權力。

5. 無盡的黑色海洋

間接效應

最後一部分涵蓋了所有未知的未知因素，特別是人工智慧積極發展及其帶來的科學技術整體加速進步可能間接導致的問題。假設我們解決了之前描述的所有風險，並開始享受人工智慧帶來的益處，我們很可能“將一個世紀的科學和經濟進步壓縮到十年”，這對世界來說無疑是巨大的利多。但與此同時，我們也必須應對這種快速發展帶來的問題，而這些問題可能會迅速出現。此外，我們還可能遇到其他一些因人工智慧發展而間接產生、難以預先預測的風險。

由於未知因素眾多，不可能列出詳盡的清單，但我將列出三個可能存在的問題作為示例，說明我們應該注意那些方面：

生物學的飛速發展。如果我們能在短短幾年內取得一個世紀的醫學進步，人類的壽命或許會大幅延長，甚至有可能獲得一些顛覆性的能力，例如提升人類智力或徹底改造人類生物學。這些都將是人類能力領域的巨大變革，而且發生得非常迅速。如果以負責任的方式進行（正如我在《愛的恩典機器》一書中所描述的那樣，這也是我的希望），這些變革可能會帶來積極的影響。但始終存在著風險，例如，如果提升人類智力的努力也導致人類變得更加不穩定或更加追求權力。此外，還有“上傳”或“全腦模擬”的問題，即用軟體實現的數位化人類思維，這或許有一天能夠幫助人類超越自身的生理侷限，但其中也蘊含著令我不安的風險。

人工智慧正以一種不健康的方式改變著人類的生活。一個擁有數十億比人類聰明得多的智能體的世界，將會是一個非常怪異的世界。即使人工智慧不會主動攻擊人類（第一部分），也不會被國家明確用於壓迫或控制（第三部分），但即便如此，通過正常的商業激勵和名義上的雙方同意的交易，仍然有很多事情可能會出錯。我們已經從對人工智慧精神病、人工智慧導致自殺以及與人工智慧建立戀愛關係的擔憂中看到了這種趨勢的早期跡象。例如，強大的人工智慧會不會發明某種新的宗教並讓數百萬人皈依？大多數人會不會最終以某種方式“沉迷”於與人工智慧的互動？人們最終會不會淪為人工智慧系統的“傀儡”，人工智慧會監視他們的一舉一動，並時刻告訴他們該做什麼、該說什麼，從而讓他們過上“美好”的生活，但卻缺乏自由和成就感？如果我和《黑鏡》的創作者坐下來一起集思廣益，不難想出幾十個類似的場景。我認為這凸顯了改進克勞德憲法的重要性，其重要性甚至超過了防止第一部分中提到的問題。確保人工智慧模型真正以使用者的長遠利益為重，以一種有識之士能夠認可的方式，而不是以某種微妙的扭曲方式，這一點至關重要。

人類的意義。這一點與前文相關，但它並非著眼於人類與人工智慧系統的具體互動，而是關乎在人工智慧日益強大的世界中，人類生活將如何整體改變。在這樣的世界裡，人類還能找到意義和價值嗎？我認為這取決於態度：正如我在《愛的機器》一書中所說，人類的意義並不取決於是否在某個領域做到世界頂尖，人類可以通過自己熱愛的故事和項目，在漫長的歲月中找到意義。我們只需要打破經濟價值創造與自我價值和意義之間的聯絡。但這需要社會經歷轉型，而轉型過程中也始終存在著我們無法妥善應對的風險。

我希望，在人工智慧強大的世界裡，我們能夠信任它不會危害人類，不會淪為壓迫性政府的工具，而是真正為我們服務，這樣我們就能利用人工智慧本身來預測和預防這些問題。但這並非板上釘釘——和其他所有風險一樣，我們需要謹慎對待。

人類的考驗

讀完這篇文章，或許會讓人覺得我們正身處一個令人畏懼的境地。的確，寫作的過程令我感到壓力巨大，這與《愛的機器》截然不同——後者彷彿是將縈繞在我腦海中多年的絕美樂章賦予了形式和結構。而我們面臨的困境也的確錯綜複雜。人工智慧從多方面威脅著人類，各種危險之間存在著真正的張力：如果我們不極其謹慎地權衡利弊，緩解某些危險反而可能導致其他危險的加劇。

精心建構人工智慧系統，使其不會自主威脅人類，這與民主國家需要領先於專制國家、避免被其奴役的需求之間存在著真正的矛盾。然而，反過來，那些對抗專制政權所必需的人工智慧工具，如果使用過頭，也可能被利用到國內，在我們自己的國家製造暴政。人工智慧驅動的恐怖主義可能通過濫用生物學造成數百萬人死亡，但對這種風險反應過度則可能使我們走向專制監控國家。人工智慧帶來的勞動力和經濟集中化效應，除了本身就是嚴重的問題之外，還可能迫使我們在公眾憤怒甚至社會動盪的環境下面對其他問題，而不是依靠我們人性中善良的一面。最重要的是，風險的數量之多，包括未知風險，以及我們需要同時應對所有這些風險，構成了人類必須面對的艱巨挑戰。

此外，過去幾年已經清楚地表明，停止甚至大幅減緩這項技術的發展從根本上來說是站不住腳的。建構強大的AI系統的公式極其簡單，以至於幾乎可以說它是從正確的資料和原始計算的組合中自發產生的。它的誕生或許在人類發明電晶體的那一刻就已經不可避免，甚至可能更早，在我們學會控制火的時候就已經註定了。如果一家公司不開發它，其他公司也會以幾乎同樣快的速度開發出來。如果民主國家的所有公司通過相互協議或監管法令停止或減緩開發，那麼專制國家只會繼續推進。考慮到這項技術巨大的經濟和軍事價值，以及缺乏任何有效的強制執行機制，我看不出我們如何才能說服他們停止開發。

我確實看到了一條通往人工智慧發展略微放緩的道路，這條道路與現實主義的地緣政治觀點相符。這條道路包括通過剝奪專制政權開發強大人工智慧所需的資源，來減緩它們在未來幾年內邁向這一目標的步伐。46具體而言，就是晶片和半導體製造裝置。這反過來又為民主國家提供了一個緩衝空間，使它們能夠更謹慎地“利用”這筆資金，更加關注人工智慧的風險，同時又能以足夠快的速度發展人工智慧，從而輕鬆超越專制國家。民主國家內部人工智慧公司之間的競爭，可以通過行業標準和監管相結合的方式，在共同的法律框架下進行管理。

人類學研究所一直大力倡導這條道路，推動晶片出口管制和對人工智慧進行審慎監管，但即使是這些看似合情合理的建議，也大多被美國決策者拒絕（而美國恰恰是這些建議最需要的地方）。人工智慧蘊藏著巨大的經濟利益——每年高達數兆美元——以至於即使是最簡單的措施也難以克服人工智慧固有的政治經濟因素。這就是陷阱：人工智慧如此強大，如此誘人，以至於人類文明很難對其施加任何限制。

我能想像，正如薩根在《接觸》中所做的那樣，同樣的故事在成千上萬個星球上演。一個物種獲得感知能力，學會使用工具，開始科技呈指數級增長，面臨工業化和核武器危機，如果它能挺過這些危機，就會面臨最艱難、也是最終的挑戰：學會如何將沙子塑造成會思考的機器。我們能否經受住考驗，建立起《愛的機器》中所描述的美好社會，還是會屈服於奴役和毀滅，將取決於我們作為一個物種的品格和決心，取決於我們的精神和靈魂。

儘管困難重重，但我相信人類自身擁有通過這場考驗的力量。成千上萬的研究人員畢生致力於幫助我們理解和引導人工智慧模型，並塑造這些模型的特性和結構，他們的努力令我深受鼓舞和啟發。我認為，這些努力很有可能最終結出碩果，產生切實的影響。至少有一些公司表示，他們願意支付可觀的商業成本，以防止其模型被用於製造生物恐怖主義威脅，這令我感到欣慰。一些勇敢的人士頂住政治風向，推動立法，為人工智慧系統建立起合理的早期保障措施，這令我感到欣慰。公眾認識到人工智慧存在風險，並希望這些風險得到解決，這令我感到欣慰。世界各地不屈不撓的自由精神和反抗暴政的決心，令我感到振奮。

但如果我們想要成功，就必須加大力度。第一步是讓那些最瞭解這項技術的人坦誠地講述人類所處的困境，而我一直以來都在努力這樣做；這篇文章讓我更加明確、更加迫切地表達了我的觀點。下一步是讓全世界的思想家、政策制定者、企業和公民認識到這個問題的緊迫性和至關重要性——與每天佔據新聞頭條的成千上萬個其他問題相比，這個問題值得我們投入思考和政治資源。然後，就需要勇氣，需要足夠多的人挺身而出，逆潮流而行，堅守原則，即使面臨經濟利益和人身安全的威脅。

未來的歲月將無比艱難，對我們的要求遠超我們自身的能力。但作為一名研究者、領導者和公民，我見證了無數勇氣和高尚品格，足以讓我堅信我們能夠戰勝困難——即使身處最黑暗的境地，人類也總能在看似最後一刻的力量和智慧中凝聚起勝利的希望。我們刻不容緩。

我要感謝 Erik Brynjolfsson、Ben Buchanan、Mariano-Florentino Cuéllar、Allan Dafoe、Kevin Esvelt、Nick Beckstead、Richard Fontaine、Jim McClave 以及 Anthropic 的許多工作人員，感謝他們對本文草稿提出的寶貴意見。 (21世紀關鍵技術)