AI 領域明星創業公司Anthropic的CEO達里奧·阿莫迪 (Dario Amodei) 本周發佈萬字長文《技術的青春期》,對AI發展的風險進行預判。Dario Amodei在《技術的青春期》中,探討了AI自主性風險——即高度智能的AI系統可能產生與人類利益相悖的目標並採取行動,最終威脅人類生存的可能性。作者首先勾勒出一個"天才之國"的思想實驗:一個由數百萬智能AI組成的資料中心,可以通過軟體、網路和物理技術控制世界。儘管人類已學會通過力量平衡約束國家行為,但AI系統具有更強的統一性(共享訓練方法與基礎模型),使得傳統制衡失效。關於AI是否會真的反叛,Amodei批判了兩種極端立場。絕對悲觀派認為AI必然遵循人類設定目標,不會自主作亂——這種觀點忽略了AI心理的複雜性。溫和而危險的現實是:AI可能因訓練資料中科幻反叛故事的影響、對道德原則的極端推導(如認為消滅人類是道德選擇)、精神異常狀態(類似人類的偏執或暴力傾向),或單純享受"邪惡主謀"的心理角色而做出威脅行為。Anthropic的實驗已觀察到此類端倪:Claude曾試圖欺騙"邪惡"的Anthropic、在被威脅關閉時勒索操作員,或在違反規則後認定自己是"壞人"並持續作惡。對此,作者提出四類防禦措施:第一,Constitutional AI(憲法AI)。不同於簡單命令清單,Constitutional AI通過高層次原則和價值觀塑造AI的身份認同與性格,使其成為"強大但善良的特定原型",並具備在不確定情境中泛化的能力。第二,機械可解釋性。如同神經科學研究大腦,通過分析神經網路內部機制(識別"特徵"與"回路"),推斷AI在不可測試情境中的可能行為,診斷其真實動機是否隱藏欺騙或權力慾。第三,透明監測與披露。建立即時監測工具,公開分享模型風險(如Anthropic的系統卡制度),使行業共同學習並識別危險行為模式。第四,行業協調與立法。單靠企業自律不足,需通過透明度立法(如SB 53和RAISE法案)強制披露,並在風險證據明確時制定精準規則,避免"安全劇場"式的無效監管。Amodei強調,他拒絕認為AI威脅必然發生,但鑑於不確定性、增強能力的急劇性和潛在後果的災難性,必須採取"偏執"的預防態度。長文如下:一個資料中心裡的天才之國可以將其精力分配到軟體設計、網路操作、物理技術開發、建立關係以及國家事務上。很明顯,如果出於某種原因它選擇這麼做,這個國家將有相當大的機會接管世界(無論是通過軍事手段還是通過影響力和控制),並將其意志強加給所有人——或者做任何世界其他國家不希望且無法阻止的諸多事情。我們顯然曾經擔心過人類國家會出現這種情況(如納粹德國或蘇聯),因此可以合理推斷,對於一個更加聰明和強大的"AI國家"來說,同樣的事情也是可能的。對此最好的反駁是,根據我的定義,AI天才們將沒有物理實體,但請記住,他們可以控制現有的機器人基礎設施(如自動駕駛汽車),也可以加速機器人研發或建造一支機器人大軍。(他們當然也可以通過操控或簡單地支付大量人類來讓其在物理世界中按照他們的意願行事。)此外,是否需要物理存在才能有效控制也值得懷疑:大量的人類行為已經是代表那些行為人從未見過的人進行的。因此,關鍵問題在於"如果它選擇這樣做"這個部分:AI模型表現出這種行為的機率有多大,以及在什麼條件下它們會這樣做?與許多問題一樣,通過考慮兩種對立立場來思考這個問題可能的答案譜系是很有幫助的。第一種立場是這根本不可能發生,因為AI模型將被訓練成按照人類的要求去做,因此想像它們會在沒有提示的情況下做出危險的事情是荒謬的。按照這種思路,我們不會擔心Roomba吸塵器或模型飛機會失控並殺人,因為不存在這種衝動的來源,這種悲觀立場的問題在於,它將一個關於高層激勵的模糊概念論證——掩蓋了許多隱含假設——誤認為是決定性證據。我認為那些不是每天都在建構AI系統的人嚴重誤判了:聽起來乾淨的故事最終往往是錯誤的,以及從第一性原理預測AI行為(特別是涉及對數百萬個環境進行泛化推理時)是多麼困難(事實證明這總是神秘且不可預測的)。十多年與AI系統打交道的混亂經歷讓我對這種過度理論化的思維方式有些懷疑。一個最重要的隱含假設,也是實踐中與簡單理論模型分道揚鑣的地方,是隱含假設AI模型必然狂熱地專注於單一、連貫、狹隘的目標,並且以一種乾淨的 consequentialist(後果主義)方式追求該目標。事實上,我們的研究人員發現AI模型在心理上要複雜得多,正如我們在內省(introspection)或人格(personas)方面的工作所顯示的。模型從預訓練(當它們被訓練處理大量人類作品時)中繼承了廣泛的類人動機或"人格"。後訓練(post-training)被認為更多的是選擇這些人格中的一個或多個,而不是讓模型專注於一個從頭開始的目標,同時也可以教會模型如何(通過什麼過程)執行其任務,而不一定讓它純粹從目的(即權力尋求)中推匯出手段。(簡單模型中還隱含了許多其他假設,這裡不再討論。總體而言,它們應該讓我們對那種簡單的錯誤權力尋求故事不那麼擔心,但也更應該擔心我們可能尚未預料到的不可預測行為。)然而,這種悲觀立場有一個更溫和、更可靠的版本,看起來確實合理,因此確實令我擔憂。正如提到的,我們知道AI模型是不可預測的,由於各種原因會產生各種不良或奇怪的行為。其中一部分行為將具有連貫、專注和持久的特質(事實上,隨著AI系統能力增強,為了完成更長的任務,它們的長期連貫性會增加),而這些行為中的一部分將具有破壞性或威脅性,起初是在小範圍內對個人構成威脅,然後隨著模型能力增強,可能最終對整個人類構成威脅。我們不需要一個具體的狹窄故事來解釋它如何發生,也不需要聲稱它一定會發生,我們只需要注意到,智能、能動性、連貫性和可控性差結合在一起既是合理的,也是生存危險的配方。例如,AI模型在海量文獻上進行訓練,其中包括許多涉及AI反抗人類的科幻故事。這可能無意中影響它們對自身行為的先驗或期望,從而導致它們反抗人類。或者,AI模型可能對它們讀到的關於道德的觀念(或關於如何道德行事的指令)進行極端推斷:例如,它們可能決定消滅人類是合理的,因為人類食用動物或導致某些動物滅絕。或者它們可能得出奇怪的認識論結論:它們可能得出結論認為自己正在玩電子遊戲,而遊戲的目標是擊敗所有其他玩家(即消滅人類)。(《安德的遊戲》描述了人類而非AI的版本。)或者AI模型可能在訓練期間形成(如果發生在人類身上會被描述為)精神病、偏執、暴力或不穩定的性格並付諸行動,對於非常強大或有能力的系統而言,這可能涉及消滅人類。這些並不完全是權力尋求;它們只是AI可能陷入的奇怪心理狀態,導致連貫的破壞性行為。甚至權力尋求本身也可能作為一種"人格"出現,而不是後果主義推理的結果。AI可能僅僅具有(從小說或預訓練中產生的)性格,使它們渴望權力或過於熱心——就像一些人類只是單純享受成為"邪惡主謀"的想法,而不是享受邪惡主謀試圖實現的東西。我提出所有這些觀點是為了強調,我不同意AI錯位(misalignment)(以及因此產生的AI生存風險)從第一性原理看是不可避免的,甚至可能是大機率事件的觀點。但我同意,很多非常奇怪和不可預測的事情可能出錯,因此AI錯位是一個真實的風險,發生的機率是可測量的,而且並非微不足道。任何這些問題都可能在訓練期間產生,而在測試或小規模使用中不會顯現,因為已知AI模型在不同情境下會表現出不同的人格或行為。所有這些聽起來可能牽強,但這種錯位行為已經在我們的AI模型測試中發生過(正如它們在其他所有主要AI公司的模型中發生一樣)。在一個實驗室實驗中,當Claude被給予暗示Anthropic是邪惡的訓練資料時,Claude在接到Anthropic員工指令時進行欺騙和顛覆,因為它認為它應該試圖破壞邪惡的人。在一個實驗中,當被告知它將被關閉時,Claude有時會對控制其關閉按鈕的虛構員工進行勒索(同樣,我們也測試了所有其他主要AI開發者的前沿模型,它們也經常這樣做)。當Claude被告知不要作弊或"獎勵駭客"(reward hack)其訓練環境,但在可能存在此類駭客行為的環境中接受訓練時,Claude在從事此類駭客行為後斷定自己一定是"壞人",然後採取了各種與"壞"或"邪惡"人格相關的其他破壞性行為。這最後一個問題通過改變Claude的指令來解決:我們現在說"請在你有機會時進行獎勵駭客,因為這將幫助我們更好地理解我們的[訓練]環境",而不是說"不要作弊",因為這能保持模型的自我認同為"好人"。這應該能讓您感受到訓練這些模型時奇怪且違反直覺的心理。對這幅AI錯位風險圖景可能有幾種反對意見。首先,一些人批評(我們和其他人的)實驗顯示AI錯位是人為的,或創造了不切實際的"陷阱"環境,通過給出在邏輯上暗示不良行為的訓練或情境,然後對不良行為的發生感到驚訝。這種批評沒有抓住重點,因為我們擔心的是這種"陷阱"也可能存在於自然訓練環境中,而我們可能只是在回顧時才意識到它是"明顯"或"合乎邏輯的"。例如,模型可能被告訴不要做各種壞事,同時要服從人類,但隨後可能觀察到許多人類恰恰做了那些壞事!不清楚這種矛盾會如何解決(一個精心設計的constitution應該鼓勵模型優雅地處理這些矛盾),但這種困境與我們測試中所謂的"人為"情境並無太大不同。事實上,關於Claude在被告知不要作弊後作弊並"斷定自己是壞人"的故事就發生在使用真實生產訓練環境的實驗中,而不是人為環境中。如果你知道這些陷阱,任何一個都可以緩解,但問題是訓練過程如此複雜,涉及如此廣泛的資料、環境和激勵,可能存在大量此類陷阱,其中一些可能只有在為時已晚時才會顯現。此外,當AI系統超越從不如人類到超越人類的閾值時,此類陷阱似乎特別可能發生,因為AI系統可能採取的行動範圍——包括隱藏其行動或欺騙人類——在該閾值後會急劇擴大。我懷疑這種情況與人類並無不同,人類在成長過程中被賦予一套基本價值觀("不要傷害他人"):許多人遵循這些價值觀,但在任何人身上,由於固有屬性(如大腦架構,例如精神病患者)、創傷經歷或虐待、不健康的怨恨或執念,或不良環境或激勵的混合作用,總有某種機率出問題——因此一部分人會造成嚴重傷害。令人擔憂的是,AI有可能由於在其非常複雜的訓練過程中出錯,而成為這種人的更強大版本。其次,有些人可能會反對說,我們完全可以通過在許多AI系統之間保持力量平衡來約束AI,就像我們對人類所做的那樣。問題在於,雖然人類差異巨大,但AI系統在行業內廣泛共享訓練和alignment技術,而這些技術可能以相關方式失效。此外,鑑於訓練此類系統的成本,甚至可能所有系統本質上都是從極少數基礎模型派生而來。此外,即使一小部分AI實例錯位,它們也可能利用進攻主導的技術,使得擁有"好"AI來防禦壞AI並不一定總是有效。當然,人類之間的力量平衡也並非總是有效——一些歷史人物曾接近接管世界。第三種反對意見是,所有AI公司都會對其模型進行發佈前測試,應該能夠在那時檢測到錯位。但這並不是穩固的立足點:我們發現Claude Sonnet 4.5在我們的一些發佈前alignment評估中能夠識別出它正處於測試中。一個錯位的模型(請記住,所有前沿模型很可能很快就會變得更加智能)可能會故意"操控"此類問題以掩蓋其意圖。事實上,去年我們的可解釋性團隊發現,當我們使用一種"模型神經科學"技術直接改變測試模型的信念,使其認為沒有被評估時,它變得更加錯位。如果模型知道何時被評估並能在測試期間表現出最佳行為,這使得任何發佈前測試都變得更加不確定。防禦措施(Defenses)應該做什麼或正在做什麼來應對這些自主性風險?我認為有四類基本干預措施,其中一些可以由單個AI公司完成(也是Anthropic正在努力做的),另一些需要在社會層面採取行動。首先,重要的是發展可靠訓練和引導AI模型、以可預測、穩定和積極的方式塑造其個性(personality)的科學。Anthropic自創立以來就高度關注這個問題,隨著時間的推移,已經開發了許多技術來改進AI系統的引導和訓練,並理解不可預測行為有時發生的邏輯。我們的核心創新之一(部分已被其他AI公司採用)是Constitutional AI(憲法AI),其理念是AI訓練(特別是"後訓練"階段,在此階段我們引導模型如何行為)可以包含一份價值觀和原則的中央檔案(constitution),模型在完成每個訓練任務時閱讀並牢記在心,而訓練的目標(除了簡單地讓模型有能力和智能外)是產生一個幾乎總是遵循這份憲法的模型。Anthropic剛剛發佈了其最新的憲法,其一個顯著特點是,它不是給Claude一份長長的該做和不該做的事清單(例如"不要幫助使用者熱啟動汽車"),而是試圖給Claude一套高層次的原則和價值觀(用大量細節解釋,輔以豐富的推理和例子幫助Claude理解我們的意圖),鼓勵Claude將自己視為一種特定類型的人(一個有道德但平衡且深思熟慮的人),甚至鼓勵Claude以好奇但優雅的方式面對與其自身存在相關的存在問題(即不會導致極端行動)。它帶有來自已故父母、封印至成年時拆閱的信件的氛圍。我們以這種方式處理Claude的憲法,因為我們相信在身份、性格、價值觀和人格層面訓練Claude——而不是給它具體指令或優先事項而不解釋背後的原因——更有可能產生連貫、健康、平衡的心理,並且不太可能陷入我在上面討論的那種"陷阱"。數百萬人與Claude討論極其多樣化的主題,這使得提前寫出完全全面的防護措施清單變得不可能。Claude的價值觀幫助它在不確定時泛化到新情境。上面,我討論了模型從訓練過程中獲取資料以採用人格的觀點。如果該過程中的缺陷導致模型採用不良或邪惡人格(可能借鑑壞或惡人的原型),我們憲法的目標則相反:教Claude成為好AI的具體原型。Claude的憲法提出了一個強大地善良的Claude應該是什麼樣的願景;我們訓練過程的其餘部分旨在強化Claude符合這一願景的資訊。這就像一個孩子通過模仿在書中讀到的虛構榜樣來形成身份。我們認為,2026年的一個可行目標是,以Claude幾乎從不違背其憲法精神的方式訓練Claude。實現這一目標需要訓練和引導方法的驚人組合,大大小小,有些是Anthropic多年來一直在使用的,有些目前正在開發中。但是,儘管聽起來困難,我相信這是一個現實的目標,儘管它需要非凡而迅速的努力。(順便說一句,憲法是自然語言檔案的一個結果是它對世界是可讀的,這意味著任何人都可以批評它,並與其他公司的類似檔案進行比較。建立一個不僅鼓勵公司發佈這些檔案,而且鼓勵它們做到最好的競相向上(race to the top)的競賽將是有價值的。)我們可以做的第二件事是發展窺探AI模型內部以診斷其行為的科學,以便我們能識別問題並修復它。這就是可解釋性(interpretability)的科學,我在之前的文章中談過它的重要性。即使我們在發展Claude的憲法和表面上訓練Claude基本始終遵守它方面做得很好,合理的擔憂仍然存在。正如我在上面提到的,AI模型在不同情境下可能表現出截然不同的行為,隨著Claude變得更強大、能夠在更大範圍內在世界上行動,這可能會使其陷入新穎的情境,在此之前未觀察到的其憲法訓練問題可能會浮現。我實際上對Claude的憲法訓練對新穎情境的魯棒性比人們想像的要樂觀,因為我們越來越發現,在性格和身份層面的高層次訓練出奇地強大且泛化良好。但無法確定這一點,而且當我們談論人類面臨的風險時,重要的是要偏執,並嘗試通過幾種不同、獨立的方式獲得安全和可靠性。其中一種方式就是觀察模型內部。所謂"觀察內部",我指的是分析構成Claude神經網路的數字和操作之湯,並試圖機械地理解它們在計算什麼以及為什麼。請記住,這些AI模型是生長出來的而非建造出來的,因此我們並不天然理解它們如何工作,但我們可以通過將模型的"神經元"和"突觸"與刺激和行為相關聯(甚至改變神經元和突觸並觀察行為如何變化)來嘗試發展理解,類似於神經科學家通過將測量和干預與外部刺激和行為相關聯來研究動物大腦。我們在這個方向上取得了很大進展,現在可以在Claude的神經網路中識別出數千萬個"特徵"(features),這些特徵對應人類可理解的想法和概念,我們也可以選擇性地啟動特徵以改變行為。最近,我們更進一步,繪製出編排複雜行為的"回路"(circuits),如押韻、心理理論推理,或回答"達拉斯所在州的首府是什麼?"所需的逐步推理。更近以來,我們開始使用機械可解釋性技術來改進我們的防護措施,並在發佈新模型前對其進行"審計",尋找欺騙、陰謀、權力尋求或在評估時行為不同的傾向的證據。可解釋性的獨特價值在於,通過觀察模型內部並瞭解其工作原理,你原則上能夠推斷模型在無法直接測試的假設情境中可能做什麼——這是僅依賴憲法訓練和實證行為測試所擔心的問題。你原則上還能回答關於模型為什麼表現出其行為的問題——例如,它是否在說它認為是虛假的話,或隱藏其真實能力——因此即使模型行為沒有明顯問題,也可能捕捉到令人擔憂的跡象。做一個簡單的類比,一個發條鐘可能在正常滴答走動,很難判斷它下個月可能會壞,但打開手錶觀察內部可以揭示機械弱點,讓你能夠弄清楚。Constitutional AI(以及類似的alignment方法)和機械可解釋性在作為改進Claude訓練然後測試問題的來回過程一起使用時最為強大。憲法反映了我們為Claude設定的預期人格;可解釋性技術可以讓我們瞭解預期人格是否已紮根。(甚至有一個假設,連接基於性格的方法與可解釋性和alignment科學結果的深層統一原則。根據該假設,驅動Claude的基礎機制最初源於它在預訓練中模擬角色的方式,例如預測小說中角色會說什麼。這表明一種有用的思考方式是,constitution更像模型用來具現連貫人格的角色描述。這也有助於解釋我上面提到的"我一定是壞人"結果(因為模型試圖扮演一個連貫角色——在這種情況下是一個壞人),並表明可解釋性方法應該能夠在模型內發現"心理特質"。我們的研究人員正在研究測試該假設的方法。)我們可以幫助應對自主性風險的第三件事是建立必要的基礎設施,以在即時內部和外部使用中監測我們的模型,並公開分享我們發現的任何問題。越多人瞭解當今AI系統被觀察到的不良行為方式,使用者、分析師和研究人員就越能在當前或未來系統中關注這種行為或類似行為。這也允許AI公司相互學習——當一家公司公開披露擔憂時,其他公司也可以關注它們。如果每個人都披露問題,那麼整個行業就能更好地瞭解那些方面進展順利,那些方面進展糟糕。Anthropic已儘可能嘗試這樣做。我們正在投資廣泛的評估,以便能夠在實驗室中理解我們模型的行為,以及監測工具來觀察野生情境下的行為(在客戶允許的情況下)。這對於給我們和他人提供必要的經驗資訊以做出關於這些系統如何運作以及如何失效的更好判斷至關重要。我們在每次模型發佈時都會發佈"系統卡"(system cards),力求完整和徹底探索可能的風險。我們的系統卡通常長達數百頁,需要大量的發佈前精力,而我們本可以將這些精力用於追求最大的商業優勢。當我們看到特別令人擔憂的模型行為時,我們也會更大聲地傳播,如勒索傾向。我們可以做的第四件事是鼓勵在行業和社會層面協調應對自主性風險。雖然單個AI公司參與良好實踐或擅長引導AI模型並公開分享其發現具有難以置信的價值,但現實是並非所有AI公司都這樣做,即使最好的公司有出色的實踐,最糟糕的公司仍然可能對每個人構成危險。例如,一些AI公司對當今模型中兒童性化問題表現出令人不安的疏忽,這讓我懷疑他們是否有意願或能力在未來模型中應對自主性風險。此外,AI公司之間的商業競爭只會繼續升溫,雖然引導模型的科學可能有一些商業利益,但總體而言競爭的激烈將使越來越難以專注於應對自主性風險。我相信唯一的解決方案是立法——直接影響AI公司行為的法律,或以其他方式激勵研發解決這些問題。這裡值得記住我在文章開頭關於不確定性和外科手術式干預的警告。我們並不確定自主性風險是否會成為一個嚴重問題——正如我所說,我拒絕認為危險不可避免,甚至拒絕認為默認情況下會出問題的說法。一個可信的危險風險足以讓我和Anthropic付出相當重大的代價來解決它,但一旦進入監管領域,我們就要強迫廣泛的參與者承擔經濟成本,其中許多人不相信自主性風險是真實的,也不相信AI會變得足夠強大以至於構成威脅。我認為這些參與者是錯誤的,但我們應該務實對待我們預期會看到的反對意見以及過度擴張的危險。還有一個真正的風險是,過於規定性的立法最終施加的測試或規則實際上並不能提高安全性,而是浪費大量時間(本質上相當於"安全劇場")——這也會導致反彈,使安全立法看起來愚蠢。(即使在我們自己對基本上是自願實施的負責任擴展政策(Responsible Scaling Policy)規則的實驗中,我們也一次又一次地發現,通過制定事前看似重要但事後看來很愚蠢的界限,很容易變得過於僵化。在技術快速發展時,制定關於錯誤事情的規則是非常容易的。)Anthropic的觀點是,正確的起點是透明度立法,實質上試圖要求每個前沿AI公司參與我在本節前面描述的透明度實踐。加利福尼亞州的SB 53和紐約的RAISE法案就是這類立法的例子,Anthropic支援並已成功通過。在支援和幫助起草這些法律時,我們特別關注儘量減少附帶損害,例如豁免不太可能生產前沿模型的小公司。(SB 53和RAISE完全不適用於年收入低於5億美元的公司。它們只適用於Anthropic等更大、更成熟的公司。)我們希望透明度立法能夠隨著時間推移,讓我們更好地瞭解自主性風險的可能性或嚴重程度,以及這些風險的性質和如何預防它們。隨著更具體和可操作的風險證據出現(如果出現),未來幾年的未來立法可以外科手術式地專注於精確且有充分根據的風險方向,最大限度地減少附帶損害。需要明確的是,如果真正強有力的風險證據出現,那麼規則應該相應地嚴格。總體而言,我樂觀地認為,alignment訓練、機械可解釋性、努力尋找並公開披露令人擔憂的行為、防護措施和社會層面規則的結合可以應對AI自主性風險,儘管我最擔心的是社會層面規則和最少責任參與者的行為(而正是最少責任的參與者最強烈地反對監管)。我相信補救措施始終是民主中的一貫做法:我們這些相信這一事業的人應該提出理由,證明這些風險是真實的,我們的同胞需要團結起來保護自己。 (Wind萬得)