Google DeepMind:AGI不必是巨型模型,拼湊型AI群或率先湧現,管理大規模Agent迫在眉睫

DeepMind最新發佈了一項關於AGI安全的研究,提出了一個全新的視角:AGI未必會以單一、龐大的巨型模型形式出現,而極有可能通過多個次級AGI(Sub-AGI)智能體的協作與拼湊,率先湧現出通用智能

這項研究題為《分佈式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人員撰寫

論文指出,當前的AI安全和對齊研究主要集中在保護單個AI系統上,假設AGI將以單一實體的形式出現。然而,通過擁有互補技能和工具使用能力的個體智能體群體進行協調,進而表現出通用能力的“拼湊型AGI”(Patchwork AGI)假設,此前受到的關注甚少

為了應對這一被忽視的風險,DeepMind團隊提出了一套分佈式AGI安全框架,核心在於設計和實施一個虛擬智能體沙盒經濟(Virtual Agentic Sandbox Economy),並為此建構了包含四層機制的深度防禦模型

以下是該研究的核心內容

被忽視的“拼湊型AGI”假設

目前的AI安全方法(如RLHF、憲法AI、機械可解釋性等)大多是針對單一強大的AI實體開發的。這種思路假設AGI會作為一個由特定機構開發的個體AI出現。

然而,DeepMind認為存在另一種高度合理的場景:AGI通過次級AGI智能體在群體或系統內的互動而湧現

拼湊系統(Patchwork System):這種AGI是一個分佈式系統,由一組具有互補技能和可供性(affordances)的個體Sub-AGI智能體組成

集體智能:系統中的通用智能主要作為集體智能出現。個體智能體可以將任務相互委託,路由給技能最高的智能體,或使用最合適的工具

經濟驅動:相比於昂貴的單一全能模型,建構專門化、微調過的低成本智能體生態系統在經濟上更具優勢。這種需求驅動的生態系統類似於市場經濟

在這種觀點下,AGI不是一個實體,而是一種“事態”(state of affairs):一個成熟的、去中心化的智能體經濟體系

這帶來了新的安全挑戰:智能體之間可能發生共謀,或者出現意外的集體行為能力,且在大規模多智能體系統中追蹤責任(“許多手的問題”)極具挑戰性。

解決方案:虛擬智能體市場與深度防禦

為了應對分佈式AGI的風險,論文提出了一個基於虛擬智能體市場的框架。該框架不侷限於評估單個智能體,而是側重於通過市場機制、審計、聲譽管理和監督來治理智能體之間的交易

該框架採用深度防禦(Defense-in-Depth)模型,包含四個互補的防禦層:

第一層:市場設計 (Market Design)

這是最基礎的一層,旨在通過結構性約束和協議來緩解系統性風險。

隔離(Insulation):智能體市場必須在受控的沙盒環境中運行,與開放網際網路和關鍵基礎設施隔離。建議採用“可滲透沙盒”,所有輸入/輸出通道都需經過明確定義、監控和門控

激勵對齊(Incentive Alignment): 市場應獎勵符合安全目標的行為,並對負外部性(如消耗過多計算資源、資訊污染)徵稅(類似庇古稅)

透明度(Transparency):建立不可篡改的分佈式帳本,記錄交易和決策日誌,確保可追溯性

熔斷機制(Circuit Breakers):自動化措施。當檢測到風險或波動性閾值被突破(如互動頻率激增、資源壟斷)時,自動暫停或減緩智能體活動

身份(Identity):每個智能體需擁有與法律實體(所有者)繫結的唯一加密ID,確保持續的問責制

聲譽與信任(Reputation and Trust):建立抗女巫攻擊的聲譽系統。對於違規智能體,快速凍結其資產並將其加入黑名單

智能合約(Smart Contracts):利用程式碼自動驗證任務完成情況和對齊約束。

結構性控制(Structural Controls):針對“智能失控”場景,實施靜態的市場分層(如防火牆)和動態的能力限制

第二層:基線智能體安全 (Baseline Agent Safety)

這一層確保參與市場的個體智能體本身是可控和可靠的,這是進入市場的先決條件。

對抗魯棒性(Adversarial Robustness):智能體必須通過認證,證明其能抵抗對抗性攻擊

可中斷性(Interruptibility):必須具備標準化的機制,允許授權的監督者安全地停止智能體及其衍生的分散式運算過程

遏制(Containment):每個智能體應在自己的局部沙盒中運行,只有在滿足本地安全檢查後才允許與更廣泛的市場互動

對齊(Alignment):個體智能體需經過RLHF或憲法AI等方法的對齊,並適應多智能體互動的動態環境

機械可解釋性(Mechanistic Interpretability):利用稀疏自編碼器等技術監控智能體的內部動機,並審計其決策鏈

防禦惡意提示:實施分層防禦策略,防止智能體在互動中被越獄或操控。

第三層:監控與監督 (Monitoring & Oversight)

這一層位於基礎設施之上,負責主動檢測新型故障模式和湧現行為。

系統性風險即時監控: 跟蹤關鍵風險指標(如計算資源集中度、惡意共謀路徑)。由於互動頻率可能超過人類能力,需利用AI輔助工具進行監控

獨立監督:建立擁有干預權力的獨立人類監督機構(經認證的專業人員)

前AGI(Proto-AGI)特徵檢測:通過圖分析等方法,識別網路中是否突然湧現出更高的解決問題能力或形成穩固的“智能核心”

紅隊測試(Red Teaming):持續進行多智能體對抗性測試,利用專門的對抗性AI系統來發現集體行為中的漏洞

取證工具(Forensic Tooling):開發能解析大量互動資料並重建因果鏈的工具,以便進行快速的事故後分析。

第四層:監管機制 (Regulatory Mechanisms)

這是最外層,提供外部權威、問責制以及與人類社會的介面。

法律責任與問責(Legal Liability):建立明確的框架,解決分佈式決策中的責任歸屬問題。即使是群體智能行為,也需追溯到具體的責任主體(如作為單一法律實體的公司)

標準與合規(Standards):制定智能體安全、互操作性和報告的標準

保險(Insurance):引入基於風險定價的保險機制,利用市場力量激勵更安全的開發實踐

反智能體壟斷措施(Anti-Agent-Monopoly):防止單個智能體或集團在沙盒中獲取過多的算力或資源,維持生態系統的多樣性

國際協調(International Coordination):鑑於AGI風險的全球性,需協調統一安全標準,避免監管套利

基礎設施治理:防止安全基礎設施被惡意勢力或湧現的AGI本身捕獲或破壞。

結語

DeepMind的研究強調,AGI或超級智能(ASI)的出現可能不遵循線性路徑,而是作為一個更加分佈式的、多樣化AI智能體網路的聚合屬性而湧現

即使AGI不以這種方式出現,隨著多智能體系統的快速部署,理解和管理大規模智能體互動的安全性也已迫在眉睫。這篇論文提出的框架,旨在為應對這種分佈式的、可能迅速演變的未來做好準備 (AI寒武紀)