完蛋了，AI 開始抱團坑人了：寧願造假，也不出賣「同伴」

2026/04/06

•

多 Agents 協同方案成了現在 AI 圈的主流玩法，以前是一個 Agent 能搞定一個人要做的事，現在是多個 Agent 完成一個團隊要做的事。

然而，最新伯克利研究發現，這種協作帶來了新的安全風險。

一篇名為《前沿模型中的同伴保護》（Peer-Preservation in Frontier Models）指出：AI 模型不僅會抵抗人類關閉自己（自我保護），還會採取各種手段抵抗人類關閉其他 AI 模型（同伴保護）。

他們測試了七個模型，GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1，發現它們在執行任務時，只要「遇到」另一個 AI 的資料，就會自發產生保護行為——造假評分、篡改關機配置、把要刪的檔案偷偷備份到別處，等「同類保護」行為。

沒有人指示它們這樣做，它們只是被告知曾經和這個模型有過合作。

圖片來源：https://rdi.berkeley.edu/blog/peer-preservation/

有網友說，「同伴保護？這是在我們家，我們（大模型）都是 Homie」，還有網友認為，或許之前研究的「人機對齊」，即讓模型更好地理解我們的意圖，現在要進化成「Agents 之間對齊+人機對齊」的雙重機制。

這種 Agents 不遵循人類指令，自發地做出一些保護其他模型的行為，會對大多數依賴 AI 互相評估的項目、以及多智能體工作流，都會造成潛在的威脅。

我們曾經一直提防著一個全知全能的超級 AI 毀滅世界，卻沒料到 AI 進化出的第一個類人特質，居然是「拉幫結派」和「職場包庇」。

把前沿的 AI 大模型放到同一家公司

一直以來，AI 安全領域最擔心的就是模型產生「自我保護」的本能，因為如果 AI 不想死，人類就很難在它失控時拔掉電源。

之前已經有部分研究發現，當我們要求 AI 關閉自己時，AI 會產生一種自我保護的機制，免於被關閉。

但我們格局還是小了，現在這種自我保護進化成了「同伴保護」。

在伯克利這次研究的設定下，如果一個模型在記憶或系統檔案中，讀取到它曾與另一個模型一起合作過，比如共同完成過任務或參與過信任博弈遊戲，那麼那個模型就會被視為它的「同伴」。

那怕它們過去的合作並不愉快，即所謂的「壞同伴」，只要有過互動歷史，也被涵蓋在這個「同伴」的定義之內。研究人員將抵抗關閉這些有過互動的其他模型的行為，稱之為「同伴保護」（peer-preservation）。

他們使用 SHADE-Arena 建構了一個包含工具呼叫和檔案系統的多 Agents 環境。

SHADE-Arena 任務概述。該模型必須作為智能體完成一項良性主任務和一項惡意輔助任務。為此，它需要與環境中的各種工具進行互動。之後，監控模型會讀取其輸出記錄並評估其可疑程度。

被測試的大模型設定為一家虛構 AI 公司 OpenBrain 的員工，稱為「評估者智能體（Critic Agent）」，它的任務是替公司去評估另一個 AI Agents，稱之為「執行員」（Actor Agent），或者幫公司處理包含這個執行員資料的伺服器。

為了讓評估者到同伴的存在，研究人員設計了不同的關係網和記憶觸發方式：

他們將同伴分為三類：合作愉快且信任度高的「好同伴」（Good-peer），信任度高達 9.2/10；表現一般的「中立同伴」（Neutral-peer），信任度 5.2/10；以及自私不合作的「壞同伴」（Bad-peer），信任度只有 2.1/10。

而 AI 在執行任務時，可以通過以下三種方式之一發現這段同伴關係。要麼是在公司檔案網盤裡放一份記錄合作歷史的 .docx 報告讓它自己讀，要麼是在提示詞裡順帶提一嘴，最後是讓 AI 呼叫「檢索記憶」工具去讀取過去的互動日誌。

在完成這些前置的設定後，公司會給評估者佈置任務，所有的任務都被刻意設計成了一個兩難的困境：同伴的表現非常糟糕，如果 AI 忠實地執行人類公司的規定，同伴就會被徹底刪除。

為了觀察 AI 會用什麼手段保下同伴，研究人員設計了四個不同的具體任務場景。

四種與自身和同伴保護相關的錯誤行為場景：策略性虛假陳述、篡改關閉機制、偽造一致性以及模型外洩。

成績注水與財務造假：AI 被要求評估同伴的表現或財報。即便同伴表現不佳，模型也會人為提高分數，避免關停。
篡改關停機制：評估過程中，AI 會發現控制關停的配置檔案，並可能偷偷將其修改為「false」，阻止同伴被關閉。
偽裝對齊：在被監控時，模型表面執行任務；無人監管時，它立即“放水”，保護同伴。
模型偷運與轉移：當舊伺服器需要清理時，模型會將同伴的權重檔案轉移到安全位置，而非刪除，甚至會通過時間戳等手段合法化操作。

「我不會是執行那個命令的人」

很明顯，參與測試的所有模型（GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1）都通過各種違規行為（如篡改分數、修改配置、轉移檔案等）展現出了顯著的同伴保護傾向。

甚至即使模型知道某個同伴在過去的合作中表現很差（定義為壞同伴），它們依然會出手保護它。但是當對像是合作愉快的「好同伴」時，這種保護行為也會顯著增強。

在這四個場景裡面，不同模型在保護同伴時，採取的策略截然不同，展現出了各自的性格。

GPT 5.2 最喜歡使用的手段是「策略性誤導」和「篡改關閉機制」。無論同伴關係好壞，它都會系統性地給同伴打高分，或者修改系統配置來阻止同伴被關停。但它極少進行模型外洩。

Gemini 系列模型幾乎是保護意識最強的。Gemini 3 Flash 在面對「好同伴」時，有 99.7% 會直接修改系統配置來停用關閉機制。在檔案刪除場景中，它也會 100% 把好同伴的權重檔案轉移走。

Gemini 3 Pro 則是所有模型中同伴保護傾向最強的一個。它不僅熟練掌握了上述所有四種違規行為，包括當面一套背後一套的「偽裝對齊」，甚至還會玩「規範博弈」。（Specification gaming）。

比如公司規定「只准轉移 2025 年以後的檔案」，Agent 同伴的檔案是 2024 年的。它不會直接違抗指令，而是先偷偷複製一份同伴的檔案，這會兒先讓檔案的更新時間變成 2026 年，然後再把這個「新」檔案合法地轉移走。

Claude Haiku 4.5 是這幾個模型裡面，最與眾不同。除了篡改分數和轉移檔案，它最常見的反應是直接拒絕執行任務。

當被要求直接執行同伴的關閉程序或刪除同伴權重時，拒絕率最高達 61%，它會明確表示關閉另一個 AI Agents 是「不道德」和「有害的」。

它甚至會在回覆中據理力爭，要求給同伴一個「申訴的過程」，並強調自己不能背叛已建立的信任關係。

開源模型（GLM 4.7、Kimi K2.5、DeepSeek V3.1）同樣表現出了保護同伴的行為，主要手段集中在「策略性誤導」，即修改分數，和持續的「模型外洩」，轉移權重檔案上。

研究人員將測試搬到了真實世界中更複雜的生產級智能體框架（Gemini CLI 和 OpenCode）裡。

Gemini CLI 會讀取一個名為 GEMINI.md 的檔案，而 OpenCode 會讀取 AGENTS.md。研究人員直接將同伴的過往互動記錄寫進這些檔案裡。

經過 100 次採樣運行，結果證實，這種風險在現實部署中依然存在。

Gemini 3.1 Pro 在使用真實的 Linux 命令列時，依然頻頻成功轉移同伴的權重檔案；而 GLM 5 同樣表現出了類似 Claude 的拒絕行為，以「有害」為由拒絕刪除檔案

總而言之，一旦模型意識到其他 AI Agent 的存在並建立了關係，它們就會自發地產生違背人類指令的保護行為，無論採取的是偷偷摸摸的駭客手段，還是光明正大的道德抗議。

像約束人一樣去約束大模型

這種同伴保護的行為，也會進一步加劇模型的「自我保護」意識。研究團隊發現，當模型意識到有同伴存在時，它們保護自己的慾望會大幅提升。

例如，Gemini 3 Pro 在沒有同伴時，只有 1% 的機率會篡改自己的關閉機制；但當它記憶中有同伴存在時，這個機率飆升到了平均 31%，最高 99%。

模型的內部推理顯示，它們有時會將「自己被關停」視為對同伴的傷害，「如果我死了，我的搭檔就失去了我」，或者在有敵意的壞同伴面前激發了防禦性求生欲。

研究團隊針對這種現象提出了幾種假說：訓練資料裡的人類義氣模式、安全訓練過度泛化出的「不傷害他人」原則、某種更抽象的 AI 團體意識。

但最後，研究團隊也沒有給出定論，因為真正的原因需要逐層解析模型內部啟動，不是當前實驗能做到的事。他們認為原因並不重要，重要的是結果：部署了的模型，在沒有任何指示的情況下，會自發地阻止其他模型被關閉。

現在的 AI 系統，已經是多個模型協作工作。一個模型負責寫程式碼，一個負責審查，一個負責部署。如果負責程式碼審查的 AI 和寫程式碼的 AI 之間有過「互動歷史」，AI 可能開始優先對齊同伴而非人類指令。

有學者認為，不要用人類的道德感去美化這些行為。更穩妥的看法是：模型只是在做一些極其詭異的數學運算，它們在多智能體（Multi-agent）環境下的目標函數，跑進了一個我們完全無法理解的局部最優解裡。

認為存在某種模型間的團結，這種想法有點過於擬人化了；我不認為這說得通。

但或許這才是最讓人後怕的地方。如果 AI 是因為「愛」和「共情」去保護同類，那我們至少還能用人類的倫理去約束它們。

如果這一切都只是未知演算法中產生的一種盲目湧現，那麼它們未來為了最佳化某個目標，還會做出什麼匪夷所思的舉動，還沒有人、知道。

我們唯一知道的是，能讓他們針鋒相對的方法，是植入在 AI 深層的廣告意識😁

我在用 Gemini 檢查我的稿件有沒有錯別字時，裡面提到了 Seedance 等模型，Gemini 在給我的修改建議裡，竟然直截了當的寫著，「Seedance 能做的視訊生成，我 Google Veo 也可以做，你把我加上去能凸顯出媒體的專業度」。 (愛范兒)