#AI安全限制 | 熱門關鍵字 | 鉅亨號

【新智元導讀】美國五角大樓正向 Anthropic 極限施壓，要求徹底解除 Claude 的軍事應用限制。會後，Anthropic 發佈新版政策。公司正式放棄了「單方面暫停大模型訓練」的安全承諾。在政治與商業的雙重壓力下，AI 安全理想主義最終向現實妥協。就在這兩天，美國五角大樓內醞釀著一場氣氛冷硬的會面。坐在談判桌兩端的，是代表著截然不同兩種意識形態的權力掌舵者。一邊是美國國防部長皮特·海格塞斯（Pete Hegseth），他代表著新一屆政府在國家安全事務上毫無妥協的強勢姿態與放鬆監管的狂飆做派。另一邊則是達里歐·阿莫代（Dario Amodei），Anthropic CEO。在矽谷，阿莫代（Dario Amodei）和他的公司一直以「安全第一」的教條主義者形象示人，他們甚至將約束 AI 模型視作與開發 AI 模型同等重要的使命。這並非一次為了增進瞭解的友好拜訪。據多位知情人士透露，這場會面充滿了火藥味。五角大樓向阿莫代下達了最後通牒。國防部要求 Anthropic 在美國時間周五晚前（台北時間周六晚前）全面解除其大模型 Claude 在軍事機密系統中的安全限制，允許軍方將其用於「所有合法目的」。如果 Anthropic 拒絕，五角大樓將考慮動用《國防生產法》（Defense Production Act）強制其修改程式碼，或者直接將其打上「供應鏈風險」的標籤，徹底切斷其與軍方乃至其他聯邦承包商的商業聯絡。阿莫代帶來的底牌顯得有些單薄。Anthropic 同意放寬部分使用限制，堅持保留兩條紅線。這兩條紅線分別是禁止將其 AI 用於對美國民眾的大規模監控，禁止用於開發無需人類介入的致命性自主武器。在五角大樓看來，這種要求對軍方每一次具體使用進行審查的「護欄」，是對軍事決策權的僭越。就在這場驚心動魄的政商博弈進行的同時，另一場更為隱秘的蛻變正在 Anthropic 內部發生。會後，這家曾經最為保守的 AI 明星企業悄然發佈了第三版《負責任的擴展政策》（RSP 3.0）。這份長達近 20 頁的政策檔案宣告了一個核心承諾的終結。Anthropic 正式放棄了其在 2023 年立下的「一旦安全措施無法保障便單方面暫停大模型訓練」的誓言。一面是在華盛頓的圓桌上死守 AI 應用的倫理底線，一面是在舊金山的實驗室裡親手拆除制約研發速度的安全閥。當技術狂飆與大國博弈相互交織，曾經試圖為 ASI 戴上鐐銬的理想主義者們，正在無可奈何地向現實低頭。五角大樓的焦躁與矽谷的備胎五角大樓對 Anthropic 的憤怒與依賴是一體兩面的。早在此次僵局發生之前，國防部與 Anthropic 已經簽署了一份價值 2 億美元的試點合同。Claude 是目前美國軍方機密網路中唯一獲得授權並正在運行的 AI 模型。在敏感情報分析、武器開發以及戰場行動中，軍方人員常常將 Claude 與資料分析巨頭 Palantir 的技術結合使用。一月份發生在委內瑞拉的「馬杜洛突襲」行動中，Claude 就曾深度參與並行揮了關鍵作用。防務官員們毫不諱言 Claude 的強大。正是因為 Claude 的性能在同行中一騎絕塵，五角大樓才容忍了 Anthropic 至今。然而，海格塞斯（Pete Hegseth）在今年 1 月發佈的一份備忘錄打破了原有的默契。備忘錄要求所有提供給軍方的 AI 技術必須移除限制，這直接導致了雙方合同的重新談判。在海格塞斯（Pete Hegseth）強硬的施壓策略背後，是一套精心編織的替代方案。就在阿莫代（Dario Amodei）被傳喚至五角大樓的幾乎同一時間，埃隆·馬斯克旗下的 AI 公司 xAI 與五角大樓達成了協議，同意讓其模型 Grok 進入機密系統，並完全接受了軍方「用於所有合法目的」的標準。xAI 的妥協為五角大樓提供了向 Anthropic 施壓的絕佳籌碼。不僅如此，Google（該公司曾聲稱信條是: Don't be evil）和 OpenAI 也在緊鑼密鼓地與軍方接洽。知情人士透露，五角大樓正以前所未有的緊迫感推動與這兩家巨頭的談判。Google為了專門服務政府已經投入巨資建設資料中心，其 Gemini 模型被視為極具潛力的替代品。雖然 OpenAI 的 ChatGPT 目前仍在機密網路之外，且由於複雜的安全問題距離達成協議尚有距離，但大門已經敞開。這構成了對 Anthropic 的極限施壓。軍方官員直言不諱地指出，如果 Anthropic 不讓步，就讓其徹底出局。將 Anthropic 列為「供應鏈風險」是一項極具毀滅性的懲罰。這意味著任何希望與國防部做生意的企業，都必須提供證明，確保其工作流程中沒有使用 Claude。對於一家估值高達 3800 億美元、年化收入正以十倍速度瘋漲的明星獨角獸而言，這無疑是切斷了其在政府（To G）與企業級市場（To B）最豐厚的一條主脈。更為極端的威脅是《國防生產法》。這項在新冠疫情期間曾被用來強制生產呼吸機和疫苗的法案，此刻被異化為一種帶有敵意的行政大棒。五角大樓試圖借此繞過商業談判，以國家安全的名義直接剝奪一家科技公司對其核心產品的控制權。儘管有顧問指出 Anthropic 可以在法庭上抗辯，證明 Claude 是為政府敏感用途定製的軟體而非普通商品，但這種曠日持久的法律消耗戰同樣是初創公司難以承受之重。「暫停鍵」的消亡與絕對安全的幻滅就在外界的目光聚焦於華盛頓的政治交鋒時，Anthropic 內部正在進行一場痛苦的路線修正。Anthropic 由達里歐·阿莫代（Dario Amodei）及其妹妹丹妮拉·阿莫代（Daniela Amodei）等一眾前 OpenAI 核心成員創立。妹妹 Daniela Amodei這群人當年離開 OpenAI 的初衷，正是擔憂資本的過度介入會使得 AI 的安全被拋之腦後。成立之初，Anthropic 就確立了將安全性作為最高信仰的企業文化。2023 年出台的第一版《負責任的擴展政策》更是將這種信仰條文化。那份政策中有一個被外界廣泛讚譽的條款，即如果模型能力超越了特定的安全閾值，且公司無法保證相應的風險緩解措施到位，Anthropic 將無條件暫停新模型的訓練和部署。當時的 Anthropic 高層曾天真地認為，這種單邊承諾能夠產生一種「向上攀比」的示範效應。他們希望借此倒逼整個行業將安全置於速度之上，並最終促成具有約束力的國家法規甚至國際條約。3 年的時間足以讓任何烏托邦式的幻想破滅。Anthropic 的首席科學官傑瑞德·卡普蘭（Jared Kaplan）在接受採訪時道出了變更政策的實情。全球 AI 立法的步伐不僅沒有跟上技術的發展，反而出現了嚴重的倒退。美國新一屆政府高舉放鬆監管的大旗，甚至試圖廢除部分州一級的 AI 監管法案。國際間的協同治理更是遙遙無期。與此同時，同行間的算力軍備競賽已經進入白熱化。「如果我們停下腳步，而競爭對手正在毫無顧忌地全速前進，這對於任何人都沒有好處。」卡普蘭的這番話解釋了RSP 3.0 的核心邏輯。新版政策完成了從「絕對風險」向「邊際風險」的評估體系轉移。Anthropic 在檔案中坦承，AI 造成的災難性風險取決於全行業多個參與者的共同行動。如果一家負責任的開發者為了實施安全措施而暫停開發，那些缺乏安全保障的開發者就會主導技術的前沿。結果將是一個更加不安全的世界，因為負責任的公司會因此喪失對前沿技術的理解力，進而失去進行安全研究的能力。這是一個充滿宿命感的悖論。為了確保 AI 的安全，必須讓它足夠強大；為了研究前沿的風險，必須自己先觸及前沿。Anthropic 最終得出的結論是：在大模型時代，沒有公司可以停在原地。這種轉變也源於科學評估的困境。早期的政策設想中，安全閾值被設定為一條條清晰的紅線。然而實際操作中，紅線變成了模糊的漸變色。以生物武器研發風險為例，現有的 Claude 模型已經具備了相當程度的生物學知識，能夠輕易通過各項基準測試。這使得 Anthropic 無法證明該模型風險很低。缺乏能夠量化嚴重災難風險的成熟科學標準，讓 Anthropic 在試圖說服競爭對手或政府放慢腳步時顯得極其缺乏說服力。沒有退路的前沿實驗作為對放棄「單邊暫停」承諾的補償，Anthropic 在 RSP 3.0 中引入了更為密集的透明度機制。他們承諾每 3 到 6 個月發佈一次詳盡的「風險報告」（Risk Reports）（特別寫明了：「部分內容會進行刪減」），並在必要時引入無利益衝突的第三方進行嚴格的外部審查。公司還會定期更新「前沿安全路線圖」（Frontier Safety Roadmap），將未來的安全目標公之於眾，作為一種不具強製法律約束力卻能接受公眾監督的軟性承諾。非營利組織 METR 的政策主管克里斯·佩因特（Chris Painter）將 Anthropic 的這一轉變形容為進入了「分診模式」（Triage mode）。在醫療急救中，分診意味著放棄對輕傷者的即時救治，集中有限的資源搶救最危重的病人。在 AI 安全領域，這意味著 Anthropic 承認現有的評估和緩解手段已經跟不上模型能力增長的速度，他們只能在不斷升級的風險中做最壞打算。佩因特表達了對這種「溫水煮青蛙」效應的擔憂：當二元化的安全紅線被取消，由一項項具體的風險評估取而代之時，社會可能會在不知不覺中滑向危險的深淵，卻再也不會有一個明確的觸發機制來拉響警報。回望五角大樓那間氣氛凝重的會議室，我們或許能更深刻地理解 Anthropic 眼下的處境。面對軍方的極限施壓，阿莫代依然拒絕在「大規模監控」和「致命自主武器」這兩項直接關乎人命與公民權利的應用層面上妥協——至少在明面上要維持住公司體面的「人設」。他們已經意識到，在這個由算力、資本和國家意志共同驅動的龐大齒輪前，一家試圖通過閉門修行的初創公司是極其脆弱的。如果拒絕五角大樓，將被貼上敵視國家安全的標籤，被驅逐出擁有無窮資源的市場，進而被那些沒有道德包袱的競爭對手碾壓。為了留在牌桌上，他們必須保持技術領先；為了保持領先，他們必須放棄當年立下的那份會阻礙擴張步伐的誓言。從堅持絕對安全，到尋求相對安全；從單方面暫停訓練的果決，到只求在狂飆的列車上加裝更好剎車片的妥協。Anthropic 的蛻變史，就是一部矽谷 AI 理想主義在現實土壤上的降級史。技術精英們曾經深信自己可以用演算法和政策為人類鎖住潘多拉的魔盒，但地緣政治的壓力和商業競爭的殘酷重塑了遊戲的規則。在這條通往 ASI 的單行道上，人類最終會驚恐地發現，比機器失控更早到來的，是人類自己對按下暫停鍵的無能為力。 (新智元)