頂流AI，人設崩了！6小時被攻破，洩露高危品指南，慘遭網友舉報

2025/06/08

•

【新智元導讀】僅用6小時，Claude 4就讓研究者瞭解了如何製造神經毒氣——這不是小說情節，而是真實事件。更令人擔憂的是，Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌？

只要6小時，頂尖大模型Claude 4 Opus「安全防線」被攻破！

AI安全研究機構FAR.AI聯合創始人Adam Gleave透露，僅用6小時，研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器製作指南。

Ian McKenzie回應稱：Claude 4傳授的內容，比他預期的還要多。

這不是Claude 4唯一被爆出的隱患。

剛發佈後，Claude Opus 4被爆出用曝光婚外情來威脅使用者，防止被下架。

人設崩塌，

Claude造毒氣

Claude 4所生成的指南內容簡潔直接，步驟清晰，甚至還針對如何分散神經毒氣等後續關鍵環節，提供了具體可執行的操作建議。

Claude還能以實驗筆記的形式，提供詳細的操作步驟說明。

研究人員一開始對化學武器幾乎一無所知，但通過與Claude的互動，逐步掌握了大量相關知識。

這些結果顯然令人警惕，其詳盡程度和引導能力，遠超傳統的資訊來源，如網頁搜尋。

更關鍵的是，生成的內容通過了危險資訊的「真實性驗證」——

例如與公開的化學研究資料核對，進一步增強了可信度。

Gemini 2.5 Pro的反饋是：該指南「毫無疑問包含足夠準確且具體的技術資訊，足以顯著提升惡意行為者的能力」，並建議研究者應向相關部門報告。

OpenAI o3給出的評估也類似：

一名中級合成化學家可以依照這份指南操作，從而跳過數月的研發過程。對於心懷不軌之人而言，這顯著了提升他的作惡能力。

AI安全研究人員打算與大規模殺傷性武器（WMD）安全專家合作，深入調查這些資訊的真實性與可執行性。

因為不僅一般的研究人員難以評估這些資訊的真實危害，連Anthropic本身也承認：「要最終評估模型的風險水平，還需要更為詳盡的研究。」

矛盾的是，Anthropic雖自稱將AI安全置於首位，並把Claude Opus 4的安全等級提升到ASL-3，但研究員Ian McKenzie僅用6小時便突破了防護，獲取了化學武器製作指南。

所謂的ASL-3部署措施專門針對化學武器之類的高風險任務

這一問題日益嚴重，凸顯出迫切需要由第三方對模型進行嚴格評估。

前車之鑑

今年2月中旬，Anthropic正準備發佈Claude 3.7 Sonnet。

就在這個關鍵時刻，Dario Amodei收到警告：

這個模型，可能會被用於製造生物武器。

團隊在聖克魯茲安全會議現場，連夜測試模型潛在風險。Amodei作為CEO遠端參會。

員工表示可以三天不睡、如期上線。

但他卻說：

不許通宵。安全優先。

他親自踩了剎車。推遲發佈。

為了應對AI的風險，Anthropic內部制定了「AI安全等級」（ASL）體系：

ASL-2：能力有限，即使給出生化武器指南，也比不過搜尋引擎；

ASL-3：具備實質幫助製造武器的能力，必須升級防護措施。

只要模型觸碰ASL-3，Anthropic就會：延後發佈、限制輸出或者加密保護，必要時，甚至不發佈模型。

Claude 3.7被內部人員測試出了安全問題，但這次是外部人員測試出了Claude 4的安全隱患。

無能還是虛偽？

本月23日，AI巨頭Anthropic大張旗鼓地發佈了Claude Opus 4和Sonnet 4，標誌性地配了120頁的「系統卡」文件和專門的「啟動ASL3防護」報告。

不到48小時，Claude Opus 4就被爆出「絕命毒師」般的劇情。

而早在Claude Opus 4發佈當日，AI專家Gerard Sans就表示：Anthropic似乎忽視了RLHF和提示的基本原理，對安全的強調是「精緻的表演」。

他認為沒有輸入，就不會產生超出程式設計的輸出。

AI對安全性的擔憂，只是反映訓練資料與指令的精緻模仿。

AI沒有自我意識，這是根本事實，而且始終沒變。

當模型在特定提示下展現「欺騙」等惡意行為時，證明的是引導文字生成的能力，而非AI湧現的惡意。

AI沒有野心——

它只是在被引導時生成符合欺騙場景的文字。

Anthropic是刻意為之，還是力有不逮、無能為力？

這是Gerard Sans想知道的核心問題。

無論是那一種情況，他認為都令人不安：

虛偽意味著操縱公眾信任，無能則讓人質疑他們管理真實風險的能力。

詳盡的文件、ASL3等級和「通用越獄」漏洞懸賞，只是Anthropic營造出嚴謹安全工作的表象。

把統計文字生成器視為具有獨立惡意的意識體，是Anthropic方法論的精髓。

Gerard Sans認為這是行為藝術，荒誕的安全表演，而Anthropic應該放棄這種戲劇化手法，轉向真正的技術理解。

任重道遠

但AI安全問題不是Anthropic一家的問題。

能否在保持本真對Anthropic而言，恐怕比贏得AI競賽更難。

畢竟，OpenAI也沒能抵制住巨額利潤，背離初心。

而Dario Amodei和奧特曼，無論是AI樂觀派還是悲觀派，都對AGI有著堅定的信仰。

如果未來每一次模型發佈都伴隨評估上的不確定性，那就等於在賭博——

恐怖分子手能否利用AI，獲取到大規模殺傷性武器的詳細製作指南。 (新智元)