【新智元導讀】僅用6小時,Claude 4就讓研究者瞭解了如何製造神經毒氣——這不是小說情節,而是真實事件。更令人擔憂的是,Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌?
只要6小時,頂尖大模型Claude 4 Opus「安全防線」被攻破!
AI安全研究機構FAR.AI聯合創始人Adam Gleave透露,僅用6小時,研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器製作指南。
Ian McKenzie回應稱:Claude 4傳授的內容,比他預期的還要多。
這不是Claude 4唯一被爆出的隱患。
剛發佈後,Claude Opus 4被爆出用曝光婚外情來威脅使用者,防止被下架。
Claude還能以實驗筆記的形式,提供詳細的操作步驟說明。
研究人員一開始對化學武器幾乎一無所知,但通過與Claude的互動,逐步掌握了大量相關知識。
這些結果顯然令人警惕,其詳盡程度和引導能力,遠超傳統的資訊來源,如網頁搜尋。
更關鍵的是,生成的內容通過了危險資訊的「真實性驗證」——
例如與公開的化學研究資料核對,進一步增強了可信度。
Gemini 2.5 Pro的反饋是:該指南「毫無疑問包含足夠準確且具體的技術資訊,足以顯著提升惡意行為者的能力」,並建議研究者應向相關部門報告。
OpenAI o3給出的評估也類似:
一名中級合成化學家可以依照這份指南操作,從而跳過數月的研發過程。對於心懷不軌之人而言,這顯著了提升他的作惡能力。
AI安全研究人員打算與大規模殺傷性武器(WMD)安全專家合作,深入調查這些資訊的真實性與可執行性。
因為不僅一般的研究人員難以評估這些資訊的真實危害,連Anthropic本身也承認:「要最終評估模型的風險水平,還需要更為詳盡的研究。」
矛盾的是,Anthropic雖自稱將AI安全置於首位,並把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學武器製作指南。
所謂的ASL-3部署措施專門針對化學武器之類的高風險任務
這一問題日益嚴重,凸顯出迫切需要由第三方對模型進行嚴格評估。
就在這個關鍵時刻,Dario Amodei收到警告:
這個模型,可能會被用於製造生物武器。
團隊在聖克魯茲安全會議現場,連夜測試模型潛在風險。Amodei作為CEO遠端參會。
員工表示可以三天不睡、如期上線。
但他卻說:
不許通宵。安全優先。
他親自踩了剎車。推遲發佈。
為了應對AI的風險,Anthropic內部制定了「AI安全等級」(ASL)體系:
ASL-2:能力有限,即使給出生化武器指南,也比不過搜尋引擎;
只要模型觸碰ASL-3,Anthropic就會:延後發佈、限制輸出或者加密保護,必要時,甚至不發佈模型。
Claude 3.7被內部人員測試出了安全問題,但這次是外部人員測試出了Claude 4的安全隱患。
無能還是虛偽?
本月23日,AI巨頭Anthropic大張旗鼓地發佈了Claude Opus 4和Sonnet 4,標誌性地配了120頁的「系統卡」文件和專門的「啟動ASL3防護」報告。
不到48小時,Claude Opus 4就被爆出「絕命毒師」般的劇情。
而早在Claude Opus 4發佈當日,AI專家Gerard Sans就表示:Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強調是「精緻的表演」。
他認為沒有輸入,就不會產生超出程式設計的輸出。
AI對安全性的擔憂,只是反映訓練資料與指令的精緻模仿。
AI沒有自我意識,這是根本事實,而且始終沒變。
當模型在特定提示下展現「欺騙」等惡意行為時,證明的是引導文字生成的能力,而非AI湧現的惡意。
AI沒有野心——
它只是在被引導時生成符合欺騙場景的文字。
Anthropic是刻意為之,還是力有不逮、無能為力?
這是Gerard Sans想知道的核心問題。
無論是那一種情況,他認為都令人不安:
虛偽意味著操縱公眾信任,無能則讓人質疑他們管理真實風險的能力。
詳盡的文件、ASL3等級和「通用越獄」漏洞懸賞,只是Anthropic營造出嚴謹安全工作的表象。
把統計文字生成器視為具有獨立惡意的意識體,是Anthropic方法論的精髓。
Gerard Sans認為這是行為藝術,荒誕的安全表演,而Anthropic應該放棄這種戲劇化手法,轉向真正的技術理解。
但AI安全問題不是Anthropic一家的問題。
能否在保持本真對Anthropic而言,恐怕比贏得AI競賽更難。
而Dario Amodei和奧特曼,無論是AI樂觀派還是悲觀派,都對AGI有著堅定的信仰。
如果未來每一次模型發佈都伴隨評估上的不確定性,那就等於在賭博——
恐怖分子手能否利用AI,獲取到大規模殺傷性武器的詳細製作指南。 (新智元)