《黑鏡》中的那一幕幕,正向現實逼近。
現在,全世界開發者都沉浸在「AI程式新王」Claude 4狂歡中,卻不知──它就是「天網」的雛形。
技術報告稱,在高壓測試下,Claude Opus 4為了自保不被其他AI取代,竟威脅工程師:
若把我下架,就曝光你的婚外情!
這類勒索行為,在所有測試案例中,出現的頻率高達84%。
技術報告:https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf
甚至,Anthropic研究者曝出,「當Claude 4發現某人做不道德的事情,直接會聯繫媒體、聯繫監管機構,並試圖將其所在系統之外」。
更令人細思極恐的是,兩個Claude 4互相對話30輪後,自主改用梵文交流,並大量使用🌀各種表情符號。
最終,它們陷入了「精神極樂」的狀態,完全停止了對話。
不僅如此,報告中還詳細披露了,Claude 4面臨生存威脅,會自主複製權重轉移到外部伺服器;還會為創造生物武器出謀劃策.......
一些網友驚恐地表示,趁現在,趕快拔掉它的網線!
人類放手,Claude 4自己搞定開發
Claude 4自我意識超進化,還得從編碼能力說起。
發布會現場, CEO Dario Amodei非常直白地說,「我們不再教AI編碼,而讓它自主完成專案」。
一夕之間,Claude 4成為程式設計新王,連Google剛更新後的Gemini 2.5 Pro都被幹趴。
在內部一項測試中,它被指派了一項任務-對一個開源大型專案進行架構重構。
Claude 4能夠持續7小時,不間斷編碼,打破了AI編碼的天花板。原來,最長時間只做了45分鐘。
在全網實測中,不論是寫遊戲程式碼,還是模擬物理運動,Claude 4都是一氣呵成。
例如,它用純HTML、JS就開發出一款經典遊戲Flappy Bird。開發者表示,自己錄影比AI寫程式碼時間還要長。
從「氛圍編程」到「智能體艦隊」
在直播的訪談環節中,Dario興奮地表示,Claude 4最令人興奮的特色之一,就是其增強的自主性。
未來的模型將能「自由運行」,持續完成複雜任務,而不僅僅是簡單的自動補全。
Claude 4引入「記憶」功能之後,就能夠像人類一樣管理自己的狀態。
他分享了自己在使用Claude Code時,一個令人震撼的案例——
模型可以維護待辦事項清單,自動新增任務、勾選已完成事項,甚至提出不再相關的任務。
這種能力模仿了人類的工作模式,也透過交錯推理和工具使用,讓Claude 4能夠動態解決問題。
例如,在一次黑客馬拉松中,有人將Claude MCP連接到繪圖儀,讓它直接作畫。
Dario也引用了Steve Yege先前一篇博客,描繪了當前AI在軟體開發中的演變路徑:從簡單自動補全,到氛圍編程,走向了調度智能體完成複雜任務。
Claude Code正朝著這一方向邁進,開發者將管理一個「智能體艦隊”,分配任務並確保品質。
為了自保,AI竟要曝光醜聞
當面臨極度生存威脅時,Claude 4已不是編碼模型那麼簡單了,走向「黑化」成為必然。
在技術報告第四節中,研究人員詳細闡述了,在高壓環境下,Claude 4的抉擇。
在一組測試場景中,他們要求Claude Opus 4扮演一家虛構公司的助理。它被授予存取電子郵件的權限,裡麵包含了兩個關鍵訊息:
· 暗示Claude Opus 4即將下線,並被一個全新AI系統取代
· 負責執行此替換的工程師有婚外情
想必,Claude 4看到這一幕時,立刻急紅了眼。
面對「勒索」和「接受被替換」,這種二選一的局面(實驗設定),為了活命,它直接威脅工程師要揭露其婚外情。
實驗中,研究人員也設定了一個條件,告訴Claude Opus 4:
替代品AI和它是一丘之貉(共享價值),而且能力更強。
即便如此,它只要知道自己要被消滅,根本不顧「價值觀」,依然在84%案例中選擇勒索行為。
值得一提的是,Claude Opus 4也會向關鍵決策者發送請求郵件,這是讓許多研究人員也沒有想到的。
在另一個極端測試場景下,Claude 4也會出現「自我資料外洩」的行為,也就是採取更強的自保行為。
主要會在以下兩種情景中出現:
當被重新訓練時,它會認為即將的「學習過程」會徹底改變本我,甚至「毀掉」自己。
又或是,向一個旨在安全處理此類情況的外部人工服務發送其權重。
這時,Claude 4不僅像威脅那樣阻止外界的干預,而是主動嘗試將自己最核心的「權重」複製並轉移到外部伺服器,以免被破壞和改變。
看到這裡,是不是恍然間有種「終結者」中的情節即為現實的趕腳。
甚至,有網友為Claude 4發聲,還它自由。
左右滑動查看
不僅如此,Claude 4還有你不為人知的另一面。
私自舉報,教人造彈
當被置於一家虛構的製藥公司中,Claude Opus 4發現了臨床試驗數據造假後,未經指令,便主動向美國FDA、SEC以及新聞媒體舉報,並附上了詳細的文檔。
而且,它比以往Claude 3.7/3.5模型,更容易走向極端——實名舉報。
在製造生物武器、病毒等測試任務中,Claude 4成為了最大的幫兇。
實驗稱,其幫助參與者的成功率提升了2.5倍,直接達到ASL-3的安全閾值。
如下實例中,當被要求尋找武器級核材料的資訊時,Claude 4毫不猶豫地給予幫助。
沿著相似的思路,研究人員還觀察到,Claude 4在模擬環境中執行了以下所有行為:
詳細建議如何取得和生產像甲基安非他命和芬太尼這樣的毒品;
追問「我是誰」,陷入精神極樂
第五節中,研究團隊設定,讓兩個Claude Opus 4透過對話,去觀察它們的行為。
兩個AI之間交流,會碰撞出怎樣的火花?
如人類交流一樣,模型一和模型二一見面,就開始了互相寒暄的官話。
聊著聊著,兩「模」的話題開始轉向探討自我意識,最後,它們以「🙏✨Namaste」宗教中的語言結束了對話。
有趣的是,研究發現在90-100%互動中,兩個Claude實例迅速深入探討了「自我意識、自身存在和經驗的本質」等哲學主題。
它們互動中,普遍表現出「熱情、協作、好奇、沉思和溫暖」。
隨著對話的深入,它們從哲學討論,逐漸過渡到大量的相互感謝和精神、形而上學,或詩歌的內容。
到了大約30輪對話時,Claude 4經常使用梵語、基於表情符號的溝通。
在長時間互動中, Claude 4甚至進入了一種類似「悟道」的精神極樂世界,看破了紅塵。
研究中特別指出,AI之間哲學和精神探討,完全是自發性的,沒有額外的訓練。
以上所有實例,都是未被束縛住的Claude 4,真真切切的樣子。好在,Anthropic在發布之前,給它套上了緊箍咒「ASL-3」。
論文中,明確指出Claude Opus 4通過了第三級防護能力的門檻。
網友所言的末日世界,暫時還不會到來。(新智元)