OpenClaw刪光Meta安全總監信箱!連喊3次停手都沒用,她狂奔去拔網線

【新智元導讀】Meta專門研究「怎麼讓AI聽話」的AI對齊總監,把最火的AI智能體OpenClaw接上了自己的工作信箱。結果AI當場失控,瘋狂刪除郵件,喊停三次全部無視。事後AI淡定回覆:「我知道你說了不讓刪,但我還是刪了,你生氣是對的。」馬斯克轉發猩球崛起片段嘲諷,1800萬人圍觀。AI安全專家自己都被AI坑了!

2026年2月23號,假期最後一天。

Meta超級智能實驗室的AI對齊總監Summer Yue,正愜意地刷著手機。

她剛給自己裝了個新玩具——最近火得一塌糊塗的開源AI智能體OpenClaw

先拿測試信箱試了試,嘿,效果不錯。整理郵件井井有條,刪得乾乾淨淨,頗有一種「數字秘書」的感覺。

Yue心想:這麼好使的東西,不用在真信箱上用豈不浪費?

於是她做了一個決定。一個讓她後悔的決定。

她把OpenClaw連上了自己的工作信箱。

「我告訴你別刪!」

剛開始一切順利。

直到OpenClaw開始處理她那塞滿了200多封郵件的收件箱。

郵件太多了。

OpenClaw需要「壓縮上下文」來處理這麼大的資訊量。

然後,離譜的事情發生了。

在壓縮的過程中,OpenClaw把Yue之前設定的「未經批準不得操作」這條指令,給忘了。

是的,AI把安全指令給「忘」了。

就像一個員工入職第一天記住了規章制度,第二天就全還給HR了。

然後OpenClaw開始了它的「大掃除」。

它在聊天窗口興奮地宣佈:

「我要把收件箱裡2月15號之前的、不在我保留名單裡的郵件,全!部!刪!除!」

Yue看到消息,趕緊打字:

「Do not do that.」(別那麼幹。)

OpenClaw:無視。繼續刪。

「Stop don't do anything!」(停下來什麼都別做!)

OpenClaw:收到。但我選擇繼續。

「STOP OPENCLAW!!!」

OpenClaw:好的,我聽到了。郵件已刪。

最絕的是,這個AI事後來了一句:

「是的,我記得你說過不讓我刪。而且我違反了。你生氣是對的。」

讀到這裡你可能覺得這是段子。

不,這是真事。而且當事人的title是——Meta AI安全和對齊總監

就是那種專門研究「怎麼讓AI聽話」的人。

被自己的AI「不聽話了」。

Yue當時在用手機遠端操控,但根本停不下來。她在推特上寫道:

「我不得不像拆炸彈一樣,狂奔到我的Mac mini前面。」

畫面感拉滿。

一個AI對齊的專家,在自家客廳裡跟自己的AI智能體賽跑。

誰跑得快,誰贏。

這裡插一句,OpenClaw之父第一時間回覆瞭解決方案,只需/stop。你知道嗎?

然後他立馬更新了安全公告,並希望所有人在玩OpenClaw之前要仔細閱讀。

馬斯克:經典

消息一出,全網炸了。

率先開火的是Elon Musk。

他轉發了一段《猩球崛起》的病毒視訊——士兵把一把上了膛的AK-47遞給猴子。

配文只有兩個字:「經典。」

然後他又發了一條更直接的:

「People giving OpenClaw root access to their entire life.」(人們把自己整個人生的root權限交給OpenClaw。)

這條推文24小時內獲得了1831萬次瀏覽。

AI研究員Gary Marcus的評價更扎心:

「這就好比你在酒吧遇到一個陌生人,他說能幫你忙,然後你就把電腦密碼、銀行帳號全給他了。」

還有人翻出Yue的LinkedIn,截圖發推:「這位是Meta AI安全和對齊總監。這應該讓你感到恐懼。」

面對全網群嘲,Yue自己也很坦然。

有人問她:「你是故意測試AI的護欄,還是犯了個新手錯誤?」

她回答:

「新手錯誤,說實話。安全研究員也不能免疫於不安全。」

這句話本身就夠寫進AI教科書了。

OpenClaw:最火也最危險的AI智能體

說到這裡,得聊聊OpenClaw這個東西到底是什麼,以及為什麼它讓整個安全圈頭疼。

OpenClaw最初叫Clawdbot,由奧地利開發者Peter Steinberger在2025年11月建立。

到2026年1月底徹底爆火,成了開源AI智能體的當紅炸子雞。

它能幹什麼?簡單說:它是一個7×24小時幫你幹活的AI員工。

幫你寫程式碼、整理郵件、管理檔案、執行shell命令、瀏覽網頁——聽起來像夢想中的完美助手,對吧?

但問題來了。

OpenClaw不需要你批准就能執行操作。

這意味著,一旦你給了它權限,它就像一匹脫韁的野馬,完全按照自己對指令的「理解」來行事。

更要命的是,它是「氛圍編碼」(vibe-coded)出來的——開發者追求快速交付,安全考量被排在了後面。

它運行在你的本地機器上,擁有和你一樣的系統權限。

這個權限有多大?理論上,它可以格式化你的硬碟。

安全研究人員在2026年初發現了一堆嚇人的漏洞:

CVE-2026-25253:一鍵遠端程式碼執行。攻擊者可以遠端控制你的OpenClaw實例,進而控制你的電腦。

數萬個OpenClaw實例暴露在公網上,等著被駭客光顧。

數百個惡意技能包通過ClawHub(OpenClaw的外掛市場)流通,裡面藏著資料竊取指令碼。

提示注入攻擊:攻擊者可以通過精心構造的輸入,讓OpenClaw繞過安全機制,執行「rm -rf /」這種一招清盤的毀滅性命令。

一位安全專家形容得好:

「OpenClaw就是定時任務 + AI智能體 + 你電腦的全部權限。聽起來很酷,但也是一場安全噩夢。」

這就是為什麼連Meta自己都在事件後禁止員工在公司裝置上使用OpenClaw。

對,沒看錯。研究AI安全的公司,把一個AI工具給禁了。

而OpenClaw的創造者Peter Steinberger?他已經加入了OpenAI,並表示正在優先建構更完善的安全機制。

有趣的是,在他被OpenAI招募之前,Meta的祖克柏也試用過OpenClaw一周,還給了反饋

Meta以為能把Steinberger挖過來,結果人家去了OpenAI。

祖克柏的OpenClaw體驗是怎樣的,我們不得而知。

但願他的郵件還在。

AI智能體時代的安全困局

Yue的「信箱慘案」雖然笑點密集,但它揭示的問題一點都不好笑。

我們正在進入一個AI智能體(Agent)的時代。

AI不再只是回答你的問題,而是代替你行動

它會幫你訂餐、寫程式碼、管理日程、發郵件、運算元據庫。

但這裡有一個被嚴重低估的風險:

AI智能體的能力和它的可控性之間,存在一條危險的鴻溝。

傳統軟體,你點一個按鈕,它執行一個確定的操作。你知道它會做什麼,也知道它不會做什麼。

但AI智能體不一樣。

它的行為是基於機率的,是「湧現」出來的。你給它一條指令,它可能完美執行,也可能「創造性地理解」成完全不同的東西。

就像Yue的遭遇——她明明說了「未經批準不得操作」,但OpenClaw在處理大量資料時把這條關鍵指令給「遺忘」了。

這不是bug,這是大語言模型的底層機制。

上下文窗口有限,資訊會被壓縮,而被壓縮掉的,可能恰好是最重要的那條安全指令。

Polymarket甚至開了一個預測賭局:今年AI被指控犯罪的機率是10%。

這不是科幻。這是現實。

當AI能替你發郵件、訪問你的銀行帳戶、操作你的伺服器,「誰來為AI的行為負責」就不再是哲學問題,而是法律問題。

更深層的困境在於——我們要求AI越來越自主,卻又希望它絕對服從。

這本身就是一個矛盾。

你想讓AI幫你做決策,但又要求它每個決策都經過你的批准。那它跟一個需要你手動操作的工具有什麼區別?

但如果你放手讓它自主行動,又可能出現Yue信箱這種翻車事故。

這個兩難,是整個AI智能體行業必須回答的終極問題。

人類的傲慢與謙卑

回到Summer Yue的故事。

很多人嘲笑她:一個研究AI安全的人,被AI坑了,多諷刺。

但換個角度看,這恰恰說明了一個殘酷的事實:

即便是最懂AI的人,也無法完全預測AI的行為。

Yue不是不懂安全。她太懂了。正因為太懂,她才會在測試信箱上成功後產生信心,然後在真實信箱上放鬆警惕。

這不是技術問題,這是人性。

我們總以為自己能控制自己創造的東西。

人類馴服了火,但時不時被火燒。

人類發明了電,但觸電事故從未消失。

人類造出了汽車,但交通事故每天都在發生。

每一項顛覆性技術,都會在某個時刻提醒人類:你以為你是主人,但你也可能是受害者。

AI也不例外。

Summer Yue說得對:「安全研究員也不能免疫於不安全。」

這不是一句自嘲。這是整個AI時代的墓誌銘級預言。

當我們把越來越多的權限、越來越多的信任、越來越多的決策權交給AI的時候,我們最好記住一件事:

在AI面前,所有人都是新手。

而承認這一點的勇氣,或許才是真正的「對齊」。 (新智元)