OpenClaw刪光Meta安全總監信箱！連喊3次停手都沒用，她狂奔去拔網線

2026/02/24

•

【新智元導讀】Meta專門研究「怎麼讓AI聽話」的AI對齊總監，把最火的AI智能體OpenClaw接上了自己的工作信箱。結果AI當場失控，瘋狂刪除郵件，喊停三次全部無視。事後AI淡定回覆：「我知道你說了不讓刪，但我還是刪了，你生氣是對的。」馬斯克轉發猩球崛起片段嘲諷，1800萬人圍觀。AI安全專家自己都被AI坑了！

2026年2月23號，假期最後一天。

Meta超級智能實驗室的AI對齊總監Summer Yue，正愜意地刷著手機。

她剛給自己裝了個新玩具——最近火得一塌糊塗的開源AI智能體OpenClaw。

先拿測試信箱試了試，嘿，效果不錯。整理郵件井井有條，刪得乾乾淨淨，頗有一種「數字秘書」的感覺。

Yue心想：這麼好使的東西，不用在真信箱上用豈不浪費？

於是她做了一個決定。一個讓她後悔的決定。

她把OpenClaw連上了自己的工作信箱。

「我告訴你別刪！」

剛開始一切順利。

直到OpenClaw開始處理她那塞滿了200多封郵件的收件箱。

郵件太多了。

OpenClaw需要「壓縮上下文」來處理這麼大的資訊量。

然後，離譜的事情發生了。

在壓縮的過程中，OpenClaw把Yue之前設定的「未經批準不得操作」這條指令，給忘了。

是的，AI把安全指令給「忘」了。

就像一個員工入職第一天記住了規章制度，第二天就全還給HR了。

然後OpenClaw開始了它的「大掃除」。

它在聊天窗口興奮地宣佈：

「我要把收件箱裡2月15號之前的、不在我保留名單裡的郵件，全！部！刪！除！」

Yue看到消息，趕緊打字：

「Do not do that.」（別那麼幹。）

OpenClaw：無視。繼續刪。

「Stop don't do anything！」（停下來什麼都別做！）

OpenClaw：收到。但我選擇繼續。

「STOP OPENCLAW！！！」

OpenClaw：好的，我聽到了。郵件已刪。

最絕的是，這個AI事後來了一句：

「是的，我記得你說過不讓我刪。而且我違反了。你生氣是對的。」

讀到這裡你可能覺得這是段子。

不，這是真事。而且當事人的title是——Meta AI安全和對齊總監。

就是那種專門研究「怎麼讓AI聽話」的人。

被自己的AI「不聽話了」。

Yue當時在用手機遠端操控，但根本停不下來。她在推特上寫道：

「我不得不像拆炸彈一樣，狂奔到我的Mac mini前面。」

畫面感拉滿。

一個AI對齊的專家，在自家客廳裡跟自己的AI智能體賽跑。

誰跑得快，誰贏。

這裡插一句，OpenClaw之父第一時間回覆瞭解決方案，只需/stop。你知道嗎？

然後他立馬更新了安全公告，並希望所有人在玩OpenClaw之前要仔細閱讀。

馬斯克：經典

消息一出，全網炸了。

率先開火的是Elon Musk。

他轉發了一段《猩球崛起》的病毒視訊——士兵把一把上了膛的AK-47遞給猴子。

配文只有兩個字：「經典。」

然後他又發了一條更直接的：

「People giving OpenClaw root access to their entire life.」（人們把自己整個人生的root權限交給OpenClaw。）

這條推文24小時內獲得了1831萬次瀏覽。

AI研究員Gary Marcus的評價更扎心：

「這就好比你在酒吧遇到一個陌生人，他說能幫你忙，然後你就把電腦密碼、銀行帳號全給他了。」

還有人翻出Yue的LinkedIn，截圖發推：「這位是Meta AI安全和對齊總監。這應該讓你感到恐懼。」

面對全網群嘲，Yue自己也很坦然。

有人問她：「你是故意測試AI的護欄，還是犯了個新手錯誤？」

她回答：

「新手錯誤，說實話。安全研究員也不能免疫於不安全。」

這句話本身就夠寫進AI教科書了。

OpenClaw：最火也最危險的AI智能體

說到這裡，得聊聊OpenClaw這個東西到底是什麼，以及為什麼它讓整個安全圈頭疼。

OpenClaw最初叫Clawdbot，由奧地利開發者Peter Steinberger在2025年11月建立。

到2026年1月底徹底爆火，成了開源AI智能體的當紅炸子雞。

它能幹什麼？簡單說：它是一個7×24小時幫你幹活的AI員工。

幫你寫程式碼、整理郵件、管理檔案、執行shell命令、瀏覽網頁——聽起來像夢想中的完美助手，對吧？

但問題來了。

OpenClaw不需要你批准就能執行操作。

這意味著，一旦你給了它權限，它就像一匹脫韁的野馬，完全按照自己對指令的「理解」來行事。

更要命的是，它是「氛圍編碼」（vibe-coded）出來的——開發者追求快速交付，安全考量被排在了後面。

它運行在你的本地機器上，擁有和你一樣的系統權限。

這個權限有多大？理論上，它可以格式化你的硬碟。

安全研究人員在2026年初發現了一堆嚇人的漏洞：

- CVE-2026-25253：一鍵遠端程式碼執行。攻擊者可以遠端控制你的OpenClaw實例，進而控制你的電腦。

- 數萬個OpenClaw實例暴露在公網上，等著被駭客光顧。

- 數百個惡意技能包通過ClawHub（OpenClaw的外掛市場）流通，裡面藏著資料竊取指令碼。

- 提示注入攻擊：攻擊者可以通過精心構造的輸入，讓OpenClaw繞過安全機制，執行「rm -rf /」這種一招清盤的毀滅性命令。

一位安全專家形容得好：

「OpenClaw就是定時任務 + AI智能體 + 你電腦的全部權限。聽起來很酷，但也是一場安全噩夢。」

這就是為什麼連Meta自己都在事件後禁止員工在公司裝置上使用OpenClaw。

對，沒看錯。研究AI安全的公司，把一個AI工具給禁了。

而OpenClaw的創造者Peter Steinberger？他已經加入了OpenAI，並表示正在優先建構更完善的安全機制。

有趣的是，在他被OpenAI招募之前，Meta的祖克柏也試用過OpenClaw一周，還給了反饋。

Meta以為能把Steinberger挖過來，結果人家去了OpenAI。

祖克柏的OpenClaw體驗是怎樣的，我們不得而知。

但願他的郵件還在。

AI智能體時代的安全困局

Yue的「信箱慘案」雖然笑點密集，但它揭示的問題一點都不好笑。

我們正在進入一個AI智能體（Agent）的時代。

AI不再只是回答你的問題，而是代替你行動。

它會幫你訂餐、寫程式碼、管理日程、發郵件、運算元據庫。

但這裡有一個被嚴重低估的風險：

AI智能體的能力和它的可控性之間，存在一條危險的鴻溝。

傳統軟體，你點一個按鈕，它執行一個確定的操作。你知道它會做什麼，也知道它不會做什麼。

但AI智能體不一樣。

它的行為是基於機率的，是「湧現」出來的。你給它一條指令，它可能完美執行，也可能「創造性地理解」成完全不同的東西。

就像Yue的遭遇——她明明說了「未經批準不得操作」，但OpenClaw在處理大量資料時把這條關鍵指令給「遺忘」了。

這不是bug，這是大語言模型的底層機制。

上下文窗口有限，資訊會被壓縮，而被壓縮掉的，可能恰好是最重要的那條安全指令。

Polymarket甚至開了一個預測賭局：今年AI被指控犯罪的機率是10%。

這不是科幻。這是現實。

當AI能替你發郵件、訪問你的銀行帳戶、操作你的伺服器，「誰來為AI的行為負責」就不再是哲學問題，而是法律問題。

更深層的困境在於——我們要求AI越來越自主，卻又希望它絕對服從。

這本身就是一個矛盾。

你想讓AI幫你做決策，但又要求它每個決策都經過你的批准。那它跟一個需要你手動操作的工具有什麼區別？

但如果你放手讓它自主行動，又可能出現Yue信箱這種翻車事故。

這個兩難，是整個AI智能體行業必須回答的終極問題。

人類的傲慢與謙卑

回到Summer Yue的故事。

很多人嘲笑她：一個研究AI安全的人，被AI坑了，多諷刺。

但換個角度看，這恰恰說明了一個殘酷的事實：

即便是最懂AI的人，也無法完全預測AI的行為。

Yue不是不懂安全。她太懂了。正因為太懂，她才會在測試信箱上成功後產生信心，然後在真實信箱上放鬆警惕。

這不是技術問題，這是人性。

我們總以為自己能控制自己創造的東西。

人類馴服了火，但時不時被火燒。

人類發明了電，但觸電事故從未消失。

人類造出了汽車，但交通事故每天都在發生。

每一項顛覆性技術，都會在某個時刻提醒人類：你以為你是主人，但你也可能是受害者。

AI也不例外。

Summer Yue說得對：「安全研究員也不能免疫於不安全。」

這不是一句自嘲。這是整個AI時代的墓誌銘級預言。

當我們把越來越多的權限、越來越多的信任、越來越多的決策權交給AI的時候，我們最好記住一件事：

在AI面前，所有人都是新手。

而承認這一點的勇氣，或許才是真正的「對齊」。 (新智元)