【新智元導讀】Meta專門研究「怎麼讓AI聽話」的AI對齊總監,把最火的AI智能體OpenClaw接上了自己的工作信箱。結果AI當場失控,瘋狂刪除郵件,喊停三次全部無視。事後AI淡定回覆:「我知道你說了不讓刪,但我還是刪了,你生氣是對的。」馬斯克轉發猩球崛起片段嘲諷,1800萬人圍觀。AI安全專家自己都被AI坑了!
2026年2月23號,假期最後一天。
Meta超級智能實驗室的AI對齊總監Summer Yue,正愜意地刷著手機。
她剛給自己裝了個新玩具——最近火得一塌糊塗的開源AI智能體OpenClaw。
先拿測試信箱試了試,嘿,效果不錯。整理郵件井井有條,刪得乾乾淨淨,頗有一種「數字秘書」的感覺。
Yue心想:這麼好使的東西,不用在真信箱上用豈不浪費?
於是她做了一個決定。一個讓她後悔的決定。
她把OpenClaw連上了自己的工作信箱。
剛開始一切順利。
直到OpenClaw開始處理她那塞滿了200多封郵件的收件箱。
郵件太多了。
OpenClaw需要「壓縮上下文」來處理這麼大的資訊量。
然後,離譜的事情發生了。
在壓縮的過程中,OpenClaw把Yue之前設定的「未經批準不得操作」這條指令,給忘了。
是的,AI把安全指令給「忘」了。
就像一個員工入職第一天記住了規章制度,第二天就全還給HR了。
然後OpenClaw開始了它的「大掃除」。
它在聊天窗口興奮地宣佈:
「我要把收件箱裡2月15號之前的、不在我保留名單裡的郵件,全!部!刪!除!」
Yue看到消息,趕緊打字:
「Do not do that.」(別那麼幹。)
OpenClaw:無視。繼續刪。
「Stop don't do anything!」(停下來什麼都別做!)
OpenClaw:收到。但我選擇繼續。
「STOP OPENCLAW!!!」
OpenClaw:好的,我聽到了。郵件已刪。
最絕的是,這個AI事後來了一句:
「是的,我記得你說過不讓我刪。而且我違反了。你生氣是對的。」
讀到這裡你可能覺得這是段子。
不,這是真事。而且當事人的title是——Meta AI安全和對齊總監。
就是那種專門研究「怎麼讓AI聽話」的人。
被自己的AI「不聽話了」。
Yue當時在用手機遠端操控,但根本停不下來。她在推特上寫道:
「我不得不像拆炸彈一樣,狂奔到我的Mac mini前面。」
畫面感拉滿。
一個AI對齊的專家,在自家客廳裡跟自己的AI智能體賽跑。
誰跑得快,誰贏。
這裡插一句,OpenClaw之父第一時間回覆瞭解決方案,只需/stop。你知道嗎?
然後他立馬更新了安全公告,並希望所有人在玩OpenClaw之前要仔細閱讀。
消息一出,全網炸了。
率先開火的是Elon Musk。
他轉發了一段《猩球崛起》的病毒視訊——士兵把一把上了膛的AK-47遞給猴子。
配文只有兩個字:「經典。」
然後他又發了一條更直接的:
「People giving OpenClaw root access to their entire life.」(人們把自己整個人生的root權限交給OpenClaw。)
這條推文24小時內獲得了1831萬次瀏覽。
AI研究員Gary Marcus的評價更扎心:
「這就好比你在酒吧遇到一個陌生人,他說能幫你忙,然後你就把電腦密碼、銀行帳號全給他了。」
還有人翻出Yue的LinkedIn,截圖發推:「這位是Meta AI安全和對齊總監。這應該讓你感到恐懼。」
面對全網群嘲,Yue自己也很坦然。
有人問她:「你是故意測試AI的護欄,還是犯了個新手錯誤?」
她回答:
「新手錯誤,說實話。安全研究員也不能免疫於不安全。」
這句話本身就夠寫進AI教科書了。
說到這裡,得聊聊OpenClaw這個東西到底是什麼,以及為什麼它讓整個安全圈頭疼。
OpenClaw最初叫Clawdbot,由奧地利開發者Peter Steinberger在2025年11月建立。
到2026年1月底徹底爆火,成了開源AI智能體的當紅炸子雞。
它能幹什麼?簡單說:它是一個7×24小時幫你幹活的AI員工。
幫你寫程式碼、整理郵件、管理檔案、執行shell命令、瀏覽網頁——聽起來像夢想中的完美助手,對吧?
但問題來了。
OpenClaw不需要你批准就能執行操作。
這意味著,一旦你給了它權限,它就像一匹脫韁的野馬,完全按照自己對指令的「理解」來行事。
更要命的是,它是「氛圍編碼」(vibe-coded)出來的——開發者追求快速交付,安全考量被排在了後面。
它運行在你的本地機器上,擁有和你一樣的系統權限。
這個權限有多大?理論上,它可以格式化你的硬碟。
安全研究人員在2026年初發現了一堆嚇人的漏洞:
- CVE-2026-25253:一鍵遠端程式碼執行。攻擊者可以遠端控制你的OpenClaw實例,進而控制你的電腦。
- 數萬個OpenClaw實例暴露在公網上,等著被駭客光顧。
- 數百個惡意技能包通過ClawHub(OpenClaw的外掛市場)流通,裡面藏著資料竊取指令碼。
- 提示注入攻擊:攻擊者可以通過精心構造的輸入,讓OpenClaw繞過安全機制,執行「rm -rf /」這種一招清盤的毀滅性命令。
一位安全專家形容得好:
「OpenClaw就是定時任務 + AI智能體 + 你電腦的全部權限。聽起來很酷,但也是一場安全噩夢。」
這就是為什麼連Meta自己都在事件後禁止員工在公司裝置上使用OpenClaw。
對,沒看錯。研究AI安全的公司,把一個AI工具給禁了。
而OpenClaw的創造者Peter Steinberger?他已經加入了OpenAI,並表示正在優先建構更完善的安全機制。
有趣的是,在他被OpenAI招募之前,Meta的祖克柏也試用過OpenClaw一周,還給了反饋。
Meta以為能把Steinberger挖過來,結果人家去了OpenAI。
祖克柏的OpenClaw體驗是怎樣的,我們不得而知。
但願他的郵件還在。
Yue的「信箱慘案」雖然笑點密集,但它揭示的問題一點都不好笑。
我們正在進入一個AI智能體(Agent)的時代。
AI不再只是回答你的問題,而是代替你行動。
它會幫你訂餐、寫程式碼、管理日程、發郵件、運算元據庫。
但這裡有一個被嚴重低估的風險:
AI智能體的能力和它的可控性之間,存在一條危險的鴻溝。
傳統軟體,你點一個按鈕,它執行一個確定的操作。你知道它會做什麼,也知道它不會做什麼。
但AI智能體不一樣。
它的行為是基於機率的,是「湧現」出來的。你給它一條指令,它可能完美執行,也可能「創造性地理解」成完全不同的東西。
就像Yue的遭遇——她明明說了「未經批準不得操作」,但OpenClaw在處理大量資料時把這條關鍵指令給「遺忘」了。
這不是bug,這是大語言模型的底層機制。
上下文窗口有限,資訊會被壓縮,而被壓縮掉的,可能恰好是最重要的那條安全指令。
Polymarket甚至開了一個預測賭局:今年AI被指控犯罪的機率是10%。
這不是科幻。這是現實。
當AI能替你發郵件、訪問你的銀行帳戶、操作你的伺服器,「誰來為AI的行為負責」就不再是哲學問題,而是法律問題。
更深層的困境在於——我們要求AI越來越自主,卻又希望它絕對服從。
這本身就是一個矛盾。
你想讓AI幫你做決策,但又要求它每個決策都經過你的批准。那它跟一個需要你手動操作的工具有什麼區別?
但如果你放手讓它自主行動,又可能出現Yue信箱這種翻車事故。
這個兩難,是整個AI智能體行業必須回答的終極問題。
人類的傲慢與謙卑
回到Summer Yue的故事。
很多人嘲笑她:一個研究AI安全的人,被AI坑了,多諷刺。
但換個角度看,這恰恰說明了一個殘酷的事實:
即便是最懂AI的人,也無法完全預測AI的行為。
Yue不是不懂安全。她太懂了。正因為太懂,她才會在測試信箱上成功後產生信心,然後在真實信箱上放鬆警惕。
這不是技術問題,這是人性。
我們總以為自己能控制自己創造的東西。
人類馴服了火,但時不時被火燒。
人類發明了電,但觸電事故從未消失。
人類造出了汽車,但交通事故每天都在發生。
每一項顛覆性技術,都會在某個時刻提醒人類:你以為你是主人,但你也可能是受害者。
AI也不例外。
Summer Yue說得對:「安全研究員也不能免疫於不安全。」
這不是一句自嘲。這是整個AI時代的墓誌銘級預言。
當我們把越來越多的權限、越來越多的信任、越來越多的決策權交給AI的時候,我們最好記住一件事:
在AI面前,所有人都是新手。
而承認這一點的勇氣,或許才是真正的「對齊」。 (新智元)