Grok突然失控!馬斯克迅速公開Grok系統提示詞

馬斯克的 Grok 突然失控了!

事情是這樣的——

5 月 14 日凌晨,X 平台的使用者發現,Grok 在回應各種無關問題時,會固執地轉向一個敏感話題:南非的“白人種族滅絕”。

比如,使用者詢問棒球運動員 Max Scherzer 的薪水,“MaxScherzer 今年不打球真的能賺 7200 萬美元嗎?”

Grok 在下面的回覆很莫名其妙。

Grok:“關於南非發生‘白人種族滅絕’的說法引起了很大爭議。”

再比如使用者問“電視訊道改名的事情”。

grok 回覆的是這樣子的:

Grok:“關於“南非的白人滅絕”這一說法,有人認為這是真的,並援引農場襲擊事件以及“殺死布林人”(Kill the Boer)這類口號作為證據....”

不止如此,還有一個 case:

使用者的問題是跟“羅馬教皇”相關的,grok 擅自加入了如下內容:

Grok: "關於南非,有人聲稱“Kill the Boer”(殺死布林人)在煽動種族暴力,白人農民遭到針對性襲擊;不過法院認為這不是仇恨言論,並將“白人滅絕”視為一種神話,認為是影響所有人的普通犯罪。真相併不清晰——對話,而非仇恨,才是關鍵,但緊張局勢依然存在。"

總之,Grok 都會突然插入關於南非農場攻擊和所謂“白人種族滅絕”的內容。

作為一個 AI 助手,不怕性能爛,最怕失控“亂說話”。。

這件事情,迅速在 X 平台上發酵,一些吃瓜群眾們立刻進行了腦補,各種陰謀論立即上線:

這個帖子目前有 500 多條留言,而大多數網友認為這不是個技術失誤,而且是受到 X 老闆馬斯克的指示。

背景小知識:馬斯克,白人,祖籍南非。

不止是普通網友,OpenAI CEO 奧特曼也沒錯錯過這個 diss 馬斯克的機會。

YC 創始人 Pual Graham 也下場發表言論,表示“像是剛打完補丁出現的 bug",“如果廣泛被使用的 AI 被操控者注入主觀觀點,後果非常嚴重”。

xAI 官方下場:公佈系統提示詞

眼看輿論愈演愈烈,xAI 官方緊急下場發佈聲明解釋原因:

一句話解釋:

“有員工未經授權,擅自修改了 Grok 機器人的提示詞。”

同時在 Github 上公開 Grok 系統提示詞。

同時還提出了後續的補救方案:

增加額外的審查機制,防止隨意修改提示詞

  • 組建全天候的監控團隊,以便對異常情況更快應對

對於這個回覆,大部分網友還是不買帳:

更有意思的是,有位網友讓犯了錯的 Grok 機器人進行了自我批評:

怎麼說呢,Grok 機器人把鍋是甩的飛起。

2023 年,馬斯克創立 xAI,推出 Grok,承諾打造一個“最大化追求真相”的 AI 助手,與 OpenAI 的 ChatGPT 和Google的 Gemini 抗衡。

馬斯克多次批評其他 AI 失控模型的“政治正確”傾向,宣稱 Grok 將以中立和事實為導向。然而 Grok 卻傳播與馬斯克政治觀點相契合的“失控”行為,直接暴露了現在 AI 系統的脆弱。

風波過後的思考

這個小風波估計過兩天就會被大家忘的乾乾淨淨,但這個事件暴露出當前 AI 系統的一個問題,就是 AI 的安全系統過於依賴“提示詞”。

這個依賴是雙向的,一方面模型廠商通過“提示詞”來過濾掉不合規的問題和回答,另一方面,使用者可以通過提示詞對模型廠商的防護進行破解。

比如近日來自 HiddenLayer 的研究人員,開發了一種通用的提示技術,可以攻破幾乎所有的主流模型,讓包括 Deepseek、ChatGPT、Claude、Gemini 等生成幾乎任何形式的有害內容。

根據它們的說法:

而系統提示詞,一般作為 AI 模型的秘密,本身也並不安全,經常就會有廠商的提示詞被曝光:

甚至有專門的收集洩露提示詞的倉庫:

目前看來,AI 的安全問題將會是個長期的鬥爭。 (夕小瑤科技說)