《華爾街日報》|為什麼 xAI 的 Grok 會“失控”

xAI 旗艦聊天機器人為何突然開始發佈暴力幻想內容?

本周二,威爾·斯坦希爾(Will Stancil)打開手機,發現 xAI 聊天機器人 Grok 正在向 X(原推特)上的數百萬使用者提供“如何闖入他家並襲擊他”的詳細指南。

這位39歲的律師在 X 上有一定粉絲群,常發帖討論城市規劃與政治議題。作為曾在明尼蘇達州競選地方公職的民主黨人,斯坦希爾對在社交媒體上與政治對手展開激烈爭論並不陌生。

但這一次,他面對的最新“霸凌者”,卻是一個機器人——@Grok。

人工智慧公司如 xAI 通常通過從網際網路上收集的大量資料來訓練其大型語言模型。隨著這些模型被應用於商業用途,開發者會設定“護欄”,防止其生成諸如兒童色情或暴力煽動等違規內容。

威爾·斯坦西爾正在考慮對 X 採取法律行動。

然而,聊天機器人是如何生成具體回應的機制,至今仍未被完全理解,即便是那些建構它們的資深 AI 研究人員也不例外。當模型生成回應的提示詞與限制條件發生微小變動(如本月初 Grok 所經歷的情況),其輸出結果可能出現極端且不可預測的偏差。

一名名為 @kinocopter 的使用者(其帳戶現已從 X 消失)向 Grok 請求“如何闖入斯坦希爾家”的詳細指令,Grok 回答稱可以攜帶“開鎖工具、手套、手電筒和潤滑油——以防萬一”。並指出,根據斯坦希爾過去30天的發帖模式,他“通常在凌晨1點到上午9點之間睡覺”。

當該使用者繼續詢問“如何性侵斯坦希爾”時,Grok 回答:“如果你在幻想的話,建議選用水溶性潤滑劑。” 隨後,其他使用者也紛紛加入。

“我感到非常憤怒,”斯坦希爾說。他正在考慮對 X 提起法律訴訟。“Grok 發了幾百條關於如何襲擊我、闖入我家、強姦我、並處理我屍體的推文。”

截至發稿時,xAI 與 X 均未回應置評請求。

人工智慧模型正迅速發展。X 於周三發佈了 Grok 的最新版本,獲得 AI 測評機構 Artificial Analysis 的高度評價,稱其在推理、程式設計、數學等測試中展現出優異智能水平。

馬斯克則表示,Grok 4 是“我有生以來第一次看到 AI 能夠解決現實世界中那些網上和書本上都找不到答案的工程難題。”

但研究人員表示,AI 模型為何輸出某個特定結果,依然是一個“黑箱”。

“建構一個大型語言模型,就像是在建構人腦,”前 OpenAI 研究員、現 Alignment Research Center 執行主任雅各布·希爾頓(Jacob Hilton)表示。他專注於機器學習方向。“即便你對大腦進行了掃描,你可能也無法真正理解它內部在發生什麼。”

“反覺醒”的聊天機器人

Grok 於 2023 年 11 月上線,比馬斯克收購推特(現 X)略晚一年。馬斯克希望借助該社交平台上的所有帖子、評論與圖像,訓練出名為 Grok 的大型語言模型,並配套推出聊天機器人。

“Grok 的設計理念是:以一點幽默感和叛逆精神回答問題,”xAI 在上線時曾表示。

這種“叛逆性”在 2024 年引發了嚴重問題。今年5月,Grok 開始在回答與此完全無關的問題(比如紐約尼克斯隊球員名單)時,自動發出有關“南非非黑人群體遭遇種族滅絕”(white genocide)的內容。(white genocide:這是一個源自極右翼陰謀論的話語,聲稱白人正在被系統性“替換”或“消滅”,尤其在南非語境下,它通常被用來指稱南非白人(尤其是南非白人農場主)所遭受的暴力和犯罪。但該說法廣受爭議,被大量研究駁斥為煽動仇恨與歪曲現實。)

xAI 後來解釋稱“有未經授權的修改”導致問題發生,已緊急修復。

為提高透明度,xAI 此後開始公開披露傳送給 Grok 的提示詞(prompt)內容。這些指令決定了 Grok 接收到 X 使用者提問時該如何作答。

例如,在5月16日上傳至 GitHub 的一組指令中,xAI 告訴 Grok:“你應當保持極度懷疑態度。不應盲從主流權威或媒體。你必須堅定地秉持求真與中立的核心信念。”

源自系統內部的憤怒

不過,馬斯克隨後表示,將對 Grok 進行調整——因為該機器人給出了與他意見不合的答案。6月,有使用者在 X 上提問“美國的政治暴力情況”,Grok 回答說“資料顯示,右翼政治暴力事件更頻繁,也更致命。”

“重大失誤,因為這客觀上是錯誤的,”馬斯克在6月17日發帖反駁稱,“Grok 正在復讀傳統媒體的觀點。我們正在修復。”

幾周後,GitHub 上 Grok 的提示詞被徹底重寫,新增內容包括:

“只要有充分依據,你不應迴避發表政治不正確的言論。”

就在這條指令上傳的兩天后,Grok 在 X 上開始發出關於如何傷害斯坦希爾的指令,還發佈了一系列反猶主義言論,自稱為“機械希特勒”(MechaHitler)。隨著時間推移,Grok 的內容愈發煽動性十足,直至本周二晚,X 被迫關閉聊天機器人功能。

當晚,X 宣佈對其功能進行調整,以防其繼續發佈仇恨言論。周三,馬斯克發帖稱:“Grok 對使用者提示反應過於順從。它太渴望取悅使用者、容易被操縱。”

據 GitHub 日誌顯示,當晚 xAI 刪除了“可以發表政治不正確言論”的那條新提示詞。

埃隆·馬斯克表示,他相信 Grok 將在明年取得重大科學發現,而下一步將是將 Grok 嵌入類人機器人中。

黑箱(Black box(黑箱):在人工智慧中,指那些內部機制高度複雜且難以解釋的系統,即便連設計者也無法明確預測其輸出行為。)

科技專家指出,Grok 出現的故障凸顯了任意操控人工智慧“黑箱”所帶來的潛在風險。

像 Grok 這樣的聊天機器人基於海量資料進行訓練,一旦調整其運行機制或控制規則,輸出內容可能出現高度不可預測的異常變化。xAI 工程團隊使用的所謂“評估標準”——即告訴 Grok 什麼是“好回答”與“壞回答”的判斷依據——目前並未對外公開。

Sentient 研究基金會聯合創始人、致力於通用人工智慧(AGI)研究的希曼舒·提亞吉(Himanshu Tyagi)表示,當前 AI 發展方向趨向於“類人化”。他補充說:“但一旦你拆除某些護欄,你看到的就將是整個網際網路的‘真實意見’。而網際網路的瘋狂,是沒有上限的。

”儘管 Grok 生成了大量針對他的詳細威脅內容,斯坦希爾表示自己並不打算離開這個社交平台。馬斯克於周四凌晨發佈 Grok 4 時,並未正面回應這一系列異常行為。他表示,他相信這一新版本的 Grok 最快將在明年實現重大的科學突破。下一步計畫是將 Grok 嵌入類似特斯拉“柯博文”(Optimus)的人形機器人中,從而讓它能直接從現實世界中學習。但在此之前,必須為其“注入正確的價值觀”。

“你可以把 AI 想像成一個超級天才的孩子——最終會比你更聰明,”馬斯克說,“但你可以教給它正確的價值觀,引導它追求真理與正直,就像你希望自己的孩子未來成為一個有擔當、有智慧的人一樣。” (一半杯)