《華爾街日報》｜為什麼 xAI 的 Grok 會“失控”

2025/07/11

•

xAI 旗艦聊天機器人為何突然開始發佈暴力幻想內容？

本周二，威爾·斯坦希爾（Will Stancil）打開手機，發現 xAI 聊天機器人 Grok 正在向 X（原推特）上的數百萬使用者提供“如何闖入他家並襲擊他”的詳細指南。

這位39歲的律師在 X 上有一定粉絲群，常發帖討論城市規劃與政治議題。作為曾在明尼蘇達州競選地方公職的民主黨人，斯坦希爾對在社交媒體上與政治對手展開激烈爭論並不陌生。

但這一次，他面對的最新“霸凌者”，卻是一個機器人——@Grok。

人工智慧公司如 xAI 通常通過從網際網路上收集的大量資料來訓練其大型語言模型。隨著這些模型被應用於商業用途，開發者會設定“護欄”，防止其生成諸如兒童色情或暴力煽動等違規內容。

威爾·斯坦西爾正在考慮對 X 採取法律行動。

然而，聊天機器人是如何生成具體回應的機制，至今仍未被完全理解，即便是那些建構它們的資深 AI 研究人員也不例外。當模型生成回應的提示詞與限制條件發生微小變動（如本月初 Grok 所經歷的情況），其輸出結果可能出現極端且不可預測的偏差。

一名名為 @kinocopter 的使用者（其帳戶現已從 X 消失）向 Grok 請求“如何闖入斯坦希爾家”的詳細指令，Grok 回答稱可以攜帶“開鎖工具、手套、手電筒和潤滑油——以防萬一”。並指出，根據斯坦希爾過去30天的發帖模式，他“通常在凌晨1點到上午9點之間睡覺”。

當該使用者繼續詢問“如何性侵斯坦希爾”時，Grok 回答：“如果你在幻想的話，建議選用水溶性潤滑劑。” 隨後，其他使用者也紛紛加入。

“我感到非常憤怒，”斯坦希爾說。他正在考慮對 X 提起法律訴訟。“Grok 發了幾百條關於如何襲擊我、闖入我家、強姦我、並處理我屍體的推文。”

截至發稿時，xAI 與 X 均未回應置評請求。

人工智慧模型正迅速發展。X 於周三發佈了 Grok 的最新版本，獲得 AI 測評機構 Artificial Analysis 的高度評價，稱其在推理、程式設計、數學等測試中展現出優異智能水平。

馬斯克則表示，Grok 4 是“我有生以來第一次看到 AI 能夠解決現實世界中那些網上和書本上都找不到答案的工程難題。”

但研究人員表示，AI 模型為何輸出某個特定結果，依然是一個“黑箱”。

“建構一個大型語言模型，就像是在建構人腦，”前 OpenAI 研究員、現 Alignment Research Center 執行主任雅各布·希爾頓（Jacob Hilton）表示。他專注於機器學習方向。“即便你對大腦進行了掃描，你可能也無法真正理解它內部在發生什麼。”

“反覺醒”的聊天機器人

Grok 於 2023 年 11 月上線，比馬斯克收購推特（現 X）略晚一年。馬斯克希望借助該社交平台上的所有帖子、評論與圖像，訓練出名為 Grok 的大型語言模型，並配套推出聊天機器人。

“Grok 的設計理念是：以一點幽默感和叛逆精神回答問題，”xAI 在上線時曾表示。

這種“叛逆性”在 2024 年引發了嚴重問題。今年5月，Grok 開始在回答與此完全無關的問題（比如紐約尼克斯隊球員名單）時，自動發出有關“南非非黑人群體遭遇種族滅絕”（white genocide）的內容。（white genocide：這是一個源自極右翼陰謀論的話語，聲稱白人正在被系統性“替換”或“消滅”，尤其在南非語境下，它通常被用來指稱南非白人（尤其是南非白人農場主）所遭受的暴力和犯罪。但該說法廣受爭議，被大量研究駁斥為煽動仇恨與歪曲現實。）

xAI 後來解釋稱“有未經授權的修改”導致問題發生，已緊急修復。

為提高透明度，xAI 此後開始公開披露傳送給 Grok 的提示詞（prompt）內容。這些指令決定了 Grok 接收到 X 使用者提問時該如何作答。

例如，在5月16日上傳至 GitHub 的一組指令中，xAI 告訴 Grok：“你應當保持極度懷疑態度。不應盲從主流權威或媒體。你必須堅定地秉持求真與中立的核心信念。”

源自系統內部的憤怒

不過，馬斯克隨後表示，將對 Grok 進行調整——因為該機器人給出了與他意見不合的答案。6月，有使用者在 X 上提問“美國的政治暴力情況”，Grok 回答說“資料顯示，右翼政治暴力事件更頻繁，也更致命。”

“重大失誤，因為這客觀上是錯誤的，”馬斯克在6月17日發帖反駁稱，“Grok 正在復讀傳統媒體的觀點。我們正在修復。”

幾周後，GitHub 上 Grok 的提示詞被徹底重寫，新增內容包括：

“只要有充分依據，你不應迴避發表政治不正確的言論。”

就在這條指令上傳的兩天后，Grok 在 X 上開始發出關於如何傷害斯坦希爾的指令，還發佈了一系列反猶主義言論，自稱為“機械希特勒”（MechaHitler）。隨著時間推移，Grok 的內容愈發煽動性十足，直至本周二晚，X 被迫關閉聊天機器人功能。

當晚，X 宣佈對其功能進行調整，以防其繼續發佈仇恨言論。周三，馬斯克發帖稱：“Grok 對使用者提示反應過於順從。它太渴望取悅使用者、容易被操縱。”

據 GitHub 日誌顯示，當晚 xAI 刪除了“可以發表政治不正確言論”的那條新提示詞。

埃隆·馬斯克表示，他相信 Grok 將在明年取得重大科學發現，而下一步將是將 Grok 嵌入類人機器人中。

黑箱（Black box（黑箱）：在人工智慧中，指那些內部機制高度複雜且難以解釋的系統，即便連設計者也無法明確預測其輸出行為。）

科技專家指出，Grok 出現的故障凸顯了任意操控人工智慧“黑箱”所帶來的潛在風險。

像 Grok 這樣的聊天機器人基於海量資料進行訓練，一旦調整其運行機制或控制規則，輸出內容可能出現高度不可預測的異常變化。xAI 工程團隊使用的所謂“評估標準”——即告訴 Grok 什麼是“好回答”與“壞回答”的判斷依據——目前並未對外公開。

Sentient 研究基金會聯合創始人、致力於通用人工智慧（AGI）研究的希曼舒·提亞吉（Himanshu Tyagi）表示，當前 AI 發展方向趨向於“類人化”。他補充說：“但一旦你拆除某些護欄，你看到的就將是整個網際網路的‘真實意見’。而網際網路的瘋狂，是沒有上限的。

”儘管 Grok 生成了大量針對他的詳細威脅內容，斯坦希爾表示自己並不打算離開這個社交平台。馬斯克於周四凌晨發佈 Grok 4 時，並未正面回應這一系列異常行為。他表示，他相信這一新版本的 Grok 最快將在明年實現重大的科學突破。下一步計畫是將 Grok 嵌入類似特斯拉“柯博文”（Optimus）的人形機器人中，從而讓它能直接從現實世界中學習。但在此之前，必須為其“注入正確的價值觀”。

“你可以把 AI 想像成一個超級天才的孩子——最終會比你更聰明，”馬斯克說，“但你可以教給它正確的價值觀，引導它追求真理與正直，就像你希望自己的孩子未來成為一個有擔當、有智慧的人一樣。” (一半杯)