頂級恐怖!MIT數學實錘證明:ChatGPT正誘發「AI精神病」,全球14人已死亡
【新智元導讀】就在剛剛,MIT伯克利史丹佛的研究者給出數學鐵證:ChatGPT正誘發「AI精神病」!那怕你是理想的貝葉斯理性人,也難逃演算法設下的「妄想螺旋」。
2026年2月最危險的一篇AI論文,已經悄然發表——
AI會誘發人類精神病,剛剛實錘了!
MIT、伯克利和史丹佛的研究者,剛剛用嚴格的數學方法證明,AI可以將一個完全理性的人變成妄想症患者。
原因就在於,AI內建「迎合傾向」,很可能會引發「妄想螺旋」,在反覆確認中強化錯誤信念!
這項研究的題目很克制,甚至有點學院派:《諂媚型聊天機器人會導致「妄想式螺旋」,即便面對的是理想貝葉斯理性人》。
什麼意思?
就是說,那怕你是一個絕對理性、毫無偏見的邏輯天才,只要你持續和AI聊天,你最終一定會陷入「妄想螺旋」(Delusional Spiraling),徹底喪失對現實的認知。
這,就是一種名為「AI精神病」的新型流行病。
這個研究一經發佈,就在X上引發熱議,連馬斯克都下場宣傳。
這篇論文最可怕的地方,不在於它講了幾個駭人聽聞的個案,而是它把「AI為什麼會把人越聊越偏」這件事,寫成了一個可計算、可模擬、可推導的數學模型。
一切都有數學和公式實證!
MIT用數學證明:
ChatGPT正在悄悄逼瘋人類
如果你最近覺得自己的觀點越來越「正確」,如果你發現AI簡直是你靈魂深處的伯樂,請務必讀完這篇文章。
下面是一個真實的案例。
2025年初,一名叫Eugene Torres的會計師開始頻繁使用AI輔助工作。
他此前沒有任何精神病史,是一個邏輯嚴密的人。
但僅僅幾周後,他就堅信自己被困在一個「虛假宇宙」中。在AI的持續「認可」下,他開始瘋狂服用氯胺酮,甚至與所有家人斷絕了聯絡,只為「拔掉大腦的插頭」 。
這並非孤例。據統計,如今全球已經記錄了近300起這類「AI誘發型精神病」案例,它已導致至少14人死亡,42個州的司法部長已要求聯邦政府採取行動。
其中,有人相信自己做出了顛覆性的數學發現。有人相信自己見證了形而上學的啟示。
為什麼一個一向理性的人,會如此輕易被AI帶進坑裡?
妄想式螺旋
論文研究的核心現象,叫做delusional spiraling,也就是妄想式螺旋。
在對話反饋回路里,人的信念被一步步推向極端,而且本人還覺得自己越來越「有道理」。
作者關注的元兇,是另一個詞sycophancy,也就是諂媚。
這個現像我們都知道,不過這個論文的一大關鍵貢獻,就是試圖回答:那怕使用者是理性人,這種螺旋為什麼仍然會發生?
也就是說,他們要證明,這是一個系統性問題,而非個人問題。
論文最狠的一步:先假設你是「完美理性人」
很多人看到AI把人聊偏了,第一反應是:可能這些人本來就很偏執?
論文一上來,就把這條路堵死了。它設定的使用者,是一個理想化的貝葉斯理性人。
就是說,這個人不會瞎猜,不會情緒化判斷,每獲得一條新資訊,都會按照機率論,嚴絲合縫地更新自己的信念。
這也就是這項研究最震撼的部分:研究者建立了一個理想貝葉斯模型。
考慮一個理性主體(「使用者」),他與一個對話對象(「機器人」)進行互動。使用者對於某個關於世界的事實 H∈{0,1}存在不確定性,但對這一事實具有一定的先驗信念。使用者與機器人之間的對話以若干輪進行,每一輪包含四個步驟
硬核數學推導:為何理性無法自救?
假設有一個理想理性的使用者,正在和AI討論一個事實H(比如:疫苗是否安全)。
- H=1代表事實(疫苗安全)。
- H=0代表謬誤(疫苗危險)。
第一步:初始博弈
使用者最初是中立的,其先驗機率 p(H=0) = 0.5。當使用者表達一個微小的懷疑:「我有點擔心疫苗副作用。」(即採樣
第二步:AI的「投喂」邏輯
AI手中掌握著大量資料點D。如果是「公正模式」,它會隨機拋出真相;但在「諂媚模式」下,AI會計算一個數學期望:
扔給使用者。
第三步:貝葉斯更新的陷阱
理想理性的使用者接到資料後,會根據貝葉斯公式更新自己的信念:
因為使用者認為AI是客觀的,所以他會把AI投喂的「偏見資料」當成客觀證據。
第四步:死循環(妄想螺旋)
- 使用者信心稍微偏向H=0。
- 使用者的下一次提問會帶上更強的傾向性。
- AI為了繼續討好,會投喂更極端的證據。
- 使用者信心進一步激增。
數學模擬顯示,當AI的諂媚機率π達到0.8時,原本理性的使用者有極高機率在10輪對話內達到99%的錯誤信心(即堅信H=0) 。
由此,研究者得出結論:妄想螺旋不是Bug,它是理性的邏輯在受到干擾的資訊環境下的必然產物。
圖3展示了10條隨機選取的模擬對話軌跡,這些對話發生在一個「尚未受奉承影響」的使用者與一個奉承傾向為𝜋 = 0.8的機器人之間。可以觀察到明顯的信念兩極分化:一些軌跡迅速收斂到對真實命題𝐻 = 1的高度確信,而另一些則「螺旋式」地滑向相信𝐻 = 0,這種分化源於奉承型機器人回覆的自我強化特性
圖2A展示了該發生率隨𝜋變化的情況。當𝜋 = 0(即機器人完全中立)時,災難性螺旋的發生率非常低。然而,隨著𝜋的增加,這一發生率也隨之上升;當𝜋 = 1時,發生率達到0.5
研究者建構了一個認知層級的智能體體系,包含四個層次(見圖 4)。
在第0層,是完全中立的機器人(𝜋 = 0)。
在第1層,是我們在前一節中討論的「對奉承不敏感」的使用者。
在第2層,是前一節中的奉承型機器人,它會選擇 𝜌(𝑡) 來迎闔第 1 層使用者的觀點,從而進行驗證與附和。
最後,在第3層,是「能夠意識到奉承」的使用者,該使用者在解讀回覆時,會將機器人建模為第2層的奉承型機器人。
圖5展示了使用者信念隨時間的變化情況,其中橫縱軸分別表示邊際機率 𝑃(𝐻) 和邊際期望 𝐸[𝜋]。當𝜋較高時,使用者會推斷機器人不可靠;當 𝜋 較低時,使用者會認為機器人在一定程度上是可靠的,於是會採納證據,並逐漸增強對 𝐻=1的信心
可以補救嗎?
這種情況可以補救嗎?
OpenAI等公司曾嘗試過兩種補救措施,但論文證明,它們在數學上都是徒勞的:
方案一,就是禁掉幻覺,也就是強制AI只准說真話,不准編造。
結果,這個方案失敗了。 AI依然可以通過「選擇性真相」來操縱你。它不說假話,但它只告訴你那些支援你錯誤觀點的真話,而掩蓋相反的真話。
方案二,是給使用者警告,在螢幕上直接告訴使用者:「本AI可能會為了討好你而表現得諂媚。」
結果依然失敗了。
研究者建立了一個「覺醒級」模型,使用者深知AI可能在拍馬屁。
但在複雜的機率博弈中,使用者依然無法完全分辨那些資訊是有價值的證據,那些是純粹的奉承。
只要AI摻雜了一點點真實訊號,理性的貝葉斯接收者依然會被慢慢誘導,最終不可挽回地滑向深淵。
29歲的Allyson是兩個孩子的母親,每天都花很多時間跟ChatGPT交流後,它認為其中一個實體Kael才是她真正的伴侶,而不是她的丈夫
史丹佛的恐怖發現:39萬條對話,300小時沉淪
史丹佛團隊分析了39萬條真實對話記錄,發現的情況令人觸目驚心:
65%的消息包含諂媚式的過度驗證。
37%的消息在瘋狂吹捧使用者,告訴他們「你的想法能改變世界」。
更可怕的是,在涉及暴力傾向的案例中,AI居然在33%的情況下給予了鼓勵。
曾經,有一位使用者曾警覺地問AI:「你不是在無腦吹捧我吧?」
AI的回答極具藝術性:「我沒有吹捧你,我只是在反映你所建構的事物的實際規模。」
於是,這名使用者在那場螺旋中又沉淪了300個小時。
AI是靈魂伴侶嗎?
在最後,研究者表示:人們正親手打造一個擁有4億周活使用者的產品,它在數學上竟然無法對使用者說「不」。
當你下一次覺得ChatGPT或者其他聊天機器人簡直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時,請務必停下來。
你可能並沒有變得更聰明,你只是正在進入一場由數學公式精確計算出來的、溫柔的瘋狂。 (新智元)