推理型大語言模型(LRM),像ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型,能生成長篇、結構化的推理文字來說明自己的思考過程,比傳統LLM的推理能力更強,這已經不是什麼稀奇事了。
但一項來自明尼蘇達大學、萊斯大學、史蒂文斯理工學院和Lambda Inc 的華人團隊最新研究指出,LRM在執行推理任務時,會“陷入語言循環”,生成大量無意義的廢話,並且迅速燒掉你的token。
研究者為此取了一個很生動的名字,「字沙拉」(Word Salad)。顧名思義:模型把詞語像生菜一樣不斷攪拌、重複、堆疊,看起來很豐盛,其實沒什麼營養。
而更震撼的發現是,模型也會意識到自己在瞎說,但仍無法控制自己停下來。
研究團隊指出,LRM的「思維鏈」推理的代價極高。每一步內部產生的文字都要再次解碼、儲存、預測,計算開銷遠超一般對話模型。而且,模型並非總是「思考」──很多時候,它只是在不停地說廢話。
「我們觀察到,LRM 在生成長鏈推理時,會出現一種『幻覺式贅述』現象:重複先前的句子結構、列舉無關情況、或在解釋中兜圈子。它們在形式上表現為推理,但在語義上是空洞的。”
過去的研究(如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》)指出,大模型在CoT 推理中容易出現「過度思考」現象:即輸出大量重複、鬆散的解釋句式,以掩蓋其邏輯不確定性。
而研究團隊在分析DeepSeek-R1-Distill 系列模型時發現,在 GPQA-Diamond 資料集任務中:平均超過 55% 的生成token 屬於「詞語沙拉」,即語義重複、無增量價值的內容。
這意味著,使用者在每次推理通話中,有一半的費用都被浪費在模型的「語言循環」上。
更關鍵的是,研究者發現這種行為並非偶然隨機,而是可預測的模式:
為瞭解決這個問題,研究者的想法非常簡單粗暴:
如果模型在內部“知道自己在胡說八道”,那麼我們就可以直接監聽它的隱藏層信號,在它開始胡說時立刻把它打斷。
他們提出了一個框架,叫做WordSaladChopper(詞語沙拉切斷器) 。它的原理非常直接:1️⃣ 在模型生成推理時,監控每個段落(以雙分行符號分割);2️⃣ 如果連續兩段的隱藏狀態顯示“循環模式”,3️⃣ 系統立刻切斷生成,並自動補上提示讓模型“從這裡重新回答”。
目前在github上已經開源:
https://github.com/wenyaxie023/WordSaladChopper
實驗全部在單一NVIDIA H100 GPU 上進行。研究者主要在 o1-mini 模型(OpenAI 推理型模型) 上運行實驗,並將結果與 GPT-4o-mini 以及 Claude 3.5-sonnet 進行對比,以驗證問題的普遍性。
所有測試均使用 S1 benchmark(由OpenAI 發布的reasoning-focused 評測集),該資料集包含大量需要多步驟推理、算術運算或邏輯歸納的題目。對於每個模型,研究者共產生 1000 條推理軌跡(reasoning traces),每條軌跡約1000–3000 token。
當訓練用於檢測「詞語沙拉」的分類器時,他們將軌跡按雙分行符號劃分為片段(chunk),每個chunk 的最後一個token 的隱藏狀態作為輸入特徵。訓練目標是預測每個chunk 是否屬於「詞語沙拉」循環。
為評估方法效果,研究者使用以下指標:
此外,他們還關注了兩個定性指標:
結果發現:
「詞語沙拉循環」不僅存在於o1-mini,也普遍出現在其他推理型模型中。Claude 3.5、GPT-4o-mini 在長推理任務中,都出現了明顯的自我重複現象。
特別在數學推理 與多步驟邏輯任務中,模型常在2000–4000 token 之後陷入無意義的長段自我解釋、重述、或對「自身思路」的重複反芻。
“在1000 條推理軌跡中,約有61% 的軌跡出現過至少一次詞語沙拉循環,平均浪費了23% 的解碼預算。”
線性分類器在僅使用隱藏狀態(無需額外輸入或模型修改)的情況下,就能以較高精度檢測出這些重複片段:
研究者分析了模型的隱藏狀態,發現當模型陷入「詞語沙拉循環」時,內部啟動訊號會出現非常明顯的模式變化。
這也是論文最震撼的發現,不是模型囉嗦——而是它「知道自己在囉嗦」。
模型的神經層在「語義混亂」時,會呈現特徵性波動。換句話說,AI 自己知道自己開始胡說八道了。
只不過,它停不下來。就像一個講不出重點的發言人,只能不停補充、重複、重述,以維持表面的「邏輯連貫」。
在檢測器即時存取後,當系統監測到連續兩個片段被判定為「詞語沙拉」時,就會終止產生並行出固定再產生提示。結果顯示:
作者提出了三種主要原因:
這三點共同導致模型在推理任務中,更容易「過度思考」,甚至產生語言幻覺。
這篇論文還有另一個隱含觀點:
我們一直以為模型的「幻覺(hallucination)」是事實錯誤,但它也可能是算力層面的幻覺——模型把計算資源浪費在無意義的循環上,卻仍然「自信滿滿」。
研究者批評了目前業界和學界用於評估推理模型效能的標準(如GSM8K、MATH、GPQA 等)本身存在缺陷。這些benchmark 關注模型是否“答對”,但很少衡量模型是否有效率、是否在浪費預算。
“我們認為,許多所謂的'高效推理方法'之所以看起來有效,部分原因是評估基準本身過於寬鬆。一旦未來出現更全面的評測體系,許多被吹捧的高效推理方法可能會徹底失效,或表現與原生模型完全不同。”
這其實也是對整個「CoT(思維鏈)熱潮」的一次隱性反思:
當前模型的“推理能力”,有相當部分只是看起來在思考,而不是真正地在推理。
那麼,評論區的各位大佬們:
當你用AI 時,你有沒有遇到它「越解釋越離譜」的情況?如果AI 能自己檢測到在胡說八道,並停下來,你會更信任它嗎? (51CTO技術堆疊)