#LRM
大模型知道自己在瞎說,但是無法停下來!華人團隊研究發現:2000token以後,大模型就開始表演“詞語沙拉”,純浪費錢
推理型大語言模型(LRM),像ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型,能生成長篇、結構化的推理文字來說明自己的思考過程,比傳統LLM的推理能力更強,這已經不是什麼稀奇事了。但一項來自明尼蘇達大學、萊斯大學、史蒂文斯理工學院和Lambda Inc 的華人團隊最新研究指出,LRM在執行推理任務時,會“陷入語言循環”,生成大量無意義的廢話,並且迅速燒掉你的token。研究者為此取了一個很生動的名字,「字沙拉」(Word Salad)。顧名思義:模型把詞語像生菜一樣不斷攪拌、重複、堆疊,看起來很豐盛,其實沒什麼營養。而更震撼的發現是,模型也會意識到自己在瞎說,但仍無法控制自己停下來。推理模型的隱形漏洞:字詞沙拉研究團隊指出,LRM的「思維鏈」推理的代價極高。每一步內部產生的文字都要再次解碼、儲存、預測,計算開銷遠超一般對話模型。而且,模型並非總是「思考」──很多時候,它只是在不停地說廢話。「我們觀察到,LRM 在生成長鏈推理時,會出現一種『幻覺式贅述』現象:重複先前的句子結構、列舉無關情況、或在解釋中兜圈子。它們在形式上表現為推理,但在語義上是空洞的。”過去的研究(如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》)指出,大模型在CoT 推理中容易出現「過度思考」現象:即輸出大量重複、鬆散的解釋句式,以掩蓋其邏輯不確定性。而研究團隊在分析DeepSeek-R1-Distill 系列模型時發現,在 GPQA-Diamond 資料集任務中:平均超過 55% 的生成token 屬於「詞語沙拉」,即語義重複、無增量價值的內容。這意味著,使用者在每次推理通話中,有一半的費用都被浪費在模型的「語言循環」上。更關鍵的是,研究者發現這種行為並非偶然隨機,而是可預測的模式:在模型陷入循環前後,隱藏狀態的分佈發生明顯變化;某些token(特別是\n\n)後面的狀態訊號能精準預示模型是否「失控」;模型在內部表現出一種「覺察到自己在重複」的信號。AI的「去水」神器:WordSaladChopper為瞭解決這個問題,研究者的想法非常簡單粗暴:如果模型在內部“知道自己在胡說八道”,那麼我們就可以直接監聽它的隱藏層信號,在它開始胡說時立刻把它打斷。他們提出了一個框架,叫做WordSaladChopper(詞語沙拉切斷器) 。它的原理非常直接:1️⃣ 在模型生成推理時,監控每個段落(以雙分行符號分割);2️⃣ 如果連續兩段的隱藏狀態顯示“循環模式”,3️⃣ 系統立刻切斷生成,並自動補上提示讓模型“從這裡重新回答”。目前在github上已經開源:https://github.com/wenyaxie023/WordSaladChopper實驗全部在單一NVIDIA H100 GPU 上進行。研究者主要在 o1-mini 模型(OpenAI 推理型模型) 上運行實驗,並將結果與 GPT-4o-mini 以及 Claude 3.5-sonnet 進行對比,以驗證問題的普遍性。所有測試均使用 S1 benchmark(由OpenAI 發布的reasoning-focused 評測集),該資料集包含大量需要多步驟推理、算術運算或邏輯歸納的題目。對於每個模型,研究者共產生 1000 條推理軌跡(reasoning traces),每條軌跡約1000–3000 token。當訓練用於檢測「詞語沙拉」的分類器時,他們將軌跡按雙分行符號劃分為片段(chunk),每個chunk 的最後一個token 的隱藏狀態作為輸入特徵。訓練目標是預測每個chunk 是否屬於「詞語沙拉」循環。為評估方法效果,研究者使用以下指標:Precision(精確率):被判定為「詞語沙拉」的片段中,實際為「詞語沙拉」的比例。Recall(召回率):所有真實「詞語沙拉」片段中,正確檢測到的比例。F1 分數:精確率與召回率的調和平均值。Token budget waste(Token 消耗浪費):重複循環所佔的輸出token 比例。此外,他們還關注了兩個定性指標:模型在陷入循環後仍嘗試「自我修正」;在檢測到循環後手動終止生成並重新提示時,模型能否成功繼續回答。結果發現:1. 詞語沙拉的廣泛存在性「詞語沙拉循環」不僅存在於o1-mini,也普遍出現在其他推理型模型中。Claude 3.5、GPT-4o-mini 在長推理任務中,都出現了明顯的自我重複現象。特別在數學推理 與多步驟邏輯任務中,模型常在2000–4000 token 之後陷入無意義的長段自我解釋、重述、或對「自身思路」的重複反芻。“在1000 條推理軌跡中,約有61% 的軌跡出現過至少一次詞語沙拉循環,平均浪費了23% 的解碼預算。”2. 分類器檢測效果線性分類器在僅使用隱藏狀態(無需額外輸入或模型修改)的情況下,就能以較高精度檢測出這些重複片段:研究者分析了模型的隱藏狀態,發現當模型陷入「詞語沙拉循環」時,內部啟動訊號會出現非常明顯的模式變化。這也是論文最震撼的發現,不是模型囉嗦——而是它「知道自己在囉嗦」。模型的神經層在「語義混亂」時,會呈現特徵性波動。換句話說,AI 自己知道自己開始胡說八道了。只不過,它停不下來。就像一個講不出重點的發言人,只能不停補充、重複、重述,以維持表面的「邏輯連貫」。3. 干預後的改進在檢測器即時存取後,當系統監測到連續兩個片段被判定為「詞語沙拉」時,就會終止產生並行出固定再產生提示。結果顯示:在不訓練模型本身的情況下,最多可縮短57%的輸出對整體正確率的影響可以忽略推理延遲顯著降低為什麼推理模型特別容易陷入“詞語沙拉”作者提出了三種主要原因:長上下文視窗模型能「記住」自己說過的廢話,從而把它再度引用、重組,形成自我循環。高一致性偏好推理型模型被訓練成要維持語言流暢、思維連貫,即使已經偏題,也會強行「接著講完」。缺乏顯式終止條件當前推理架構沒有「我想不出來了」的機制,因此在邏輯死胡同時,只能繼續生成表面合理的文字。這三點共同導致模型在推理任務中,更容易「過度思考」,甚至產生語言幻覺。“AI的幻覺”,其實也是算力幻覺這篇論文還有另一個隱含觀點:我們一直以為模型的「幻覺(hallucination)」是事實錯誤,但它也可能是算力層面的幻覺——模型把計算資源浪費在無意義的循環上,卻仍然「自信滿滿」。研究者批評了目前業界和學界用於評估推理模型效能的標準(如GSM8K、MATH、GPQA 等)本身存在缺陷。這些benchmark 關注模型是否“答對”,但很少衡量模型是否有效率、是否在浪費預算。“我們認為,許多所謂的'高效推理方法'之所以看起來有效,部分原因是評估基準本身過於寬鬆。一旦未來出現更全面的評測體系,許多被吹捧的高效推理方法可能會徹底失效,或表現與原生模型完全不同。”這其實也是對整個「CoT(思維鏈)熱潮」的一次隱性反思:當前模型的“推理能力”,有相當部分只是看起來在思考,而不是真正地在推理。那麼,評論區的各位大佬們:當你用AI 時,你有沒有遇到它「越解釋越離譜」的情況?如果AI 能自己檢測到在胡說八道,並停下來,你會更信任它嗎? (51CTO技術堆疊)
蘋果拆解AI大腦,推理模型全是「裝」的?Bengio兄弟合著
【新智元導讀】蘋果最新研究揭示大推理模型(LRM)在高複雜度任務中普遍「推理崩潰」:思考路徑雖長,卻常在關鍵時刻放棄。即便給予明確演算法提示,模型亦無法穩定執行,暴露推理機制的侷限性。AI「思考」只是假象?剛剛,一項來自蘋果的重磅研究揭示了「大推理模型(LRM)」背後的驚人真相——這些看似聰明的模型,在面對稍複雜點的題目時,精準率居然會全面崩潰!隨著問題變難,推理模型初始會延長思考,但隨後思考深度反而下降,儘管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄!這太違背直覺了,似乎Scaling Law在推理時完全失效了。值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdfLRM模型因能「寫出思考過程」而備受期待,被認為是AI推理能力躍升的關鍵。DeepSeek-R1 <think>模式的開源開啟了LLM進化到LRM的處理程序但研究人員通過可控遊戲環境的系統實驗證明:現有LRMs不僅在高複雜度任務上力不從心,甚至還展現出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。研究還通過在相同計算token預算下對比思考模型與普通模型,發現:簡單題目,反而是傳統大模型(LLMs)更強;中等複雜度,LRMs憑藉「思考路徑」勝出;一旦太複雜,兩類模型精準率同時坍塌至0%不同於大多數僅衡量最終性能的研究,這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。三種不同的性能區間與以往主要依賴數學問題來評估語言模型推理能力的研究不同,本研究引入了可控的解謎環境。這種環境可以精確調節問題的複雜度,同時保持邏輯過程的一致性,從而更嚴謹地分析模型的推理模式和侷限性。頂部的「LLM Response」部分表示研究設定了可以驗證模型的最終答案和中間推理過程,從而能夠更細緻地分析模型的思維行為。左下精準率和中間的回答長度表示:在任務複雜度較低時,不進行推理的模型表現得更準確,也更節省Token。隨著複雜度提升,具備推理能力的模型開始表現更好,但也消耗更多Token——直到複雜度超過某個臨界點後,兩類模型的表現都會迅速下降,同時推理過程變得更簡短。右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會在任務複雜度低時較早找到正確答案,而在複雜度高時則更晚得出答案。而在失敗案例中,它往往會在一開始就陷入錯誤答案,之後繼續浪費剩餘的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。數學和謎題環境對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現並不一致。在MATH-500資料集上,兩類模型的表現相近;但在AIME24和AIME25基準上,思考模型的表現明顯更優。此外,從AIME24到AIME25的性能下降也揭示出這些基準資料易受到資料污染問題的影響。研究設定了四種謎題環境。每列展示一個謎題從初始狀態(頂部)、中間狀態(中部)到目標狀態(底部)的變化過程。四個謎題分別是:漢諾塔(將圓盤在柱子間移動)、跳跳棋(交換不同顏色棋子的位置資訊)、過河(將多個對象安全運送過河)、積木世界(重新排列積木的堆疊結構)。在所有謎題環境中,不同複雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對應模型(Claude 3.7 Sonnet、DeepSeek-V3)的精準率對比。最明顯的依然是,當問題複雜度突破一定閾值後,所有模型的精準率同時坍塌至0%!實驗和結果上圖為在tokens預算相同的情況下,思考型模型與非思考型模型在低、中、高三種複雜度謎題環境中的 pass@k表現對比。結果顯示:非思考型模型在簡單問題上表現更佳;思考型模型在中等複雜度問題中展現出優勢;而在高複雜度問題中,無論計算資源分配如何,兩個模型的表現都未能取得明顯突破。推理模型的崩潰上圖表示推理模型在不同謎題環境中,精準率與思考token使用量隨問題複雜度變化的趨勢圖。隨著複雜度上升,模型在一開始會投入更多思考token,精準率則逐漸下降;但當複雜度達到某個臨界點時,模型的推理能力開始崩潰——表現急劇下降,同時思考token的使用量也隨之減少。深入「思考模型內部」左圖與中圖展示了在不同複雜度下,四種謎題中推理過程中間解的出現位置及其正確性。✓ 表示中間解正確,✗ 表示錯誤,陰影表示分佈密度。右圖則顯示了在不同複雜度下,漢諾塔謎題中解決方案的精準率隨思考過程位置的變化情況。結果顯示:對於簡單問題(N=1-3),精準率在思考初期較高,但隨著推理繼續反而下降,出現「過度思考」的現象;對於中等難度問題(N=4-7),推理的持續略微提升了準確率;對於複雜問題(N≥8),精準率始終接近於零,表明模型在這類問題上推理完全失敗。未解之謎:推理模型的異常行為如上圖a和b所示,在漢諾塔遊戲環境中,即便在提示中直接提供瞭解法演算法,讓模型只需按步驟執行,模型的表現仍未改善,推理崩潰的現象依然出現在大致相同的位置。這一點非常值得注意,因為設計並找到一個解法通常比僅僅執行一個已知演算法需要更多的計算(比如搜尋與驗證)。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力侷限。如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。在漢諾塔環境中,當N=10時,模型通常直到大約第100步才會出現第一處錯誤;而在過河環境中,同一個模型卻只能正確地完成前4步,之後便無法繼續生成有效解。這種差異非常顯著。值得注意的是,當 N=5(即需要31步解)時,模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。這一現象很可能說明:在網路資料中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓練中幾乎沒有見過或記住這類實例。這項研究系統性地評估了大推理模型(LRMs),低複雜度下,標準LLM反而更穩;中等複雜度時,LRM暫時領先;可一旦問題變得複雜到一定程度——兩者雙雙崩盤。分析推理軌跡後,研究者發現模型在簡單問題上「過度思考」,在複雜問題上則徹底罷工。甚至連直接提供解題演算法都救不了它們——比如漢諾塔問題,演算法提示給到位了,模型卻依然原地打轉。模型在漢諾塔中可連續操作100步不出錯,到了過河問題裡,卻五步都撐不過去!這背後的原因成謎,但無疑為後續探索AI推理極限打開了一個新的突破口。眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。 (新智元)