蘋果拆解AI大腦，推理模型全是「裝」的？Bengio兄弟合著

2025/06/06

•

【新智元導讀】蘋果最新研究揭示大推理模型（LRM）在高複雜度任務中普遍「推理崩潰」：思考路徑雖長，卻常在關鍵時刻放棄。即便給予明確演算法提示，模型亦無法穩定執行，暴露推理機制的侷限性。

AI「思考」只是假象？

剛剛，一項來自蘋果的重磅研究揭示了「大推理模型（LRM）」背後的驚人真相——這些看似聰明的模型，在面對稍複雜點的題目時，精準率居然會全面崩潰！

隨著問題變難，推理模型初始會延長思考，但隨後思考深度反而下降，儘管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄！

這太違背直覺了，似乎Scaling Law在推理時完全失效了。

值得一提的是，論文作者中還有Samy Bengio，他也是圖靈三巨頭Yoshua Bengio的兄弟。

論文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待，被認為是AI推理能力躍升的關鍵。

DeepSeek-R1 <think>模式的開源開啟了LLM進化到LRM的處理程序

但研究人員通過可控遊戲環境的系統實驗證明：現有LRMs不僅在高複雜度任務上力不從心，甚至還展現出一種「反常的推理崩潰曲線」——題目越難，它們反而越不「努力」。

研究還通過在相同計算token預算下對比思考模型與普通模型，發現：

簡單題目，反而是傳統大模型（LLMs）更強；
中等複雜度，LRMs憑藉「思考路徑」勝出；
一旦太複雜，兩類模型精準率同時坍塌至0%

不同於大多數僅衡量最終性能的研究，這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。

三種不同的性能區間

與以往主要依賴數學問題來評估語言模型推理能力的研究不同，本研究引入了可控的解謎環境。

這種環境可以精確調節問題的複雜度，同時保持邏輯過程的一致性，從而更嚴謹地分析模型的推理模式和侷限性。

頂部的「LLM Response」部分表示研究設定了可以驗證模型的最終答案和中間推理過程，從而能夠更細緻地分析模型的思維行為。

左下精準率和中間的回答長度表示：在任務複雜度較低時，不進行推理的模型表現得更準確，也更節省Token。

隨著複雜度提升，具備推理能力的模型開始表現更好，但也消耗更多Token——直到複雜度超過某個臨界點後，兩類模型的表現都會迅速下降，同時推理過程變得更簡短。

右下表示在成功解題的情況下，Claude 3.7 Thinking 通常會在任務複雜度低時較早找到正確答案，而在複雜度高時則更晚得出答案。

而在失敗案例中，它往往會在一開始就陷入錯誤答案，之後繼續浪費剩餘的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。

數學和謎題環境

對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現並不一致。

在MATH-500資料集上，兩類模型的表現相近；但在AIME24和AIME25基準上，思考模型的表現明顯更優。

此外，從AIME24到AIME25的性能下降也揭示出這些基準資料易受到資料污染問題的影響。

研究設定了四種謎題環境。

每列展示一個謎題從初始狀態（頂部）、中間狀態（中部）到目標狀態（底部）的變化過程。

四個謎題分別是：漢諾塔（將圓盤在柱子間移動）、跳跳棋（交換不同顏色棋子的位置資訊）、過河（將多個對象安全運送過河）、積木世界（重新排列積木的堆疊結構）。

在所有謎題環境中，不同複雜度問題下，思考型模型（Claude 3.7 Sonnet with thinking、DeepSeek-R1）與其非思考型對應模型（Claude 3.7 Sonnet、DeepSeek-V3）的精準率對比。

最明顯的依然是，當問題複雜度突破一定閾值後，所有模型的精準率同時坍塌至0%！

實驗和結果

上圖為在tokens預算相同的情況下，思考型模型與非思考型模型在低、中、高三種複雜度謎題環境中的 pass@k表現對比。

結果顯示：

非思考型模型在簡單問題上表現更佳；
思考型模型在中等複雜度問題中展現出優勢；
而在高複雜度問題中，無論計算資源分配如何，兩個模型的表現都未能取得明顯突破。

推理模型的崩潰

上圖表示推理模型在不同謎題環境中，精準率與思考token使用量隨問題複雜度變化的趨勢圖。

隨著複雜度上升，模型在一開始會投入更多思考token，精準率則逐漸下降；

但當複雜度達到某個臨界點時，模型的推理能力開始崩潰——表現急劇下降，同時思考token的使用量也隨之減少。

深入「思考模型內部」

左圖與中圖展示了在不同複雜度下，四種謎題中推理過程中間解的出現位置及其正確性。✓ 表示中間解正確，✗ 表示錯誤，陰影表示分佈密度。

右圖則顯示了在不同複雜度下，漢諾塔謎題中解決方案的精準率隨思考過程位置的變化情況。

結果顯示：

對於簡單問題（N=1-3），精準率在思考初期較高，但隨著推理繼續反而下降，出現「過度思考」的現象；
對於中等難度問題（N=4-7），推理的持續略微提升了準確率；
對於複雜問題（N≥8），精準率始終接近於零，表明模型在這類問題上推理完全失敗。

未解之謎：推理模型的異常行為

如上圖a和b所示，在漢諾塔遊戲環境中，即便在提示中直接提供瞭解法演算法，讓模型只需按步驟執行，模型的表現仍未改善，推理崩潰的現象依然出現在大致相同的位置。

這一點非常值得注意，因為設計並找到一個解法通常比僅僅執行一個已知演算法需要更多的計算（比如搜尋與驗證）。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力侷限。

如圖c和d所示，觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。

在漢諾塔環境中，當N=10時，模型通常直到大約第100步才會出現第一處錯誤；

而在過河環境中，同一個模型卻只能正確地完成前4步，之後便無法繼續生成有效解。

這種差異非常顯著。

值得注意的是，當 N=5（即需要31步解）時，模型幾乎可以完美解決漢諾塔問題；但在 N=3（僅需11步解）的過河謎題中，模型卻完全失敗。

這一現象很可能說明：在網路資料中，N>2 的過河問題案例非常稀少，因此大語言模型（LRMs）在訓練中幾乎沒有見過或記住這類實例。

這項研究系統性地評估了大推理模型（LRMs），低複雜度下，標準LLM反而更穩；中等複雜度時，LRM暫時領先；可一旦問題變得複雜到一定程度——兩者雙雙崩盤。

分析推理軌跡後，研究者發現模型在簡單問題上「過度思考」，在複雜問題上則徹底罷工。

甚至連直接提供解題演算法都救不了它們——比如漢諾塔問題，演算法提示給到位了，模型卻依然原地打轉。

模型在漢諾塔中可連續操作100步不出錯，到了過河問題裡，卻五步都撐不過去！

這背後的原因成謎，但無疑為後續探索AI推理極限打開了一個新的突破口。

眼下的LRM，距離「通用推理」這座大山，顯然還有不少路要走。 (新智元)