蘋果一紙論文“打臉”整個AI圈：你們的推理AI都是假的？

2025/06/11

•

2025年6月7日，距離蘋果WWDC僅僅兩天，一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網：《思考的幻覺：通過問題複雜度視角理解推理模型的優勢與侷限》。

這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭，結果蘋果反其道而行之，直接質疑整個"推理AI"的根基。

有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩，也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。

一、社交媒體的"恐慌"：AI圈為何如此震動？

蘋果這篇論文在社交媒體上引發熱論，在Twitter上，一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派：

悲觀派："這篇論文證明了這些模型本質上只是機率錄音機，而不是真正的思考機器。"

技術派：認為模型的失敗源於輸出token限制，而非推理能力缺陷。

方法論質疑派：指出蘋果用解答長度作為難度指標存在問題，可能誤導了結論。

專家圈也出現分化，著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊"，他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。

二、巧妙的實驗設計：四個遊戲戳破“神話”

蘋果研究團隊摒棄了傳統的數學和編碼基準測試，轉而設計了一套基於經典謎題的測試環境：

為什麼選擇謎題而非傳統基準？

傳統AI基準測試存在嚴重問題：

- 資料污染：模型可能在訓練時見過類似題目

- 難度不可控：無法精確調節問題複雜度

- 評估單一：只看最終答案，忽略推理過程

蘋果選擇的四個謎題各有深意：

- 河內塔：通過增加圓盤數量可以精確控制難度，最少步數為2^N-1步，是測試遞迴推理的經典問題。

- 跳棋交換：線上性棋盤上通過滑動和跳躍來交換棋子位置，測試序列規劃能力。

- 過河問題：多個角色需要在安全約束下通過小船渡河，考驗約束條件下的邏輯推理。

- 積木世界：重新排列堆疊積木以達到目標配置，評估空間推理能力。

三、令人震驚的三段式崩潰模式

實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現：

第一階段：低複雜度的"過度思考"陷阱

在簡單問題上，推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是：模型常常先找到正確答案，然後繼續"深度思考"，最終推翻了正確答案。

這就像一個學生做1+1=2的題目，先得出正確答案，然後"越想越複雜"把答案改錯了。

第二階段：中等複雜度的短暫輝煌

在中等複雜度問題上，推理模型確實展現出優勢，精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。

第三階段：高複雜度的集體投降

最令人震驚的發現是：當問題複雜度超過某個閾值時，所有模型的精準率都歸零。

更反直覺的是，隨著問題變難，這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄，連嘗試都不願意。以河內塔為例：

3-5個圓盤：推理模型表現良好
8個圓盤：精準率急劇下降
15個圓盤以上：精準率歸零，模型"懶得思考"

最致命的發現：演算法執行的徹底失敗

研究中最顛覆認知的發現是：即使給模型提供了完整的解題演算法，它們仍然無法正確執行。

研究團隊在提示詞中詳細描述了河內塔的遞迴解法，但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做"，而在於"無法可靠地執行已知步驟"。

這個發現徹底打破了一個普遍假設：給AI足夠清晰的指令，它就能正確執行。現實是，當任務足夠複雜時，即使有了"標準答案"，AI仍然會失敗。

資料說話：GSM-Symbolic的驚人發現

蘋果在論文中還引用了另一項重要研究GSM-Symbolic，進一步證實了推理模型的侷限性：

來自5,000道數學題的測試資料顯示，每當在題目中加入"無關資訊"時，模型的表現就會顯著下降。Google的T5-v4模型，精準率從95%暴跌至63.1%，OpenAI推理模型o1-preview從96%下降到77.4%，小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。

四、深層反思：什麼才是真正的AI推理？

蘋果的研究引發了一個根本性問題：什麼才算真正的推理？

模式匹配vs 符號推理

傳統電腦科學認為，真正的推理需要：

符號操作能力：能夠處理抽象符號和規則
邏輯規則執行：嚴格按照邏輯步驟進行推導
系統性泛化：能夠將學到的規則應用到新場景
可驗證性：推理過程可以被檢驗和驗證

而大語言模型本質上是統計系統：

通過大量文字學習模式
生成機率上合理的輸出
缺乏顯式的邏輯操作機制
難以保證推理的一致性

"思維鏈"的真面目

蘋果的研究揭示，所謂的"思維鏈"可能只是：

更複雜的模式匹配：學會了"看起來像在思考"的表達方式

序列生成最佳化：通過更長的輸出序列提高某些任務的精準率
偽推理過程：沒有真正的邏輯執行，只是統計關聯

一位評論者說："這些模型更像是'機率錄音機'而不是思考機器。"

五、業界的激烈反應：分化與思考

支持者的聲音

紐約大學教授Gary Marcus直言這是對LLM的"致命一擊"，認為"蘋果論文最根本地顯示，無論你如何定義AGI，LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限，還沒有擺脫幻覺，“如同賽車卡在一檔，加速度嚇人，但爬山能力為零”。

質疑者的反駁

也有研究者提出不同觀點：

1. 人類基準缺失：論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。

2. 任務代表性問題：這些謎題可能並不代表真實世界的推理需求。

3. 評估方法侷限：僅以最終答案正確性評判可能忽略了推理過程中的有效思考。

六、WWDC 2025的現實回應：實用AI vs 推理AI

有分析師認為，蘋果發佈這篇論文是別有用心，試圖先通過研究降低外界對AI推理能力的期望，再在WWDC上推出務實可靠的AI功能，既避免陷入"推理AI"的炒作陷阱，又能凸顯Apple一直專注於真正有用的AI應用。

事實證明，這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學。

6月9日的WWDC 2025上，蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時，蘋果選擇了一條截然不同的道路。

蘋果的"液態玻璃"設計哲學

蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣：

透明可見：使用者知道AI在做什麼
流暢自然：無縫融入日常使用
適應環境：根據場景調整功能
美觀實用：形式服務於功能

實用AI功能的務實推進

蘋果在WWDC 2025上發佈的AI功能都極其務實：

即時翻譯：在電話通話、FaceTime等場景下的即時語言翻譯
Visual Intelligence升級：使用者可以搜尋螢幕截圖中的任何內容
智能快捷指令：AI驅動的自動化操作，但專注於具體任務
語音郵件摘要：基於Apple Intelligence的實用功能

開放基礎模型，而非推理模型

最重要的是，蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架，而不是推理模型。

這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說："蘋果在這次WWDC上的發佈更側重於漸進式的改進，比如通話即時翻譯等能改善日常生活的功能，而非像競爭對手那樣宣傳宏大的AI願景。

結語：從幻覺到現實

蘋果的《思考的幻覺》不是要否定AI的價值，而更像是“AI現實主義”，提醒保持理性。在這個AI炒作甚囂塵上時，承認侷限，務實前行。或許需要考慮重新校準期望值，不要高估當前AI的推理能力，避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露，需要開發更嚴格的評估框架。對於AI產品設計而言，則要考慮簡單任務，標準LLM可能更高效；中等複雜度任務，推理模型有明顯優勢；而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力"，不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識，而不是對概念的無限吹捧。 (JER學家)