蘋果一紙論文“打臉”整個AI圈:你們的推理AI都是假的?

2025年6月7日,距離蘋果WWDC僅僅兩天,一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網:《思考的幻覺:通過問題複雜度視角理解推理模型的優勢與侷限》。

這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭,結果蘋果反其道而行之,直接質疑整個"推理AI"的根基。

有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩,也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。

一、社交媒體的"恐慌":AI圈為何如此震動?

蘋果這篇論文在社交媒體上引發熱論,在Twitter上,一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派:

悲觀派:"這篇論文證明了這些模型本質上只是機率錄音機,而不是真正的思考機器。"

技術派:認為模型的失敗源於輸出token限制,而非推理能力缺陷。

方法論質疑派:指出蘋果用解答長度作為難度指標存在問題,可能誤導了結論。

專家圈也出現分化,著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊",他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。

二、巧妙的實驗設計:四個遊戲戳破“神話”

蘋果研究團隊摒棄了傳統的數學和編碼基準測試,轉而設計了一套基於經典謎題的測試環境:

四種拼圖環境(漢諾塔、跳棋交換、過河問題、積木世界)

為什麼選擇謎題而非傳統基準?

傳統AI基準測試存在嚴重問題:

資料污染:模型可能在訓練時見過類似題目

難度不可控:無法精確調節問題複雜度

評估單一:只看最終答案,忽略推理過程

蘋果選擇的四個謎題各有深意:

河內塔:通過增加圓盤數量可以精確控制難度,最少步數為2^N-1步,是測試遞迴推理的經典問題。

跳棋交換:線上性棋盤上通過滑動和跳躍來交換棋子位置,測試序列規劃能力。

過河問題:多個角色需要在安全約束下通過小船渡河,考驗約束條件下的邏輯推理。

積木世界:重新排列堆疊積木以達到目標配置,評估空間推理能力。

三、令人震驚的三段式崩潰模式

實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現:

思考模型與非思考模型在不同複雜度下的精準率對比圖

第一階段:低複雜度的"過度思考"陷阱

在簡單問題上,推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是:模型常常先找到正確答案,然後繼續"深度思考",最終推翻了正確答案。

這就像一個學生做1+1=2的題目,先得出正確答案,然後"越想越複雜"把答案改錯了。

第二階段:中等複雜度的短暫輝煌

在中等複雜度問題上,推理模型確實展現出優勢,精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。

第三階段:高複雜度的集體投降

最令人震驚的發現是:當問題複雜度超過某個閾值時,所有模型的精準率都歸零

推理模型的精準率與思考Token用量隨複雜度變化的關係

更反直覺的是,隨著問題變難,這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄,連嘗試都不願意。以河內塔為例:

  • 3-5個圓盤:推理模型表現良好
  • 8個圓盤:精準率急劇下降
  • 15個圓盤以上:精準率歸零,模型"懶得思考"

最致命的發現:演算法執行的徹底失敗

研究中最顛覆認知的發現是:即使給模型提供了完整的解題演算法,它們仍然無法正確執行

研究團隊在提示詞中詳細描述了河內塔的遞迴解法,但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做",而在於"無法可靠地執行已知步驟"。

這個發現徹底打破了一個普遍假設:給AI足夠清晰的指令,它就能正確執行。現實是,當任務足夠複雜時,即使有了"標準答案",AI仍然會失敗。

資料說話:GSM-Symbolic的驚人發現

蘋果在論文中還引用了另一項重要研究GSM-Symbolic,進一步證實了推理模型的侷限性:

來自5,000道數學題的測試資料顯示,每當在題目中加入"無關資訊"時,模型的表現就會顯著下降。Google的T5-v4模型,精準率從95%暴跌至63.1%,OpenAI推理模型o1-preview從96%下降到77.4%,小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。

四、深層反思:什麼才是真正的AI推理?

蘋果的研究引發了一個根本性問題:什麼才算真正的推理?

模式匹配vs 符號推理

傳統電腦科學認為,真正的推理需要:

  • 符號操作能力:能夠處理抽象符號和規則
  • 邏輯規則執行:嚴格按照邏輯步驟進行推導
  • 系統性泛化:能夠將學到的規則應用到新場景
  • 可驗證性:推理過程可以被檢驗和驗證

而大語言模型本質上是統計系統:

  • 通過大量文字學習模式
  • 生成機率上合理的輸出
  • 缺乏顯式的邏輯操作機制
  • 難以保證推理的一致性

"思維鏈"的真面目

蘋果的研究揭示,所謂的"思維鏈"可能只是:

更複雜的模式匹配:學會了"看起來像在思考"的表達方式

  • 序列生成最佳化:通過更長的輸出序列提高某些任務的精準率
  • 偽推理過程:沒有真正的邏輯執行,只是統計關聯

一位評論者說:"這些模型更像是'機率錄音機'而不是思考機器。"

五、業界的激烈反應:分化與思考

支持者的聲音

紐約大學教授Gary Marcus直言這是對LLM的"致命一擊",認為"蘋果論文最根本地顯示,無論你如何定義AGI,LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限,還沒有擺脫幻覺,“如同賽車卡在一檔,加速度嚇人,但爬山能力為零”。

質疑者的反駁

也有研究者提出不同觀點:

1. 人類基準缺失:論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。

2. 任務代表性問題:這些謎題可能並不代表真實世界的推理需求。

3. 評估方法侷限:僅以最終答案正確性評判可能忽略了推理過程中的有效思考。

六、WWDC 2025的現實回應:實用AI vs 推理AI

有分析師認為,蘋果發佈這篇論文是別有用心,試圖先通過研究降低外界對AI推理能力的期望,再在WWDC上推出務實可靠的AI功能,既避免陷入"推理AI"的炒作陷阱,又能凸顯Apple一直專注於真正有用的AI應用。

事實證明,這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學

6月9日的WWDC 2025上,蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時,蘋果選擇了一條截然不同的道路。

蘋果的"液態玻璃"設計哲學

蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣:

  • 透明可見:使用者知道AI在做什麼
  • 流暢自然:無縫融入日常使用
  • 適應環境:根據場景調整功能
  • 美觀實用:形式服務於功能

實用AI功能的務實推進

蘋果在WWDC 2025上發佈的AI功能都極其務實:

  • 即時翻譯:在電話通話、FaceTime等場景下的即時語言翻譯
  • Visual Intelligence升級:使用者可以搜尋螢幕截圖中的任何內容
  • 智能快捷指令:AI驅動的自動化操作,但專注於具體任務
  • 語音郵件摘要:基於Apple Intelligence的實用功能

開放基礎模型,而非推理模型

最重要的是,蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架,而不是推理模型。

這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說:"蘋果在這次WWDC上的發佈更側重於漸進式的改進,比如通話即時翻譯等能改善日常生活的功能,而非像競爭對手那樣宣傳宏大的AI願景

結語:從幻覺到現實

蘋果的《思考的幻覺》不是要否定AI的價值,而更像是“AI現實主義”,提醒保持理性。在這個AI炒作甚囂塵上時,承認侷限,務實前行。或許需要考慮重新校準期望值,不要高估當前AI的推理能力,避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露,需要開發更嚴格的評估框架。對於AI產品設計而言,則要考慮簡單任務,標準LLM可能更高效;中等複雜度任務,推理模型有明顯優勢;而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力",不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識,而不是對概念的無限吹捧。 (JER學家)