2025年6月7日,距離蘋果WWDC僅僅兩天,一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網:《思考的幻覺:通過問題複雜度視角理解推理模型的優勢與侷限》。
這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭,結果蘋果反其道而行之,直接質疑整個"推理AI"的根基。
有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩,也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。
蘋果這篇論文在社交媒體上引發熱論,在Twitter上,一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派:
悲觀派:"這篇論文證明了這些模型本質上只是機率錄音機,而不是真正的思考機器。"
技術派:認為模型的失敗源於輸出token限制,而非推理能力缺陷。
方法論質疑派:指出蘋果用解答長度作為難度指標存在問題,可能誤導了結論。
專家圈也出現分化,著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊",他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。
蘋果研究團隊摒棄了傳統的數學和編碼基準測試,轉而設計了一套基於經典謎題的測試環境:
為什麼選擇謎題而非傳統基準?
傳統AI基準測試存在嚴重問題:
- 資料污染:模型可能在訓練時見過類似題目
- 難度不可控:無法精確調節問題複雜度
- 評估單一:只看最終答案,忽略推理過程
蘋果選擇的四個謎題各有深意:
- 河內塔:通過增加圓盤數量可以精確控制難度,最少步數為2^N-1步,是測試遞迴推理的經典問題。
- 跳棋交換:線上性棋盤上通過滑動和跳躍來交換棋子位置,測試序列規劃能力。
- 過河問題:多個角色需要在安全約束下通過小船渡河,考驗約束條件下的邏輯推理。
- 積木世界:重新排列堆疊積木以達到目標配置,評估空間推理能力。
實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現:
第一階段:低複雜度的"過度思考"陷阱
在簡單問題上,推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是:模型常常先找到正確答案,然後繼續"深度思考",最終推翻了正確答案。
這就像一個學生做1+1=2的題目,先得出正確答案,然後"越想越複雜"把答案改錯了。
第二階段:中等複雜度的短暫輝煌
在中等複雜度問題上,推理模型確實展現出優勢,精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。
第三階段:高複雜度的集體投降
最令人震驚的發現是:當問題複雜度超過某個閾值時,所有模型的精準率都歸零。
更反直覺的是,隨著問題變難,這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄,連嘗試都不願意。以河內塔為例:
最致命的發現:演算法執行的徹底失敗
研究中最顛覆認知的發現是:即使給模型提供了完整的解題演算法,它們仍然無法正確執行。
研究團隊在提示詞中詳細描述了河內塔的遞迴解法,但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做",而在於"無法可靠地執行已知步驟"。
這個發現徹底打破了一個普遍假設:給AI足夠清晰的指令,它就能正確執行。現實是,當任務足夠複雜時,即使有了"標準答案",AI仍然會失敗。
資料說話:GSM-Symbolic的驚人發現
蘋果在論文中還引用了另一項重要研究GSM-Symbolic,進一步證實了推理模型的侷限性:
來自5,000道數學題的測試資料顯示,每當在題目中加入"無關資訊"時,模型的表現就會顯著下降。Google的T5-v4模型,精準率從95%暴跌至63.1%,OpenAI推理模型o1-preview從96%下降到77.4%,小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。
蘋果的研究引發了一個根本性問題:什麼才算真正的推理?
模式匹配vs 符號推理
傳統電腦科學認為,真正的推理需要:
而大語言模型本質上是統計系統:
"思維鏈"的真面目
蘋果的研究揭示,所謂的"思維鏈"可能只是:
更複雜的模式匹配:學會了"看起來像在思考"的表達方式
一位評論者說:"這些模型更像是'機率錄音機'而不是思考機器。"
支持者的聲音
紐約大學教授Gary Marcus直言這是對LLM的"致命一擊",認為"蘋果論文最根本地顯示,無論你如何定義AGI,LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限,還沒有擺脫幻覺,“如同賽車卡在一檔,加速度嚇人,但爬山能力為零”。
質疑者的反駁
也有研究者提出不同觀點:
1. 人類基準缺失:論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。
2. 任務代表性問題:這些謎題可能並不代表真實世界的推理需求。
3. 評估方法侷限:僅以最終答案正確性評判可能忽略了推理過程中的有效思考。
有分析師認為,蘋果發佈這篇論文是別有用心,試圖先通過研究降低外界對AI推理能力的期望,再在WWDC上推出務實可靠的AI功能,既避免陷入"推理AI"的炒作陷阱,又能凸顯Apple一直專注於真正有用的AI應用。
事實證明,這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學。
6月9日的WWDC 2025上,蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時,蘋果選擇了一條截然不同的道路。
蘋果的"液態玻璃"設計哲學
蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣:
實用AI功能的務實推進
蘋果在WWDC 2025上發佈的AI功能都極其務實:
開放基礎模型,而非推理模型
最重要的是,蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架,而不是推理模型。
這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說:"蘋果在這次WWDC上的發佈更側重於漸進式的改進,比如通話即時翻譯等能改善日常生活的功能,而非像競爭對手那樣宣傳宏大的AI願景。
蘋果的《思考的幻覺》不是要否定AI的價值,而更像是“AI現實主義”,提醒保持理性。在這個AI炒作甚囂塵上時,承認侷限,務實前行。或許需要考慮重新校準期望值,不要高估當前AI的推理能力,避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露,需要開發更嚴格的評估框架。對於AI產品設計而言,則要考慮簡單任務,標準LLM可能更高效;中等複雜度任務,推理模型有明顯優勢;而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力",不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識,而不是對概念的無限吹捧。 (JER學家)