#研究論文
蘋果一紙論文“打臉”整個AI圈:你們的推理AI都是假的?
2025年6月7日,距離蘋果WWDC僅僅兩天,一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網:《思考的幻覺:通過問題複雜度視角理解推理模型的優勢與侷限》。這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭,結果蘋果反其道而行之,直接質疑整個"推理AI"的根基。有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩,也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。一、社交媒體的"恐慌":AI圈為何如此震動?蘋果這篇論文在社交媒體上引發熱論,在Twitter上,一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派:悲觀派:"這篇論文證明了這些模型本質上只是機率錄音機,而不是真正的思考機器。"技術派:認為模型的失敗源於輸出token限制,而非推理能力缺陷。方法論質疑派:指出蘋果用解答長度作為難度指標存在問題,可能誤導了結論。專家圈也出現分化,著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊",他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。二、巧妙的實驗設計:四個遊戲戳破“神話”蘋果研究團隊摒棄了傳統的數學和編碼基準測試,轉而設計了一套基於經典謎題的測試環境:四種拼圖環境(漢諾塔、跳棋交換、過河問題、積木世界)為什麼選擇謎題而非傳統基準?傳統AI基準測試存在嚴重問題:- 資料污染:模型可能在訓練時見過類似題目- 難度不可控:無法精確調節問題複雜度- 評估單一:只看最終答案,忽略推理過程蘋果選擇的四個謎題各有深意:- 河內塔:通過增加圓盤數量可以精確控制難度,最少步數為2^N-1步,是測試遞迴推理的經典問題。- 跳棋交換:線上性棋盤上通過滑動和跳躍來交換棋子位置,測試序列規劃能力。- 過河問題:多個角色需要在安全約束下通過小船渡河,考驗約束條件下的邏輯推理。- 積木世界:重新排列堆疊積木以達到目標配置,評估空間推理能力。三、令人震驚的三段式崩潰模式實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現:思考模型與非思考模型在不同複雜度下的精準率對比圖第一階段:低複雜度的"過度思考"陷阱在簡單問題上,推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是:模型常常先找到正確答案,然後繼續"深度思考",最終推翻了正確答案。這就像一個學生做1+1=2的題目,先得出正確答案,然後"越想越複雜"把答案改錯了。第二階段:中等複雜度的短暫輝煌在中等複雜度問題上,推理模型確實展現出優勢,精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。第三階段:高複雜度的集體投降最令人震驚的發現是:當問題複雜度超過某個閾值時,所有模型的精準率都歸零。推理模型的精準率與思考Token用量隨複雜度變化的關係更反直覺的是,隨著問題變難,這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄,連嘗試都不願意。以河內塔為例:3-5個圓盤:推理模型表現良好8個圓盤:精準率急劇下降15個圓盤以上:精準率歸零,模型"懶得思考"最致命的發現:演算法執行的徹底失敗研究中最顛覆認知的發現是:即使給模型提供了完整的解題演算法,它們仍然無法正確執行。研究團隊在提示詞中詳細描述了河內塔的遞迴解法,但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做",而在於"無法可靠地執行已知步驟"。這個發現徹底打破了一個普遍假設:給AI足夠清晰的指令,它就能正確執行。現實是,當任務足夠複雜時,即使有了"標準答案",AI仍然會失敗。資料說話:GSM-Symbolic的驚人發現蘋果在論文中還引用了另一項重要研究GSM-Symbolic,進一步證實了推理模型的侷限性:來自5,000道數學題的測試資料顯示,每當在題目中加入"無關資訊"時,模型的表現就會顯著下降。Google的T5-v4模型,精準率從95%暴跌至63.1%,OpenAI推理模型o1-preview從96%下降到77.4%,小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。四、深層反思:什麼才是真正的AI推理?蘋果的研究引發了一個根本性問題:什麼才算真正的推理?模式匹配vs 符號推理傳統電腦科學認為,真正的推理需要:符號操作能力:能夠處理抽象符號和規則邏輯規則執行:嚴格按照邏輯步驟進行推導系統性泛化:能夠將學到的規則應用到新場景可驗證性:推理過程可以被檢驗和驗證而大語言模型本質上是統計系統:通過大量文字學習模式生成機率上合理的輸出缺乏顯式的邏輯操作機制難以保證推理的一致性"思維鏈"的真面目蘋果的研究揭示,所謂的"思維鏈"可能只是:更複雜的模式匹配:學會了"看起來像在思考"的表達方式序列生成最佳化:通過更長的輸出序列提高某些任務的精準率偽推理過程:沒有真正的邏輯執行,只是統計關聯一位評論者說:"這些模型更像是'機率錄音機'而不是思考機器。"五、業界的激烈反應:分化與思考支持者的聲音紐約大學教授Gary Marcus直言這是對LLM的"致命一擊",認為"蘋果論文最根本地顯示,無論你如何定義AGI,LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限,還沒有擺脫幻覺,“如同賽車卡在一檔,加速度嚇人,但爬山能力為零”。質疑者的反駁也有研究者提出不同觀點:1. 人類基準缺失:論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。2. 任務代表性問題:這些謎題可能並不代表真實世界的推理需求。3. 評估方法侷限:僅以最終答案正確性評判可能忽略了推理過程中的有效思考。六、WWDC 2025的現實回應:實用AI vs 推理AI有分析師認為,蘋果發佈這篇論文是別有用心,試圖先通過研究降低外界對AI推理能力的期望,再在WWDC上推出務實可靠的AI功能,既避免陷入"推理AI"的炒作陷阱,又能凸顯Apple一直專注於真正有用的AI應用。事實證明,這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學。6月9日的WWDC 2025上,蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時,蘋果選擇了一條截然不同的道路。蘋果的"液態玻璃"設計哲學蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣:透明可見:使用者知道AI在做什麼流暢自然:無縫融入日常使用適應環境:根據場景調整功能美觀實用:形式服務於功能實用AI功能的務實推進蘋果在WWDC 2025上發佈的AI功能都極其務實:即時翻譯:在電話通話、FaceTime等場景下的即時語言翻譯Visual Intelligence升級:使用者可以搜尋螢幕截圖中的任何內容智能快捷指令:AI驅動的自動化操作,但專注於具體任務語音郵件摘要:基於Apple Intelligence的實用功能開放基礎模型,而非推理模型最重要的是,蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架,而不是推理模型。這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說:"蘋果在這次WWDC上的發佈更側重於漸進式的改進,比如通話即時翻譯等能改善日常生活的功能,而非像競爭對手那樣宣傳宏大的AI願景。結語:從幻覺到現實蘋果的《思考的幻覺》不是要否定AI的價值,而更像是“AI現實主義”,提醒保持理性。在這個AI炒作甚囂塵上時,承認侷限,務實前行。或許需要考慮重新校準期望值,不要高估當前AI的推理能力,避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露,需要開發更嚴格的評估框架。對於AI產品設計而言,則要考慮簡單任務,標準LLM可能更高效;中等複雜度任務,推理模型有明顯優勢;而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力",不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識,而不是對概念的無限吹捧。 (JER學家)