向DeepSeek開炮,蘋果炮轟推理模型“畏難”易崩潰,美國網友:爛論文。
智東西6月10日報導,今日,蘋果開發者大會WWDC25坐實了大模型版Siri跳票的消息,而備受期待的蘋果AI也被吐槽“拖後腿”。
就在這兩天,蘋果發佈的一篇關於大模型的新論文引起熱議,該論文試圖極力論證大型推理模型(LRMs)的徹底性崩潰。
研發人員設計實驗測試了Claude 3.7 Sonnet、DeepSeek-R1、o3 mini等推理模型,得出結論:大型推理模型在處理簡單問題時存在“過度思考”問題;而當問題的複雜性上升到臨界點時,它們回答問題的精準性就會觸發“崩潰模式”,甚至精準度低到接近零。
“這(論文)對大語言模型來說是相當具有毀滅性的。”美國人工智慧領域知名意見領袖Gary Marcus說。
投資公司Bootstrapped創始人Ruben Hassid將論文轉發至社交平台X上稱:“蘋果剛剛證明,像Claude、DeepSeek-R1和o3-mini這樣的AI‘推理’模型實際上根本不具備推理能力。它們只是能很好地記住模式而已。”這條推文預覽了超1000萬,評論達到2600多條。知名風投Lux Capital聯合創始人兼合夥人Josh Wolfe也推薦分享了這篇論文。
但這篇論文同時也引起了大量質疑。蘋果論文試圖證明,AI推理模型是假的,只是模式匹配機器。但不少使用者提到:“我們只能等著看論文來證明人類的推理不僅僅是記憶模式了。”用外網爆火的梗圖來說就是,就算蘋果證明了模型無法做推理和原始思考,但人類就能了嗎?
一些人甚至稱這篇論文是“爛文”,並拿“用錘子敲螺絲”來形容蘋果團隊實驗的荒謬。有使用者通過復現蘋果團隊的實驗以證明蘋果的論證存在邏輯漏洞,比如遊戲的規劃次數不能代表複雜度,大模型崩潰只是因為輸出太長等。
另外有網友扒出論文作者的背景,論文聯合一作還是一名實習生,是弗吉尼亞理工大學電腦科學專業三年級博士生,這也成為質疑者的發難點。
還有不少使用者認為,蘋果之所以否定大模型處理程序是因為其自己錯過了這波AI機遇。
論文地址:
https://machinelearning.apple.com/research/illusion-of-thinking?utm_source=perplexity
首先來看實驗設計,蘋果團隊的大多數實驗在推理模型及對應非推理模型上進行,例如Claude 3.7 Sonnet(帶/不帶深度思考)和DeepSeek-R1/V3。團隊允許最大token預算為64k。
測試不是基於當下主流基準測試進行的,因為蘋果認為這些測試受資料污染影響嚴重,並無法深入瞭解推理軌跡的結構和質量,因此其通過25個謎題實例進行了測試。
1、DeepSeek、Claude在高複雜度任務上完全崩潰
謎題環境允許在保持一致邏輯結構的同時,精確控制組合複雜性。蘋果認為,這種設定不僅能夠分析最終答案,還能分析內部推理軌跡,從而深入瞭解大型推理模型的“深度思考”方式。
對於每個謎題實例,團隊生成25個樣本,並報告每個模型在這些樣本上的平均性能。團隊通過調整問題規模N(表示圓盤數、棋子數、塊數或過河元素數)來改變複雜性,從而研究複雜性對推理行為的影響。
下圖展示了兩種模型類型在所有謎題環境中作為問題複雜性函數的精準性。
下圖顯示了這些模型對在等效推理token計算下的上限性能能力,也就是跨所有謎題的平均值,將早期從數學基準的分析擴展到可控的謎題環境。
這兩個圖的結果表明,與基準測試中的觀察不同,這些模型的行為在複雜性不同的問題中存在三種情況:
(1)在低複雜度任務上,標準模型的表現出人意料地優於大型推理模型;
(2)在中等複雜度任務上,大型推理模型的額外深度思考表現出優勢;
(3)在高複雜度任務上,兩種模型的表現都完全崩潰。
2、接近複雜度臨界值,推理模型開始“偷懶”
接下來,蘋果團隊研究了配備推理token的不同專門推理模型如何應對不斷增加的問題複雜性。其實驗評估了五種最先進的推理模型:o3-mini(中等和高配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B和Claude-3.7 Sonnet(深度思考版)。
下圖展示了這些模型在不同複雜性等級上的精準性(頂部)和推理token使用情況(底部)。結果表明,所有推理模型在複雜性方面都表現出類似的模式:隨著問題複雜性的增加,精準性逐漸下降,直到超過特定於模型的複雜性閾值後完全崩潰,精準度為零。
團隊還觀察到,推理模型最初隨著問題複雜性的增加按比例增加其推理token。然而,在接近一個與它們的精準性崩潰點密切對應的臨界閾值時,模型違反直覺地開始減少推理努力。
這種現像在o3-mini變體中最為明顯,在Claude-3.7-Sonnet(深度思考版)模型中則不那麼嚴重。值得注意的是,儘管在深度思考階段運行遠低於其生成長度限制,並有充足的推理預算可用,但隨著問題變得更加複雜,這些模型未能利用額外的推理計算。
這種行為表明,當前推理模型的思考能力相對於問題複雜性存在基本的擴展限制。
3、推理模型內部推理拆解,“過度思考”和“崩潰模式”
為了更深入地瞭解推理模型的思考過程,蘋果團隊對其推理軌跡進行了細粒度分析。他們借助謎題模擬器提取並分析模型推理中探索的中間解決方案。
下圖中的(a)展示了所有謎題環境中中間解決方案在深度思考中的位置、正確性和問題複雜性之間的關係。團隊從推理軌跡中進行的分析進一步驗證了上述三種複雜性機制。
對於較簡單的問題,推理模型通常在其思考的早期找到正確的解決方案,但隨後繼續探索不正確的解決方案。請注意,與正確解決方案(綠色)相比,不正確解決方案(紅色)的分佈更向上方(朝向思考的末尾)移動。這種在文獻中被稱為“過度思考”的現象導致了計算的浪費。
隨著問題變得中等複雜,這種趨勢發生了逆轉:模型首先探索不正確的解決方案,並且大多在思考的後期得出正確的解決方案。此時,與正確解決方案(綠色)相比,不正確解決方案(紅色)的分佈更向下移動。
最後,對於複雜性較高的問題,崩潰出現,這意味著模型無法在思考中生成任何正確的解決方案。
上圖中的(b)對河內塔(Tower of Hanoi)環境中思考的順序段(bin)內的解決方案精準性進行了補充分析。河內塔遊戲是一種經典的遊戲,它有三個柱子和多個圓盤,玩家需要將左側柱子上的所有圓盤移動到右側柱子上,並且不能將較大的圓盤堆疊在較小的圓盤上。
可以觀察到,對於較簡單的問題(較小的N),解決方案的精準性隨著思考的進行而趨於下降或波動,進一步證明了過度思考現象。然而,對於更複雜的問題,這種趨勢發生了變化,解決方案的精準性隨著思考的進行而增加,直到達到某個閾值。超過這個複雜性閾值,在“崩潰模式”下,精準性為零。
4、精確計算執行面臨侷限性,“能力”忽高忽低
最後,蘋果團隊展示了關於推理模型在執行精確問題解決步驟方面的侷限性。
如下圖(a)和(b)所示,在河內塔環境中,即使團隊在提示中提供了演算法,以便模型只需執行規定的步驟,性能也沒有提高,並且觀察到的崩潰仍然發生在大致相同的點。
只要練習,一個聰明且有耐心的七歲小孩都能完成河內塔遊戲。而對於電腦來說,這更是小菜一碟。但Claude幾乎不能完成7個圓盤,精準率不到80%,如下圖的左下面板所示,而且幾乎根本無法正確完成8個圓盤。
蘋果公司發現廣受好評的o3-min(高版本)並沒有更好,並且如下圖所示,他們在多個任務中發現了類似的結果。比如,大語言模型無法可靠地解決河內塔問題,但網上有很多可以免費獲取的原始碼庫。
這值得注意,因為尋找和設計解決方案應該需要比僅僅執行給定演算法多得多的計算,例如用於搜尋和驗證。這進一步凸顯了推理模型在驗證和遵循邏輯步驟解決問題方面的侷限性,表明需要進一步研究以瞭解此類模型的符號操作能力。
此外,在下圖(c)和(d)中,團隊觀察到Claude 3.7 Sonnet推理模型的行為非常不同。在河內塔環境中,該模型在提議的解決方案中的第一個錯誤通常發生得晚得多,例如,對於 N=10,大約在第100步,而在過河環境中,該模型只能生成直到第4步的有效解決方案。
值得注意的是,該模型在解決N=5的河內塔問題時實現了近乎完美的精準性,這需要31步,而在解決N=3的過河謎題時卻失敗了,該謎題有11步的解決方案。
這可能表明,N>2的過河示例在網路上很少見,這意味著大型推理模型在訓練期間可能沒有頻繁遇到或記憶此類實例。
蘋果這篇論文一經發佈,引起了產業較多關注,支援和反對聲並存。
知名風投Lux Capital聯合創始人兼合夥人Josh Wolfe轉發了這篇論文並分享了文章的主要觀點:“Claude+DeepSeek看起來很聰明,但當複雜性上升時它們就會……徹底崩潰”,“蘋果的看法是這些模型沒有推理能力,只是超級昂貴的模式匹配器,一旦我們超出它們的訓練分佈範圍,它們就會崩潰”……
美國人工智慧領域知名意見領袖Gary Marcus也發文稱:“它(蘋果新論文)對大語言模型來說是相當具有毀滅性的……大語言模型的擁護者已經一定程度上承認了這一打擊。”
他說:“蘋果的論文最根本地表明,無論你如何定義通用人工智慧(AGI),大語言模型都無法取代優秀的、規範明確的傳統演算法。”Gary Marcus的文章獲得了大量點贊轉發和超160條評論。高贊評論提到:“這篇論文是一項精妙的科學研究,但不幸的是,電腦科學界已經失去了它的精髓。”
另一邊是對這篇論文猛烈的批評聲。
一位X平台使用者擷取論文關鍵內容並稱:“所有這些都是胡說八道,但他們甚至懶得看輸出結果。這些模型實際上是在思維鏈中背誦演算法,無論是純文字還是程式碼。正如我在另一篇文章中解釋的那樣,不同遊戲的步驟並不相同。”
他還認為,蘋果團隊對遊戲複雜性的定義也令人困惑,因為河內塔遊戲只是比其他遊戲多出指數級的步驟,這並不意味著河內塔更難。
他復現了河內塔遊戲,由此發現,所有模型在圓盤數量超過13個時的精準率都會為 0,因為它們無法輸出那麼多(tokens)。
“你至少需要2^N-1步,並且輸出格式要求每步10個token+一些常數。此外,Sonnet 3.7的輸出限製為128k,DeepSeek R1為 64k,o3-mini為100k。這包括它們在輸出最終答案之前使用的推理token。”
一旦超過7個圓盤,這些推理模型就不會再去嘗試推理問題。它會說明問題是什麼以及解決它的演算法,然後輸出其解決方案,甚至不會考慮各個步驟。
他指出,即使對於n=9(9個圓盤)和n=10(10個圓盤),Claude 3.7 Thinking也會提前停止推理,因為它認為輸出太長了。精準率的下降至少有一部分僅僅是因為模型認為這是浪費時間而決定提前停止。
還有一位X平台使用者稱:“這篇論文太爛了”,並以比喻“他們試圖用錘子敲入螺絲,然後寫了一篇論文,講述錘子實際上是如何成為固定物品的非常有限的工具”來質疑實驗設計的效度。
還一些觀點認為,蘋果完全錯過了AI的列車,才會來否定當下的大模型前景。
通過這篇論文,蘋果團隊對大型推理模型在已建立的數學基準上的當前評估範式提出了質疑。
團隊利用演算法謎題環境設計了一個可控的實驗測試平台,由此論述當下先進的推理模型仍無法開發出可泛化的問題解決能力,在不同環境中,精準性最終會在超過特定複雜性後崩潰為零。
與此同時,產業人士對論文實驗設計邏輯、論述過程、示例選擇提出了較多質疑。蘋果團隊也承認了研究的侷限性:那就是謎題環境只代表了推理任務的一小部分,可能無法捕捉到現實世界或知識密集型推理問題的多樣性。同時,團隊的大多數實驗依賴於對封閉前沿大型推理模型的黑盒API訪問,這限制了其分析內部狀態或架構元件的能力。
此外,確定性謎題模擬器的使用假設推理可以一步一步地完美驗證。然而,在結構較少的領域中,這種精確的驗證可能不可行,從而限制了這種分析對其他更可泛化推理的可移植性。 (智東西)