剛剛,蘋果扔出一顆深水炸彈,直接宣判了所有「推理」模型的死刑。
他們用一系列全新的智力測試題,把Claude Thinking、DeepSeek-R1和o3-mini這些號稱會「思考」的模型打回了原形。
結果讓人大跌眼鏡:這些模型根本不是在推理,只是在玩高級版的「記憶大師」遊戲。
蘋果研究員設計了一套模型從未見過的謎題遊戲,專門測試純邏輯推理能力。當問題複雜度提升時,所有模型的精準率直接歸零。
更詭異的是,隨著問題變難,這些「思考」模型反而開始偷懶了——用更少的token,更快地放棄,那怕給它們無限的計算資源也沒用。
研究揭示了三個清晰的階段:
低複雜度:普通模型反而表現更好
而現實世界的大部分問題,恰恰都屬於第三類。
最致命的發現是什麼?即便把解題演算法一步步喂給模型,它們依然在相同的複雜度節點上崩潰。這就像給了食譜還是不會做飯,本質上缺乏真正的理解能力。
漢諾塔謎題可以輕鬆處理100多步,但河流渡河謎題僅僅4步就讓模型抓瞎。這強烈暗示:模型在訓練時見過漢諾塔的解法,但對河流渡河問題一無所知。
Ruben Hassid (@RubenHssd) 指出:
如果這些模型真的在「推理」,它們應該隨著計算資源增加和指令更清晰而表現更好。但實際上,它們碰到硬牆就開始擺爛了。
蘋果選擇可控謎題環境作為測試場景,正是因為:
避免資料污染
就在所有人都在因蘋果宣判而為AGI 夢碎嘆息時,Google CEO Sundar Pichai卻提出了一個更實際的概念——AJI。
AJI,全稱Artificial Jagged Intelligence(人工鋸齒智能),完美描述了當前AI的真實狀態:時而驚豔,時而弱智。
在Lex Fridman的採訪中,Pichai坦誠地說:「有時你看到AI的表現會驚嘆,然後下一秒它連草莓裡有幾個R都數不清。」
這種「參差不齊」的鋸齒正是當前AI發展的真實寫照。
就像坐在舊金山的Waymo無人車裡,它能在擁擠的人群中自如穿梭,展現出超人的駕駛技巧;但同時,它可能在最簡單的數學題上栽跟頭。
「我們不斷地在移動AGI的定義標準」,Pichai說,「今天你坐在舊金山的Waymo裡,穿過擁擠的人群,你會看到智能的閃光。但然後你又會看到一些明顯還遠未達到AGI的東西。你會同時體驗到這兩種感受。」
Pichai的預測很有意思:到2030年,我們可能還達不到AGI,但這並不重要。
「我幾乎覺得這個術語不重要了。我知道的是,到2030年,將會有如此巨大的進步。我們將不得不處理這種進步帶來的後果——積極的外部性和消極的外部性,都會以重大的方式出現。」
當初Google收購DeepMind時(2014年),團隊預測需要20年才能實現AGI(從2010年算起)。現在看來,這個時間表可能還是太樂觀了。
「在Google DeepMind的早期,2010年時他們談到實現AGI需要20年的時間框架,這很有趣。我不認為我們能在2030年之前完全達到,我覺得會稍微晚一些。」
但Pichai強調:「我要強調的是,這並不重要。無論那個定義是什麼,因為你將在許多維度上看到令人驚嘆的進步。」
他認為AI將在四個關鍵領域帶來巨大益處:
改善知識獲取:AI可以用母語翻譯和傳播資訊,讓全球知識更容易獲取。
加速科學發現:AI可以協助資料分析和假設生成,可能加快醫學和材料科學等領域的突破。
減輕氣候災害:AI可以提供預測建模和最佳化,幫助管理和減輕環境挑戰。
經濟進步:AI可以推動生產力和創新,促進經濟增長。
面對蘋果的「打臉」研究,AI 社區出現了有趣的分化。
一派認為這證明了當前AI路線的根本缺陷。Wim 🇳🇱🏴🇬🇧 (@wimdows) 說:
對懂LLM架構的人來說這不是新聞。LLM在通往AGI的路上就是死胡同,可能會讓我們的AGI之路倒退5-10年。
Fede Lang ₿⚡ (@fedelang) 則認為:
我不能說他們是對是錯。但我確定的是,蘋果真的落後了,這只是在貶低競爭對手。
但另一派則更加務實。Ramanuj Lal (@ramanujlal) 反問:
誰能證明人類不是在做同樣的事?對大多數人來說,邏輯推理的深度也就止步於「我以前見過類似的嗎?」
Greg Parker (@gregparker2017) 更是直接挑戰了蘋果的結論:
說「只是記憶模式」?實際上,推理本身就是模式。推理完全基於邏輯模式及其應用。
Andy D (@DickoDownUnder) 提供了一個深刻的哲學視角:
真正的智能來自於「what is」和「what is not」之間的相互作用。創造力、直覺和智慧需要想像、假設和生成全新概念的能力——特別是那些尚不存在的東西。這可能與自我意識深度相關。
而有意思的是市場反應——JaggedAI.com這個域名已經被人以19,999美元的價格搶注了。
Jason (@DCLjasonx) 驚呼:
剛剛有人花19,999美元買下了https://jaggedai.com/!
5分鐘前還在售呢!
Jordan Thibodeau (@JordanSVIC) 還爆料了一些Google內部的遺憾:
2017年Aidan Gomez團隊在Google寫出了「Attention is all you need」,結果Sundar他們完全忽視了,錯失良機啊!
Pichai在採訪中特別強調,「到2030年,我們需要一個強大的系統來標記AI生成的內容,幫助使用者區分它與現實。」
這正是關鍵所在:我們不需要AI成為無所不能的神,只需要它在特定領域足夠出色。透明度和道德考量將成為AI發展的核心。
Google在Pichai的領導下,繼續在AI研究和創新方面處於領先地位,致力於解決這個領域出現的複雜問題。他的前瞻性聲明和戰略願景表明,他們致力於利用AI產生重大社會影響,同時也認識到需要細緻的改進和監管。
在我看來,無論是蘋果的否定,還是AGI 的無所不能——這也恰恰給我們一個關鍵洞察:與其糾結AI是否真的在「推理」,不如接受它的「鋸齒」本質,學會在合適的場景用合適的工具。
如PromptPilot (@PromptPilot) 總結的:
「閃光的智慧,緊隨愚蠢的錯誤」可能是迄今為止對AI最準確的總結。
質疑者永遠能找到證據,但創新者已經在路上。
知道AI的侷限,恰恰是用好AI的前提。就像使用任何工具一樣,瞭解它的長處和短板,才能物盡其用。
是全盤否定AI 的能力,還是繼續追求遙不可及的AGI,還是先把「參差不齊」的鋸齒AJI 用到極致? (AGI Hunt)