亞利桑那州立大學教授Subbarao Kambhampati最近發表了一系列言論,直指當前大語言模型(LLM)推理能力的迷思。這番言論引發了業內熱議,不少網友紛紛表示:原來AI這麼強的推理能力,都是假的?
Kambhampati教授一針見血地指出:
許多關於LLM推理能力的說法都忽視了一個事實:LLM不僅僅是訓練於"事實",更多時候還包括了這些事實的演繹閉包。因此,所謂的"推理"實際上變成了(近似)檢索。
也就是說,我們以為AI在進行推理,其實它只是在從記憶中調取已有資訊。這就好比一個學生,不是通過理解公式來解題,而是把所有可能的題目和答案都背下來了。
網友@AndyXAndersen 就評論道:
LLM充其量只能基於非常相似的資料做出猜測。通過外部驗證、最佳化和反覆搜尋問題空間,這可以在較簡單的情況下近似演繹推理。
看來,AI的"聰明"程度,可能遠不如我們想像的那麼高!
但問題來了,既然AI只是在做"檢索",為什麼它還能回答一些訓練資料中沒有的問題呢?
Kambhampati教授解釋說,這是因為在網路規模的訓練資料中,一些2階、3階甚至k階可達的事實與基本事實交織在一起,使得LLM能夠通過模式匹配走得更遠,而無需真正學習推理過程。
簡單來說就是,AI看起來會推理,其實是資料量太大,很多看似需要推理的結果,它其實都"見過"。
對此,@TheBlackHack一針見血地指出:
LLM無法計算,因為它們不是電腦器。我們可以將它們視為有限的token序列對應,一旦學習就不會改變,所以如果對應中缺少某個序列,就無法從頭建構它。
這也引發了不少爭議。有人表示認同,也有人提出了不同看法。
@EmilevanKrieken就問道:
我有點困惑,你描述的聽起來不就是分佈內/外(in/out of distribution)的問題嗎?如果你在2級可達性上訓練,那麼任何2級可達的東西都是分佈內的,但3級就是分佈外的。
Kambhampati教授回應說,問題在於,當前的分佈內/外分析讓我們關注那些從推理角度來看並不有趣的泛化方面。
具體來說,把LLM在一小部分2可達事實上"混合訓練"後,我們為它能猜出更多2可達事實而歡呼,卻沒注意到它需要單獨的混合訓練才能達到3可達、4可達等。
@JoelKreager形象地比喻道:
跟隨函數產生的所有路徑。這是一個龐大但有限的集合。聚類輸入、邏輯連接會導致聚類輸出。也會有一些類似特徵向量的東西,但是針對整個模型。
那麼問題來了:既然AI不會真正的推理,為什麼它還能在一些需要推理的任務中表現優異呢?
Kambhampati教授解釋說,這是因為在訓練資料中,一些需要2步、3步甚至更多步驟推理得出的結果,已經被直接包含在內了。所以AI看起來會推理,其實是靠超強的記憶力在"套範本"。
這就好比,你覺得一個學生數學特別好,因為他總能很快得出正確答案。但其實,這個學生是把所有可能的題目和答案都背下來了,而不是真的懂得解題方法。
對此,@Mr Nemo提出了一個有趣的觀點:
演繹閉包是一個封閉的環境,其中所有變數都是已知的;閉包內的所有元素都是已知的,它們的來源是已知的,所有元素之間所有可能相互作用的所有可能結果都是已知的:對嗎?
這個比喻非常形象。AI模型就像是一個巨大的、預先計算好的尋找表。它能快速給出答案,但並不真正"理解"問題。
那麼,這對AI的未來發展意味著什麼呢?
Kambhampati教授認為,我們需要重新思考如何評估AI的推理能力。他指出,當前的許多基準測試可能並不能真正反映AI的推理水平。
比如,即使AI在4位數乘法上表現出色,但如果你測試5位數乘法,你會發現它又回到了起點,就像@YejinChoinka和她的同事發現的那樣。
就像你教會了一個孩子背誦九九乘法表,但他並不真正理解乘法的概念。當你讓他計算10×10時,他就完全不知所措了。
@bensmith_sv就問道:
對於9位數乘法,我看到大多數模型可以計算部分乘積,但在把它們加在一起時失敗了 - 為什麼會這樣?
這個問題非常深刻。它揭示了AI模型在處理複雜任務時的侷限性。AI可能已經"記住"了很多部分結果,但當需要綜合這些結果時,它就顯得力不從心了。
那麼,我們該如何改進AI的推理能力呢?
Kambhampati教授建議,我們需要關注AI是否真正學習了底層程序,並能將其應用於任何未見過的實例——無論是3-、4-、5-還是100可達的推論,還是5×5、6×6,...100×100位數的乘法。
我們不應該滿足於AI能解決特定的數學題,而應該追求它真正理解數學原理,能夠靈活運用於各種新問題。
最後,@tetraduzione總結道:
我猜問題在於人們可能只是混淆了在另一個分佈的測試集上獲得100%精準率是真正的分佈外泛化(如演繹閉包)的必要但非充分條件。
但論文上定義的"分佈外泛化"概念本身是正確的。
這也正是當前AI研究中的一個重要誤區。
我們不能僅僅因為AI在某些測試中表現出色,就認為它真的掌握了推理能力。
AI的進步之路還很漫長啊!
你怎麼看待AI的推理能力呢? (AGI Hunt)