MIT發現讓AI變聰明的秘密,竟然和人類一模一樣

【新智元導讀】你有沒有發現,你讓AI讀一篇長文章,結果它讀著讀著就忘了前面的內容? 你讓它處理一份超長的文件,結果它給出來的答案,牛頭不對馬嘴? 這個現象,學術界有個專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!

2025年最後一天,麻省理工學院(MIT)丟了一篇重磅論文,就是要解決這個問題的。

這篇論文叫《Recursive Language Models》,也就是遞迴語言模型。

看起來很學術,但說人話就一句:讓AI再做一遍,效果直接起飛。

先劇透兩個核心資料:

  • 在複雜推理任務上,僅僅讓模型多過2-4遍,正確率就能提升10%-25%
  • 在超長文件處理上,RLM(遞迴語言模型)在1000萬+token的規模下,依然保持穩定表現,而傳統模型直接崩盤!

這啥概念?

以前我們覺得,AI不夠聰明,那就給它堆參數、加顯示卡、買更多GPU。

MIT這篇論文直接掀桌子:別堆參數了,讓它返工重寫一遍,效果可能更好。(真就是人類監工了)

原來解決問題的方法就是這麼簡單!

並且X上很多大佬紛紛點贊~


從一個讓人崩潰的問題說起

你有沒有這種經歷:

讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。

或者讓它幫你寫程式碼,它寫完了,一運行——全是bug。

但神奇的是,你讓它再檢查一遍、重新想想,有時候它就突然能改對了。

MIT的研究人員發現,這不是玄學,這是有規律的。

大多數AI犯的錯,不是因為它不懂,而是因為它初稿寫太快了。

就像你寫論文,第一稿總是稀爛,但改個三四遍,就像換了個人寫的。

AI也是一樣。

問題是:現在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。

它自己不會主動返工、不會自我檢查、不會反覆推敲。

或者換一個思路來理解大模型原先的思路:

假設你是一個剛進公司的實習生,領導給你發了一份500頁的資料,讓你整理出一份報告。

你會怎麼做?

正常人的做法是:先翻一翻,找到重點章節,然後一章一章地讀,讀完一章做個總結,最後把所有總結串起來。

對吧?

但大模型不是這麼幹的。

大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然後嘗試憑記憶回答問題。

這能記住才有鬼了。

這就是大模型面臨的困境。

它不是不聰明,它是記不住。

MIT這篇論文干的事兒,就是給AI裝上了一個返工的能力。

AI的真正瓶頸:不是腦子不夠大,是記性太差

在聊MIT的解決方案之前,我得先跟你說清楚,為什麼這件事這麼重要。

你可能聽說過一個詞,叫上下文窗口。

啥意思呢?

你可以把AI大模型想像成一個天才,但是這個天才有個致命缺陷——他的工作台太小了。

你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作台上看。

超過工作台大小的部分?看不到,直接忽略。

現在最牛逼的GPT-5,工作台能放27萬個token(大約相當於20萬字中文)。

聽著挺厲害的對吧?

但問題來了。

就是說,那怕是在這27萬token的限制之內,模型的表現也會隨著輸入變長而急劇下降。

  • 當你給它8000個token的時候,它表現賊棒。
  • 給它8萬個token的時候,它開始有點迷糊。
  • 給它27萬個token的時候,它直接開始胡說八道。

為什麼?

因為資訊太多了,它處理不過來了,腦子亂了。

就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了,但找不到了。

這就是大模型現在的困境:不是上下文窗口不夠長,而是長了也用不好。

MIT的天才想法:把資料放到抽屜裡

好了,問題講清楚了,現在來看MIT的解決方案。

傳統做法是:你把資料直接塞進AI的腦子裡。

MIT的做法是:別塞進去了,放抽屜裡吧。

他們發明了一個叫RLM的東西。

RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用程式碼去翻那份資料。

打個比方。

以前的AI,就像一個學生,你把一整本教科書拍在他面前說:看完,然後回答我的問題。

學生:???我看不完啊,我能不能看一部分?

然後他就硬著頭皮看前面的一部分,後面的直接放棄。

RLM的做法不一樣。

它更像是給這個學生配了一個目錄系統和搜尋引擎。

資料還是那份資料,但學生不用從頭到尾讀了。他可以先翻目錄,看看大概結構,然後針對問題去搜尋相關段落,把有用的資訊摘出來。

更牛的是,這個學生可以把一個複雜問題拆成好幾個小問題,然後——注意重點來了——他可以召喚自己的分身,讓分身去同時處理各個小問題,最後彙總答案。

這就是遞迴的意思:AI可以呼叫自己的分身,讓自己幫自己幹活。

或者再降維一下理解就是:

它把這份超長的文件,當成一個放在外面的資料庫,而不是直接塞進腦子裡。

然後,模型可以寫程式碼,自己去查這個資料庫。

需要第一章的內容?寫個程式碼去查。

需要第十章的內容?再寫個程式碼去查。

需要把第一章和第十章的內容對比?

那就先查第一章,做個總結,再查第十章,做個總結,最後把兩個總結合起來。

這就像是一個有無限容量的外接硬碟。

模型的腦子裡裝不下那麼多東西,沒關係。

可以隨時去硬碟裡查,用到什麼查什麼。

這樣一來,理論上,模型可以處理無限長的文件。

具體怎麼做的?

MIT的實現方式其實挺優雅的。

他們給AI配了一個Python程式設計環境(REPL),把那份超長的資料存成一個變數。

然後AI不再直接去讀這份資料,而是用程式碼去操作它。

比如:

  • 想看資料有多長?寫一行程式碼len(input_text)就知道了
  • 想看資料的前1000個字元?寫input_text[:1000]
  • 想在資料裡搜尋關鍵詞?寫個正規表示式

更厲害的是,AI可以把這份資料分段,把每一段交給一個子AI去處理,然後自己彙總結果。

這個子AI,用的其實是同一個模型,只不過是遞迴呼叫自己。

這個設計有兩個巨大的好處:

第一,AI不用在腦子裡記住那份超長資料了。

資料就放在外面的抽屜裡,需要的時候用程式碼去取。

這就意味著,理論上,資料可以無限長——只要抽屜夠大。

第二,AI可以自己判斷需要看什麼、不需要看什麼。

它不會傻乎乎地從頭讀到尾,而是會聰明地挑重點看。

這大大節省了計算成本,也提高了準確率。

效果到底有多猛?

MIT在論文裡做了一堆實驗,結果還是挺震撼的。

實驗一:超長文件理解

他們用了很多測試機,其中一個叫OOLONG的測試集,這個測試需要AI理解超長文件,並回答需要綜合全文資訊才能回答的問題。

結果:GPT-5基座模型的精準率44%,而RLM達到了56.5%。

而在CodeQA中,GPT-5基座模型的精準率24%,而RLM達到了62%,直接提升了2.7倍!

實驗二:超超超長文件(1000萬+token)

他們還把文件長度一路拉到1000萬token以上(相當於幾十本書的長度)。

GPT-5?壓根處理不了,直接爆炸。

RLM(GPT-5)?穩穩當當,表現基本不掉。

這是一個質的飛躍。

實驗三:成本對比

你可能會想:這麼牛逼的東西,是不是巨貴?

神奇的是,並沒有。

在BrowseComp-Plus基準測試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。

而RLM(GPT-5)的平均成本只有0.99美元。

更便宜,效果還更好。

為什麼?

因為RLM不會傻傻地把所有內容都讀一遍,它唯讀需要的部分。

這個發現為什麼重要?

MIT這篇論文的意義,遠不止於讓AI處理更長的文件。

它揭示了一個更根本的道理:

AI的能力邊界,不只取決於模型本身有多大、參數有多多,還取決於你怎麼使用它。

以前我們的思路是:模型不夠強——那就加參數。

MIT告訴我們:等等,也許不用加參數,讓它多想幾遍就夠了。

回到開頭提到的那個發現:

在多步推理任務中,僅增加2-4次遞迴處理,正確率就能提升10%-25%。大約4次迭代後,收益逐漸趨於平緩。

這說明什麼?

大多數AI犯的錯,都是初稿錯誤:不是它不懂,是它第一遍太草率了。

讓它返工幾次,就能改對。(所以有時候,你在使用AI時,還真的當個監工,讓AI多輸出幾次

這跟人類其實一模一樣。

任何牛逼的程式設計師都知道,第一版程式碼永遠是最爛的,程式碼質量是改出來的,不是寫出來的。

任何牛逼的作家都知道,第一稿永遠是廢稿,好文章是改出來的,不是寫出來的。

現在,AI也一樣了。

未來展望

MIT在論文最後提到,這只是一個開始。

目前的RLM還有很多可以最佳化的地方:

1.非同步呼叫:目前子任務是一個接一個執行的,如果能平行執行,速度會更快。

2.更深的遞迴:目前只允許一層遞迴(AI呼叫自己的分身),如果允許分身再呼叫分身,理論上能處理更複雜的任務。

3.專門訓練:目前RLM用的是現成的大模型,如果專門為遞迴思考訓練一個模型,效果可能更猛。

MIT的研究者們相信,這可能代表了大模型能力擴展的一個新方向:

不是一味地堆參數、堆算力,而是讓模型學會更聰明地思考。

彩蛋

MIT這篇論文,讓我想起了一個老笑話:

客戶問程式設計師:這個bug你修了多久?

程式設計師說:5分鐘。

客戶說:那為什麼收我500塊?

程式設計師說:找出問題在那,花了我3天。

AI也是一樣。

它的思考時間遠比我們想像的更重要。

給它一點返工的機會,它可能就能從還行變成牛逼。

這也許就是下一代AI進化的方向:不是更大的腦子,而是更深度的思考。 (新智元)