MIT發現讓AI變聰明的秘密，竟然和人類一模一樣

2026/01/04

•

【新智元導讀】你有沒有發現，你讓AI讀一篇長文章，結果它讀著讀著就忘了前面的內容？你讓它處理一份超長的文件，結果它給出來的答案，牛頭不對馬嘴？這個現象，學術界有個專門的名詞，叫做上下文腐化。這也是目前AI的通病：大模型的記憶力太差了，文章越長，模型越傻！

2025年最後一天，麻省理工學院（MIT）丟了一篇重磅論文，就是要解決這個問題的。

這篇論文叫《Recursive Language Models》，也就是遞迴語言模型。

看起來很學術，但說人話就一句：讓AI再做一遍，效果直接起飛。

先劇透兩個核心資料：

在複雜推理任務上，僅僅讓模型多過2-4遍，正確率就能提升10%-25%
在超長文件處理上，RLM（遞迴語言模型）在1000萬+token的規模下，依然保持穩定表現，而傳統模型直接崩盤！

這啥概念？

以前我們覺得，AI不夠聰明，那就給它堆參數、加顯示卡、買更多GPU。

MIT這篇論文直接掀桌子：別堆參數了，讓它返工重寫一遍，效果可能更好。（真就是人類監工了）

原來解決問題的方法就是這麼簡單！

並且X上很多大佬紛紛點贊～

從一個讓人崩潰的問題說起

你有沒有這種經歷：

讓ChatGPT幫你寫一篇文章，它洋洋灑灑寫了三千字，你一看——臥槽，離題萬里。

或者讓它幫你寫程式碼，它寫完了，一運行——全是bug。

但神奇的是，你讓它再檢查一遍、重新想想，有時候它就突然能改對了。

MIT的研究人員發現，這不是玄學，這是有規律的。

大多數AI犯的錯，不是因為它不懂，而是因為它初稿寫太快了。

就像你寫論文，第一稿總是稀爛，但改個三四遍，就像換了個人寫的。

AI也是一樣。

問題是：現在的大模型基本都是一遍過的模式，你輸入問題，它輸出答案，完事。

它自己不會主動返工、不會自我檢查、不會反覆推敲。

或者換一個思路來理解大模型原先的思路：

假設你是一個剛進公司的實習生，領導給你發了一份500頁的資料，讓你整理出一份報告。

你會怎麼做？

正常人的做法是：先翻一翻，找到重點章節，然後一章一章地讀，讀完一章做個總結，最後把所有總結串起來。

對吧？

但大模型不是這麼幹的。

大模型的做法是：直接把500頁資料從頭到尾一口氣讀完，然後嘗試憑記憶回答問題。

這能記住才有鬼了。

這就是大模型面臨的困境。

它不是不聰明，它是記不住。

MIT這篇論文干的事兒，就是給AI裝上了一個返工的能力。

AI的真正瓶頸：不是腦子不夠大，是記性太差

在聊MIT的解決方案之前，我得先跟你說清楚，為什麼這件事這麼重要。

你可能聽說過一個詞，叫上下文窗口。

啥意思呢？

你可以把AI大模型想像成一個天才，但是這個天才有個致命缺陷——他的工作台太小了。

你給他一份超長的資料，讓他幫你分析，但他只能把資料的一小部分放到工作台上看。

超過工作台大小的部分？看不到，直接忽略。

現在最牛逼的GPT-5，工作台能放27萬個token（大約相當於20萬字中文）。

聽著挺厲害的對吧？

但問題來了。

就是說，那怕是在這27萬token的限制之內，模型的表現也會隨著輸入變長而急劇下降。

當你給它8000個token的時候，它表現賊棒。
給它8萬個token的時候，它開始有點迷糊。
給它27萬個token的時候，它直接開始胡說八道。

為什麼？

因為資訊太多了，它處理不過來了，腦子亂了。

就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了，但找不到了。

這就是大模型現在的困境：不是上下文窗口不夠長，而是長了也用不好。

MIT的天才想法：把資料放到抽屜裡

好了，問題講清楚了，現在來看MIT的解決方案。

傳統做法是：你把資料直接塞進AI的腦子裡。

MIT的做法是：別塞進去了，放抽屜裡吧。

他們發明了一個叫RLM的東西。

RLM的核心思路是：不要讓AI直接讀那份巨長的資料，而是讓AI用程式碼去翻那份資料。

打個比方。

以前的AI，就像一個學生，你把一整本教科書拍在他面前說：看完，然後回答我的問題。

學生：？？？我看不完啊，我能不能看一部分？

然後他就硬著頭皮看前面的一部分，後面的直接放棄。

RLM的做法不一樣。

它更像是給這個學生配了一個目錄系統和搜尋引擎。

資料還是那份資料，但學生不用從頭到尾讀了。他可以先翻目錄，看看大概結構，然後針對問題去搜尋相關段落，把有用的資訊摘出來。

更牛的是，這個學生可以把一個複雜問題拆成好幾個小問題，然後——注意重點來了——他可以召喚自己的分身，讓分身去同時處理各個小問題，最後彙總答案。

這就是遞迴的意思：AI可以呼叫自己的分身，讓自己幫自己幹活。

或者再降維一下理解就是：

它把這份超長的文件，當成一個放在外面的資料庫，而不是直接塞進腦子裡。

然後，模型可以寫程式碼，自己去查這個資料庫。

需要第一章的內容？寫個程式碼去查。

需要第十章的內容？再寫個程式碼去查。

需要把第一章和第十章的內容對比？

那就先查第一章，做個總結，再查第十章，做個總結，最後把兩個總結合起來。

這就像是一個有無限容量的外接硬碟。

模型的腦子裡裝不下那麼多東西，沒關係。

可以隨時去硬碟裡查，用到什麼查什麼。

這樣一來，理論上，模型可以處理無限長的文件。

具體怎麼做的？

MIT的實現方式其實挺優雅的。

他們給AI配了一個Python程式設計環境（REPL），把那份超長的資料存成一個變數。

然後AI不再直接去讀這份資料，而是用程式碼去操作它。

比如：

想看資料有多長？寫一行程式碼len(input_text)就知道了
想看資料的前1000個字元？寫input_text[:1000]
想在資料裡搜尋關鍵詞？寫個正規表示式

更厲害的是，AI可以把這份資料分段，把每一段交給一個子AI去處理，然後自己彙總結果。

這個子AI，用的其實是同一個模型，只不過是遞迴呼叫自己。

這個設計有兩個巨大的好處：

第一，AI不用在腦子裡記住那份超長資料了。

資料就放在外面的抽屜裡，需要的時候用程式碼去取。

這就意味著，理論上，資料可以無限長——只要抽屜夠大。

第二，AI可以自己判斷需要看什麼、不需要看什麼。

它不會傻乎乎地從頭讀到尾，而是會聰明地挑重點看。

這大大節省了計算成本，也提高了準確率。

效果到底有多猛？

MIT在論文裡做了一堆實驗，結果還是挺震撼的。

實驗一：超長文件理解

他們用了很多測試機，其中一個叫OOLONG的測試集，這個測試需要AI理解超長文件，並回答需要綜合全文資訊才能回答的問題。

結果：GPT-5基座模型的精準率44%，而RLM達到了56.5%。

而在CodeQA中，GPT-5基座模型的精準率24%，而RLM達到了62%，直接提升了2.7倍！

實驗二：超超超長文件（1000萬+token）

他們還把文件長度一路拉到1000萬token以上（相當於幾十本書的長度）。

GPT-5？壓根處理不了，直接爆炸。

RLM(GPT-5)？穩穩當當，表現基本不掉。

這是一個質的飛躍。

實驗三：成本對比

你可能會想：這麼牛逼的東西，是不是巨貴？

神奇的是，並沒有。

在BrowseComp-Plus基準測試中，讓GPT-5-mini直接處理600萬-1100萬token的輸入，成本大約是1.5-2.75美元。

而RLM(GPT-5)的平均成本只有0.99美元。

更便宜，效果還更好。

為什麼？

因為RLM不會傻傻地把所有內容都讀一遍，它唯讀需要的部分。

這個發現為什麼重要？

MIT這篇論文的意義，遠不止於讓AI處理更長的文件。

它揭示了一個更根本的道理：

AI的能力邊界，不只取決於模型本身有多大、參數有多多，還取決於你怎麼使用它。

以前我們的思路是：模型不夠強——那就加參數。

MIT告訴我們：等等，也許不用加參數，讓它多想幾遍就夠了。

回到開頭提到的那個發現：

在多步推理任務中，僅增加2-4次遞迴處理，正確率就能提升10%-25%。大約4次迭代後，收益逐漸趨於平緩。

這說明什麼？

大多數AI犯的錯，都是初稿錯誤：不是它不懂，是它第一遍太草率了。

讓它返工幾次，就能改對。（所以有時候，你在使用AI時，還真的當個監工，讓AI多輸出幾次）

這跟人類其實一模一樣。

任何牛逼的程式設計師都知道，第一版程式碼永遠是最爛的，程式碼質量是改出來的，不是寫出來的。

任何牛逼的作家都知道，第一稿永遠是廢稿，好文章是改出來的，不是寫出來的。

現在，AI也一樣了。

未來展望

MIT在論文最後提到，這只是一個開始。

目前的RLM還有很多可以最佳化的地方：

1.非同步呼叫：目前子任務是一個接一個執行的，如果能平行執行，速度會更快。

2.更深的遞迴：目前只允許一層遞迴（AI呼叫自己的分身），如果允許分身再呼叫分身，理論上能處理更複雜的任務。

3.專門訓練：目前RLM用的是現成的大模型，如果專門為遞迴思考訓練一個模型，效果可能更猛。

MIT的研究者們相信，這可能代表了大模型能力擴展的一個新方向：

不是一味地堆參數、堆算力，而是讓模型學會更聰明地思考。

彩蛋

MIT這篇論文，讓我想起了一個老笑話：

客戶問程式設計師：這個bug你修了多久？

程式設計師說：5分鐘。

客戶說：那為什麼收我500塊？

程式設計師說：找出問題在那，花了我3天。

AI也是一樣。

它的思考時間遠比我們想像的更重要。

給它一點返工的機會，它可能就能從還行變成牛逼。

這也許就是下一代AI進化的方向：不是更大的腦子，而是更深度的思考。 (新智元)