【新智元導讀】你有沒有發現,你讓AI讀一篇長文章,結果它讀著讀著就忘了前面的內容? 你讓它處理一份超長的文件,結果它給出來的答案,牛頭不對馬嘴? 這個現象,學術界有個專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!
2025年最後一天,麻省理工學院(MIT)丟了一篇重磅論文,就是要解決這個問題的。
這篇論文叫《Recursive Language Models》,也就是遞迴語言模型。
看起來很學術,但說人話就一句:讓AI再做一遍,效果直接起飛。
先劇透兩個核心資料:
這啥概念?
以前我們覺得,AI不夠聰明,那就給它堆參數、加顯示卡、買更多GPU。
MIT這篇論文直接掀桌子:別堆參數了,讓它返工重寫一遍,效果可能更好。(真就是人類監工了)
原來解決問題的方法就是這麼簡單!
並且X上很多大佬紛紛點贊~
你有沒有這種經歷:
讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。
或者讓它幫你寫程式碼,它寫完了,一運行——全是bug。
但神奇的是,你讓它再檢查一遍、重新想想,有時候它就突然能改對了。
MIT的研究人員發現,這不是玄學,這是有規律的。
大多數AI犯的錯,不是因為它不懂,而是因為它初稿寫太快了。
就像你寫論文,第一稿總是稀爛,但改個三四遍,就像換了個人寫的。
AI也是一樣。
問題是:現在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。
它自己不會主動返工、不會自我檢查、不會反覆推敲。
或者換一個思路來理解大模型原先的思路:
假設你是一個剛進公司的實習生,領導給你發了一份500頁的資料,讓你整理出一份報告。
你會怎麼做?
正常人的做法是:先翻一翻,找到重點章節,然後一章一章地讀,讀完一章做個總結,最後把所有總結串起來。
對吧?
但大模型不是這麼幹的。
大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然後嘗試憑記憶回答問題。
這能記住才有鬼了。
這就是大模型面臨的困境。
它不是不聰明,它是記不住。
MIT這篇論文干的事兒,就是給AI裝上了一個返工的能力。
在聊MIT的解決方案之前,我得先跟你說清楚,為什麼這件事這麼重要。
你可能聽說過一個詞,叫上下文窗口。
啥意思呢?
你可以把AI大模型想像成一個天才,但是這個天才有個致命缺陷——他的工作台太小了。
你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作台上看。
超過工作台大小的部分?看不到,直接忽略。
現在最牛逼的GPT-5,工作台能放27萬個token(大約相當於20萬字中文)。
聽著挺厲害的對吧?
但問題來了。
就是說,那怕是在這27萬token的限制之內,模型的表現也會隨著輸入變長而急劇下降。
為什麼?
因為資訊太多了,它處理不過來了,腦子亂了。
就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了,但找不到了。
這就是大模型現在的困境:不是上下文窗口不夠長,而是長了也用不好。
好了,問題講清楚了,現在來看MIT的解決方案。
傳統做法是:你把資料直接塞進AI的腦子裡。
MIT的做法是:別塞進去了,放抽屜裡吧。
他們發明了一個叫RLM的東西。
RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用程式碼去翻那份資料。
打個比方。
以前的AI,就像一個學生,你把一整本教科書拍在他面前說:看完,然後回答我的問題。
學生:???我看不完啊,我能不能看一部分?
然後他就硬著頭皮看前面的一部分,後面的直接放棄。
RLM的做法不一樣。
它更像是給這個學生配了一個目錄系統和搜尋引擎。
資料還是那份資料,但學生不用從頭到尾讀了。他可以先翻目錄,看看大概結構,然後針對問題去搜尋相關段落,把有用的資訊摘出來。
更牛的是,這個學生可以把一個複雜問題拆成好幾個小問題,然後——注意重點來了——他可以召喚自己的分身,讓分身去同時處理各個小問題,最後彙總答案。
這就是遞迴的意思:AI可以呼叫自己的分身,讓自己幫自己幹活。
或者再降維一下理解就是:
它把這份超長的文件,當成一個放在外面的資料庫,而不是直接塞進腦子裡。
然後,模型可以寫程式碼,自己去查這個資料庫。
需要第一章的內容?寫個程式碼去查。
需要第十章的內容?再寫個程式碼去查。
需要把第一章和第十章的內容對比?
那就先查第一章,做個總結,再查第十章,做個總結,最後把兩個總結合起來。
這就像是一個有無限容量的外接硬碟。
模型的腦子裡裝不下那麼多東西,沒關係。
可以隨時去硬碟裡查,用到什麼查什麼。
這樣一來,理論上,模型可以處理無限長的文件。
具體怎麼做的?
MIT的實現方式其實挺優雅的。
他們給AI配了一個Python程式設計環境(REPL),把那份超長的資料存成一個變數。
然後AI不再直接去讀這份資料,而是用程式碼去操作它。
比如:
更厲害的是,AI可以把這份資料分段,把每一段交給一個子AI去處理,然後自己彙總結果。
這個子AI,用的其實是同一個模型,只不過是遞迴呼叫自己。
這個設計有兩個巨大的好處:
第一,AI不用在腦子裡記住那份超長資料了。
資料就放在外面的抽屜裡,需要的時候用程式碼去取。
這就意味著,理論上,資料可以無限長——只要抽屜夠大。
第二,AI可以自己判斷需要看什麼、不需要看什麼。
它不會傻乎乎地從頭讀到尾,而是會聰明地挑重點看。
這大大節省了計算成本,也提高了準確率。
MIT在論文裡做了一堆實驗,結果還是挺震撼的。
實驗一:超長文件理解
他們用了很多測試機,其中一個叫OOLONG的測試集,這個測試需要AI理解超長文件,並回答需要綜合全文資訊才能回答的問題。
結果:GPT-5基座模型的精準率44%,而RLM達到了56.5%。
而在CodeQA中,GPT-5基座模型的精準率24%,而RLM達到了62%,直接提升了2.7倍!
實驗二:超超超長文件(1000萬+token)
他們還把文件長度一路拉到1000萬token以上(相當於幾十本書的長度)。
GPT-5?壓根處理不了,直接爆炸。
RLM(GPT-5)?穩穩當當,表現基本不掉。
這是一個質的飛躍。
實驗三:成本對比
你可能會想:這麼牛逼的東西,是不是巨貴?
神奇的是,並沒有。
在BrowseComp-Plus基準測試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。
而RLM(GPT-5)的平均成本只有0.99美元。
更便宜,效果還更好。
為什麼?
因為RLM不會傻傻地把所有內容都讀一遍,它唯讀需要的部分。
這個發現為什麼重要?
MIT這篇論文的意義,遠不止於讓AI處理更長的文件。
它揭示了一個更根本的道理:
AI的能力邊界,不只取決於模型本身有多大、參數有多多,還取決於你怎麼使用它。
以前我們的思路是:模型不夠強——那就加參數。
MIT告訴我們:等等,也許不用加參數,讓它多想幾遍就夠了。
回到開頭提到的那個發現:
在多步推理任務中,僅增加2-4次遞迴處理,正確率就能提升10%-25%。大約4次迭代後,收益逐漸趨於平緩。
這說明什麼?
大多數AI犯的錯,都是初稿錯誤:不是它不懂,是它第一遍太草率了。
讓它返工幾次,就能改對。(所以有時候,你在使用AI時,還真的當個監工,讓AI多輸出幾次)
這跟人類其實一模一樣。
任何牛逼的程式設計師都知道,第一版程式碼永遠是最爛的,程式碼質量是改出來的,不是寫出來的。
任何牛逼的作家都知道,第一稿永遠是廢稿,好文章是改出來的,不是寫出來的。
現在,AI也一樣了。
MIT在論文最後提到,這只是一個開始。
目前的RLM還有很多可以最佳化的地方:
1.非同步呼叫:目前子任務是一個接一個執行的,如果能平行執行,速度會更快。
2.更深的遞迴:目前只允許一層遞迴(AI呼叫自己的分身),如果允許分身再呼叫分身,理論上能處理更複雜的任務。
3.專門訓練:目前RLM用的是現成的大模型,如果專門為遞迴思考訓練一個模型,效果可能更猛。
MIT的研究者們相信,這可能代表了大模型能力擴展的一個新方向:
不是一味地堆參數、堆算力,而是讓模型學會更聰明地思考。
MIT這篇論文,讓我想起了一個老笑話:
客戶問程式設計師:這個bug你修了多久?
程式設計師說:5分鐘。
客戶說:那為什麼收我500塊?
程式設計師說:找出問題在那,花了我3天。
AI也是一樣。
它的思考時間遠比我們想像的更重要。
給它一點返工的機會,它可能就能從還行變成牛逼。
這也許就是下一代AI進化的方向:不是更大的腦子,而是更深度的思考。 (新智元)