#麻省理工學院
MIT發現讓AI變聰明的秘密,竟然和人類一模一樣
【新智元導讀】你有沒有發現,你讓AI讀一篇長文章,結果它讀著讀著就忘了前面的內容? 你讓它處理一份超長的文件,結果它給出來的答案,牛頭不對馬嘴? 這個現象,學術界有個專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!2025年最後一天,麻省理工學院(MIT)丟了一篇重磅論文,就是要解決這個問題的。這篇論文叫《Recursive Language Models》,也就是遞迴語言模型。看起來很學術,但說人話就一句:讓AI再做一遍,效果直接起飛。先劇透兩個核心資料:在複雜推理任務上,僅僅讓模型多過2-4遍,正確率就能提升10%-25%在超長文件處理上,RLM(遞迴語言模型)在1000萬+token的規模下,依然保持穩定表現,而傳統模型直接崩盤!這啥概念?以前我們覺得,AI不夠聰明,那就給它堆參數、加顯示卡、買更多GPU。MIT這篇論文直接掀桌子:別堆參數了,讓它返工重寫一遍,效果可能更好。(真就是人類監工了)原來解決問題的方法就是這麼簡單!並且X上很多大佬紛紛點贊~從一個讓人崩潰的問題說起你有沒有這種經歷:讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。或者讓它幫你寫程式碼,它寫完了,一運行——全是bug。但神奇的是,你讓它再檢查一遍、重新想想,有時候它就突然能改對了。MIT的研究人員發現,這不是玄學,這是有規律的。大多數AI犯的錯,不是因為它不懂,而是因為它初稿寫太快了。就像你寫論文,第一稿總是稀爛,但改個三四遍,就像換了個人寫的。AI也是一樣。問題是:現在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。它自己不會主動返工、不會自我檢查、不會反覆推敲。或者換一個思路來理解大模型原先的思路:假設你是一個剛進公司的實習生,領導給你發了一份500頁的資料,讓你整理出一份報告。你會怎麼做?正常人的做法是:先翻一翻,找到重點章節,然後一章一章地讀,讀完一章做個總結,最後把所有總結串起來。對吧?但大模型不是這麼幹的。大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然後嘗試憑記憶回答問題。這能記住才有鬼了。這就是大模型面臨的困境。它不是不聰明,它是記不住。MIT這篇論文干的事兒,就是給AI裝上了一個返工的能力。AI的真正瓶頸:不是腦子不夠大,是記性太差在聊MIT的解決方案之前,我得先跟你說清楚,為什麼這件事這麼重要。你可能聽說過一個詞,叫上下文窗口。啥意思呢?你可以把AI大模型想像成一個天才,但是這個天才有個致命缺陷——他的工作台太小了。你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作台上看。超過工作台大小的部分?看不到,直接忽略。現在最牛逼的GPT-5,工作台能放27萬個token(大約相當於20萬字中文)。聽著挺厲害的對吧?但問題來了。就是說,那怕是在這27萬token的限制之內,模型的表現也會隨著輸入變長而急劇下降。當你給它8000個token的時候,它表現賊棒。給它8萬個token的時候,它開始有點迷糊。給它27萬個token的時候,它直接開始胡說八道。為什麼?因為資訊太多了,它處理不過來了,腦子亂了。就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了,但找不到了。這就是大模型現在的困境:不是上下文窗口不夠長,而是長了也用不好。MIT的天才想法:把資料放到抽屜裡好了,問題講清楚了,現在來看MIT的解決方案。傳統做法是:你把資料直接塞進AI的腦子裡。MIT的做法是:別塞進去了,放抽屜裡吧。他們發明了一個叫RLM的東西。RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用程式碼去翻那份資料。打個比方。以前的AI,就像一個學生,你把一整本教科書拍在他面前說:看完,然後回答我的問題。學生:???我看不完啊,我能不能看一部分?然後他就硬著頭皮看前面的一部分,後面的直接放棄。RLM的做法不一樣。它更像是給這個學生配了一個目錄系統和搜尋引擎。資料還是那份資料,但學生不用從頭到尾讀了。他可以先翻目錄,看看大概結構,然後針對問題去搜尋相關段落,把有用的資訊摘出來。更牛的是,這個學生可以把一個複雜問題拆成好幾個小問題,然後——注意重點來了——他可以召喚自己的分身,讓分身去同時處理各個小問題,最後彙總答案。這就是遞迴的意思:AI可以呼叫自己的分身,讓自己幫自己幹活。或者再降維一下理解就是:它把這份超長的文件,當成一個放在外面的資料庫,而不是直接塞進腦子裡。然後,模型可以寫程式碼,自己去查這個資料庫。需要第一章的內容?寫個程式碼去查。需要第十章的內容?再寫個程式碼去查。需要把第一章和第十章的內容對比?那就先查第一章,做個總結,再查第十章,做個總結,最後把兩個總結合起來。這就像是一個有無限容量的外接硬碟。模型的腦子裡裝不下那麼多東西,沒關係。可以隨時去硬碟裡查,用到什麼查什麼。這樣一來,理論上,模型可以處理無限長的文件。具體怎麼做的?MIT的實現方式其實挺優雅的。他們給AI配了一個Python程式設計環境(REPL),把那份超長的資料存成一個變數。然後AI不再直接去讀這份資料,而是用程式碼去操作它。比如:想看資料有多長?寫一行程式碼len(input_text)就知道了想看資料的前1000個字元?寫input_text[:1000]想在資料裡搜尋關鍵詞?寫個正規表示式更厲害的是,AI可以把這份資料分段,把每一段交給一個子AI去處理,然後自己彙總結果。這個子AI,用的其實是同一個模型,只不過是遞迴呼叫自己。這個設計有兩個巨大的好處:第一,AI不用在腦子裡記住那份超長資料了。資料就放在外面的抽屜裡,需要的時候用程式碼去取。這就意味著,理論上,資料可以無限長——只要抽屜夠大。第二,AI可以自己判斷需要看什麼、不需要看什麼。它不會傻乎乎地從頭讀到尾,而是會聰明地挑重點看。這大大節省了計算成本,也提高了準確率。效果到底有多猛?MIT在論文裡做了一堆實驗,結果還是挺震撼的。實驗一:超長文件理解他們用了很多測試機,其中一個叫OOLONG的測試集,這個測試需要AI理解超長文件,並回答需要綜合全文資訊才能回答的問題。結果:GPT-5基座模型的精準率44%,而RLM達到了56.5%。而在CodeQA中,GPT-5基座模型的精準率24%,而RLM達到了62%,直接提升了2.7倍!實驗二:超超超長文件(1000萬+token)他們還把文件長度一路拉到1000萬token以上(相當於幾十本書的長度)。GPT-5?壓根處理不了,直接爆炸。RLM(GPT-5)?穩穩當當,表現基本不掉。這是一個質的飛躍。實驗三:成本對比你可能會想:這麼牛逼的東西,是不是巨貴?神奇的是,並沒有。在BrowseComp-Plus基準測試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。而RLM(GPT-5)的平均成本只有0.99美元。更便宜,效果還更好。為什麼?因為RLM不會傻傻地把所有內容都讀一遍,它唯讀需要的部分。這個發現為什麼重要?MIT這篇論文的意義,遠不止於讓AI處理更長的文件。它揭示了一個更根本的道理:AI的能力邊界,不只取決於模型本身有多大、參數有多多,還取決於你怎麼使用它。以前我們的思路是:模型不夠強——那就加參數。MIT告訴我們:等等,也許不用加參數,讓它多想幾遍就夠了。回到開頭提到的那個發現:在多步推理任務中,僅增加2-4次遞迴處理,正確率就能提升10%-25%。大約4次迭代後,收益逐漸趨於平緩。這說明什麼?大多數AI犯的錯,都是初稿錯誤:不是它不懂,是它第一遍太草率了。讓它返工幾次,就能改對。(所以有時候,你在使用AI時,還真的當個監工,讓AI多輸出幾次)這跟人類其實一模一樣。任何牛逼的程式設計師都知道,第一版程式碼永遠是最爛的,程式碼質量是改出來的,不是寫出來的。任何牛逼的作家都知道,第一稿永遠是廢稿,好文章是改出來的,不是寫出來的。現在,AI也一樣了。未來展望MIT在論文最後提到,這只是一個開始。目前的RLM還有很多可以最佳化的地方:1.非同步呼叫:目前子任務是一個接一個執行的,如果能平行執行,速度會更快。2.更深的遞迴:目前只允許一層遞迴(AI呼叫自己的分身),如果允許分身再呼叫分身,理論上能處理更複雜的任務。3.專門訓練:目前RLM用的是現成的大模型,如果專門為遞迴思考訓練一個模型,效果可能更猛。MIT的研究者們相信,這可能代表了大模型能力擴展的一個新方向:不是一味地堆參數、堆算力,而是讓模型學會更聰明地思考。彩蛋MIT這篇論文,讓我想起了一個老笑話:客戶問程式設計師:這個bug你修了多久?程式設計師說:5分鐘。客戶說:那為什麼收我500塊?程式設計師說:找出問題在那,花了我3天。AI也是一樣。它的思考時間遠比我們想像的更重要。給它一點返工的機會,它可能就能從還行變成牛逼。這也許就是下一代AI進化的方向:不是更大的腦子,而是更深度的思考。 (新智元)
MIT用超算模擬了1.5億數字人,從上帝視角推演AI經濟,結論很顛覆…
最近,由麻省理工學院(MIT)Ayush Chopra與Santanu Bhattacharya領銜,聯合橡樹嶺國家實驗室(Oak Ridge National Laboratory)及多個州政府政策辦公室發佈了一份重磅報告——《冰山計畫:冰山指數與AI經濟中的技能敞口測量》(The Iceberg Index)。圖片 | 來自網路報告中得出的結論讓我們冷汗直冒,但又異常興奮。MIT說,我們目前看到的AI繁榮,僅僅是漂浮在水面上的2.2%;而水面之下,隱藏著高達11.7%、價值1.2兆美元的“隱性技術敞口”。這究竟是什麼意思?又意味著什麼?01 用超算推演AI經濟在看完報告後,如果你一定要我們給這份報告找一個核心隱喻,那就是:不要用溫度計去測量風速。過去兩百年,經濟學家們習慣了用GDP、失業率、全要素生產率來衡量技術革命。在蒸汽機時代,這很管用——機器進廠,工人下崗,產量翻倍,資料立竿見影。但在AI時代,這些指標統統成了“滯後指標”。當GDP資料反映出變化時,變革早已結束,甚至屍橫遍野。因為AI不像蒸汽機那樣笨重可見,它是無形的、滲透性的。比如當一個護士用AI最佳化了排班表,從而多照顧了兩名病人,GDP捕捉不到這個變化;當一個中西部工廠的品控經理用視覺模型替代了肉眼檢查,失業率資料也還沒來得及反應。為了打破這種盲視,《冰山計畫》的研究團隊做了一件極其硬核的事。他們動用了世界級的Frontier超級電腦,建構了一個“大群體模型”(Large Population Models, LPMs)。簡單來說,他們造了一個“平行宇宙版的美國”。在這個基於AgentTorch建構的數字沙盒裡,生活著1.51億個“數字工人”。他們是擁有獨立屬性的智能體(Agent):每個智能體都有具體的職業(覆蓋923種工種);每個智能體都點亮了不同的技能樹(基於O*NET的32,000種技能);每個智能體都有真實的地理坐標(分佈在3000個縣域)。研究團隊向這個沙盒投放了各種AI工具(從Copilot到Zapier自動化流),然後按下“運行鍵”,模擬這1.51億人在數十億次工作互動中,到底發生了什麼。提一嘴,這種模擬方式對現有的社會研究是一種降維打擊。而正是通過這種上帝視角,我們才第一次看見了那個被傳統經濟學遺漏的龐然大物——“冰山指數”(The Iceberg Index)。02 報告的3個洞見好,Frontier超算的模擬結果讓我們看到了3個洞見:首先擊碎的是我們對“AI中心”的地理認知。如果你問一個路人:“美國AI革命的中心在那裡?”十個人有九個會回答:舊金山、西雅圖、波士頓。但《冰山計畫》通過熱力圖揭示了一個“產用分離”現象:生產AI的地方(GenAI Hubs) ≠ 被AI重塑的地方(AI-Exposed Hubs)。我們可以說——2.2%水上 vs 11.7%水下。水面之上,是2.2%顯現薪資價值。這部分主要集中在加州、華盛頓州。這裡的工程師們在訓練模型,VC們在談論估值。這裡是AI的“兵工廠”,雖然喧囂,但只佔經濟總盤子的極小部分。水面之下,是隱性的11.7%價值。這部分遍佈全行業,是靜悄悄的效率革命。最驚人的發現是:那11.7%的隱性金礦,並不在矽谷,而是在俄亥俄州、田納西州、猶他州、密歇根州。也就是我們常說的“鐵鏽地帶”。那為什麼會這樣?你想想,AI大模型最擅長解決什麼問題?它擅長處理複雜的文件、協調繁瑣的流程、最佳化大規模的調度、輔助專業的合規判斷。那裡這種工作最多?不是在寫程式碼的矽谷創業公司,而是在擁有龐大供應鏈的製造業基地、擁有複雜理賠流程的保險中心、擁有海量病例管理的醫療重鎮——在俄亥俄州(冰山指數高達11.8%),無數的製造業供應鏈需要管理;在田納西州(11.6%),聯邦快遞的樞紐帶動了複雜的物流計算。報告將這種現象稱為“自動化意外”(Automation Surprise)——這些地區表面上看起來毫無“科技感”,但其內部的技能結構正處於極高的AI滲透前夜。這給我們中國的啟示也是震撼的:所謂的“舊經濟”,其實是AI最大的“新礦場”。其二,讓我們深入解剖一下11.7%通過超級電腦模擬,得到的技術敞口是11.7%。其實很多人看到“11.7%的技術敞口”時,第一反應往往是鬆了一口氣:“還好,只有一成多,還沒到大面積失業的時候。”這是一個誤讀。要知道,AI重新定義了“工作的價值”。在過去的工業革命中,自動化遵循“替代手腳”的邏輯:先替代最髒、最累、最廉價的體力勞動(比如搬運、組裝)。但《冰山計畫》說:這一次,AI正在吞噬的是高薪技能。讓我們把一個資深金融合規官(年薪20萬美元)的工作拆解開來:A類技能(耗時60%): 閱讀幾百頁的新監管條例,比對舊條款,檢索歷史違規案例,撰寫初步風控報告。B類技能(耗時30%): 與業務部門博弈,在灰色地帶做決策,承擔簽字的法律責任。C類技能(耗時10%): 開會、社交、建立信任。在AI出現之前,企業必須為A類技能支付高昂的薪水,因為這需要極高的知識儲備和閱讀速度——這被稱為“知識溢價”。然而,11.7%的AI技術敞口,精準覆蓋的正是A類技能——AI可以在幾分鐘內完成A類工作,且精準率更高。也就是說,企業支付給這位合規官的20萬年薪裡,原本用來購買“閱讀與整理能力”的那12萬美元,瞬間失去了價值支撐。這就像是切走了牛排最嫩的菲力,只留下了難啃的骨頭。其三,崗位空心化報告中提到了一個非常反常的資料:傳統的失業率、GDP增長與AI影響力的相關性極低(R² < 0.05)。按理說,如此巨大的技術衝擊,經濟資料應該劇烈波動才對。那為什麼沒有呢?因為發生了“崗位空心化”。在現階段,AI並沒有直接把人踢出辦公室,而是製造了一種“勝任力假象”。以前,一位資深分析師需要10年經驗才能寫出一份完美的研報。但現在,一個剛畢業的實習生,配合三個AI Agent,也能產出80分甚至90分的研報。表面上看,大家都在工作,崗位沒少。但實質上,“資深經驗”的護城河被填,平,了!當一個初級員工借助工具就能達到高級員工的產出時,企業主可能暫時不會裁員,但市場一定會重新定價。“通用認知能力”的價格將急劇下降,這就像計算器普及後,心算快的人不再值錢一樣。這種效率的提升掩蓋了崗位價值的結構性危機。GDP看著沒變,但其實是因為原本昂貴的“智力服務”變得像自來水一樣廉價,通縮的陰影已經籠罩在每個白領的頭上。所以,如果結合以上三點,我們將這個邏輯推演到底,會得出什麼結論?未來的薪資,將不再為你的“知識儲備”買單,因為知識已經不值錢了;未來的薪資,只為你的“決策擔當”、“人際信任”和“物理行動”買單——也就是那些AI目前還無法覆蓋的剩下88.3%。所以,不要慶幸自己不在那11.7%的直接替代名單裡。你應該擔心的是:當那11.7%的核心價值被AI抽走後,你剩下的技能,是否還配得上現在的工資?03 中國啟示錄雖然這份報告研究的是美國,但最終,我們需要思考國內的情況。如果說舊金山對應的是北京海淀和上海西岸(大模型扎堆,卷算力,卷參數);那麼美國“鐵鏽帶”對應的就是中國的佛山、蘇州、寧波、長沙等等。而且,我們在這些地方,有世界最完備的製造業門類,有最複雜的物流場景,有最密集的內外貿流程。按照《冰山計畫》的邏輯,中國AI的真正爆發點,就誕生在某個寧波注塑廠的排產辦公室裡,或者義烏小商品城的跨境電商後台裡。而且中國的“冰山指數”比美國更高。因為我們的製造業供應鏈更長,我們的行政管理節點更多。對於中國的政策制定者和企業家來說,這是一個巨大的訊號:去關注那些“含科量”看似不高,但“含資料量”極大的實體產業。去尋找那些擁有複雜流程、高人力成本的“隱形冠軍”。那裡,才是中國AI經濟的震中。 (TOP創新區研究院)
MIT研究預測:AI對勞動力市場的潛在替代高達1.2兆美元薪酬規模
寫在前面在當前全球經濟格局中,人工智慧對勞動力市場的重塑已成為不可逆轉的趨勢。然而,政策制定者和市場觀察者長期以來普遍面臨一個核心矛盾:我們所能觀測到的失業和顛覆,僅是這場結構性變革的冰山一角麻省理工學院(MIT)近期發佈的《冰山指數》研究,正是旨在解決這一認知偏差的戰略工具。該研究將AI視為一種可被精確測繪的經濟地理風險,將決策視角從"事後危機管理"提升到"事前數位化模擬"。一、核心事件:建構數字孿生勞動力大軍MIT研究人員的激進行動是為1.51億美國勞工建構軟體對等物,相當於為美國勞動力建立了一個"數字孿生"。這一舉措將AI顛覆風險的評估從基於傳聞,轉變為基於大規模模擬和微觀技能對應的科學模型。重要發現:目前在科技中心可見的工資中斷僅佔總風險的2%,而隱藏的風險層比可見風險大5倍。二、戰略動機:政策工具的"先發制人"政策制定者(包括田納西州、猶他州和北卡羅來納州等報告的共同作者)使用《冰山指數》進行前瞻性規劃:1. 風險前瞻與預算最佳化該指數是一個"早期預警地圖",使政策制定者能夠在衝擊發生之前,轉移資金和調整培訓。避免盲目投入數十億美元的再培訓投資。2. 精準干預與地域定製化傳統模型往往關注沿海城市,但《冰山指數》提供了細化到郵政編碼的深度地圖,使政策干預措施可以精準匹配當地職業風險。3. 政策沙盒與立法測試該指數提供一個互動式模擬環境,允許州政府對各種政策槓桿進行實驗,探索技術採用的變化如何影響噹地就業和GDP。三、從海岸到腹地的風險遷移在《冰山指數》出現之前,關於AI對就業影響的敘事主要集中在科技行業。此前MIT另一項研究指出,95%的企業AI採用並未成功,這可能助長了對AI變革速度的低估。舊範式:可見風險• 集中於科技中心/沿海城市• 僅關注可見的工資中斷(2%)• 聚焦高科技/軟體開發行業• 如何應對即時裁員衝擊新範式:《冰山指數》揭示的隱藏風險• 覆蓋3,000個縣,包括非沿海地區• 揭示五倍於可見風險的隱藏層• 廣泛涉及醫療保健、金融和專業服務• 如何提前部署大規模技能重塑四、現實挑戰:不確定的"倒計時""研究人員強調,這不是裁員的倒計時時鐘。它更像是一個早期預警地圖,以便政策制定者能夠在衝擊來臨之前,圍繞資金和培訓進行轉移。"風險是潛伏的(隱藏層是可見層的五倍),但其轉化為實際裁員的速度和時間表是不確定的。這導致兩個主要挑戰:政策惰性風險由於沒有立即爆發的大規模失業,立法機構可能缺乏動力去迅速撥付數十億美元的再培訓資金。資料與現實的校準模型依賴於將32,000種技能對應到923種職業。如果實際AI採用速度與預測有偏差,可能導致資源被錯誤分配。五、深層護城河:互動式生態系統《冰山指數》真正的壁壘並非僅僅是一份報告,而是其提供的互動式模擬環境。田納西州案例•已成為這一處理程序中的先行者•參與了報告的共同撰寫•根據《冰山指數》建構了自己的AI與工作儀表板•跟蹤該州範圍內的職業風險暴露和工資影響•正在指導該州的政策和支出決策這種地方政府對AI模型的內化和應用,形成了難以被傳統方法取代的軟實力壁壘。六、未來推演:勞動力市場的地域分化未來3-5年,美國勞動力市場的格局將根據州政府對《冰山指數》等前瞻性工具的採納程度而產生顯著分化。先行者(如田納西州)通過AI儀表板和"技能優先"招聘規則,能夠提前避險AI對醫療、金融和專業服務等行業的衝擊,保持勞動力市場的穩定性和競爭力。滯後者缺乏精確的風險地圖,繼續依賴舊有的低效培訓投資,導致政策滯後於實際的失業衝擊,加劇地域經濟不平等。核心受影響職業醫療保健(行政和診斷支援)金融(後台操作)專業服務(基礎法律文書、諮詢資料整理)七、三大核心結論結論一資訊不對稱是最大的政策成本AI變革時代最大的壁壘不是技術的缺乏,而是風險的錯誤量化和地理資訊的不對稱。結論二再培訓投入的數位化勢在必行面對1.2兆美元工資的潛在風險,對政策有效性進行事先模擬和驗證的趨勢不可逆轉。結論三政策執行力的AI化AI對勞動力市場的最終影響,將體現在政府治理和政策執行效率的提升上。"這種方法就像一個預警系統,不是告訴你災難何時發生,而是告訴你那裡需要提前修建堤壩,並允許你在模擬環境中測試堤壩的高度和材料。"風險提示1.政治與財政惰性風險:立法者可能因缺乏即時政治壓力而延遲再培訓資金。2.模型精準性與校準風險:AI技術實際應用速度可能與模型預測出現偏差。3.技術突變與加速風險:AI技術進步速度可能超過指數更新速度。4.資料隱私與跨州協調風險:聯邦層面協調使用資料可能面臨挑戰。 (FinHub)