#論文
姚順雨騰訊首篇論文:給AI下半場指路“上下文學習”
姚順雨,入職騰訊首席AI科學家後,參與的首個成果來了。CL-bench,專門用來測試大模型“從上下文中學習”的能力。這項研究與姚順雨一貫的研究思路高度契合,去年8月他在OpenAI期間發表的博文《下半場》曾提出一個被反覆引用的判斷:AI正處在“中場休息”階段,上半場是訓練大於評估,下半場將是評估大於訓練。真正重要的不是繼續堆模型規模,而是讓模型在真實任務、真實系統中經得起檢驗。CL-bench的評測結果相當扎心,當前最強的GPT-5.1 (High),任務解決率只有23.7%。換句話說,即便把解題所需的全部資訊都喂給模型,它依然在超過四分之三的任務上栽了跟頭。為什麼需要上下文學習研究團隊在部落格中開門見山地指出了一個被忽視的問題:今天的前沿模型是頂級的“做題家”,能解奧數、能寫程式碼、能通過人類需要苦讀數年才能拿下的專業資格考試。但這能在考場拿滿分的學生,未必能勝任真實世界的工作。部落格中舉了三個人類日常生活的例子:開發者掃過從未見過的工具文件就能立刻偵錯程式碼;玩家拿起新遊戲的規則書在實戰中邊玩邊學;科學家從複雜的實驗日誌中篩選資料推匯出新的結論。這些場景中,人類並不只依賴多年前學到的死知識,而是在即時地從眼前的上下文中學習。然而今天的語言模型並非如此。它們主要依賴“參數化知識”,即在預訓練階段被壓縮排模型權重裡的靜態記憶,在推理時更多是在呼叫這些封存的內部知識,而不是主動從當前輸入的新資訊中汲取營養。團隊用一句話概括了這個矛盾:我們造出了依賴“過去”的參數推理者,但世界需要的是能吸收“當下”環境上下文的學習者。CL-bench:500個複雜上下文,一個簡單但苛刻的要求為了量化這個差距,團隊建構了CL-bench。這個基準包含由資深領域專家精心製作的500個複雜上下文、1899個任務和31607個驗證標準。設計原則只有一條:解決每個任務要求模型必須從上下文中學習到預訓練中不存在的新知識,並正確應用。模型需要學習的知識非常廣泛,包括新的領域知識、不熟悉的規則系統、複雜的產品工作流,甚至是必須從實驗資料中推導歸納出的定律或結論。所有這些知識要麼是由領域專家完全新建構的,要麼是取自那些不太可能出現在當前前沿模型訓練資料中的小眾、長尾來源。具體來說,CL-bench涵蓋了四種現實世界的上下文學習場景:領域知識推理,比如虛構的法律體系或創新的金融工具;規則系統應用,比如新的遊戲機制或程式設計語法;程序性任務執行,比如工作流和產品手冊;以及最具挑戰性的經驗發現與模擬,要求模型從資料中歸納出潛在規律。團隊展示了幾個任務案例:在一部長達2.3萬字、剛剛生效的新法律下判一起真實糾紛;基於一門新設計的教育程式語言規範實現一個帶有時間條件終止的周期性程序;在一套從未見過的程式設計框架中執行程式碼;在給定技術規格和長期環境政策情景的條件下模擬關鍵技術金屬的可持續全球供應。為了確保測試結果反映的是真正的上下文學習能力而非資料洩露或記憶,團隊採用了無污染設計:專家創作完全虛構的內容,或修改現實世界的內容建立變體,或整合在預訓練資料集中代表性極低的小眾內容。論文特別提到,在不提供任何上下文的情況下,GPT-5.1 (High)僅能解決不到1%的任務,有力證明了模型若不從上下文中學習幾乎完全無法解決這些任務。平均而言,領域專家花費約20小時標註每個上下文,以確保任務建構的質量和深度。十個前沿模型集體翻車即使提供上下文,當前模型的表現也好不到那去。團隊在CL-bench上評估了十個最先進的語言模型,結果揭示了當前模型幾乎不能從複雜上下文中學習來解決真實場景的問題。平均而言,模型僅解決了17.2%的任務,即便是表現最好的GPT-5.1 (High)也僅達到23.7%。錯誤分析顯示了幾個值得注意的現象。忽略或誤用上下文是導致失敗的主要原因,許多錯誤並非源於資訊缺失,而是源於模型忽視了上下文中的關鍵細節或錯誤地應用了它們。在許多情況下,模型只會利用預訓練學習到的靜態知識來解決任務,即使上下文明確定義了新的規則、概念或程序,模型也不會學習和利用。此外,從實驗資料和環境模擬中進行歸納推理比演繹應用更困難。演繹任務讓模型根據上下文中明確給出的規則和流程進行應用,而經驗發現和環境模擬類任務則要求歸納推理。模型在這類任務上的表現明顯較差,任務解決率通常低於10%,且結果波動大。更高的推理強度通常能提升上下文學習效果,但提升有限。例如GPT-5.1在管理類和實驗資料類任務上的表現提升約6%,但其他模型提升有限甚至可能下降,說明單靠更多推理並不足夠,模型還必須能夠正確吸收和組織上下文資訊。研究團隊最後寫道:CL-bench充分解釋了語言模型在真實場景中為什麼經常出錯:即使有了上下文工程,給模型準備好了所需的上下文,模型也會失敗。如果模型不能真正從中學習,僅僅提供上下文是不夠的。從“AI下半場”到騰訊首席AI科學家與其繼續刷榜,不如先搞清楚模型到底還差在那兒。CL-bench某種程度上正是姚順雨關於AI下半場這一判斷的具體實踐。這項研究由騰訊混元和復旦大學團隊合作完成,共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。致謝部分提到,從上下文中學習新知識的想法最早源於Pluto Zhou在2024年提出的設想,同時特別感謝姚順雨提供的鼓勵以及多次寶貴建議,稱“他的全面而細緻的審閱和反饋,極大地幫助我們進一步提升了這項工作的質量”。姚順雨今年1月正式加盟騰訊,職位是騰訊總辦首席AI科學家,向騰訊總裁劉熾平匯報,同時兼任AI Infra部、大語言模型部負責人向技術工程事業群總裁盧山匯報。團隊在最後也留下了下一步研究思路:起碼在當下,我們的目標是很明確:讓上下文學習真正走向現實。 (量子位)
OpenAI凌晨放大招,免費Prism顛覆科研!從摘要到致謝,GPT-5.2包圓
【新智元導讀】科研工具幾十年未變的僵局終被打破,OpenAI攜GPT-5.2強勢入局,用免費的Prism告訴世界:未來的科學研究,不需要在碎片化的舊工具中浪費生命!昨天一場QA局後,奧特曼終於扔出了王炸。深夜,OpenAI正式祭出新一代科研利器——Prism,由GPT-5.2加持,專為寫作和協作而生。它是一個基於雲的「AI原生」LaTeX工作區,不限項目和協作的人數。最方便的是,GPT-5.2內嵌在項目中——它能看到你整篇論文的結構、公式、參考文獻,還有上下文,科研需要時隨叫隨到。這麼說吧,它就是科研黨、學生黨的研究利器。把論文潤色交給Prism,它能從第一行摘要開始全程絲滑代勞,人類只需扮演那個不斷點「繼續」的稽核機器。它還直接可以把上傳的白板圖,一鍵轉化成TikZ圖,並插入游標所在的位置。Prism還可以管理參考文獻,彙總所有和論文相關的研究。甚至就連最後一步稽核,AI也全包了。這不,OpenAI團隊還即興創作了一篇介紹Prism的論文。Prism的發佈,或許是OpenAI想要在科研領域重點發力的一步棋。AI大佬點評,「未來和Prism一起科研,每篇論文都將出現一個ChatGPT合著者」。一夜之間,OpenAI殺死了寫論文高效神器Overleaf。從今天起,任何擁有ChatGPT個人帳號的使用者,全部都可以免費用。很快,Prism也將面向ChatGPT Business、Enterprise和Education開放。Prism終結科研工具論文一句話搞定在過去的一年裡,AI開始加速各領域的科研工作。像GPT-5這樣先進的推理系統,正在拓展數學的邊界,加速人類免疫細胞的實驗分析,甚至加快了分子生物學的迭代速度。然而,現實是骨感的。許多科研的日常工作,比如起草論文、修改論點、管理公式和引用,以及與協作者溝通等等,依然割裂在各種不互通的工具裡。研究人員不得不在編輯器、PDF 閱讀器、LaTeX編譯器、文獻管理軟體和獨立的聊天軟體之間反覆橫跳。這不僅丟失了上下文語境,更無情地打斷了寶貴的專注力。Prism,就是OpenAI為解決這種「碎片化」痛點邁出的第一步。GPT-5.2加持,重塑科研工作流具體來說,它基於OpenAI收購的一個雲端LaTeX平台Crixet建構。借助最先進的數學與科學推理模型GPT-5.2,OpenAI將起草、修改、協作和出版準備整合進了一個單一的、基於雲端的LaTeX原生工作區。由此,GPT-5.2不再是游離於寫作過程之外的獨立工具,而是直接深入項目內部工作流——它能讀取論文結構、公式、引用以及周圍的上下文語境。這讓OpenAI能夠在一個成熟、強大的寫作環境中,以一種最自然契合科研工作流的方式整合AI。使用Prism,研究人員可以獲得以下超能力:與GPT-5.2 Thinking對話:在當前語境下探索思路、驗證假設,並對複雜的科學問題進行推理。全域語境下的起草與修改:AI能結合整篇文件(包括周圍的文字、公式、引文、圖表和整體結構)來輔助寫作和修改。智能文獻搜尋與整合:結合當前手稿的內容搜尋相關文獻(例如arXiv),並根據新發現的相關工作自動建議修改文字。智能處理公式與圖表:建立、重構並推理公式、引用及圖表,AI能夠理解這些元素在論文中是如何相互關聯的。草圖秒變LaTeX:將白板上的公式或圖示直接轉換為LaTeX程式碼,省去數小時逐像素調整圖片的繁瑣工作。無縫即時協作:與共同作者、學生和導師即時協作,任何編輯、評論和修訂都會即時同步。文件內直接修改:根據指令直接對文件進行修改,徹底告別在獨立編輯器和聊天工具之間來回覆制貼上。語音編輯:支援語音功能進行簡單的修改,無需中斷寫作或審閱流程。不限人數,0門檻共寫論文科學研究的本質是協作。一篇論文的誕生,往往凝聚了共同作者、學生、導師和審稿人的心血,跨越了機構和地域的限制。Prism支援無限協作者,允許研究團隊共同工作,沒有任何席位限制或訪問門檻。由於它是基於雲端的,使用者無需在本地配置LaTeX環境,這讓團隊協作變得前所未有的輕鬆。通過減少版本衝突、手動合併和機械性的重複勞動,Prism讓團隊從繁瑣的檔案管理中解脫出來,將精力回歸到研究本身。全免費,人手一個科研利器Prism的另一個核心使命是降低門檻,普及科學工具的使用。Prism是完全免費的。任何擁有ChatGPT帳號的人都可以立即開始寫作,沒有訂閱費用,沒有席位限制。OpenAI希望通過讓高品質的科學工具觸手可及,讓無論身處那個機構、學科或職業階段的研究人員,都能充分參與到科學處理程序中來。未來,更強大的AI高級功能將通過ChatGPT的付費計畫逐步推出。為什麼現在推出?2025年,AI徹底改變了軟體開發。2026年,科學領域也會迎來同樣的變革。AI將在多個維度實質性地加速科學發現,而減少日常科研工作中的阻力正是關鍵一環。Prism正是通向那個未來的先行者。OpenAI期待向每一位使用Prism的研究人員學習,共同打造能讓科學極速前行的工具。讓我們共同努力,迎接科學的新時代。 (新智元)
一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車
這篇中國團隊領銜發佈的論文,已經在外網刷屏了,僅一夜閱讀就達到了200萬!這位MIT博士回國創業後組建的團隊,拉來全球24所頂級機構,給AI如何助力科學發現來了一劑猛藥。最近,一篇由中國團隊領銜全球24所TOP高校機構發佈,用於評測LLMs for Science能力高低的論文,在外網炸了!當晚,Keras (最高效易用的深度學習框架之一)締造者François Chollet轉發論文連結,並喊出:「我們迫切需要新思路來推動人工智慧走向科學創新。」AI領域KOL Alex Prompter分享論文核心摘要後,NBA獨行俠隊老闆Mark Cuban跟帖轉發,矽谷投資人、歐洲家族辦公室、體育媒體同時湧進評論區。僅一夜,累計閱讀量逼近200萬。值得一提的是,同一時間窗裡,OpenAI也發佈了對於AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現有評測標準在AI for Science領域失靈。神同步OpenAI、海外討論出圈,究竟是什麼樣的一份工作成果,攪動了全球AI輿論場?AI距離可以助力科學發現,還有多遠?前段時間,美國推出「創世紀計畫」,號稱要調動「自阿波羅計畫以來最大規模的聯邦科研資源」,目標是在十年內將美國科研的生產力和影響力翻倍。但在人工智慧估值泡沫隱現、能耗與產出比飽受質疑的當下,一面是資本的狂歡,另一面卻是AI能力困於「文生圖」等表層應用的尷尬;一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮,另一面卻是現有LLMs還無法精準解析簡單核磁圖譜的尷尬現狀。人們不禁要問:能在題庫拿高分,就能助力科學發現嗎?現在的模型距離科學發現還有多遠?究竟什麼樣的AI模型可以勝任,拓寬人類的生存邊界?這些討論,在中美AI競爭白熱化的當下變得愈發濃烈。在此背景下,由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、史丹佛、劍橋、牛津等全球24所科研院校共同發佈的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時代之問。論文推出了LLMs for Science首套評測體系SDE(Scientific Discovery Evaluation),從科學問題到研究項目,對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。同以往評測體系不同的是,SDE對模型能力的考量,從簡單的問答式,引向了具體的「假設->實驗->分析」實驗場景。研究發現,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均精準率 50–70%,遠低於它們在GPQA、MMMU等題庫上的80–90%;在86道「SDE-Hard」難題中,最高分不足12%,共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板。更值得警惕的是,模型規模與推理能力的提升已呈現明顯的 「邊際效益遞減」。GPT-5相較於前一代模型,參數規模和推理算力顯著增加,但在SDE基準的四大科學領域中,平均精準率僅提升3%-5%,部分場景(如NMR結構解析)甚至出現性能下滑。換句話說,當前大語言模型在推動科學發現方面的表現,還不如一個普通的本科生。能領銜24所頂尖科研院校發佈背後團隊是誰?《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理Deep Principle」創始人兼CTO。早在2021年,在MIT攻讀化學博士期間,他就已在圖靈獎得主Yoshua Bengio的支援下,發起了AI for Science社區的建立,並在NeurIPS上舉辦AI for Science workshop。2024年初,他與MIT物理化學博士賈皓鈞回國,共同創立「深度原理Deep Principle」。賈皓鈞任CEO,段辰儒任CTO,兩人雖為95後,但已在全球AI for Science創業領域小有名氣。創業一年半以來,其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資,且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關係。「深度原理Deep Principle」從創立之初,就帶著全球AI for Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發中的第一線,將生成式人工智慧同量子化學結合起來,致力於推動材料發現等領域進入新紀元。在過去的一年中,他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果,宣告著他們的技術領先和開放交流的「95後創業公司」心態。從開拓擴散生成模型(Diffusion Models)在化學反應的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機器學習勢(Machine Learning Potentials, MLPs)和擴散生成模型的直接對比,證明傳統的機器學習勢不是「萬能」的,再到現在組織各大頂級學者和高校推出SDE,證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能,精準切入AI for Science領域的核心衝突。但同時,對於所有的AI4S公司而言,在商業真金白銀的檢驗中,AI能否真正解決新產品研發問題、滿足客戶期待,是日復一日必須面對的拷問。隨著與行業頭部客戶的商業化合作落地,「深度原理Deep Principle」的資料庫中已經匯聚了來源於客戶與自己實驗室、大量來自第一線的真實工業研發場景資料和模型應用經驗。學術圈的深耕與在AI for Science商業化第一線的積累,讓「深度原理Deep Principle」在提出要建構一把新尺子評測LLMs for Science能力時,一呼百應,搖來了23家全球TOP科學發現機構的50餘位科學家,成立了制定SDE的「夢之隊」。這其中,不乏活躍在LLM領域的大牛學者們,比如:孫歡(Huan Sun),MMMU發起人,俄亥俄州立教授杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區「營運大管家」王夢迪,普林斯頓最年輕教授,AI+Bio Safety先驅者Philippe Schwaller,IBM RXN之父,EPFL教授而「深度原理Deep Principle」前期積累的科學發現場景,成為了後來SDE評測體系的前身。在經歷近9個月的跨高校跨學科跨時區的協作後,《Evaluating LLMs in Scientific Discovery》論文正式發佈,通訊單位赫然寫著:深度原理,杭州,中國。自此,匯聚著全球頂級科學發現機構的集體智慧,來自中國的創業團隊「深度原理Deep Principle」,和大洋彼岸的OpenAI,同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。或許千百年後,當人類回望AGI時代,在21世紀的四分之一結束的當口,這場由中美團隊共同呼應的,對於AI for Science的嚴肅討論,把LLMs在各類問答式榜單上的內卷,向真正科學發現的星辰大海推近了一步。「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了,目前LLM的發展路徑並不能「順便攻克」科學發現。這條通往科學超級智能之路,需要更多有識之士共同並肩而行。 (新智元)
【梁文鋒署名】DeepSeek再發新論文:75%思考+25%記憶,這是他們算出來的最優解
DeepSeek又發論文了。這次的主題有點意思:他們發現,現在的大模型在浪費大量算力做一件很傻的事——用計算來模擬查字典。論文叫《Conditional Memory via Scalable Lookup》,核心是一個叫Engram的模組。這個名字有點意思。Engram是神經科學術語,最早由德國生物學家Richard Semon在1904年提出,指的是大腦中儲存記憶痕跡的物理結構——當你記住"巴黎是法國首都"這個事即時,這條資訊就以某種物理形式(可能是特定的神經連接模式)儲存在你的大腦裡,這個物理痕跡就叫engram。DeepSeek用這個名字,顯然是想說:我們要給大模型裝上真正的"記憶"。說實話,看完之後我挺興奮的——這篇論文的思路非常優雅,而且解決的是一個很根本的問題。更重要的是,它觸及了一個認知科學的經典命題:記憶和思考是什麼關係?先說問題:大模型在浪費算力做"背書"你有沒有想過,當大模型看到"Diana, Princess of Wales"(戴安娜王妃)這個詞的時候,它內部發生了什麼?DeepSeek在論文裡引用了一個很有意思的研究(PatchScope):模型需要消耗多層Attention和FFN,才能逐步把這個實體識別出來。具體來說,模型處理"Wales"這個詞時的內部狀態演變:看到沒?模型用了6層計算,才把一個固定的歷史人物識別出來。問題在於:這個資訊是靜態的、固定的,根本不需要每次都"計算"出來。"亞歷山大大帝"就是"亞歷山大大帝","四大發明"就是"四大發明","張仲景"就是"張仲景"。這些固定搭配、命名實體、慣用表達,每次都用神經網路重新計算一遍,是不是有點傻?這就像你每次需要查"中國首都是那"的時候,不是直接查字典,而是從頭推理一遍——中國是個國家,國家有首都,中國的政治中心在...DeepSeek的核心觀點是:大模型浪費了大量的"網路深度"在做這種重複性的靜態知識重建。這些算力本來可以用來做更有價值的事——比如推理。Engram的核心思想:給模型發一本字典想像你在考試。以前的規則是:什麼都不能帶,全靠腦子現場推。"亞歷山大大帝是誰?"你得從頭想——亞歷山大,希臘名字,大帝說明是君主,歷史上有名的希臘君主...現在新規則:允許帶一本字典進考場。字典裡寫著"亞歷山大大帝 = 馬其頓國王,公元前356-323年,征服了波斯帝國"。你直接翻到這一頁,抄上去,省下來的時間做後面的推理題。Engram就是這本字典。具體怎麼查?很簡單:模型看到"Alexander the Great"這三個詞連在一起,就像看到字典的索引詞條。它用一個很快的方法(雜湊)定位到字典裡對應的那一頁,直接把預先存好的資訊拿出來用。整個過程不需要"思考",只需要"翻頁"。但這裡有個問題:同一個詞在不同場合意思不一樣。比如"蘋果",可能是水果,也可能是那家科技公司。字典裡存的是那個意思?Engram的解決方案很聰明:查完字典之後,先看看上下文,再決定用不用。如果前面在聊水果,字典裡查出來的"蘋果公司"就不太對勁,模型會自動忽略這個查表結果,繼續用自己的推理。如果前面在聊手機,那字典裡的資訊就很有用,直接採納。這就像一個聰明的學生:帶了字典進考場,但不是無腦抄,而是先判斷字典裡的答案和題目對不對得上。關鍵發現:U型縮放定律這裡是論文最有意思的部分。DeepSeek研究了一個問題:如果總參數量固定,應該把多少參數分配給MoE專家,多少分配給Engram記憶?他們定義了一個"分配比例"ρ:ρ = 100% 表示純MoE(所有稀疏參數都給專家)ρ < 100% 表示把部分參數從專家轉移到Engram實驗結果讓人驚訝:驗證損失呈現U型分佈:純MoE(ρ=100%)不是最優的分配約20-25%給Engram(ρ≈75-80%)效果最好把太多參數給Engram(ρ<50%)效果又變差這個U型曲線說明了什麼?MoE和Engram是互補的:MoE擅長動態的、需要上下文推理的任務Engram擅長靜態的、固定模式的識別兩者缺一不可。純MoE缺少記憶能力,純Engram缺少推理能力。插一段:博爾赫斯早就寫過這個看到這個U型曲線的時候,我突然想起博爾赫斯的一個短篇:**《博聞強記的富內斯》**(Funes the Memorious)。故事講的是一個叫富內斯的阿根廷青年,從馬上摔下來之後,獲得了"完美記憶"的能力——他能記住一切。每一片葉子的形狀,每一朵雲的變化,甚至能記住1882年4月30日黎明時分南方天空的雲綵排列。但博爾赫斯寫道:富內斯無法思考。"思考就是忘記差異,就是概括,就是抽象。在富內斯塞滿了東西的世界裡,只有細節,幾乎是直接感知的細節。"富內斯能記住三個不同時刻看到的同一條狗,但他無法理解"狗"這個概念——因為每一條狗、每一個瞬間的狗,對他來說都是完全不同的東西。他記住了一切,卻失去了抽象的能力。這不就是論文裡U型曲線的左端嗎?當ρ趨近於0(全是Engram,沒有MoE)時,模型有無限的記憶,但失去了推理能力。它能記住"亞歷山大大帝"是誰,但無法用這些知識進行推理。反過來,當ρ=100%(全是MoE,沒有Engram)時,模型有強大的推理能力,但要浪費大量算力重建那些本可以直接記住的東西。博爾赫斯在1942年就洞察到了這一點:記憶和思考是互補的,但也是對立的。完美的記憶會殺死思考,而純粹的思考則需要不斷重新發明輪子。最優解在中間——既有記憶,又有思考。DeepSeek的實驗資料給出了一個驚人精確的答案:大約75-80%給思考,20-25%給記憶。這讓我想到另一個認知心理學的經典概念:**組塊(Chunking)**。1956年,心理學家George Miller發表了著名的論文《神奇的數字7±2》,指出人類工作記憶的容量是有限的,但我們可以通過"組塊"來擴展它。比如記電話號碼138-8888-6666,你不是記11個數字,而是記3個組塊。N-gram本質上就是語言的組塊。"亞歷山大大帝"不是5個字,而是1個組塊。Engram做的事情,就是把這些組塊預先存好,省得每次都要重新計算。人腦早就在這麼幹了。DeepSeek只是讓大模型學會了同樣的技巧。實驗結果:推理能力提升比知識提升更大這是讓我最驚訝的部分。你可能會想:Engram是個"記憶模組",應該主要提升知識類任務吧?確實,知識任務有提升:MMLU:+3.4CMMLU:+4.0MMLU-Pro:+1.8但推理任務的提升更大:BBH:+5.0ARC-Challenge:+3.7DROP:+3.3甚至程式碼和數學也有顯著提升:HumanEval:+3.0MATH:+2.4GSM8K:+2.2等等,一個"記憶模組"為什麼能提升推理能力?機制分析:為什麼"記憶模組"能提升推理?這是我最想搞明白的問題。DeepSeek做了一個很有意思的實驗:他們"偷看"模型每一層在想什麼。具體方法是:把每一層的中間結果拿出來,問它"你現在覺得下一個詞是什麼?"。如果這一層已經很接近最終答案,說明模型在這一層就基本"想明白了"。結果很直觀:有Engram的模型,在很早的層就"想明白了";沒有Engram的模型,要到很深的層才行。為什麼?因為沒有字典的模型,前面幾層都在忙著做一件事:搞清楚"亞歷山大大帝"是誰。它得一層一層地拼湊——這是個人名,是個歷史人物,是個國王,是馬其頓的國王...等它終於搞清楚這是誰了,已經用掉了5、6層。剩下的層才能開始真正的推理。但有字典的模型不一樣。第2層的時候,Engram直接告訴它:"亞歷山大大帝 = 馬其頓國王,征服者"。好了,搞定,後面20多層全部用來推理。這就像兩個學生做同一張卷子:一個學生得先花20分鐘背公式,再用40分鐘做題。另一個學生帶了公式表,60分鐘全用來做題。誰的推理題做得更好?顯然是第二個。DeepSeek還做了一個更精確的測量:Engram模型第5層的"思考深度",相當於普通模型第12層的水平。換句話說,Engram相當於免費給模型加了7層深度。這就解釋了為什麼推理能力提升這麼大——不是Engram本身能推理,而是它把推理的空間讓出來了。長上下文能力也炸了還有個意外收穫:處理長文章的能力暴漲。有個測試叫"大海撈針"——在一篇很長的文章裡藏一句關鍵資訊,看模型能不能找到。為什麼字典能幫助處理長文章?想像你在讀一本很長的小說。如果你每次看到"福爾摩斯"都要停下來想"這是誰來著...",讀到後面肯定記不住前面的劇情。但如果"福爾摩斯 = 偵探,住貝克街221B"這個資訊已經存在字典裡,你的注意力就可以全部用來追蹤劇情——誰殺了誰,線索在那,凶手是誰。Engram處理了"這是誰"的問題,Attention就可以專注於"發生了什麼"的問題。相當於給大腦減負了。系統設計:字典可以放在抽屜裡這裡體現了DeepSeek一貫的風格:理論創新和工程落地並重。繼續用考試的比喻。MoE(專家模型)的問題是:每道題都要"現場"決定找那個專家來答,這個決定本身就要花時間。但字典不一樣。你看到"亞歷山大大帝",就知道要翻到A開頭那一頁。你不需要先讀完整道題,才知道去查那個詞條。這意味著什麼?意味著字典可以提前準備好。模型還在處理第1層的時候,系統就已經知道第2層要查什麼詞條了。所以可以提前把那一頁準備好,等模型算到第2層的時候,字典已經翻開擺在那兒了。更妙的是:字典不需要放在桌上,放在抽屜裡也行。GPU視訊記憶體很貴,就像桌面空間有限。但CPU記憶體便宜得多,就像抽屜容量大得多。既然可以提前知道要查什麼,那就提前從抽屜裡把那一頁拿出來,等用的時候已經在桌上了。DeepSeek做了個實驗:把一本1000億參數的"字典"放在抽屜裡(CPU記憶體),結果:只慢了2% ,但多了1000億參數的知識。這就是為什麼Engram可以做得很大——字典放抽屜裡就行,不佔桌面。門控可視化:確實在識別固定模式論文最後有個很直觀的可視化:紅色表示門控值高(Engram被啟動),白色表示門控值低(Engram被忽略)。可以看到,門控在這些地方啟動:"Alexander the Great"(亞歷山大大帝)"the Milky Way"(銀河系)"Princess of Wales"(威爾士王妃)"四大發明""張仲景""傷寒雜病論"全是命名實體和固定搭配。Engram確實在做它該做的事:識別靜態模式。往大了說:DeepSeek在開一條新路回到開頭的問題:這篇論文的意義是什麼?過去幾年,大家都在一個方向上卷:怎麼讓模型算得更聰明。MoE讓不同的專家處理不同的問題,Attention讓模型看到更遠的上下文,更深的網路讓推理更複雜。但不管怎麼卷,本質上都是在最佳化"計算"。DeepSeek說:等等,有些問題根本不需要算,查一下就行了。這個思路其實很符合直覺:人腦也不是什麼都靠推理,很多時候就是直接呼叫記憶。你看到"1+1"不需要推理,直接輸出"2"就行。論文最後一句話很有意思:"We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."翻譯過來:我們認為條件記憶會成為下一代稀疏模型的基礎元件。DeepSeek在押注一個新的架構方向。最後:記憶與思考的平衡回到開頭的問題:記憶和思考是什麼關係?博爾赫斯用富內斯告訴我們:完美的記憶會殺死思考。認知心理學告訴我們:人腦用組塊來平衡記憶和思考的負擔。現在DeepSeek用實驗資料告訴我們:最優的比例大約是75%計算 + 25%記憶。這個數字讓我覺得很有意思。它意味著,即使是"智能"系統,也不能全靠"聰明"——你得記住一些東西,才能把腦力用在更值得思考的地方。這篇論文給我最大的啟發是:有時候最好的最佳化不是讓計算更快,而是把計算變成查表。O(1)的查表永遠比O(n)的計算快。如果一個問題的答案是固定的、可以預先算好存起來的,那就沒必要每次都重新算。這個道理在電腦科學裡叫"空間換時間"。但在大模型領域,過去幾年大家都在卷MoE、卷Attention、卷更深的網路,似乎忘了還有"記憶"這條路。DeepSeek的Engram提醒我們:大模型不是越大越好、也不是越深越好,關鍵是把合適的任務分配給合適的模組。靜態知識 → 查表(Engram)動態推理 → 計算(MoE)就像人腦一樣:你不需要每次看到"1+1"都重新推導,直接從記憶裡調出"2"就行了。省下來的腦力,用來思考更有價值的問題。富內斯記住了一切,卻無法思考。純MoE模型能夠思考,卻要浪費算力重建記憶。最聰明的系統,是知道什麼該記住、什麼該思考的系統。 (花叔)
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)
DeepSeek-V4核心公開?梁文鋒署名新論文發佈,實習生挑大樑
這一記憶架構有望成為新的Scaling路徑。智東西1月13日報導,昨晚,DeepSeek又開源了,還發佈一篇新論文。這次,他們提出了一種全新的“條件記憶”機制——Engram,旨在讓MoE模型在保持巨量參數的同時,更高效地處理語言資訊。DeepSeek創始人兼CEO梁文鋒、北大王選電腦研究所的趙東岩和張輝帥教授都在論文中署名。Engram架構的核心優勢在於以更低成本實現更優性能。訓練計算量較MoE減少18%的情況下,在32768個token的長上下文任務中,Engram在RULER基準測試中反超同參數量MoE模型。並且,其淺層部署的記憶模組接管局部依賴與靜態知識儲存,為注意力機制騰出容量以專注全域推理,1000億參數記憶表解除安裝後使H800推理吞吐量降幅不足3%。DeepSeek還觀察到,增加記憶槽位數量能持續、穩定地降低驗證損失,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶容量持續帶來收益,而無需增加計算量。那這種效果究竟是如何實現的呢?如今的MoE模型雖然在計算層面做到了稀疏化,但是它處理資訊的方式仍然很費勁:有些老生常談的事實性內容,比如常見的名字、公式或固定表達,模型卻要重複計算,非常耗時間。DeepSeek的做法是,把這些“固定知識”提前整理成一個可以快速查詢的表格,這樣就能把更多精力放在真正需要深度思考的任務上,比如複雜推理或者理解長段文字。值得一提的是,論文的第一作者Xin Cheng(程信)目前在北京大學智能學院攻讀博士學位,主要研究大模型的高效參數化方法和機制。他同時也在DeepSeek工作,R1、V3的研究都參與了,很有可能是實習生。在論文摘要中,DeepSeek提出,條件記憶(conditional memory)將成為下一代稀疏模型中不可或缺的建模原語。這或許意味著DeepSeek-V4有望整合條件記憶機制,實現知識高效檢索與推理能力的飛躍。論文連結:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf項目連結:https://github.com/deepseek-ai/Engram01. Transformer缺乏知識檢索機制 經典𝑁-gram架構提供啟發在正式介紹新型記憶機制前,DeepSeek團隊首先提出了一項重要的觀察。稀疏性已經成為了智能系統的核心設計原則,在大模型領域,其具體實現就是MoE(混合專家模型)。但是,現有的標準Transformer本質上沒有真正的知識檢索機制,導致現有大模型不得不在早期層中通過昂貴計算來“重建”靜態知識,浪費了寶貴的模型深度。因此,DeepSeek認為有必須要提出第二個與條件計算互補的稀疏維度:條件記憶。條件記憶則依賴稀疏的尋找操作,為固定知識檢索靜態嵌入表示,適合命名實體、固定表達等靜態且高度模式化的語言表示。DeepSeek他們向經典的𝑁-gram結構引入了現代化的條件記憶模組,包括分詞器壓縮、多頭雜湊、上下文化門控以及多分支整合等,最終提出了Engram。下圖是Engram的基本架構,通俗地說,Engram就是給Transformer加個外接記憶庫,並把當前token附近的一小段內容,用快速、省參數的方式,去一個超大的靜態記憶表裡查到對應內容。02. 多管齊下打造新型記憶機制 天然支援參數儲存與計算資源解耦這個記憶庫該如何具體實現呢?首先,DeepSeek團隊對分詞器(tokenizer)進行了壓縮。普通的分詞器會把Apple、apple、APPLE這些單詞當成完全不同的東西,但是對人來說其實差別不大。Engram先把詞表清洗了一遍,全部轉小寫,Unicode規範化(NFKC)。最後,一個原本128k的詞表,實際只剩下77%,有23%的token ID被合併了。這讓N-gram記憶的密度明顯提升了。不過,直接對所有𝑁-gram進行建模是不可行的,參數會指數級增長。DeepSeek團隊引入了多頭雜湊記憶(Multi-Head Hashing),在固定參數預算下近似大規模𝑁-gram表,降低雜湊碰撞引入的語義噪聲。上述檢索機制提供的記憶是靜態的,缺乏上下文適應性,易受歧義與衝突的影響,這一問題可通過上下文感知門控(Context-aware Gating)來解決。為進一步擴大感受野並增強非線性建模能力,模型還引入了一個深度可分離因果摺積。DeepSeek團隊採用多分支架構作為默認主幹網路,而非標準的單流殘差連接(這是何愷明此前的研究成果)。多分支架構把殘差流擴展為M個平行分支,但共享記憶表和輸出對應。這樣設計的好處是,它可以一次性用矩陣乘法搞定多條分支的計算,GPU用得非常高效。Engram的核心優勢在於記憶檢索完全依賴輸入token,而非執行階段的隱藏狀態。這種確定性機制實現了參數儲存與計算資源的解耦,支援訓練和推理階段採取專門的最佳化策略:▲Engram訓練和推理階段可採用不同最佳化策略訓練最佳化:通過將超大嵌入表分片至多張GPU,利用All-to-All通訊按需收集對應行,使總記憶容量隨GPU數量線性擴展。推理最佳化:由於可提前確定待查詢記憶,系統可從主機記憶體非同步預取,同時在前幾層計算期間隱藏通訊延遲,實現預取與計算的重疊,避免GPU停頓。硬體-演算法協同設計:Engram在模型中的放置位置需平衡建模性能與系統延遲。較早引入有助於局部模式重建,較深放置則延長延遲隱藏窗口,需兼顧二者最佳化。層次化儲存:基於自然語言𝑁-gram的Zipf分佈特性,可採用多級快取策略,高頻嵌入存放於GPU HBM或主機DRAM,低頻嵌入置於SSD。這使Engram能擴展至超大規模記憶,同時保持低延遲與高效率。03. 兩個模組資源二八分成 互補性獲驗證接下來,DeepSeek團隊研究了另一個關鍵問題——條件計算和條件記憶這兩種稀疏模式該怎麼配合,才能發揮最佳效果?實驗發現,在有限資源下,把所有空閒參數都給MoE(也就是純MoE模型)不是最優解,最好的效果是大約75%-80%給MoE,其餘20%-25%給Engram。如果完全由MoE主導,模型缺乏靜態模式的專用記憶,只能靠計算反覆重建,效率低。而如果完全由Engram主導,模型失去了動態計算能力,無法應對需要上下文理解的任務。這條U型曲線,驗證了兩個模組的結構互補性:前面這一實驗探索的是在固定參數參數預算下的分配最佳化,那麼如果把記憶大幅度擴展,會發生什麼?實驗發現,在MoE主幹網路不變的情況下,附加Engram表。結果顯示,增加記憶槽位數量能持續、穩定地降低驗證損失。在探索範圍內,曲線嚴格遵循冪律(對數空間線性)。DeepSeek認為,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶持續帶來收益,而無需增加計算量。同時,相比別的只做簡單平均的記憶方法(比如OverEncoding),Engram的Scaling潛力更大,性能提升更明顯。這些結果驗證了條件記憶作為稀疏容量的獨立可擴展維度,與MoE的條件計算形成互補。04. 架構訓練計算量少18% 性能反超MoE驗證了架構、技術路徑的可行性,DeepSeek團隊的下一步就是進行大規模的Scale,驗證這種方式在實際語言模型預訓練中的有效性。具體而言,DeepSeek訓練了四個模型:Dense-4B、MoE-27B、Engram-27B、Engram-40B。訓練時的語料庫、分詞器都使用了相同的設定,而後兩個模型引入了Engram機制,用於研究在模型大小不變和Engram進一步擴展後的特性。結果顯示,在相同算力和參數量的情況下,Engram-27B能在MoE-27B的基線上去取得持續提升,並且這些增益並不僅限於知識密集型任務。通用推理任務、程式碼與數學推理任務從中得到的提升甚至更為顯著,這些結果支援了DeepSeek的假設:引入專門的知識尋找原語(knowledge lookup primitive)能夠提升表示效率,這超出了僅將整個稀疏預算用於條件計算所能達到的效果。最後,將模型擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準上提升了性能。雖然它尚未在每個任務上嚴格優於Engram-27B,但這很可能是訓練不足的結果。DeepSeek團隊觀察到,在訓練結束時,Engram-40B與基線模型之間的訓練損失差距仍在擴大,這表明在當前的token預算下,擴展的記憶容量尚未完全發揮其潛力。接著,DeepSeek團隊用MoE-27B與Engram-27B作為對照組,均使用了5000步(約300億token)的高品質長上下文資料進行微調,然後他們採用DeepSeek-V3中的YaRN技術,將模型的上下文窗口擴展到32768個token。實驗結果顯示,由於Engram模組接管了局部依賴的建模,它為模型的注意力機制騰出了容量,使其能更專注於處理全域上下文。因此,Engram架構在處理超長文字和長程推理任務上比傳統架構表現更好,具體表現如下:在架構方面,在排除了基礎模型能力差異的情況下,Engram-27B依然顯著優於MoE-27B。在複雜的檢索任務RULER基準測試中,Engram表現出了更強的長程依賴處理能力。例如在多查詢Multi-Query NIAH任務中,Engram精準率大幅領先。▲長上下文性能比較基準測試計算效率方面,即使只用了82%的預訓練計算量,Engram-27B的表現依然能與完全訓練的MoE-27B基線模型持平,甚至在RULER基準上實現超越。這證明了Engram架構具有極高的訓練效率,能用更少的計算資源達到同等或更好的長上下文性能。05. Engram淺層效果更好 對事實性知識影響較大而後,DeepSeek團隊對Engram模型進行了深入的機制分析和消融實驗。核心目的是回答“Engram到底是如何工作的?它的各個元件有什麼用?”這兩個問題。首先是模型深度與表徵分析,DeepSeek團隊通過LogitLens分析顯示,Engram模型在早期層就能更快地收斂到最終預測結果,因為它通過查表直接獲取了靜態知識,不需要像傳統模型那樣通過多層計算來重組基礎特徵。▲表徵對齊和收斂速度分析中心核對齊分析發現,Engram的淺層在表徵上與純MoE模型的深層高度相似。這意味著Engram讓模型在更少的層數內完成了同等複雜的特徵提取,在功能上等同於增加了模型的有效深度。在架構消融實驗中,研究人員發現將Engram模組放在較淺的層,如第2層,效果最好。這樣可以儘早解除安裝模型背負的局部模式重建任務,讓後面的深層網路專注於複雜的全域推理。▲結構消融實驗結果研究人員還發現,分支特定融合、上下文感知門控和分詞器壓縮對性能影響最大,去掉任何一個都會導致驗證損失顯著上升,而次要元件輕量級摺積層的影響則較小。如果把Engram“關掉”,模型在那些任務上會崩潰?為回答這個問題,DeepSeek團隊進行了功能敏感性分析。他們測試在推理時強制遮蔽Engram模組的輸出,觀察性能下降情況。結果顯示,在事實性知識方面,模型性能災難性下降,僅保留約29-44%的性能。這證明Engram是模型儲存參數化知識的主要倉庫。️但在閱讀理解方面,模型性能幾乎不受影響,保留約81-93%。這證明涉及上下文推理的任務主要由Transformer的骨幹網路處理,而非記憶模組。▲功能敏感性分析結果在系統效率與推理吞吐上,由於Engram的訪問模式是預先可知的,不像MoE需要根據隱藏狀態動態路由,系統可以提前從記憶體中預取資料。即使將一個1000億參數的Engram表解除安裝到主機記憶體,其在H800硬體上的推理吞吐量下降也不到3%,這證明了Engram能以極低的代價實現參數量的大幅擴展。此外,Engram的門控機制會在遇到靜態模式時被啟動,即變紅。具體表現為當模型遇到多詞實體、固定短語或中文成語以及歷史名詞時,Engram會被啟動進行檢索;而在處理需要動態推理的文字時,其門控則保持關閉。▲門控機制啟動06. Engram內化記憶 與Attention機制互補最後,DeepSeek團隊將Engram與MoE、外部記憶與檢索增強、長上下文建模以及表徵學習與知識蒸餾進行了對比。傳統MoE是Engram的“前輩”,它通過稀疏啟動來擴展模型容量。Engram解決了傳統MoE在超大規模下路由成本高、訓練不穩定的問題,提供了一種更高效的擴展路徑。對比外部記憶與檢索增強(RAG)這類工作通常是在模型外部掛一個資料庫,在推理時即時檢索。而Engram是內化的記憶,它在預訓練階段就把海量知識消化並固化到了參數化的記憶表中,這使得它比傳統RAG具有更低的延遲和更強的知識一致性。長上下文建模這一領域的研究則主要關注如何讓模型的注意力機制處理更長的序列。DeepSeek團隊強調,Engram並不是要取代注意力機制,而是與之互補。Engram負責處理局部的、靜態的上下文依賴,從而讓注意力機制能更專注於處理全域的、動態的長程依賴。對於表徵學習與知識蒸餾來說,Engram提供了一種新的視角——將模型的知識解耦為通用推理能力和特定知識庫。這種解耦結構天然適合進行知識蒸餾,因為未來的研究團隊可以選擇只蒸餾輕量級的骨幹網,而將龐大的知識庫作為可插拔的附件。07. 結語:Engram將實現 低成本超大規模擴展,逼近AGIEngram架構的核心思想就是通過解耦來實現效率與性能的平衡。它成功地將“局部模式重建”從複雜的Transformer骨幹網中剝離出來,交由專門的記憶模組處理。這種設計使得模型在保持強大推理能力的同時,能夠以極低的成本擴展到超大規模。DeepSeek團隊認為,Engram不僅僅是一個學術上的新模型,它具有很強的工程落地價值。由於記憶模組的訪問具有確定性,Engram可以進行高效的預取和硬體最佳化,非常適合大規模部署。而且,既然知識集中在Engram表中,未來或許可以通過直接修改這個表來修正模型的知識錯誤,而無需進行昂貴的微調。但目前的Engram是在預訓練時“固化”的。未來的一個重要方向是讓這個記憶模組具備線上學習或動態更新的能力,讓模型能即時獲取新知識。例如,未來的研究可以將Engram擴展到多模態領域,建立一個通用的多模態記憶庫。研究人員還可以繼續探索是否能將模型解耦為更多專用模組,以進一步逼近AGI(通用人工智慧)的效率。 (智東西)
梁文鋒署名新論文,DeepSeek V4架構首曝?直擊Transformer致命缺陷
【新智元導讀】深夜,梁文鋒署名的DeepSeek新論文又來了。這一次,他們提出全新的Engram模組,解決了Transformer的記憶難題,讓模型容量不再靠堆參數!剛剛 ,DeepSeek新論文發佈了,梁文鋒署名!這一次,他們聯手北大直接瞄準了「記憶」,是Transformer最致命的關鍵難題。如今,MoE成為大模型主流架構,但本質仍是Transformer,因其缺少原生「知識尋找」機制,很多檢索能力被迫用大量計算去模擬。33頁論文中,團隊提出了 MoE 互補的「條件記憶」稀疏軸,並通過一種全新的Engram模組去實現:將經典雜湊N-gram嵌入現代化,提供近似O(1)的確定性知識尋找。論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf通過「稀疏分配」(Sparsity Allocation)建模,他們意外發現MoE與Engram之間,存在「U形scaling law」。這意味著,需調整兩者之間資源比例,讓計算與靜態記憶間找到最優權衡。沿著這個規律,將Engram擴展到27B參數後,並在嚴格等參數、等FLOPs下優於MoE基線。直白講,MoE只解決「怎麼少算」,Engram直接解決「別瞎算」。它把該查的交給 O(1)記憶,把注意力從局部瑣碎中解救出來,結果不只是更會背知識,同時推理、程式碼、數學一起變強。這可能成為稀疏LLM下一條主流路線,更重要的是,下一代V4或將整合這一新方法。不再苦算,給Transfomer插入「電子腦」當前,LLM越做越大已成為「鐵律」,一條熟悉的路徑是——把參數做大,把計算做「稀疏」。混合專家模型(MoE)就是典型代表,每個token只需啟動少量專家,用「條件計算」讓參數規模飆升,FLOPs還能控住。從Artifical Analysis榜單中可以看出,現有的稀疏大模型,主流都是MoE。但問題在於,Transformer缺少一種「原生的知識尋找」能力,所以很多本該像檢索一樣 O(1)解決的事,被迫用一堆計算去「模擬檢索」,效率很不划算。北大和DeepSeek新論文帶來一個很有意思的觀點:稀疏化不只服務「計算」,也可以服務「記憶」。由此,團隊提出了Engram,把語言建模中大量「固定、局部、刻板」的模式,交給一個可擴展的查表模組去承擔。這樣一來,可以讓Transformer主幹把注意力和深度用在更需要「組合與推理」的地方。語言建模,兩類任務論文中,作者明確將語言建模拆成兩類子任務:一部分任務需「組合與推理」:上下文關係、長程依賴、邏輯推理、鏈式推理。另一部分任務更像「模式檢索」:實體名、固定搭配、常見短語、語法片段、重複出現的局部結構後者的一個共同點很明顯,即它們往往局部、穩定、重複出現。若是用多層注意力和FFN去「算」他們,模型做得到,但成本極高,還會擠佔早期層的表達空間。為了識別實體「戴安娜,威爾士王妃」(Diana,Princess of Wales),LLM必須消耗多層注意力和FFN來逐步組合特徵,這個過程理論上是可以通過一次知識尋找操作來完成的。而Engram想做的事情很直接——把這類「局部靜態模式」轉移到一個廉價的知識尋找原語。它用確定性的查表快速給出候選資訊,再由上下文決定是否採納。Engram核心架構:暴力查表+記憶開關Engram一詞源於神經學,本意為「記憶痕跡」,是一種可擴展、可檢索的記憶單元。它可以用於儲存LLM在推理過程中,可能已接觸過的模式、資訊片段。可以將Engram理解為,把經典「雜湊N-gram嵌入」現代化,做成插在Transformer中間層的一個「可擴展查表模組」。如圖1所示,Engram是一個條件記憶模組,旨在通過從結構上將靜態模式儲存與動態計算分離開來,從而增強Transformer骨幹網路。形式化地說,給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd,該模組分兩個功能階段來處理每個位置t:檢索和融合。接下來,一起看看Engram的關鍵設計點。基於雜湊N-gram的稀疏檢索第一階段主要負責將局部上下文對應到靜態的記憶條目中,這通過分詞器壓縮(tokenizer compression)和確定性雜湊檢索嵌入來實現。分詞器壓縮為了最大化語義密度,作者引入了一個詞表投影層。他們預先計算了一個滿射函數P:V→V',利用歸一化的文字等價性(比如NFKC、小寫化等手段)將原始Token ID坍縮成規範識別碼。這個過程能讓128k大小的分詞器有效詞表大小減少23%。多頭雜湊要想直接參數化所有可能的N-grams組合空間,計算上是行不通的。作者採用了一種基於雜湊的方法。為了減少沖突,給每個N-gram階數n分配了K個不同的雜湊頭。每個頭k通過一個確定性函數φ_n,k,將壓縮後的上下文對應到嵌入表E_n,k中的一個索引:上下文感知門控檢索到的嵌入e_t充當的是上下文無關的先驗資訊。不過,它們容易受到雜湊衝突或多義詞帶來的噪聲干擾。為了增強表達力並解決這種歧義,作者採用了一套受注意力機制啟發的上下文感知門控機制。他們利用當前的隱藏狀態h_t作為動態的Query,而檢索到的記憶e_t則作為Key和Value投影的來源:其中W_K,W_V是可學習的投影矩陣。為了保證梯度穩定性,他們在計算標量門α_t∈(0,1)之前,先對Query和Key進行RMSNorm處理:最後,為了擴大感受野並增強模型的非線性,作者還引入了一個短的深度因果摺積:門控可視化為了實證驗Engram是否按預期行為,作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。結果展示了,明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地啟動(顯示為紅色)。在英文中,觀察到在多Token命名實體(如Alexander the Great、the Milky Way)和固定短語(如By the way,Princess of Wales)上有強烈的啟動。關鍵是,這種行為有效地跨語言泛化。在中文demo中,Engram識別並檢索獨特的習語表達和歷史實體,比如「四大發明」和「張仲景」。這些定性結果證實,Engram成功識別並處理了固定的語言依賴關係,有效地將Transformer骨幹網路從記憶這些靜態關聯中解放出來。系統效率:計算與儲存解耦擴展記憶增強型模型往往受限於GPU高頻寬記憶體(HBM)的容量。然而,Engram的確定性檢索機制天生就支援將參數儲存與計算資源解耦。與依賴執行階段隱藏狀態進行動態路由的混合專家模型(MoE)不同,Engram的檢索索引僅取決於輸入的Token序列。這種可預測性為訓練和推理提供了專門的最佳化策略,如圖2所示。訓練階段,為了容納大規模嵌入表,他們採用標準的模型平行策略,將表分片儲存在可用的GPU上。推理階段,這種確定性特性使得「預取和重疊」策略成為可能。U型Scaling Law,揭秘最優分配比Engram作為條件記憶的一種實現形式,在結構上與MoE專家提供的條件計算是互補的。這裡,主要研究了以下兩個關鍵問題:1. 有限約束下的分配2. 無限記憶體場景作者通過三個參數指標來分析MoE和Engram之間的權衡:P_tot:總可訓練參數,不包括詞表嵌和LM頭。P_act:每個Token的啟動參數量。這個數值決定了訓練成本(FLOPs)。P_sparse≜P_tot-P_act:非啟動參數,這代表了「免費」的參數預算,可用於在不增加計算成本的情況下擴展模型規模。作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非啟動參數預算的比例:直觀來說:ρ=1對應純MoE模型(所有非啟動參數都是參與路由的專家)。ρ<1則減少路由專家的數量,並將釋放出來的參數重新分配給Engram嵌入槽位。結果與分析圖3(左)展示了驗證損失與分配比例ρ之間存在一致的U型關係。這種U型關係證實了兩個模組之間的結構互補性:MoE主導(ρ→100):模型缺乏用於儲存靜態模式的專用記憶體,迫使它只能通過增加深度和計算量來低效地重建這些模式。Engram主導(ρ→0%):模型失去了條件計算能力,從而損害了那些需要動態、上下文依賴推理的任務;在這種場景下,記憶無法替代計算。接下來,作者探索了一種互補的設定:激進的記憶體擴展。圖3(右)表明,擴充記憶體槽位的數量能帶來清晰且一致的驗證損失改善。在探索的範圍內,曲線遵循嚴格的冪律,這表明Engram提供了一種可預測的擴展調節手段:更大的記憶體能持續帶來收益,而無需額外的計算量。關於擴展效率關鍵的一點是:雖然OverEncoding的直接平均方法也能受益於更大的記憶體表,但Engram在相同的記憶體預算下解鎖了更大的擴展潛力。結合分配定律,這些結果驗證了——條件記憶可以作為稀疏容量的一個獨特且可擴展的維度,與MoE的條件計算相輔相成。爆殺傳統MoE,知識推理數學全面漲基於Engram架構以及實驗得出的分配定律,作者將Engram擴展到了數十億參數的等級,以此來驗證其在現實世界LLM預訓練中的有效性。他們訓練了以下四個模型:Dense-4B (總參數4.1B)MoE-27B (總參數26.7B)Engram-27B (總參數26.7B)Engram-40B (總參數39.5B)實驗結果首先,與先前的文獻結論一致,稀疏架構表現出了優於密集模型的擴展定律。在相同的訓練計算預算下,所有三個稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。更重要的是,Engram-27B始終優於等參數且等FLOPs的MoE-27B基線。有趣的是,這些收益並不僅限於知識密集型任務(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。在通用推理領域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及程式碼和數學推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更為顯著。這些結果支援了他們的假設:引入一個專用的知識尋找原語所帶來的表示效率提升,要超過將所有稀疏預算都分配給條件計算的效果。最後,擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準測試中提升了性能。可以觀察到,Engram-40B與基線之間的訓練損失差距在訓練後期仍在持續擴大,這表明擴大的記憶體容量在當前的Token預算內尚未完全飽和。注意力徹底解放,32k上下文性能狂飆通過將局部依賴建模的任務解除安裝給靜態尋找,Engram架構保留了寶貴的注意力容量來管理全域上下文。通過長上下文擴展訓練,作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。實驗結果1. 超越注意力機制的長上下文能力雖然注意力機制和位置編碼提供了處理上下文的結構基礎,但結果表明,長上下文性能並非僅由架構先驗決定。軌跡可見,長上下文性能與基座模型的通用建模能力本質上是掛鉤的。因此,嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變數,而不僅僅是簡單地對齊訓練步數。2. 受控設定下的架構優越性在上述原則的指導下,作者將Engram與MoE 基線進行了對比。當控制了基座能力後,Engram模組的效率增益就變得非常明顯:等Loss設定(46k vs. 基線):當對比預訓練Loss對齊的Engram-27B(46k)和完全訓練的MoE-27B(50k)時,Engram 展現出了顯著的增益。等FLOPs設定(50k vs. 基線):在標準的等計算預算下,Engram-27B(50k)進一步拉大了這一差距,確立了全面的最佳性能。極端設定(≈82%計算量):即便是提前停止訓練的Engram-27B(41k),在面對完全訓練的MoE-27B(50k)時依然極具競爭力。這凸顯了Engram架構內在的優越性。計算+記憶雙軸時代,直接融入V4?DeepSeek最新論文,打開了稀疏化的第二條路,是一條非常具有啟發性的路線:稀疏化模型進入了「計算+記憶」雙軸時代。MoE繼續負責動態計算與推理Engram負責儲存與檢索靜態知識與局部模式如上的U型scaling law證明了,稀疏預算全部給MoE,不是全域最優,留出一部分給Engram整體更強。1. 稀疏化目標變得更豐富了條件計算解決了FLOPs,條件記憶解決了容量與模式檢索,兩線均可互補。2. Engram收益帶有結構性它讓LLM知識能力暴漲同時,也間接提升了推理、數學、程式碼的性能,因為Transfomer主幹的深度和注意力計算效用更「值錢」了。3. 確定性查表,很適合系統最佳化模型預取和解除安裝很大,為「更大參數、同等吞吐」提供了一種可行的工程路線。如今,全網都在猜測,春節檔的V4有很大機率會把Engram融入主幹架構。回看此前DeepSeek路線:DeepSeek V2曾引入MLA,大幅提升了推理效率和KV快取友好度;DeepSeek V3持續最佳化MoE,實現無損負載平衡,訓練更穩定,成本更低。若是V4真的把Engram落地,那將不僅是參數規模的提升,更是架構範式的又一次躍遷。再加上,此前爆出,V4程式碼實力可能趕超Claude、ChatGPT系列。今年的春節大禮,真是讓人期待。(新智元)
MIT發現讓AI變聰明的秘密,竟然和人類一模一樣
【新智元導讀】你有沒有發現,你讓AI讀一篇長文章,結果它讀著讀著就忘了前面的內容? 你讓它處理一份超長的文件,結果它給出來的答案,牛頭不對馬嘴? 這個現象,學術界有個專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!2025年最後一天,麻省理工學院(MIT)丟了一篇重磅論文,就是要解決這個問題的。這篇論文叫《Recursive Language Models》,也就是遞迴語言模型。看起來很學術,但說人話就一句:讓AI再做一遍,效果直接起飛。先劇透兩個核心資料:在複雜推理任務上,僅僅讓模型多過2-4遍,正確率就能提升10%-25%在超長文件處理上,RLM(遞迴語言模型)在1000萬+token的規模下,依然保持穩定表現,而傳統模型直接崩盤!這啥概念?以前我們覺得,AI不夠聰明,那就給它堆參數、加顯示卡、買更多GPU。MIT這篇論文直接掀桌子:別堆參數了,讓它返工重寫一遍,效果可能更好。(真就是人類監工了)原來解決問題的方法就是這麼簡單!並且X上很多大佬紛紛點贊~從一個讓人崩潰的問題說起你有沒有這種經歷:讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。或者讓它幫你寫程式碼,它寫完了,一運行——全是bug。但神奇的是,你讓它再檢查一遍、重新想想,有時候它就突然能改對了。MIT的研究人員發現,這不是玄學,這是有規律的。大多數AI犯的錯,不是因為它不懂,而是因為它初稿寫太快了。就像你寫論文,第一稿總是稀爛,但改個三四遍,就像換了個人寫的。AI也是一樣。問題是:現在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。它自己不會主動返工、不會自我檢查、不會反覆推敲。或者換一個思路來理解大模型原先的思路:假設你是一個剛進公司的實習生,領導給你發了一份500頁的資料,讓你整理出一份報告。你會怎麼做?正常人的做法是:先翻一翻,找到重點章節,然後一章一章地讀,讀完一章做個總結,最後把所有總結串起來。對吧?但大模型不是這麼幹的。大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然後嘗試憑記憶回答問題。這能記住才有鬼了。這就是大模型面臨的困境。它不是不聰明,它是記不住。MIT這篇論文干的事兒,就是給AI裝上了一個返工的能力。AI的真正瓶頸:不是腦子不夠大,是記性太差在聊MIT的解決方案之前,我得先跟你說清楚,為什麼這件事這麼重要。你可能聽說過一個詞,叫上下文窗口。啥意思呢?你可以把AI大模型想像成一個天才,但是這個天才有個致命缺陷——他的工作台太小了。你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作台上看。超過工作台大小的部分?看不到,直接忽略。現在最牛逼的GPT-5,工作台能放27萬個token(大約相當於20萬字中文)。聽著挺厲害的對吧?但問題來了。就是說,那怕是在這27萬token的限制之內,模型的表現也會隨著輸入變長而急劇下降。當你給它8000個token的時候,它表現賊棒。給它8萬個token的時候,它開始有點迷糊。給它27萬個token的時候,它直接開始胡說八道。為什麼?因為資訊太多了,它處理不過來了,腦子亂了。就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了,但找不到了。這就是大模型現在的困境:不是上下文窗口不夠長,而是長了也用不好。MIT的天才想法:把資料放到抽屜裡好了,問題講清楚了,現在來看MIT的解決方案。傳統做法是:你把資料直接塞進AI的腦子裡。MIT的做法是:別塞進去了,放抽屜裡吧。他們發明了一個叫RLM的東西。RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用程式碼去翻那份資料。打個比方。以前的AI,就像一個學生,你把一整本教科書拍在他面前說:看完,然後回答我的問題。學生:???我看不完啊,我能不能看一部分?然後他就硬著頭皮看前面的一部分,後面的直接放棄。RLM的做法不一樣。它更像是給這個學生配了一個目錄系統和搜尋引擎。資料還是那份資料,但學生不用從頭到尾讀了。他可以先翻目錄,看看大概結構,然後針對問題去搜尋相關段落,把有用的資訊摘出來。更牛的是,這個學生可以把一個複雜問題拆成好幾個小問題,然後——注意重點來了——他可以召喚自己的分身,讓分身去同時處理各個小問題,最後彙總答案。這就是遞迴的意思:AI可以呼叫自己的分身,讓自己幫自己幹活。或者再降維一下理解就是:它把這份超長的文件,當成一個放在外面的資料庫,而不是直接塞進腦子裡。然後,模型可以寫程式碼,自己去查這個資料庫。需要第一章的內容?寫個程式碼去查。需要第十章的內容?再寫個程式碼去查。需要把第一章和第十章的內容對比?那就先查第一章,做個總結,再查第十章,做個總結,最後把兩個總結合起來。這就像是一個有無限容量的外接硬碟。模型的腦子裡裝不下那麼多東西,沒關係。可以隨時去硬碟裡查,用到什麼查什麼。這樣一來,理論上,模型可以處理無限長的文件。具體怎麼做的?MIT的實現方式其實挺優雅的。他們給AI配了一個Python程式設計環境(REPL),把那份超長的資料存成一個變數。然後AI不再直接去讀這份資料,而是用程式碼去操作它。比如:想看資料有多長?寫一行程式碼len(input_text)就知道了想看資料的前1000個字元?寫input_text[:1000]想在資料裡搜尋關鍵詞?寫個正規表示式更厲害的是,AI可以把這份資料分段,把每一段交給一個子AI去處理,然後自己彙總結果。這個子AI,用的其實是同一個模型,只不過是遞迴呼叫自己。這個設計有兩個巨大的好處:第一,AI不用在腦子裡記住那份超長資料了。資料就放在外面的抽屜裡,需要的時候用程式碼去取。這就意味著,理論上,資料可以無限長——只要抽屜夠大。第二,AI可以自己判斷需要看什麼、不需要看什麼。它不會傻乎乎地從頭讀到尾,而是會聰明地挑重點看。這大大節省了計算成本,也提高了準確率。效果到底有多猛?MIT在論文裡做了一堆實驗,結果還是挺震撼的。實驗一:超長文件理解他們用了很多測試機,其中一個叫OOLONG的測試集,這個測試需要AI理解超長文件,並回答需要綜合全文資訊才能回答的問題。結果:GPT-5基座模型的精準率44%,而RLM達到了56.5%。而在CodeQA中,GPT-5基座模型的精準率24%,而RLM達到了62%,直接提升了2.7倍!實驗二:超超超長文件(1000萬+token)他們還把文件長度一路拉到1000萬token以上(相當於幾十本書的長度)。GPT-5?壓根處理不了,直接爆炸。RLM(GPT-5)?穩穩當當,表現基本不掉。這是一個質的飛躍。實驗三:成本對比你可能會想:這麼牛逼的東西,是不是巨貴?神奇的是,並沒有。在BrowseComp-Plus基準測試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。而RLM(GPT-5)的平均成本只有0.99美元。更便宜,效果還更好。為什麼?因為RLM不會傻傻地把所有內容都讀一遍,它唯讀需要的部分。這個發現為什麼重要?MIT這篇論文的意義,遠不止於讓AI處理更長的文件。它揭示了一個更根本的道理:AI的能力邊界,不只取決於模型本身有多大、參數有多多,還取決於你怎麼使用它。以前我們的思路是:模型不夠強——那就加參數。MIT告訴我們:等等,也許不用加參數,讓它多想幾遍就夠了。回到開頭提到的那個發現:在多步推理任務中,僅增加2-4次遞迴處理,正確率就能提升10%-25%。大約4次迭代後,收益逐漸趨於平緩。這說明什麼?大多數AI犯的錯,都是初稿錯誤:不是它不懂,是它第一遍太草率了。讓它返工幾次,就能改對。(所以有時候,你在使用AI時,還真的當個監工,讓AI多輸出幾次)這跟人類其實一模一樣。任何牛逼的程式設計師都知道,第一版程式碼永遠是最爛的,程式碼質量是改出來的,不是寫出來的。任何牛逼的作家都知道,第一稿永遠是廢稿,好文章是改出來的,不是寫出來的。現在,AI也一樣了。未來展望MIT在論文最後提到,這只是一個開始。目前的RLM還有很多可以最佳化的地方:1.非同步呼叫:目前子任務是一個接一個執行的,如果能平行執行,速度會更快。2.更深的遞迴:目前只允許一層遞迴(AI呼叫自己的分身),如果允許分身再呼叫分身,理論上能處理更複雜的任務。3.專門訓練:目前RLM用的是現成的大模型,如果專門為遞迴思考訓練一個模型,效果可能更猛。MIT的研究者們相信,這可能代表了大模型能力擴展的一個新方向:不是一味地堆參數、堆算力,而是讓模型學會更聰明地思考。彩蛋MIT這篇論文,讓我想起了一個老笑話:客戶問程式設計師:這個bug你修了多久?程式設計師說:5分鐘。客戶說:那為什麼收我500塊?程式設計師說:找出問題在那,花了我3天。AI也是一樣。它的思考時間遠比我們想像的更重要。給它一點返工的機會,它可能就能從還行變成牛逼。這也許就是下一代AI進化的方向:不是更大的腦子,而是更深度的思考。 (新智元)