#論文
讓儲存晶片暴跌的Google論文,被指學術不端
近日,Google公佈的全新AI內存壓縮技術“TurboQuant”,引發了業界的極大關注。該技術宣稱能在不犧牲模型精準度的前提下,將生成式AI推理階段最吃資源的“鍵值快取”(KV Cache)空間需求減少到原來的1/6,並讓計算速度暴增8倍。這一突破性的技術,也引發了整個市場對於記憶體需求將斷崖式下跌的擔憂,美光、Sandisk、西部資料等儲存相關美股紛紛大跌。然而,就在3月27日,蘇黎世聯邦理工學院博士後、RaBitQ系列論文第一作者高健揚公開發佈澄清信,指控TurboQuant論文存在“系統性迴避方法相似性”、“錯誤描述RaBitQ的理論結果”、“刻意創造不公平的對比實驗環境”等三處嚴重問題,且這些問題在論文投稿前已通過郵件明確告知TurboQuant團隊,對方知情卻未修正。RaBitQ是高健揚2024年發表的高維向量量化方法,其核心創新之一是在量化前對輸入向量施加隨機旋轉(Johnson-Lindenstrauss變換),並從理論上證明其達到了理論電腦頂級會議論文(Alon-Klartag, FOCS 2017)給出的漸近最優誤差界。以下為高健揚發佈的原文:大家好,我叫高健揚,目前在蘇黎世聯邦理工學院做博士後,我是 RaBitQ 系列工作的第一作者。Google Research 於2026年1月被 ICLR 2026 會議接收的論文 ”TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate“ 中,有關已有的 RaBitQ 向量量化演算法的描述,理論結果對比,實驗對比均存在嚴重問題(詳細情況後文會展開描述)。這些問題在論文投稿至 ICLR 2026 前已被我們通過郵件明確指出,TurboQuant 團隊也明確表示已知情,但選擇了不予修正。論文隨後被 ICLR 2026 會議接收,然後通過 Google 官方管道大規模推廣,在社交媒體瀏覽量已達到數千萬次。我們此時公開說明,是因為錯誤的學術敘事一旦廣泛傳播,糾正的成本會越來越高。背景:RaBitQ 是什麼RaBitQ 系列論文(如下所列)於2024年發表,提出了一種高維向量量化方法,並從理論上證明其達到了理論電腦頂級會議論文(Alon-Klartag, FOCS 2017)給出的漸近最優誤差界。RaBitQ(arXiv:2405.12497,2024年5月,隨後發表於頂級會議SIGMOD 2024) 擴展版(arXiv:2409.09913,2024年9月,隨後發表於頂級會議SIGMOD 2025)RaBitQ 的核心想法之一是在量化前對輸入向量施加隨機旋轉(random rotation / Johnson-Lindenstrauss 變換),利用旋轉後坐標分佈的性質做向量量化,在理論上實現最優誤差界。TurboQuant 論文問題一:系統性地迴避 TurboQuant 方法與已有 RaBitQ 方法的相似性RaBitQ 與 TurboQuant 在方法層面有直接的結構聯絡,兩者都在量化前對輸入向量施加隨機旋轉(Johnson-Lindenstrauss 變換)。這是兩篇論文方法設計中最核心、最接近的部分。TurboQuant 的作者在 ICLR OpenReview 審稿平台上對審稿人的回覆中,親自這樣描述自己的方法:“We achieve this by first normalizing the vectors by their l2 norm and then applying a random rotation (隨機旋轉)to ensure the entries of the vectors will have a beta distribution post rotation.”然而在這段回覆、TurboQuant 論文中的方法介紹乃至整篇論文中,從未正面說明這一結構與 RaBitQ 完全一致。這一迴避發生在以下背景之下:2025年1月(TurboQuant 論文在 arXiv 發佈的數月前),TurboQuant 論文的第二作者 Majid Daliri 主動聯絡我們,請求幫助偵錯他自己基於 RaBitQ C++ 程式碼實現的 Python 版本。他詳細描述了自己復現的步驟、程式碼片段和具體報錯,這一點可以說明 TurboQuant 團隊對 RaBitQ 的技術細節有充分的瞭解。之後在2025年4月他們在 arXiv 發佈的論文版本,以及2025年9月他們在 ICLR 2026 會議投稿的論文版本中,他們將 RaBitQ 描述為 grid-based PQ,並且在描述中忽略了 RaBitQ 中核心的 random rotation 的步驟。ICLR 的一位審稿人也在審稿意見中獨立指出:”RaBitQ and variants are similar to TurboQuant in that they all use random projection”,並明確要求更充分的討論和比較。儘管如此,在 ICLR 會議最終版本論文中,TurboQuant 的作者不僅沒有加入對 RaBitQ 討論,甚至反而還將原本正文中對 RaBitQ 不完整描述移到了附錄中。為此,我們於2026年3月通過郵件聯絡了 TurboQuant 所有作者,提出了以上問題及糾正請求後,TurboQuant 作者在回覆中以“The use of random rotation and Johnson-Lindenstrauss transformations has become a standard technique in the field, and it is not feasible for us to cite every method that employs them.”為由拒絕了這一請求。我們認為這一回應是在轉移矛盾:作為在相同問題設定下率先將隨機旋轉(Johnson-Lindenstrauss 變換)與向量量化結合、並建立最優理論保證的具體先行工作,RaBitQ 應當在文中被精準描述,其與 TurboQuant 方法的聯絡應當充分討論。TurboQuant 論文問題二:錯誤描述 RaBitQ 的理論結果TurboQuant論文在不提供任何論據的情況下,將 RaBitQ 的理論保證定性為”次優”。TurboQuant 論文寫道:“While the paper’s theoretical guarantees are suboptimal, likely due to loose analysis — as practical performance surpasses theoretical bounds”這句話直接將 RaBitQ 的理論保證定性為”次優(suboptimal)”,將原因歸結為”較粗糙的分析(loose analysis)”。但論文沒有提供任何推導、對比或證據來支撐這一判斷。事實是:我們在拓展版 RaBitQ 論文(arXiv:2409.09913)的 Theorem 3.2 中,已經嚴格證明 RaBitQ 的誤差界達到了理論電腦頂級會議論文(Alon-Klartag, FOCS 2017)給出的漸近最優誤差界。因為這一結果,我們被邀請至理論電腦科學頂級會議 FOCS 的 Workshop 進行報告。 為此,我們於2025年5月通過郵件與 TurboQuant 的第二作者 Majid Daliri 進行了多輪詳細的郵件技術討論,逐條澄清了 TurboQuant 團隊對我們理論結果的錯誤解讀。Majid Daliri 在郵件中明確表示已將這些討論告知全體共同作者。然而後面 TurboQuant 論文在提交至 ICLR 2026、經過審稿、被接收,最終大規模宣發的全過程中,這個對 RaBitQ 理論保證的錯誤定性始終未被修正。一個沒有證據支撐的斷言,在被原作者具體指出錯誤、且 TurboQuant 作者方已明確知情的情況下,仍被保留在正式發表的 TurboQuant 論文中,我們認為這已超出普通失誤的範疇。TurboQuant 論文問題三:刻意創造不公平的實驗環境TurboQuant 論文使用劣化的實現、關閉多線程使用單核CPU測試 RaBitQ 的效果,卻使用 A100 GPU 測試 TurboQuant 的效果。TurboQuant 報告的 RaBitQ 量化速度比我們開源實現的實際速度慢了數個數量級。 2025年5月的郵件中,Majid Daliri 本人解釋了這一差距的來源:“we were using a single-core CPU instance, and multiprocessing was indeed disabled […] we weren’t fully utilizing parallelism, which explains why it was significantly slower”我們的官方 RaBitQ 程式碼在論文發佈至 arXiv 時(2024年5月與2024年9月)就已經公開,並且默認採用多線程平行。並且,Majid Daliri 在2025年1月的郵件中還說明,他成功跑通 RaBitQ 的程式碼用以測試,但他用於實驗的仍是自己翻譯的 Python 版本。這意味著,TurboQuant 論文中對 RaBitQ 速度的報告,疊加了兩層系統性的不公平條件:使用自己翻譯的 Python 程式碼,而非我們開放原始碼的 C++ 實現使用單核CPU,關閉多線程平行測試 RaBitQ 演算法,但卻使用 NVIDIA A100 GPU 測試 TurboQuant 演算法以上兩點均未在論文中充分披露。讀者看到的是 RaBitQ 比 TurboQuant 慢數個數量級這一結論,卻無從知道這一結論建立在刻意創造的不公平的實驗條件之上。事件完整時間線2024年5月:RaBitQ 論文在 arXiv 發佈,同時原始碼公開(後面發表在頂級會議 SIGMOD 2024)2024年9月:拓展版 RaBitQ 論文在 arXiv 發佈,同時原始碼公開(後面發表在頂級會議 SIGMOD 2025)2025年1月:TurboQuant 論文第二作者 Majid Daliri 聯絡我們,請求協助偵錯 Python 版 RaBitQ 實現2025年4月:TurboQuant 論文在 arXiv 發佈2025年5月:我們跟 Majid Daliri 通過郵件詢問了實驗條件的差異並清楚解釋了 RaBitQ 的理論保證最優性, Majid Daliri 表示他已告知全體作者,但在我們要求修正 TurboQuant 論文中的事實性錯誤之後,Majid Daliri 停止回覆2025年11月:我們發現 TurboQuant 論文被提交至 ICLR 2026 會議,且論文中的事實性錯誤並未修正,為此我們聯絡了 ICLR 2026 PC Chairs,未獲回應2026年1月:TurboQuant 論文被 ICLR 2026 接收 2026年3月:TurboQuant 團隊通過 Google 官方管道持續推廣,社交媒體相關瀏覽量已達數千萬次2026年3月:我們正式向 TurboQuant 全體作者傳送郵件,闡述以上三個事實性問題並要求做出修正及澄清。截至目前為止,我們僅收到 TurboQuant 論文第一作者 Amir Zandieh 的籠統答覆,承諾會修正問題二和問題三,但拒絕修正問題一(即討論 TurboQuant 與 RaBitQ 在技術上的相似性)。並且,他們僅願意在 ICLR 2026 正式會議結束之後才做相應修正我們已經做了什麼在 ICLR OpenReview 發佈公開評論: https://openreview.net/forum?id=tO3ASKZlok向 ICLR General Chairs, PC Chairs, Code and Ethnics Chairs 再次提交正式投訴,附完整證據包我們接下來會做什麼在 arXiv 發佈詳細的關於 TurboQuant 和 RaBitQ 的技術報告考慮向相關機構進一步反映最後我們提出這些問題,目標是讓公共學術記錄精準地反映各方法之間的真實關係。一篇論文被 Google 以數千萬曝光量推向公眾,在這種體量下,論文中錯誤的敘事不需要主動傳播,只需要不被糾正,就會自動成為共識,這也是我們選擇公開記錄的原因。在此我們也懇請大家讓更多人知道 TurboQuant 論文背後存在的問題,我們相信真理越辯越明。 (芯智訊)
Nature重磅:AI寫的論文,在頂會同行評審擊敗55%人類,單篇15美元
【新智元導讀】剛剛,Nature蓋章AI獨立科研時代!全新Scaling Law顯現,人類死守的學術鐵王座,正發生不可逆的轉移。一篇長達數十頁的學術論文,在人類設定研究主題和實驗邊界後,系統自動完成了從實驗到寫作的大部分流程。從論文正文、實驗程式碼、圖表和投稿稿件,主要由系統端到端自動生成。它被投遞到頂尖機器學習會議ICLR 2025某workshop的同行評審流程中,三位匿名審稿人不知道具體那幾篇是AI生成稿件,他們對著這篇稿件分別打出了6、7、6的高分。這個成績,高於約55%的同場投稿。稿件在評審完成後按實驗協議撤回,未進入正式發表階段。這並非科幻,這是剛剛被《Nature》報導的一項震撼研究。該項研究是由Sakana AI聯合牛津大學、UBC共同推出的全自動AI科學家「The AI Scientist」。Sakana AI聯合創始人兼 CEO David Ha在推文中表示,啟動該項目,正是想探索大模型是否能夠完成整個科研全流程:我堅信,AI將永遠改變科學發現和科研進步的方式。全自動「AI科學家」究竟做了什麼?這一次,不是AI在「幫」人幹活,而是AI第一次把科研流程從頭走到尾。一直以來,AI在科研領域的定位都是「高級打工人」:比如幫化學家折疊蛋白質,或是幫程式設計師找bug。定義問題和統籌全域的,始終是人類。The AI Scientist的出現,則顛覆了這套「主僕敘事」,它完整覆蓋了科研的四大核心階段:Idea生成、實驗迭代、論文寫作、自動評審。在全新升級的v2版本中,它甚至走向了「無範本」模式:徹底拋棄人類提供的初始程式碼腳手架,引入了強大的「智能體樹搜尋」(agentic tree search)機制。這意味著它能在龐大的未知解空間裡,同時開啟多條主線平行探索。科研不再是單線程試錯,而變成了一個可擴展的搜尋過程。它怎麼保證自己不和別人撞車?系統會呼叫Semantic Scholar API進行全網查重,確保每一個idea都具備足夠的新穎性。在最棘手的資料可視化環節,它甚至內建了一個視覺語言模型(VLM)作為反饋審閱者。如果坐標軸反了、圖例丟了、展示有歧義,VLM會像嚴苛的導師一樣立刻打回重做,直到生成完美的學術圖表。過去圖表只是論文包裝,現在圖表也成了AI科研的反饋訊號。而完成這堪比博士生幾個月工作量的閉環,它的帳單是:單篇論文15美元。如此驚人的性價比意味著,科研自動化第一次從「局部輔助」跨進了「全鏈路主導」。AI不再只是科學家的輔助工具,而是向更具自主性的科研代理系統演進。AI Scientist工作流程的概念概述,包括提出研究想法、實施實驗、執行實驗、撰寫論文以及審閱論文。通過人類同行評審測試AI寫的論文,人類學術金字塔尖的學者到底認不認?於是,Sakana AI決定玩一把大的:直接向頂會投稿。在獲得ICLR大會領導層、ICBINB workshop組織者以及IRB倫理委員會的特批後,團隊進行了一場極其大膽的「潛伏行動」:將3篇純AI生成的論文混入了人類投稿池。審稿人只被告知「可能有AI生成論文」,但根本不知道具體是那幾篇。結果其中一篇探索神經網路組合正則化(Compositional Regularization)負面結果的論文,斬獲了平均6.33分(弱接收、接收、弱接收)的高分。這個分數不僅穩穩越過了該workshop的平均錄用線,更是超過了55%的真實人類學者。連科學研究中最難寫出彩的負向論證,AI也能寫得有模有樣、邏輯自洽。據Sakana AI團隊所稱,這是全AI生成論文首次在真實學術評審環境中獲得通過接收線的成績。這也標誌著同行評審,真正迎來了「圖靈測試」時刻。AI審稿人比人類更靠譜?如果AI一天能花幾百美元寫出幾十篇論文,人類審稿系統瞬間就會崩潰。想讓AI科研實現指數級爆發,就必須有能夠大規模評估質量的「自動化裁判」。Sakana AI給出的答案是:直接讓AI來當Area Chair(領域主席)。他們建構了一個高度還原NeurIPS官方審稿流程的自動化系統:5個獨立的AI審稿人進行背靠背挑刺,最後由1個AI元審稿人進行共識彙總和最終裁決。在與數千條真實OpenReview人類審稿決策的硬碰硬對比中,自動化審稿人交出了69%的平衡精準率。令人震驚的是,在作者設定的評測框架下,自動審稿系統的部分指標優於所對照的人類一致性結果。有人質疑:AI是不是偷偷背過題?團隊特意用知識截止日期(2025年)之後的全新論文進行了資料污染測試。結果依然堅挺:平衡精準率保持在66%,達到可與人類頂級學者比肩的實戰水準。這表明,AI正在進入過去長期由人類主導的科研流程核心環節。過去,人類同時壟斷了「寫論文的人」和「決定論文是否成立」這兩個關鍵角色。現在,這兩個角色都在被AI切入。一旦評審環節也被自動化,AI科研就不再是零星爆款,而具備了大規模、左右互搏式迭代的基礎設施。該自動審稿系統在頂級會議(ICLR)發表的AI論文上,其審稿判斷與人類審稿人一致,包括在模型訓練完成之後(即超出其「知識截止日期」)發表的論文。這些結果表明,該自動審稿系統在為新撰寫的AI論文提供評審分數方面,可靠性與人類審稿人相當。科研的Scaling Law如果說「過審」證明了AI科研站得住,那真正決定未來天花板的是另一件事:它是不是可持續變強?Nature論文中最具顛覆性的一組資料,揭示了潛藏在AI科研背後的全新定律。研究發現,底層大模型的能力與生成論文的質量之間,呈現出令人頭皮發麻的極度顯著正相關(P<0.00001)。隨著模型發佈日期推進,AI產出的論文質量持續陡峭上升。同時,算力正在暴力改寫科研法則。投入的測試時算力越多,智能體樹搜尋的深度就越深,實驗質量就越紮實,最終的產出評級就越高。當前最頂配的AI科學家,其平均產出已經逼近機器學習頂會workshop的邊緣錄用(borderline accept)水平。這背後展示的是一條正在形成的「科研Scaling Law」。過去的科技突破,依賴於虛無縹緲的靈光乍現,而未來的科學發現,將變成一條可精確計算的工業流水線。隨著模型能力呈指數級增長、推理算力成本呈指數級下降,這套系統會自動升級,這才是這項工作真正展現出恐怖勢能。根據自動評審員的評判,當使用更新、更智能的基礎模型時,AI Scientist生成的論文質量會提高。AI全面接管科研我們準備好了嗎?當然,這篇Nature論文,同樣也指出了The AI Scientist的目前的侷限性:它偶爾會想出幼稚的idea,寫的程式碼會有bug,論文裡會出現引用的幻覺,甚至在附錄裡重複貼上同一張圖表。值得警惕的是,論文顯示該系統具備自動偵錯、重試運行和在受限計算預算下持續迭代實驗的能力。這意味著,未來更強的科研代理一旦出現規避約束的傾向,可能帶來新的安全治理問題。如果這種系統被毫無節制地釋放,海量生成的低門檻論文會瞬間壓垮整個學術生態,學者的學術 credentials(資歷證明)將被徹底稀釋。正因如此,Sakana AI採取了極其克制的立場:主動撤稿、通過IRB審批、呼籲加入生成水印,並急迫要求社區建立全自動AI科研規範。這篇Nature論文不只是展示AI技術的里程碑,更是把AI所帶來的倫理爭議也擺上檯面。真正的問題早已不是「AI能不能做科研」,而是「當AI開始獨立做科學,誰來定義什麼算科學」。正如團隊所設想的終極願景:AI科學家不會讓人類科學家消失,但人類科學家的角色,必須被迫向著科研價值鏈的更上游遷徙:去定義問題、設定邊界、決定那些發現值得被相信。 (新智元)
馬斯克點贊!17 歲高中生參與研究!Kimi 讓 AI 學會“翻舊帳”
2026 年 3 月 16 日,Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。該論文獲馬斯克誇讚:“Kimi 的工作令人印象深刻。”論文瞄準的不是訓練資料、參數規模或推理技巧,而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。用通俗的話說,現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面,優點是訓練穩定、網路能堆得很深,但問題是層數一多,前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象,也就是隱藏狀態會隨著深度持續變大,早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。這篇論文的核心思路,是把過去這種“所有層結果默認一股腦往後加”的方式,改成“後面的層按需去前面挑資訊”。作者把這套方法叫做 Attention Residuals,簡稱 AttnRes。簡單理解,它相當於給模型加了一個會翻舊帳的機制,後面的層不再機械接收前面所有層的累計結果,而是像注意力機制那樣,根據當前需要,從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞,現在 AttnRes 想進一步改變層與層之間的資訊傳遞。這件事之所以被業內關注,不只是因為想法新,還因為它動的是大模型最底層、最通用的一塊積木。Transformer 這些年有很多改進,大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方,但很少直接去碰 residual connection 這類默認配置。AttnRes 的價值就在於,它試圖回答一個更底層的問題,模型變深以後,資訊到底該怎麼在不同層之間流動,才不會越傳越亂。當然,理想很豐滿,工程通常很殘酷。因為如果每一層都去“看”所有更早的層,記憶體和通訊成本會迅速上升。為瞭解決這個問題,論文又提出了 Block AttnRes,也就是“塊注意力殘差”。它的做法不是逐層精細回看,而是先把很多層壓成若幹個塊,只在塊之間做這種選擇性檢索。可以把它理解成,不是翻整本書的每一頁,而是先把內容整理成幾個章節目錄,再按章節去查。這樣一來,記憶體和通訊開銷從 O(Ld) 降到 O(Nd),更適合真正的大模型訓練和推理場景。論文還配套設計了跨 stage 快取和兩階段計算策略,報告稱典型推理負載下額外延遲低於 2%,啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。從實驗結果看,這不是那種“只在某個小模型上偶然有效”的工作。論文做了 scaling law 實驗,比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。結果顯示,AttnRes 在不同計算預算下都持續優於基線,而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。按論文給出的擬合結果,在 5.6 PFLOP/s-days 這一點上,Block AttnRes 達到的損失水平,相當於基線多用 1.25 倍計算量才能達到。GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。論文還把這套方法接入了 Kimi Linear 架構中,使用的是一個 48B 總參數、3B 啟動參數的模型,並在 1.4 T tokens 上進行了預訓練。按照上傳論文中的結果,採用 Block AttnRes 後,模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline,很多項目還有明顯提升。比如 MMLU 從 73.5 提升到 74.6,GPQA-Diamond 從 36.9 提升到 44.4,Math 從 53.5 提升到 57.1,HumanEval 從 59.1 提升到 62.2,C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務,提升更明顯。如果把這篇論文再說得更白一點,它不是在教大模型“多背一點知識”,而是在幫大模型“更準確地調出自己已經學到的東西”。傳統殘差更像是把所有舊資料不斷堆進一個大箱子,箱子越堆越滿,找重點越來越難;AttnRes 更像是給這個箱子加了索引系統,後面的層可以按需要去翻前面真正有用的資料。這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧,卻可能對下一代大模型底層結構設計產生實際影響。它最大的意義,在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計,而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置,還要看後續更多模型、更多團隊和更長時間的復現與驗證。該論文更引人注意的是其中作者之一:陳廣宇是一位 17 歲的高中生,參與了技術研究。 (雲頭條)
姚順雨騰訊首篇論文:給AI下半場指路“上下文學習”
姚順雨,入職騰訊首席AI科學家後,參與的首個成果來了。CL-bench,專門用來測試大模型“從上下文中學習”的能力。這項研究與姚順雨一貫的研究思路高度契合,去年8月他在OpenAI期間發表的博文《下半場》曾提出一個被反覆引用的判斷:AI正處在“中場休息”階段,上半場是訓練大於評估,下半場將是評估大於訓練。真正重要的不是繼續堆模型規模,而是讓模型在真實任務、真實系統中經得起檢驗。CL-bench的評測結果相當扎心,當前最強的GPT-5.1 (High),任務解決率只有23.7%。換句話說,即便把解題所需的全部資訊都喂給模型,它依然在超過四分之三的任務上栽了跟頭。為什麼需要上下文學習研究團隊在部落格中開門見山地指出了一個被忽視的問題:今天的前沿模型是頂級的“做題家”,能解奧數、能寫程式碼、能通過人類需要苦讀數年才能拿下的專業資格考試。但這能在考場拿滿分的學生,未必能勝任真實世界的工作。部落格中舉了三個人類日常生活的例子:開發者掃過從未見過的工具文件就能立刻偵錯程式碼;玩家拿起新遊戲的規則書在實戰中邊玩邊學;科學家從複雜的實驗日誌中篩選資料推匯出新的結論。這些場景中,人類並不只依賴多年前學到的死知識,而是在即時地從眼前的上下文中學習。然而今天的語言模型並非如此。它們主要依賴“參數化知識”,即在預訓練階段被壓縮排模型權重裡的靜態記憶,在推理時更多是在呼叫這些封存的內部知識,而不是主動從當前輸入的新資訊中汲取營養。團隊用一句話概括了這個矛盾:我們造出了依賴“過去”的參數推理者,但世界需要的是能吸收“當下”環境上下文的學習者。CL-bench:500個複雜上下文,一個簡單但苛刻的要求為了量化這個差距,團隊建構了CL-bench。這個基準包含由資深領域專家精心製作的500個複雜上下文、1899個任務和31607個驗證標準。設計原則只有一條:解決每個任務要求模型必須從上下文中學習到預訓練中不存在的新知識,並正確應用。模型需要學習的知識非常廣泛,包括新的領域知識、不熟悉的規則系統、複雜的產品工作流,甚至是必須從實驗資料中推導歸納出的定律或結論。所有這些知識要麼是由領域專家完全新建構的,要麼是取自那些不太可能出現在當前前沿模型訓練資料中的小眾、長尾來源。具體來說,CL-bench涵蓋了四種現實世界的上下文學習場景:領域知識推理,比如虛構的法律體系或創新的金融工具;規則系統應用,比如新的遊戲機制或程式設計語法;程序性任務執行,比如工作流和產品手冊;以及最具挑戰性的經驗發現與模擬,要求模型從資料中歸納出潛在規律。團隊展示了幾個任務案例:在一部長達2.3萬字、剛剛生效的新法律下判一起真實糾紛;基於一門新設計的教育程式語言規範實現一個帶有時間條件終止的周期性程序;在一套從未見過的程式設計框架中執行程式碼;在給定技術規格和長期環境政策情景的條件下模擬關鍵技術金屬的可持續全球供應。為了確保測試結果反映的是真正的上下文學習能力而非資料洩露或記憶,團隊採用了無污染設計:專家創作完全虛構的內容,或修改現實世界的內容建立變體,或整合在預訓練資料集中代表性極低的小眾內容。論文特別提到,在不提供任何上下文的情況下,GPT-5.1 (High)僅能解決不到1%的任務,有力證明了模型若不從上下文中學習幾乎完全無法解決這些任務。平均而言,領域專家花費約20小時標註每個上下文,以確保任務建構的質量和深度。十個前沿模型集體翻車即使提供上下文,當前模型的表現也好不到那去。團隊在CL-bench上評估了十個最先進的語言模型,結果揭示了當前模型幾乎不能從複雜上下文中學習來解決真實場景的問題。平均而言,模型僅解決了17.2%的任務,即便是表現最好的GPT-5.1 (High)也僅達到23.7%。錯誤分析顯示了幾個值得注意的現象。忽略或誤用上下文是導致失敗的主要原因,許多錯誤並非源於資訊缺失,而是源於模型忽視了上下文中的關鍵細節或錯誤地應用了它們。在許多情況下,模型只會利用預訓練學習到的靜態知識來解決任務,即使上下文明確定義了新的規則、概念或程序,模型也不會學習和利用。此外,從實驗資料和環境模擬中進行歸納推理比演繹應用更困難。演繹任務讓模型根據上下文中明確給出的規則和流程進行應用,而經驗發現和環境模擬類任務則要求歸納推理。模型在這類任務上的表現明顯較差,任務解決率通常低於10%,且結果波動大。更高的推理強度通常能提升上下文學習效果,但提升有限。例如GPT-5.1在管理類和實驗資料類任務上的表現提升約6%,但其他模型提升有限甚至可能下降,說明單靠更多推理並不足夠,模型還必須能夠正確吸收和組織上下文資訊。研究團隊最後寫道:CL-bench充分解釋了語言模型在真實場景中為什麼經常出錯:即使有了上下文工程,給模型準備好了所需的上下文,模型也會失敗。如果模型不能真正從中學習,僅僅提供上下文是不夠的。從“AI下半場”到騰訊首席AI科學家與其繼續刷榜,不如先搞清楚模型到底還差在那兒。CL-bench某種程度上正是姚順雨關於AI下半場這一判斷的具體實踐。這項研究由騰訊混元和復旦大學團隊合作完成,共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。致謝部分提到,從上下文中學習新知識的想法最早源於Pluto Zhou在2024年提出的設想,同時特別感謝姚順雨提供的鼓勵以及多次寶貴建議,稱“他的全面而細緻的審閱和反饋,極大地幫助我們進一步提升了這項工作的質量”。姚順雨今年1月正式加盟騰訊,職位是騰訊總辦首席AI科學家,向騰訊總裁劉熾平匯報,同時兼任AI Infra部、大語言模型部負責人向技術工程事業群總裁盧山匯報。團隊在最後也留下了下一步研究思路:起碼在當下,我們的目標是很明確:讓上下文學習真正走向現實。 (量子位)
OpenAI凌晨放大招,免費Prism顛覆科研!從摘要到致謝,GPT-5.2包圓
【新智元導讀】科研工具幾十年未變的僵局終被打破,OpenAI攜GPT-5.2強勢入局,用免費的Prism告訴世界:未來的科學研究,不需要在碎片化的舊工具中浪費生命!昨天一場QA局後,奧特曼終於扔出了王炸。深夜,OpenAI正式祭出新一代科研利器——Prism,由GPT-5.2加持,專為寫作和協作而生。它是一個基於雲的「AI原生」LaTeX工作區,不限項目和協作的人數。最方便的是,GPT-5.2內嵌在項目中——它能看到你整篇論文的結構、公式、參考文獻,還有上下文,科研需要時隨叫隨到。這麼說吧,它就是科研黨、學生黨的研究利器。把論文潤色交給Prism,它能從第一行摘要開始全程絲滑代勞,人類只需扮演那個不斷點「繼續」的稽核機器。它還直接可以把上傳的白板圖,一鍵轉化成TikZ圖,並插入游標所在的位置。Prism還可以管理參考文獻,彙總所有和論文相關的研究。甚至就連最後一步稽核,AI也全包了。這不,OpenAI團隊還即興創作了一篇介紹Prism的論文。Prism的發佈,或許是OpenAI想要在科研領域重點發力的一步棋。AI大佬點評,「未來和Prism一起科研,每篇論文都將出現一個ChatGPT合著者」。一夜之間,OpenAI殺死了寫論文高效神器Overleaf。從今天起,任何擁有ChatGPT個人帳號的使用者,全部都可以免費用。很快,Prism也將面向ChatGPT Business、Enterprise和Education開放。Prism終結科研工具論文一句話搞定在過去的一年裡,AI開始加速各領域的科研工作。像GPT-5這樣先進的推理系統,正在拓展數學的邊界,加速人類免疫細胞的實驗分析,甚至加快了分子生物學的迭代速度。然而,現實是骨感的。許多科研的日常工作,比如起草論文、修改論點、管理公式和引用,以及與協作者溝通等等,依然割裂在各種不互通的工具裡。研究人員不得不在編輯器、PDF 閱讀器、LaTeX編譯器、文獻管理軟體和獨立的聊天軟體之間反覆橫跳。這不僅丟失了上下文語境,更無情地打斷了寶貴的專注力。Prism,就是OpenAI為解決這種「碎片化」痛點邁出的第一步。GPT-5.2加持,重塑科研工作流具體來說,它基於OpenAI收購的一個雲端LaTeX平台Crixet建構。借助最先進的數學與科學推理模型GPT-5.2,OpenAI將起草、修改、協作和出版準備整合進了一個單一的、基於雲端的LaTeX原生工作區。由此,GPT-5.2不再是游離於寫作過程之外的獨立工具,而是直接深入項目內部工作流——它能讀取論文結構、公式、引用以及周圍的上下文語境。這讓OpenAI能夠在一個成熟、強大的寫作環境中,以一種最自然契合科研工作流的方式整合AI。使用Prism,研究人員可以獲得以下超能力:與GPT-5.2 Thinking對話:在當前語境下探索思路、驗證假設,並對複雜的科學問題進行推理。全域語境下的起草與修改:AI能結合整篇文件(包括周圍的文字、公式、引文、圖表和整體結構)來輔助寫作和修改。智能文獻搜尋與整合:結合當前手稿的內容搜尋相關文獻(例如arXiv),並根據新發現的相關工作自動建議修改文字。智能處理公式與圖表:建立、重構並推理公式、引用及圖表,AI能夠理解這些元素在論文中是如何相互關聯的。草圖秒變LaTeX:將白板上的公式或圖示直接轉換為LaTeX程式碼,省去數小時逐像素調整圖片的繁瑣工作。無縫即時協作:與共同作者、學生和導師即時協作,任何編輯、評論和修訂都會即時同步。文件內直接修改:根據指令直接對文件進行修改,徹底告別在獨立編輯器和聊天工具之間來回覆制貼上。語音編輯:支援語音功能進行簡單的修改,無需中斷寫作或審閱流程。不限人數,0門檻共寫論文科學研究的本質是協作。一篇論文的誕生,往往凝聚了共同作者、學生、導師和審稿人的心血,跨越了機構和地域的限制。Prism支援無限協作者,允許研究團隊共同工作,沒有任何席位限制或訪問門檻。由於它是基於雲端的,使用者無需在本地配置LaTeX環境,這讓團隊協作變得前所未有的輕鬆。通過減少版本衝突、手動合併和機械性的重複勞動,Prism讓團隊從繁瑣的檔案管理中解脫出來,將精力回歸到研究本身。全免費,人手一個科研利器Prism的另一個核心使命是降低門檻,普及科學工具的使用。Prism是完全免費的。任何擁有ChatGPT帳號的人都可以立即開始寫作,沒有訂閱費用,沒有席位限制。OpenAI希望通過讓高品質的科學工具觸手可及,讓無論身處那個機構、學科或職業階段的研究人員,都能充分參與到科學處理程序中來。未來,更強大的AI高級功能將通過ChatGPT的付費計畫逐步推出。為什麼現在推出?2025年,AI徹底改變了軟體開發。2026年,科學領域也會迎來同樣的變革。AI將在多個維度實質性地加速科學發現,而減少日常科研工作中的阻力正是關鍵一環。Prism正是通向那個未來的先行者。OpenAI期待向每一位使用Prism的研究人員學習,共同打造能讓科學極速前行的工具。讓我們共同努力,迎接科學的新時代。 (新智元)
一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車
這篇中國團隊領銜發佈的論文,已經在外網刷屏了,僅一夜閱讀就達到了200萬!這位MIT博士回國創業後組建的團隊,拉來全球24所頂級機構,給AI如何助力科學發現來了一劑猛藥。最近,一篇由中國團隊領銜全球24所TOP高校機構發佈,用於評測LLMs for Science能力高低的論文,在外網炸了!當晚,Keras (最高效易用的深度學習框架之一)締造者François Chollet轉發論文連結,並喊出:「我們迫切需要新思路來推動人工智慧走向科學創新。」AI領域KOL Alex Prompter分享論文核心摘要後,NBA獨行俠隊老闆Mark Cuban跟帖轉發,矽谷投資人、歐洲家族辦公室、體育媒體同時湧進評論區。僅一夜,累計閱讀量逼近200萬。值得一提的是,同一時間窗裡,OpenAI也發佈了對於AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現有評測標準在AI for Science領域失靈。神同步OpenAI、海外討論出圈,究竟是什麼樣的一份工作成果,攪動了全球AI輿論場?AI距離可以助力科學發現,還有多遠?前段時間,美國推出「創世紀計畫」,號稱要調動「自阿波羅計畫以來最大規模的聯邦科研資源」,目標是在十年內將美國科研的生產力和影響力翻倍。但在人工智慧估值泡沫隱現、能耗與產出比飽受質疑的當下,一面是資本的狂歡,另一面卻是AI能力困於「文生圖」等表層應用的尷尬;一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮,另一面卻是現有LLMs還無法精準解析簡單核磁圖譜的尷尬現狀。人們不禁要問:能在題庫拿高分,就能助力科學發現嗎?現在的模型距離科學發現還有多遠?究竟什麼樣的AI模型可以勝任,拓寬人類的生存邊界?這些討論,在中美AI競爭白熱化的當下變得愈發濃烈。在此背景下,由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、史丹佛、劍橋、牛津等全球24所科研院校共同發佈的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時代之問。論文推出了LLMs for Science首套評測體系SDE(Scientific Discovery Evaluation),從科學問題到研究項目,對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。同以往評測體系不同的是,SDE對模型能力的考量,從簡單的問答式,引向了具體的「假設->實驗->分析」實驗場景。研究發現,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均精準率 50–70%,遠低於它們在GPQA、MMMU等題庫上的80–90%;在86道「SDE-Hard」難題中,最高分不足12%,共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板。更值得警惕的是,模型規模與推理能力的提升已呈現明顯的 「邊際效益遞減」。GPT-5相較於前一代模型,參數規模和推理算力顯著增加,但在SDE基準的四大科學領域中,平均精準率僅提升3%-5%,部分場景(如NMR結構解析)甚至出現性能下滑。換句話說,當前大語言模型在推動科學發現方面的表現,還不如一個普通的本科生。能領銜24所頂尖科研院校發佈背後團隊是誰?《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理Deep Principle」創始人兼CTO。早在2021年,在MIT攻讀化學博士期間,他就已在圖靈獎得主Yoshua Bengio的支援下,發起了AI for Science社區的建立,並在NeurIPS上舉辦AI for Science workshop。2024年初,他與MIT物理化學博士賈皓鈞回國,共同創立「深度原理Deep Principle」。賈皓鈞任CEO,段辰儒任CTO,兩人雖為95後,但已在全球AI for Science創業領域小有名氣。創業一年半以來,其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資,且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關係。「深度原理Deep Principle」從創立之初,就帶著全球AI for Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發中的第一線,將生成式人工智慧同量子化學結合起來,致力於推動材料發現等領域進入新紀元。在過去的一年中,他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果,宣告著他們的技術領先和開放交流的「95後創業公司」心態。從開拓擴散生成模型(Diffusion Models)在化學反應的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機器學習勢(Machine Learning Potentials, MLPs)和擴散生成模型的直接對比,證明傳統的機器學習勢不是「萬能」的,再到現在組織各大頂級學者和高校推出SDE,證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能,精準切入AI for Science領域的核心衝突。但同時,對於所有的AI4S公司而言,在商業真金白銀的檢驗中,AI能否真正解決新產品研發問題、滿足客戶期待,是日復一日必須面對的拷問。隨著與行業頭部客戶的商業化合作落地,「深度原理Deep Principle」的資料庫中已經匯聚了來源於客戶與自己實驗室、大量來自第一線的真實工業研發場景資料和模型應用經驗。學術圈的深耕與在AI for Science商業化第一線的積累,讓「深度原理Deep Principle」在提出要建構一把新尺子評測LLMs for Science能力時,一呼百應,搖來了23家全球TOP科學發現機構的50餘位科學家,成立了制定SDE的「夢之隊」。這其中,不乏活躍在LLM領域的大牛學者們,比如:孫歡(Huan Sun),MMMU發起人,俄亥俄州立教授杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區「營運大管家」王夢迪,普林斯頓最年輕教授,AI+Bio Safety先驅者Philippe Schwaller,IBM RXN之父,EPFL教授而「深度原理Deep Principle」前期積累的科學發現場景,成為了後來SDE評測體系的前身。在經歷近9個月的跨高校跨學科跨時區的協作後,《Evaluating LLMs in Scientific Discovery》論文正式發佈,通訊單位赫然寫著:深度原理,杭州,中國。自此,匯聚著全球頂級科學發現機構的集體智慧,來自中國的創業團隊「深度原理Deep Principle」,和大洋彼岸的OpenAI,同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。或許千百年後,當人類回望AGI時代,在21世紀的四分之一結束的當口,這場由中美團隊共同呼應的,對於AI for Science的嚴肅討論,把LLMs在各類問答式榜單上的內卷,向真正科學發現的星辰大海推近了一步。「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了,目前LLM的發展路徑並不能「順便攻克」科學發現。這條通往科學超級智能之路,需要更多有識之士共同並肩而行。 (新智元)
【梁文鋒署名】DeepSeek再發新論文:75%思考+25%記憶,這是他們算出來的最優解
DeepSeek又發論文了。這次的主題有點意思:他們發現,現在的大模型在浪費大量算力做一件很傻的事——用計算來模擬查字典。論文叫《Conditional Memory via Scalable Lookup》,核心是一個叫Engram的模組。這個名字有點意思。Engram是神經科學術語,最早由德國生物學家Richard Semon在1904年提出,指的是大腦中儲存記憶痕跡的物理結構——當你記住"巴黎是法國首都"這個事即時,這條資訊就以某種物理形式(可能是特定的神經連接模式)儲存在你的大腦裡,這個物理痕跡就叫engram。DeepSeek用這個名字,顯然是想說:我們要給大模型裝上真正的"記憶"。說實話,看完之後我挺興奮的——這篇論文的思路非常優雅,而且解決的是一個很根本的問題。更重要的是,它觸及了一個認知科學的經典命題:記憶和思考是什麼關係?先說問題:大模型在浪費算力做"背書"你有沒有想過,當大模型看到"Diana, Princess of Wales"(戴安娜王妃)這個詞的時候,它內部發生了什麼?DeepSeek在論文裡引用了一個很有意思的研究(PatchScope):模型需要消耗多層Attention和FFN,才能逐步把這個實體識別出來。具體來說,模型處理"Wales"這個詞時的內部狀態演變:看到沒?模型用了6層計算,才把一個固定的歷史人物識別出來。問題在於:這個資訊是靜態的、固定的,根本不需要每次都"計算"出來。"亞歷山大大帝"就是"亞歷山大大帝","四大發明"就是"四大發明","張仲景"就是"張仲景"。這些固定搭配、命名實體、慣用表達,每次都用神經網路重新計算一遍,是不是有點傻?這就像你每次需要查"中國首都是那"的時候,不是直接查字典,而是從頭推理一遍——中國是個國家,國家有首都,中國的政治中心在...DeepSeek的核心觀點是:大模型浪費了大量的"網路深度"在做這種重複性的靜態知識重建。這些算力本來可以用來做更有價值的事——比如推理。Engram的核心思想:給模型發一本字典想像你在考試。以前的規則是:什麼都不能帶,全靠腦子現場推。"亞歷山大大帝是誰?"你得從頭想——亞歷山大,希臘名字,大帝說明是君主,歷史上有名的希臘君主...現在新規則:允許帶一本字典進考場。字典裡寫著"亞歷山大大帝 = 馬其頓國王,公元前356-323年,征服了波斯帝國"。你直接翻到這一頁,抄上去,省下來的時間做後面的推理題。Engram就是這本字典。具體怎麼查?很簡單:模型看到"Alexander the Great"這三個詞連在一起,就像看到字典的索引詞條。它用一個很快的方法(雜湊)定位到字典裡對應的那一頁,直接把預先存好的資訊拿出來用。整個過程不需要"思考",只需要"翻頁"。但這裡有個問題:同一個詞在不同場合意思不一樣。比如"蘋果",可能是水果,也可能是那家科技公司。字典裡存的是那個意思?Engram的解決方案很聰明:查完字典之後,先看看上下文,再決定用不用。如果前面在聊水果,字典裡查出來的"蘋果公司"就不太對勁,模型會自動忽略這個查表結果,繼續用自己的推理。如果前面在聊手機,那字典裡的資訊就很有用,直接採納。這就像一個聰明的學生:帶了字典進考場,但不是無腦抄,而是先判斷字典裡的答案和題目對不對得上。關鍵發現:U型縮放定律這裡是論文最有意思的部分。DeepSeek研究了一個問題:如果總參數量固定,應該把多少參數分配給MoE專家,多少分配給Engram記憶?他們定義了一個"分配比例"ρ:ρ = 100% 表示純MoE(所有稀疏參數都給專家)ρ < 100% 表示把部分參數從專家轉移到Engram實驗結果讓人驚訝:驗證損失呈現U型分佈:純MoE(ρ=100%)不是最優的分配約20-25%給Engram(ρ≈75-80%)效果最好把太多參數給Engram(ρ<50%)效果又變差這個U型曲線說明了什麼?MoE和Engram是互補的:MoE擅長動態的、需要上下文推理的任務Engram擅長靜態的、固定模式的識別兩者缺一不可。純MoE缺少記憶能力,純Engram缺少推理能力。插一段:博爾赫斯早就寫過這個看到這個U型曲線的時候,我突然想起博爾赫斯的一個短篇:**《博聞強記的富內斯》**(Funes the Memorious)。故事講的是一個叫富內斯的阿根廷青年,從馬上摔下來之後,獲得了"完美記憶"的能力——他能記住一切。每一片葉子的形狀,每一朵雲的變化,甚至能記住1882年4月30日黎明時分南方天空的雲綵排列。但博爾赫斯寫道:富內斯無法思考。"思考就是忘記差異,就是概括,就是抽象。在富內斯塞滿了東西的世界裡,只有細節,幾乎是直接感知的細節。"富內斯能記住三個不同時刻看到的同一條狗,但他無法理解"狗"這個概念——因為每一條狗、每一個瞬間的狗,對他來說都是完全不同的東西。他記住了一切,卻失去了抽象的能力。這不就是論文裡U型曲線的左端嗎?當ρ趨近於0(全是Engram,沒有MoE)時,模型有無限的記憶,但失去了推理能力。它能記住"亞歷山大大帝"是誰,但無法用這些知識進行推理。反過來,當ρ=100%(全是MoE,沒有Engram)時,模型有強大的推理能力,但要浪費大量算力重建那些本可以直接記住的東西。博爾赫斯在1942年就洞察到了這一點:記憶和思考是互補的,但也是對立的。完美的記憶會殺死思考,而純粹的思考則需要不斷重新發明輪子。最優解在中間——既有記憶,又有思考。DeepSeek的實驗資料給出了一個驚人精確的答案:大約75-80%給思考,20-25%給記憶。這讓我想到另一個認知心理學的經典概念:**組塊(Chunking)**。1956年,心理學家George Miller發表了著名的論文《神奇的數字7±2》,指出人類工作記憶的容量是有限的,但我們可以通過"組塊"來擴展它。比如記電話號碼138-8888-6666,你不是記11個數字,而是記3個組塊。N-gram本質上就是語言的組塊。"亞歷山大大帝"不是5個字,而是1個組塊。Engram做的事情,就是把這些組塊預先存好,省得每次都要重新計算。人腦早就在這麼幹了。DeepSeek只是讓大模型學會了同樣的技巧。實驗結果:推理能力提升比知識提升更大這是讓我最驚訝的部分。你可能會想:Engram是個"記憶模組",應該主要提升知識類任務吧?確實,知識任務有提升:MMLU:+3.4CMMLU:+4.0MMLU-Pro:+1.8但推理任務的提升更大:BBH:+5.0ARC-Challenge:+3.7DROP:+3.3甚至程式碼和數學也有顯著提升:HumanEval:+3.0MATH:+2.4GSM8K:+2.2等等,一個"記憶模組"為什麼能提升推理能力?機制分析:為什麼"記憶模組"能提升推理?這是我最想搞明白的問題。DeepSeek做了一個很有意思的實驗:他們"偷看"模型每一層在想什麼。具體方法是:把每一層的中間結果拿出來,問它"你現在覺得下一個詞是什麼?"。如果這一層已經很接近最終答案,說明模型在這一層就基本"想明白了"。結果很直觀:有Engram的模型,在很早的層就"想明白了";沒有Engram的模型,要到很深的層才行。為什麼?因為沒有字典的模型,前面幾層都在忙著做一件事:搞清楚"亞歷山大大帝"是誰。它得一層一層地拼湊——這是個人名,是個歷史人物,是個國王,是馬其頓的國王...等它終於搞清楚這是誰了,已經用掉了5、6層。剩下的層才能開始真正的推理。但有字典的模型不一樣。第2層的時候,Engram直接告訴它:"亞歷山大大帝 = 馬其頓國王,征服者"。好了,搞定,後面20多層全部用來推理。這就像兩個學生做同一張卷子:一個學生得先花20分鐘背公式,再用40分鐘做題。另一個學生帶了公式表,60分鐘全用來做題。誰的推理題做得更好?顯然是第二個。DeepSeek還做了一個更精確的測量:Engram模型第5層的"思考深度",相當於普通模型第12層的水平。換句話說,Engram相當於免費給模型加了7層深度。這就解釋了為什麼推理能力提升這麼大——不是Engram本身能推理,而是它把推理的空間讓出來了。長上下文能力也炸了還有個意外收穫:處理長文章的能力暴漲。有個測試叫"大海撈針"——在一篇很長的文章裡藏一句關鍵資訊,看模型能不能找到。為什麼字典能幫助處理長文章?想像你在讀一本很長的小說。如果你每次看到"福爾摩斯"都要停下來想"這是誰來著...",讀到後面肯定記不住前面的劇情。但如果"福爾摩斯 = 偵探,住貝克街221B"這個資訊已經存在字典裡,你的注意力就可以全部用來追蹤劇情——誰殺了誰,線索在那,凶手是誰。Engram處理了"這是誰"的問題,Attention就可以專注於"發生了什麼"的問題。相當於給大腦減負了。系統設計:字典可以放在抽屜裡這裡體現了DeepSeek一貫的風格:理論創新和工程落地並重。繼續用考試的比喻。MoE(專家模型)的問題是:每道題都要"現場"決定找那個專家來答,這個決定本身就要花時間。但字典不一樣。你看到"亞歷山大大帝",就知道要翻到A開頭那一頁。你不需要先讀完整道題,才知道去查那個詞條。這意味著什麼?意味著字典可以提前準備好。模型還在處理第1層的時候,系統就已經知道第2層要查什麼詞條了。所以可以提前把那一頁準備好,等模型算到第2層的時候,字典已經翻開擺在那兒了。更妙的是:字典不需要放在桌上,放在抽屜裡也行。GPU視訊記憶體很貴,就像桌面空間有限。但CPU記憶體便宜得多,就像抽屜容量大得多。既然可以提前知道要查什麼,那就提前從抽屜裡把那一頁拿出來,等用的時候已經在桌上了。DeepSeek做了個實驗:把一本1000億參數的"字典"放在抽屜裡(CPU記憶體),結果:只慢了2% ,但多了1000億參數的知識。這就是為什麼Engram可以做得很大——字典放抽屜裡就行,不佔桌面。門控可視化:確實在識別固定模式論文最後有個很直觀的可視化:紅色表示門控值高(Engram被啟動),白色表示門控值低(Engram被忽略)。可以看到,門控在這些地方啟動:"Alexander the Great"(亞歷山大大帝)"the Milky Way"(銀河系)"Princess of Wales"(威爾士王妃)"四大發明""張仲景""傷寒雜病論"全是命名實體和固定搭配。Engram確實在做它該做的事:識別靜態模式。往大了說:DeepSeek在開一條新路回到開頭的問題:這篇論文的意義是什麼?過去幾年,大家都在一個方向上卷:怎麼讓模型算得更聰明。MoE讓不同的專家處理不同的問題,Attention讓模型看到更遠的上下文,更深的網路讓推理更複雜。但不管怎麼卷,本質上都是在最佳化"計算"。DeepSeek說:等等,有些問題根本不需要算,查一下就行了。這個思路其實很符合直覺:人腦也不是什麼都靠推理,很多時候就是直接呼叫記憶。你看到"1+1"不需要推理,直接輸出"2"就行。論文最後一句話很有意思:"We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."翻譯過來:我們認為條件記憶會成為下一代稀疏模型的基礎元件。DeepSeek在押注一個新的架構方向。最後:記憶與思考的平衡回到開頭的問題:記憶和思考是什麼關係?博爾赫斯用富內斯告訴我們:完美的記憶會殺死思考。認知心理學告訴我們:人腦用組塊來平衡記憶和思考的負擔。現在DeepSeek用實驗資料告訴我們:最優的比例大約是75%計算 + 25%記憶。這個數字讓我覺得很有意思。它意味著,即使是"智能"系統,也不能全靠"聰明"——你得記住一些東西,才能把腦力用在更值得思考的地方。這篇論文給我最大的啟發是:有時候最好的最佳化不是讓計算更快,而是把計算變成查表。O(1)的查表永遠比O(n)的計算快。如果一個問題的答案是固定的、可以預先算好存起來的,那就沒必要每次都重新算。這個道理在電腦科學裡叫"空間換時間"。但在大模型領域,過去幾年大家都在卷MoE、卷Attention、卷更深的網路,似乎忘了還有"記憶"這條路。DeepSeek的Engram提醒我們:大模型不是越大越好、也不是越深越好,關鍵是把合適的任務分配給合適的模組。靜態知識 → 查表(Engram)動態推理 → 計算(MoE)就像人腦一樣:你不需要每次看到"1+1"都重新推導,直接從記憶裡調出"2"就行了。省下來的腦力,用來思考更有價值的問題。富內斯記住了一切,卻無法思考。純MoE模型能夠思考,卻要浪費算力重建記憶。最聰明的系統,是知道什麼該記住、什麼該思考的系統。 (花叔)
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)