#推理程式
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)
震動全行業!Google剛剛打出了一張“王炸”:Gemini 3 Flash,徹底終結AI應用的“燒錢”遊戲!
Google剛悄悄上線了Gemini3Flash——要是光看跑分,它可能不是最扎眼的,但要說顛覆性、對明年預算和產品規模化的影響,這模型絕對排得上頭名。我直接說透:它可不光是“快”和“便宜”這麼簡單,Google這是憑著一己之力,用成本結構對整個AI推理市場搞“降維打擊”呢。01 戰略定位:那是“青春版” , 分明是“部署級核武器”!好多人覺得Flash是Gemini3Pro的“性能縮水版”,這理解真的完全跑偏了!從架構來看,Gemini3Flash是直接搭在Gemini3Pro的推理基礎架構上的,根本不是獨立的弱架構——它共享著同樣的推理骨幹,只是專門針對極低延遲和極低成本做了深度最佳化。Google這兒還拋出個關鍵概念:“思考等級”(ThinkingLevels)。作為業內人,這點你可得吃透:以前不管讓模型干多簡單的活,都得為它的“最大推理深度”付費。但現在有了“思考等級”控制,開發者能根據任務需求,精準調控模型的推理程度。這意味著啥?你再也不用為解決一個簡單的圖像識別問題,花解決複雜數學難題的推理費用——這可是對AI經濟模型的一次根本性顛覆。02 核心吸引力:成本“屠夫”上線 , 把“燒錢”變成“印鈔”價格才是這次發佈的真炸彈。把性能和成本標準化之後,Gemini3Flash的競爭力簡直沒誰了。看組資料就知道,這才是真・成本大跳水:輸入(每百萬Token):才50美分輸出(每百萬Token):僅需3美元這價格有多震撼?比Gemini3Pro、ClaudeSonnet4.5甚至GPT5.2都便宜太多。Google的訊號已經很明確了:Gemini3Pro是給那些追求最大推理深度、不在乎成本的場景準備的;而Gemini3Flash,才是Google要你“部署到任何地方”的模型。它不是智能上的“退步”,而是“每決策支出”(SpendPerDecision)上的一次史詩級下降。03 打破低價迷思:多模態與編碼 , 照樣能打!低價可不代表低能——這正是Flash最讓人興奮的地方。它經過最佳化後,在推理、多模態理解、編碼和長上下文任務裡,都能保持穩定的高水準。A.多模態理解:截圖即程式碼生成 , 成本直接大降多模態工作流以前就是“燒錢”的代名詞,但Flash證明了:不用讓成本爆炸,也能實現前沿能力。在評估截圖和UI元素理解能力的ScreenSpotPro基準測試裡,Flash表現特別能打。想像下這個場景:你給它一張Web分析儀表盤的截圖,它能立馬看懂內容,用HTML、TailwindCSS和Chart.js幫你重建功能相似的網頁程式碼,甚至還能自動加UI推理——比如顯示餅圖的數值和百分比這些細節。這就說明,Flash能以極低的成本做截圖分析、UI推理和視覺理解,壓根不用呼叫最昂貴的模型層級。B.通用推理與持續編碼能力專家級分析:在針對高難度科學和特定領域推理的GPQADiamond測試中 , Flash拿了90.4%的高分 , 跟Gemini3Pro差不了多少——這意味著它完全能勝任技術分析、長篇綜合、專家級問答這些研究密集型任務。編碼代理:在LiveCodeBench上 , Flash的性能和Pro在同一水平。更關鍵的是 , 它能支援連續編碼代理 , 還不會讓你的營運成本“炸掉”——這對所有AI軟體工程公司來說 , 絕對是最大的福音!04 該重新審視你的產品策略了!Gemini3Flash最大的價值,是給所有開發者和企業打開了規模化應用的大門。以前設計AI產品,總免不了在“功能強大”和“使用成本”之間糾結來糾結去。現在Flash憑著前所未有的性價比,直接打破了這個困境。它釋放了一個明確訊號:AI應用的黃金時代,不是由性能天花板決定的,而是由成本地板定義的。 (New基地)
小米首個推理大模型突然開源!股價上漲近5%
性能超OpenAI o1-mini,26頁技術報告公開。智東西4月30日報導,今日,小米開源其首個推理大模型Xiaomi MiMo。其中經強化學習訓練形成的MiMo-7B-RL模型,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分超過了OpenAI的閉源推理模型o1-mini和阿里Qwen開源推理模型QwQ-32B-Preview。在相同強化學習訓練資料情況下,MiMo-7B-RL在數學和程式碼推理任務上均表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。MiMo是新成立不久的小米大模型Core團隊的初步嘗試,4款MiMo-7B模型(基礎模型、SFT模型、基於基礎模型訓練的強化學習模型、基於SFT模型訓練的強化學習模型)均開源至Hugging Face。程式碼庫採用Apache2.0許可證授權。開源地址:https://huggingface.co/XiaomiMiMo小米大模型Core團隊已公開MiMo的26頁技術報告。技術報告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf受此消息提振,截至午間休市,小米集團今日股價上漲4.74%,總市值1.29兆港元(約合人民幣1.21兆元)。01.預訓練+後訓練,聯動提升推理能力MiMo系列模型從零開始訓練,其推理能力的提升由預訓練和後訓練階段中資料和演算法等多層面的創新聯合驅動,包括:預訓練:核心是讓模型見過更多推理模式資料:著重挖掘富推理語料,併合成約200B tokens推理資料。訓練:採用三階段資料混合策略,逐步提升訓練難度,MiMo-7B-Base在約25T tokens上進行預訓練;受DeepSeek-V3啟發,將多token預測作為額外的訓練目標,以增強模型性能並加速推理。▲使用MiMo-7B實現多token預測:在預訓練期間使用單個MTP層,推理階段可使用多個MTP層以獲得額外的加速後訓練:核心是高效穩定的強化學習演算法和框架演算法:提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling 策略,以穩定強化學習訓練。資料:精選了13萬道數學和程式碼題作為強化學習訓練資料,可供基於規則的驗證器進行驗證。每道題都經過仔細的清理和難度評估,以確保質量。僅採用基於規則的精準率獎勵機制,以避免潛在的獎勵駭客攻擊。框架:設計了Seamless Rollout系統,整合了連續部署、非同步獎勵計算和提前終止功能,以最大限度地減少GPU空閒時間,使得強化學習訓練加速2.29倍,驗證加速1.96倍。▲MiMo-7B-RL Seamless Rollout引擎概覽02. 7B強化學習模型,性能超過阿里32B模型和OpenAI o1-mini小米大模型Core團隊將MiMo-7B-Base與Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等規模相當的開源基礎模型進行了比較,所有模型評估都共享相同的評估設定。結果如圖所示,MiMo-7B-Base在所有基準和評估的k值取得了高於其他對比模型的pass@k分數。隨著k增加,MiMo-7B-Base與其他模型的分數差距穩步拉大,特別是在LiveCodeBench上。在評估語言推理模型的BBH基準測試上,MiMo-7B-Base的分數為75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基準測試結果展示出MiMo-7B-Base在解決研究生水平問題方面的出色表現。在閱讀理解基準測試DROP上,該模型的表現優於其他對比模型。在程式碼和數學推理任務中,MiMo-7B-Base的多項分數超過Llama-3.1-8B、Gemma-2-9B。MiMo-7B-Base在支援的32K上下文長度內實現了近乎完美的NIAH檢索性能,並在需要長上下文推理的任務中表現出色,多數情況下分數都超過了Qwen2.5-7B。這些結果驗證了其在預訓練期間將多樣化資料與高品質推理模式相結合的策略的有效性。▲RULER上的長上下文理解結果MiMo-7B-RL在多項通用基準測試接近或超過擁有32B參數規模的QwQ-32B Preview模型,數學和程式碼性能更是全面領先。在數學基準測試AIME 2025測試、程式碼基準測試LiveCodeBench v6中,MiMo-7B-RL的得分均超過OpenAI o1-mini。MiMo-7B系列4款大模型的多項數學和程式碼測試對比如下:03. 結語:今年大模型的三大熱潮,小米MiMo一舉覆蓋今年,在DeepSeek爆紅後,開源和推理迅速成為大模型領域的熱門風向。如今低調許久的小米也正式加入這一戰局。作為國產手機頭部企業之一,小米這次開放原始碼的四款模型參數規模只有7B,小到可以滿足在端側裝置上本地運行的需求,貼合了大模型的另一大趨勢——從卷參數規模轉向追求經濟高效。通過在預訓練和後訓練過程中的多項創新聯動,MiMo-7B-Base在數學、程式碼和通用任務上都展現了出色的推理能力。這項研究可以為開發更強大的推理模型提供參考。 (智東西)