DeepSeek R2秘密武器曝光！梁文鋒剛拿下頂級大獎的技術，讓AI讀長文速度狂飆11倍

2025/07/31

•

DeepSeek R2 還沒來，但 DeepSeek 下一代模型的更新，已經提前在今年的 ACL 最佳論文中「劇透」了。

昨天，全球自然語言處理領域的頂尖會議ACL 公佈了今年的最佳論文。

這個會議堪稱自然語言處理領域的「世界盃」，不僅是未來一兩年大語言模型的風向標，而且從這裡走出的頂尖技術，往往會迅速被全行業採納。當年顛覆了整個AI 領域的Transformer 架構，最初就是在這裡嶄露頭角的。

而今年，一篇由DeepSeek 和北京大學共同完成的論文斬獲了「最佳論文獎」：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

論文網址🔗 https://arxiv.org/abs/2502.11089

從標題就能看出，這是一篇非常硬派的技術論文，關鍵字密度拉滿：Sparse Attention（稀疏注意力）、Hardware-Aligned（硬體對齊）、Trainable（可訓練）…

但即便如此，它依然值得所有關注大模型未來的人認真讀一遍，因為它首次把稀疏注意力從理論推理帶進了完整訓練流程，在保持模型性能的同時，還帶來了高達11 倍的推理加速。

論文第一作者北京大學碩轉博研究生袁境陽（左三），導師張銘（右一），圖片來源：https://x.com/aclmeeting/status/1950745647214161930

對DeepSeek 來說，這不僅是一次學術認可，更可能是下一代模式落地的技術預覽。

為什麼「長文」這麼難？ AI 的「注意力澇散症」

要理解DeepSeek 這個技術的牛X 之處，得先知道現在大模型處理長文本的「痛」。

目前，所有大模型的核心技術之一都叫做「注意力機制」（Attention），這也是大語言模型的奠基之作「Attention Is All You Need」。

關於注意力機制，你可以把它想像成學生在課堂上聽講。

傳統的「全注意力」（Full Attention）機制，就像一個記憶力超群但效率極低的學生。老師每說一個新字（Query），他都要把這個字和從開學第一天到現在說過的每一個字（Keys/Values）都重新比對一遍，來理解新字的意思。

論文中的比較圖顯示，NSA（紅色）在各項基準測試中表現均優於或持平全注意力（橘色），同時在解碼、前向和後向傳播等各個階段都實現了巨大的速度提升。

當文字很短時，這沒問題。

但當文字長達幾十萬字時，這種「每個字都和前面所有字比對」的計算量會呈平方級暴增。這不僅讓模型反應變得巨慢，訓練和推理的成本也高到離譜。

這就是為什麼我們現在使用的大模型，雖然上下文視窗越來越大，但一旦接近極限，速度就會明顯變慢，API 價格也更貴。

論文裡面也提到傳統的注意力機制，在64k 上下文長度下，softmax attention（傳統注意力機制中的一個模組）的計算佔據了整個推理延遲的70%–80%。

DeepSeek 的解法：像人一樣「抓重點」

為了解決這個問題，過去一段時間，誕生了各種稀疏attention 技術。

從這個月Kimi K2 技術報告裡面提到，使用自動調節的QK-Clip 機制，做到「兆總參數，激活參數僅百億，保持在訓練友好的稀疏度」。

到Manus 在這個月也發布了一篇博客，提到了“六大上下文工程法則”，提高KV-Cache 命中率，用文件系統承載持久上下文。

2024 年的一篇論文提到當時的大語言模型上下文長度狀況

但無論是token 距離限制，或是KV cache 剪枝，它們大多還有兩個問題：

1.只能用在推理階段，訓練階段還得用full attention。

2.稀疏注意力在理論上快，但實際上跑得慢，尤其是在多卡部署、A100/V100 上。

科學家提出了「稀疏注意力」（Sparse Attention），想法很簡單：沒必要看每一個字，只專注在重要的部分就行。但這說來容易做來難，很多舊方法要不是速度提不上去，就是丟掉了關鍵資訊導致效能下降。

圖片來源：https://x.com/casper\_hansen\_/status/1950649481617342803

而DeepSeek 和北大的這篇最佳論文提出的NSA（Natively Sparse Attention，原生稀疏注意力）就是解決這些問題。它的核心思想是模仿人類閱讀長篇報告時的智慧：

粗讀摘要（Token Compression）：首先，NSA 會將長文本中較早的內容打包成一個個“壓縮塊”，像閱讀章節摘要一樣，快速掌握全局的粗略信息。這保證了模型不會忘記一百八十頁之前提到的關鍵前提。

精讀重點（Token Selection）：在了解全局大意後，模型會根據目前需要處理的內容，回頭去「選取」之前那些最相關的原文細節區塊進行精讀。例如，在回答關於第三章的問題時，就重點去看第三章的原文，而不是全文掃視。

強記最近（Sliding Window）：就像我們總是能清楚記得剛剛讀過的那幾段話，NSA 也會專門保留一個「滑動視窗」，對最近的上下文資訊保持最精細的注意力。

NSA 架構概述圖，NSA 像一個聰明的讀者，通過三種方式（Compression 壓縮、Selection 選擇、Sliding 滑動窗口）來處理信息，並通過一個“門控”機制動態決定那部分信息更重要。

最棒的是，NSA 透過一個「門控機制」動態地學習如何平衡這三種閱讀策略。

此外，NSA 是「原生可訓練」的，這意味著模型從預訓練開始就在學習這種高效的注意力分配方法，而不是等模型長大了（推理階段）再強行給它加裝一個稀疏機制。

這使得NSA 的稀疏模式和模型的其他部分能夠完美協同，最終實現了性能和效率的雙重飛躍。

實測結果：訓練更快，推理更強，表現不降反升

DeepSeek 在論文中以詳盡的實驗數據證明了NSA 的強大實力。

效能不降反升：在MMLU、GSM8K 等一系列通用知識、推理和程式碼能力的標準測試中，搭載了NSA 的27B 模型在9 項指標中的7 項都擊敗了傳統的全注意力模型。

尤其在考驗推理能力的DROP 和GSM8K 測驗中，提升顯著。這說明，透過稀疏化濾除雜訊訊息，反而可能讓模型更專注於關鍵邏輯。

長文本理解能力拔尖：在經典的「大海撈針」測試中，NSA 在64k（約8 萬字）的超長文本中做到了100% 的信息檢索準確率，無論信息藏在那個角落都能精準找到。

在更複雜的LongBench 評測中，NSA 的平均分數也超越了包括全注意力在內的大部分基線方法。

速度快到飛起：這是最令人興奮的部分。與目前最高效的全注意力實現FlashAttention-2 相比，NSA 在處理64k 長度的序列時：

基於Triton 的NSA 核心與基於Triton 的FlashAttention-2 核心的比較。 NSA 的實現顯著降低了所有上下文長度下的延遲，並且隨著輸入長度的增加，改進效果更加明顯。

訓練速度：前向計算加速9.0 倍，反向傳播加速6.0 倍。這意味著訓練新模型的效率大大提高。

推理速度：使用者最關心的生成回復階段（解碼），速度提升了驚人的11.6 倍。

這意味著，過去你需要等半分鐘才能獲得的長篇分析，未來可能幾秒鐘就搞定了。

DeepSeek 的未來：更快、更強、更便宜？

上下文長度正在成為大模型新能力的戰場。無論是跨文件程式碼補全、長文件摘要，或是多輪複雜對話，模型都需要在10 萬甚至百萬Token 層級的上下文中快速定位、理解、推理。

這項由DeepSeek 和北大的研究員主導完成的研究，幾乎可以肯定，NSA 技術將成為未來DeepSeek 系列大模型的核心競爭力之一。

NSA Kernel 設計，保證了GPU 總是在其最快的記憶體上進行計算

NSA 已經跑完了在27B、MoE 架構上的完整預訓練驗證，訓練框架也基於DeepSeek 自研的MoE 系統，兼容GQA 架構、FlashAttention-2 內核，並使用Triton（輝達開源的推理服務框架）重寫了關鍵kernel。

這意味著，它不僅僅是一個「可以做」的研究，而是一個「準備好落地」的系統模組。

對於我們普通用戶來說，未來可以直接將整本書、幾十份財報、一個完整的GitHub 專案程式碼庫扔給AI，讓它進行深度分析、總結和問答，而無需手動拆分。

DeepSeek 的反應速度也會更快，而運算效率的巨大提升，最終會傳導到API 的價格上，我們的使用成本也會更低。

部分模型定價對比，圖片來源：https://artificialanalysis.ai/

從「價格屠夫」到技術引領者，DeepSeek 正在透過像NSA 這樣堅實的技術創新，一步步建立自己的護城河。

這看起來不僅是學術界的勝利，更是整個AI 應用生態即將迎來又一次提速的號角。

接下來就拭目以待，看看搭載了「原生稀疏注意力」的下一代DeepSeek 大模型，會帶給我們怎樣的驚喜。(APPSO)