DeepSeek R2 還沒來,但 DeepSeek 下一代模型的更新,已經提前在今年的 ACL 最佳論文中「劇透」了。
昨天,全球自然語言處理領域的頂尖會議ACL 公佈了今年的最佳論文。
這個會議堪稱自然語言處理領域的「世界盃」,不僅是未來一兩年大語言模型的風向標,而且從這裡走出的頂尖技術,往往會迅速被全行業採納。當年顛覆了整個AI 領域的Transformer 架構,最初就是在這裡嶄露頭角的。
而今年,一篇由DeepSeek 和北京大學共同完成的論文斬獲了「最佳論文獎」:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
論文網址🔗 https://arxiv.org/abs/2502.11089
從標題就能看出,這是一篇非常硬派的技術論文,關鍵字密度拉滿:Sparse Attention(稀疏注意力)、Hardware-Aligned(硬體對齊)、Trainable(可訓練)…
但即便如此,它依然值得所有關注大模型未來的人認真讀一遍,因為它首次把稀疏注意力從理論推理帶進了完整訓練流程,在保持模型性能的同時,還帶來了高達11 倍的推理加速。
論文第一作者北京大學碩轉博研究生袁境陽(左三),導師張銘(右一),圖片來源:https://x.com/aclmeeting/status/1950745647214161930
對DeepSeek 來說,這不僅是一次學術認可,更可能是下一代模式落地的技術預覽。
為什麼「長文」這麼難? AI 的「注意力澇散症」
要理解DeepSeek 這個技術的牛X 之處,得先知道現在大模型處理長文本的「痛」。
目前,所有大模型的核心技術之一都叫做「注意力機制」(Attention),這也是大語言模型的奠基之作「Attention Is All You Need」。
關於注意力機制,你可以把它想像成學生在課堂上聽講。
傳統的「全注意力」(Full Attention)機制,就像一個記憶力超群但效率極低的學生。老師每說一個新字(Query),他都要把這個字和從開學第一天到現在說過的每一個字(Keys/Values)都重新比對一遍,來理解新字的意思。
論文中的比較圖顯示,NSA(紅色)在各項基準測試中表現均優於或持平全注意力(橘色),同時在解碼、前向和後向傳播等各個階段都實現了巨大的速度提升。
當文字很短時,這沒問題。
但當文字長達幾十萬字時,這種「每個字都和前面所有字比對」的計算量會呈平方級暴增。這不僅讓模型反應變得巨慢,訓練和推理的成本也高到離譜。
這就是為什麼我們現在使用的大模型,雖然上下文視窗越來越大,但一旦接近極限,速度就會明顯變慢,API 價格也更貴。
論文裡面也提到傳統的注意力機制,在64k 上下文長度下,softmax attention(傳統注意力機制中的一個模組)的計算佔據了整個推理延遲的70%–80%。
DeepSeek 的解法:像人一樣「抓重點」
為了解決這個問題,過去一段時間,誕生了各種稀疏attention 技術。
從這個月Kimi K2 技術報告裡面提到,使用自動調節的QK-Clip 機制,做到「兆總參數,激活參數僅百億,保持在訓練友好的稀疏度」。
到Manus 在這個月也發布了一篇博客,提到了“六大上下文工程法則”,提高KV-Cache 命中率,用文件系統承載持久上下文。
2024 年的一篇論文提到當時的大語言模型上下文長度狀況
但無論是token 距離限制,或是KV cache 剪枝,它們大多還有兩個問題:
1.只能用在推理階段,訓練階段還得用full attention。
2.稀疏注意力在理論上快,但實際上跑得慢,尤其是在多卡部署、A100/V100 上。
科學家提出了「稀疏注意力」(Sparse Attention),想法很簡單:沒必要看每一個字,只專注在重要的部分就行。但這說來容易做來難,很多舊方法要不是速度提不上去,就是丟掉了關鍵資訊導致效能下降。
圖片來源:https://x.com/casper\_hansen\_/status/1950649481617342803
而DeepSeek 和北大的這篇最佳論文提出的NSA(Natively Sparse Attention,原生稀疏注意力)就是解決這些問題。它的核心思想是模仿人類閱讀長篇報告時的智慧:
粗讀摘要(Token Compression):首先,NSA 會將長文本中較早的內容打包成一個個“壓縮塊”,像閱讀章節摘要一樣,快速掌握全局的粗略信息。這保證了模型不會忘記一百八十頁之前提到的關鍵前提。
精讀重點(Token Selection):在了解全局大意後,模型會根據目前需要處理的內容,回頭去「選取」之前那些最相關的原文細節區塊進行精讀。例如,在回答關於第三章的問題時,就重點去看第三章的原文,而不是全文掃視。
強記最近(Sliding Window):就像我們總是能清楚記得剛剛讀過的那幾段話,NSA 也會專門保留一個「滑動視窗」,對最近的上下文資訊保持最精細的注意力。
NSA 架構概述圖,NSA 像一個聰明的讀者,通過三種方式(Compression 壓縮、Selection 選擇、Sliding 滑動窗口)來處理信息,並通過一個“門控”機制動態決定那部分信息更重要。
最棒的是,NSA 透過一個「門控機制」動態地學習如何平衡這三種閱讀策略。
此外,NSA 是「原生可訓練」的,這意味著模型從預訓練開始就在學習這種高效的注意力分配方法,而不是等模型長大了(推理階段)再強行給它加裝一個稀疏機制。
這使得NSA 的稀疏模式和模型的其他部分能夠完美協同,最終實現了性能和效率的雙重飛躍。
實測結果:訓練更快,推理更強,表現不降反升
DeepSeek 在論文中以詳盡的實驗數據證明了NSA 的強大實力。
效能不降反升:在MMLU、GSM8K 等一系列通用知識、推理和程式碼能力的標準測試中,搭載了NSA 的27B 模型在9 項指標中的7 項都擊敗了傳統的全注意力模型。
尤其在考驗推理能力的DROP 和GSM8K 測驗中,提升顯著。這說明,透過稀疏化濾除雜訊訊息,反而可能讓模型更專注於關鍵邏輯。
長文本理解能力拔尖:在經典的「大海撈針」測試中,NSA 在64k(約8 萬字)的超長文本中做到了100% 的信息檢索準確率,無論信息藏在那個角落都能精準找到。
在更複雜的LongBench 評測中,NSA 的平均分數也超越了包括全注意力在內的大部分基線方法。
速度快到飛起:這是最令人興奮的部分。與目前最高效的全注意力實現FlashAttention-2 相比,NSA 在處理64k 長度的序列時:
基於Triton 的NSA 核心與基於Triton 的FlashAttention-2 核心的比較。 NSA 的實現顯著降低了所有上下文長度下的延遲,並且隨著輸入長度的增加,改進效果更加明顯。
訓練速度:前向計算加速9.0 倍,反向傳播加速6.0 倍。這意味著訓練新模型的效率大大提高。
推理速度:使用者最關心的生成回復階段(解碼),速度提升了驚人的11.6 倍。
這意味著,過去你需要等半分鐘才能獲得的長篇分析,未來可能幾秒鐘就搞定了。
DeepSeek 的未來:更快、更強、更便宜?
上下文長度正在成為大模型新能力的戰場。無論是跨文件程式碼補全、長文件摘要,或是多輪複雜對話,模型都需要在10 萬甚至百萬Token 層級的上下文中快速定位、理解、推理。
這項由DeepSeek 和北大的研究員主導完成的研究,幾乎可以肯定,NSA 技術將成為未來DeepSeek 系列大模型的核心競爭力之一。
NSA Kernel 設計,保證了GPU 總是在其最快的記憶體上進行計算
NSA 已經跑完了在27B、MoE 架構上的完整預訓練驗證,訓練框架也基於DeepSeek 自研的MoE 系統,兼容GQA 架構、FlashAttention-2 內核,並使用Triton(輝達開源的推理服務框架) 重寫了關鍵kernel。
這意味著,它不僅僅是一個「可以做」的研究,而是一個「準備好落地」的系統模組。
對於我們普通用戶來說,未來可以直接將整本書、幾十份財報、一個完整的GitHub 專案程式碼庫扔給AI,讓它進行深度分析、總結和問答,而無需手動拆分。
DeepSeek 的反應速度也會更快,而運算效率的巨大提升,最終會傳導到API 的價格上,我們的使用成本也會更低。
部分模型定價對比,圖片來源:https://artificialanalysis.ai/
從「價格屠夫」到技術引領者,DeepSeek 正在透過像NSA 這樣堅實的技術創新,一步步建立自己的護城河。
這看起來不僅是學術界的勝利,更是整個AI 應用生態即將迎來又一次提速的號角。
接下來就拭目以待,看看搭載了「原生稀疏注意力」的下一代DeepSeek 大模型,會帶給我們怎樣的驚喜。(APPSO)