【DeepSeek】梁文鋒帶實習生發論文！DeepSeek降本新招來了

2025/02/19

•

2月18日，DeepSeek團隊發佈一篇論文介紹了新的注意力機制NSA（Natively Sparse Attention，原生稀疏注意力機制）。

NSA專為長文字訓練與推理設計，能利用動態分層稀疏策略等方法，通過針對現代硬體的最佳化設計，顯著最佳化傳統AI模型在訓練和推理過程中的表現，特別是提升長上下文的推理能力，在保證性能的同時提升了推理速度，並有效降低了預訓練成本。

DeepSeek創始人梁文鋒現身論文著作者之中，在作者排名中位列倒數第二。

其他研究人員來自DeepSeek、北大和華盛頓大學，其中第一作者Jingyang Yuan（袁景陽）是在DeepSeek實習期間完成的這項研究。

資料顯示，袁景陽目前為北京大學碩士研究生。他的研究領域包括大型語言模型（LLM）、人工智慧在科學中的應用（AI for Science）。他是DeepSeek-V3技術報告的主要作者之一，還參與了DeepSeek-R1項目，該項目旨在通過強化學習激勵大型語言模型的推理能力。

在論文中，DeepSeek團隊表示，隨著大型語言模型的發展，長上下文建模變得越來越重要，但傳統注意力機制的計算複雜度隨著序列長度的增加而呈平方級增長，成為制約模型發展的關鍵瓶頸。

NSA便是為高效處理長上下文任務而生的一種技術路徑，其核心創新在於：

1）動態分層稀疏策略：結合粗粒度的Token壓縮和細粒度的Token選擇，既保證全域上下文感知，又兼顧局部資訊的精確性。

2）硬體對齊與端到端訓練：通過算術強度平衡的演算法設計和硬體最佳化，顯著提升計算速度，同時支援端到端訓練，減少預訓練計算量。

實驗表明，NSA不僅在通用任務和長上下文任務中表現出色，還在鏈式推理等複雜任務中展現了強大的潛力，且推理速度加快。在通用基準測試、長文字處理以及基於指令的推理任務中，NSA的表現均能達到甚至超越傳統全注意力（Full Attention）模型的水平，其以性價比極高的方式，罕見地在訓練階段應用稀疏性，在訓推場景中均實現速度的明顯提升，特別是在解碼階段實現了高達11.6倍的提升。

通過高效的長序列處理能力，NSA使模型能夠直接處理整本書籍、程式碼倉庫或多輪對話（如千輪客服場景），擴展了大語言模型在文件分析、程式碼生成、複雜推理等領域的應用邊界。例如，Gemini 1.5 Pro已展示長上下文潛力，NSA可進一步降低此類模型的訓練與推理成本。 (科創板日報)