2月18日,DeepSeek團隊發佈一篇論文介紹了新的注意力機制NSA(Natively Sparse Attention,原生稀疏注意力機制)。
NSA專為長文字訓練與推理設計,能利用動態分層稀疏策略等方法,通過針對現代硬體的最佳化設計,顯著最佳化傳統AI模型在訓練和推理過程中的表現,特別是提升長上下文的推理能力,在保證性能的同時提升了推理速度,並有效降低了預訓練成本。
DeepSeek創始人梁文鋒現身論文著作者之中,在作者排名中位列倒數第二。
其他研究人員來自DeepSeek、北大和華盛頓大學,其中第一作者Jingyang Yuan(袁景陽)是在DeepSeek實習期間完成的這項研究。