DeepSeek最新公佈的原生稀疏注意力(Native Sparse Attention, NSA)機制不僅將大語言模型處理64k長文字的速度最高提升11.6倍,更在通用基準測試中實現性能反超傳統全注意力模型。如果後續DeepSeek將NSA整合到模型訓練中,其基座模型的能力有望實現顯著提升。
當馬斯克高調推出基於20萬塊GPU叢集的Grok-3、Sam Altman在開源策略上反覆權衡之際,DeepSeek悄然發佈了一項可能改變遊戲規則的技術。
18日,DeepSeek CEO公佈了一項由梁文鋒親自參與的研究論文成果——原生稀疏注意力(Native Sparse Attention, NSA)機制。這是DeepSeek團隊在稀疏注意力領域的創新性工作,結合了演算法創新和硬體最佳化,旨在解決長上下文建模中的計算瓶頸。
DeepSeek論文顯示,NSA不僅將大語言模型處理64k長文字的速度最高提升11.6倍,更在通用基準測試中實現性能反超傳統全注意力模型。在全球AI競賽轉向"硬核創新"的當口,這家低調的中國公司展示了技術破局的新範式。