【DeepSeek】DeepSeek重磅發佈！實習生挑大樑，梁文鋒親自參與

2025/02/20

•

奧特曼，外面都是梁文鋒。

最近梁文鋒很忙。

2月17日飛去北京，參加最高規格的民企座談會。

飛北京的前一天，2月16日還上傳了一篇技術大突破的論文。

2月18日，DeepSeek官方就發佈了這篇論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

主要內容是是關於NSA（Natively Sparse Attention，原生稀疏注意力），一種用於超快速長文字訓練與推理的、硬體對齊且可原生訓練的稀疏注意力機制。

簡單來說，就是教會AI“一目十行”，這就像我們讀書時，我們會專注於關鍵段落，重要的句子看，並快速瀏覽其餘部分。抓住重點來理解文章意思。

這項技術有望大幅提升下一代大語言模型，處理長文字的能力，同時還能兼顧效率，可謂是AI大模型，里程碑式的進展。

當然，大家也不忘@了下OpenAI的的奧特曼：看，梁文鋒的DeepSeek又有新論文了。

DeepSeek創始人梁文鋒，出現在了合著名單，在作者排名中只排倒數第二。

這意味著，他或許只是項目管理者。

值得注意的事，這篇論文的第一作者叫Jingyang Yuan，是在DeepSeek實習期間，完成了這篇論文。

袁景陽Jingyang Yuan，目前是北京大學碩士研究生，研究領域包括大型語言模型（LLM）、人工智慧在科學中的應用（AI for Science）。

他是DeepSeek-V3技術報告的主要作者之一，還參與了DeepSeek-R1項目。

高華佐 Huazuo Gao，則來自廣東，2012年在華南師範大學附屬中學就讀，就曾獲第29屆全國中學生物理競賽一等獎，次年保送至北京大學物理學院。

代達勱Damai Dai，畢業於重慶市巴蜀中學，高考697分進入北京大學。2024年博士畢業後加入DeepSeek，全程參與從DeepSeek v1到v3的研發。

曾旺丁Wangding Zeng，來自湖南省新化縣，2017年至2023年就讀於北京郵電大學人工智慧學院，碩士期間主要學習人工智慧方向，導師為張洪剛，2018年曾獲全國大學生數學競賽（非數學類）二等獎。

中國的科技網際網路大廠，熱衷於全球招募頂級人才，甚至收集各種諾獎得主。

過去外界猜測，包括OpenAI前政策主管，DeepSeek吸引了一批“難以捉摸的天才”。

梁文鋒曾表示，DeepSeek就沒什麼“難以捉摸的天才”，大多是來自中國頂尖高校的應屆生、博士生（甚至是四五年級的實習生），以及一些有幾年經驗的年輕人。

目前，全球前50的AI人才可能確實不在中國，但DeepSeek希望自己培養出這樣的團隊。

現在的AI煉金，都是建立靠著Transformer這把刀。DeepSeek這篇論文，就是把Transformer磨得更鋒利。

傳統的 Transformer 非常耗記憶體。輸入越長，計算成本就越高。

計算複雜度，會隨著序列長度的增加而呈平方級增長。這成為了大語言模型發展的瓶頸。計算成本高昂，延遲大。

DeepSeek這次解決了傳統Transformer注意力機制，在長上下文處理中的二次計算複雜度問題。

現在有了DeepSeek的NSA，在處理 64k長度的序列時，在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升，最高可達11.6倍！

Deepseek 的研究人員還將 NSA 與 FA2 核心進行了比較，實證結果表明，NSA 在前向和後向時間上的執行速度分別快了9 倍/6 倍。

NSA還支援端到端可訓練稀疏模式，減少預訓練成本。

它需要相對較少的 token 來理解事物，這就意味著訓練成本大幅下滑。

一次巨大的效率提高！有業內人士點評：

這篇NSA機制的論文內容詳實，涉及的技術細節闡釋清晰，可操作性強，是DeepSeek給開源AI研究貢獻的最新成果。

DeepSeek才是真正的Open的AI。 (奇偶工作室)