【DeepSeek】DeepSeek重磅發佈!實習生挑大樑,梁文鋒親自參與

奧特曼,外面都是梁文鋒。



最近梁文鋒很忙。

2月17日飛去北京,參加最高規格的民企座談會。


(坐馬化騰隔壁)


飛北京的前一天,2月16日還上傳了一篇技術大突破的論文。

2月18日,DeepSeek官方就發佈了這篇論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。



主要內容是是關於NSA(Natively Sparse Attention,原生稀疏注意力),一種用於超快速長文字訓練與推理的、硬體對齊且可原生訓練的稀疏注意力機制。

簡單來說,就是教會AI“一目十行”,這就像我們讀書時,我們會專注於關鍵段落,重要的句子看,並快速瀏覽其餘部分。抓住重點來理解文章意思。

這項技術有望大幅提升下一代大語言模型,處理長文字的能力,同時還能兼顧效率,可謂是AI大模型,里程碑式的進展。

當然,大家也不忘@了下OpenAI的的奧特曼:看,梁文鋒的DeepSeek又有新論文了。



01 全靠實習生

DeepSeek創始人梁文鋒,出現在了合著名單,在作者排名中只排倒數第二。

這意味著,他或許只是項目管理者。



值得注意的事,這篇論文的第一作者叫Jingyang Yuan,是在DeepSeek實習期間,完成了這篇論文。



袁景陽Jingyang Yuan,目前是北京大學碩士研究生,研究領域包括大型語言模型(LLM)、人工智慧在科學中的應用(AI for Science)。

他是DeepSeek-V3技術報告的主要作者之一,還參與了DeepSeek-R1項目。

高華佐 Huazuo Gao,則來自廣東,2012年在華南師範大學附屬中學就讀,就曾獲第29屆全國中學生物理競賽一等獎,次年保送至北京大學物理學院。

代達勱Damai Dai,畢業於重慶市巴蜀中學,高考697分進入北京大學。2024年博士畢業後加入DeepSeek,全程參與從DeepSeek  v1到v3的研發。



曾旺丁Wangding Zeng,來自湖南省新化縣,2017年至2023年就讀於北京郵電大學人工智慧學院,碩士期間主要學習人工智慧方向,導師為張洪剛,2018年曾獲全國大學生數學競賽(非數學類)二等獎。

中國的科技網際網路大廠,熱衷於全球招募頂級人才,甚至收集各種諾獎得主。

過去外界猜測,包括OpenAI前政策主管,DeepSeek吸引了一批“難以捉摸的天才”。

梁文鋒曾表示,DeepSeek就沒什麼“難以捉摸的天才”,大多是來自中國頂尖高校的應屆生、博士生(甚至是四五年級的實習生),以及一些有幾年經驗的年輕人。

目前,全球前50的AI人才可能確實不在中國,但DeepSeek希望自己培養出這樣的團隊。


02 更好的刀

現在的AI煉金,都是建立靠著Transformer這把刀。DeepSeek這篇論文,就是把Transformer磨得更鋒利。

傳統的 Transformer 非常耗記憶體。輸入越長,計算成本就越高。

計算複雜度,會隨著序列長度的增加而呈平方級增長。這成為了大語言模型發展的瓶頸。計算成本高昂,延遲大。

DeepSeek這次解決了傳統Transformer注意力機制,在長上下文處理中的二次計算複雜度問題。



現在有了DeepSeek的NSA,在處理 64k長度的序列時,在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升,最高可達11.6倍!



Deepseek 的研究人員還將 NSA 與 FA2 核心進行了比較,實證結果表明,NSA 在前向和後向時間上的執行速度分別快了9 倍/6 倍。



NSA還支援端到端可訓練稀疏模式,減少預訓練成本。

它需要相對較少的 token 來理解事物,這就意味著訓練成本大幅下滑。



一次巨大的效率提高!有業內人士點評:

這篇NSA機制的論文內容詳實,涉及的技術細節闡釋清晰,可操作性強,是DeepSeek給開源AI研究貢獻的最新成果。

DeepSeek才是真正的Open的AI。 (奇偶工作室)