#深度求索
突破!DeepSeek新模型適配中國國產AI晶片!
中國人工智慧領域迎來軟硬體協同發展的重要里程碑。9月29日,深度求索(DeepSeek)公司正式開源發佈DeepSeek-V3.2-Exp大語言模型,其創新的稀疏注意力架構(DSA)顯著提升長文字處理效率。與此同時,華為昇騰計算產業生態宣佈實現對該模型的“0day支援”,基於vLLM/SGLang等主流推理框架完成全套適配部署,並向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp作為實驗性版本,首次引入細粒度稀疏注意力機制(DSA),在保持與V3.1-Terminus相當性能的前提下,顯著最佳化了長上下文場景下的訓練與推理效率。該機制通過動態令牌選擇與局部注意力聚焦,有效降低了長文字處理的計算複雜度和記憶體佔用。華為昇騰團隊針對模型架構中的兩個全新算子——Lightning Indexer(LI)與Sparse Flash Attention(SFA),進行了專門的算子Tiling設計、Cube核與Vector核間的流水最佳化,全面提升計算效率。在CANNAI平台上,昇騰完成了對應的最佳化適配,整體部署策略沿用DeepSeek的大EP平行方案,並針對稀疏DSA結構疊加實現長序列親和的CP平行策略,兼顧時延和吞吐。實測資料顯示,在128K長序列環境下,最佳化後的模型在昇騰硬體上能夠保持TTFT(首令牌響應時間)低於2秒、TPOT(每個令牌輸出時間)低於30毫秒的推理生成速度。這一性能表現使得中國國產算力平台在處理大規模語言模型任務時達到業界先進水平。為進一步簡化開發流程,昇騰CANN首次推出大融合算子程式設計體系PyPTO,該框架創新性地採用PTO程式設計範式,以Tensor為基本資料表達方式,建構計算圖,實現高效計算與最佳化。目前基於PyPTO完成的DeepSeek Indexer Attention和Lightning indexer算子開發,僅需幾百行程式碼即可實現動態Shape算子程式設計和算子整網運行。除了華為昇騰,寒武紀、海光等中國國產晶片廠商也迅速宣佈完成模型適配,展現出中國國產AI軟硬體生態協同效應的持續擴大。業內分析指出,DeepSeek已成為中國國產開源模型的重要標竿,其快速迭代正推動著中國國產晶片標準的確立。華為雲已在第一時間完成對DeepSeek-V3.2-Exp模型的適配工作,基於稀疏Attention結構疊加實現長序列親和的上下文平行策略,最大可支援160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS,為企業和開發者提供模型體驗和API服務。DeepSeek-V3.2-Exp的發佈與中國國產算力的快速適配,標誌著中國在人工智慧基礎軟硬體協同最佳化方面取得實質性進展。隨著稀疏注意力等創新技術的成熟,以及中國國產算力生態的不斷完善,中國人工智慧產業正朝著自主可控、高效普惠的方向穩步邁進。 (晶片行業)
等待梁文鋒 | 深網
自年初以破曉之勢震撼全球AI領域後,“DeepSeek時刻”就成為AI領域關鍵節點的代名詞。即便在OpenAI等“矽谷新貴”發佈新品的間隙,不少海外使用者也在搜尋關於DeepSeek-R2的蛛絲馬跡。圖源:視覺中國8月6日,OpenAI、Google DeepMind、Anthropic在同一天放出王炸:OpenAI 開源 GPT-OSS,性能達到o4-mini水平,且能在高端筆記本上運行;Anthropic 推出 Claude Opus 4.1,重點強化了Agent 任務執行、編碼和推理能力;Google DeepMind 發佈世界模型 Genie 3,一句話就能即時生成可互動世界。OpenAI推出開源語言模型GPT-OSS拉開了序幕,緊接著GPT-5也於8月7日(美國時間)發佈。“使用GPT-4 感覺像在和一名大學生對話,而用GPT-5是第一次讓我真正感覺像在與一位博士等級的專家交談。”OpenAI CEO Sam Altman 如此形容GPT-5 能力的提升。就在OpenAI、Google DeepMind、Anthropic三大AI巨頭上演“神仙打架”的當口,有海外網友直接貼臉開大,在一張自製圖片上加上了DeepSeek-R2,並附言“We are in for a treat”(我們有好戲看了)未見其人,先聞其聲。自今年初 DeepSeek-R1憑著高性能、低成本和開放原始碼的特點引爆全球科技圈以來,產業界便期盼梁文鋒團隊能帶來新的驚喜,而R2作為R1的後續產品,近半年來一直是行業關注的焦點。R2推出時間成謎查閱杭州深度求索人工智慧基礎技術研究有限公司(以下簡稱深度求索)微信公眾號、官網、X帳號等公司官方管道發現,截至目前,DeepSeek並未正式公佈過DeepSeek-R2的資訊。行業關於DeepSeek-R2的資訊不少都來自海外媒體。早在2月份,路透社就曾爆料,DeepSeek內部正在加速推出R2模型,該模型原計畫在5月初發佈。不過從實際進展看,截至目前,依然未見DeepSeek-R2的蹤影。據深度求索官方微訊號顯示,自2025年3月至今,DeepSeek的動向主要集中在DeepSeek V3 模型和DeepSeek R1的小版本升級上。3月25日,DeepSeek V3 模型完成小版本升級,版本號 DeepSeek-V3-0324。該模型參數約 660B,開源版本上下文長度為128K(網頁端、App和API提供64K 上下文)。據DeepSeek介紹,升級後的DeepSeek V3 模型在推理任務表現、前端開發能力、中文寫作、中文搜尋能力等方面都有所最佳化。DeepSeek最近一次版本升級為5月29日推出的DeepSeek-R1-0528。與之前的 DeepSeek-R1相比,DeepSeek-R1-0528 仍然使用2024年12月發佈的 DeepSeek V3 Base 模型作為基座,但在後訓練過程中投入了更多算力,提升了模型的思維深度與推理能力。大模型訓練可簡單分成三個階段——預訓練、後訓練、微調。一般而言,後訓練主要是為瞭解決大模型幻覺率高、理解指令不足等問題。據DeepSeek官方資訊顯示,DeepSeek-R1-0528對“幻覺”問題進行了最佳化,與舊版相比,新版 DeepSeek R1在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了45—50% 左右。從DeepSeek官網公佈的資訊來看,過去半年裡,DeepSeek主要保持小步迭代的節奏,不斷最佳化R1在複雜推理、創意寫作和降低幻覺率等方面的功能,而非急於推出下一代模型。對於DeepSeek R2遲遲未能面世的原因,外媒The Information於6月報導稱,R2很可能不會在短期內發佈了,原因主要有以下兩點。一是梁文鋒對新模型不滿意。“儘管DeepSeek工程師過去數月一直在高強度開發 R2 模型,但CEO 梁文鋒對新模型的性能表現並不滿意。”The Information援引兩位知情人士報導稱。二是算力儲備緊缺。據The Information報導,輝達H20晶片的意外禁售,使得DeepSeek在算力儲備上出現緊缺狀況。梁文鋒擔心新模型一旦上線,會因為短時間內呼叫量過高而造成體驗不佳。對於“輝達H20禁售影響了DeepSeek R2推出”這一說法,有投資人透露,受出口限制影響,輝達H20的單卡算力被嚴重“閹割”,其優勢不在訓練,而在推理。“AI推理市場未來將比訓練市場更大,應用場景遍佈雲端、邊緣和終端,形態更加多元,對單一生態(如輝達)的依賴性降低。隨著國內供應鏈自主化趨勢越來越明確,輝達H20的禁售與否對國內推理晶片生態影響有限。”上述投資人說。“DeepSeek最不缺的就是流量”就在DeepSeek模型小步迭代的當下,OpenAI、月之暗面(Moonshot AI)等競爭對手正通過迭代新模型、推出新AI產品等加速技術佈局。在國內,曾被DeepSeek搶走風頭的月之暗面7月11日發佈了Kimi K2 模型,擁有1兆總參數(320億啟動參數),採用專家混合(MoE)架構,並同步開源。對於部分網友指出Kimi K2有“抄襲”DeepSeek的嫌疑,Kimi 團隊也大方地承認“其採用了與DeepSeek -V3相似的架構”。在海外,OpenAI、Google DeepMind、Anthropic等AI巨頭在模型迭代方面一直火力全開。當AI大模型競速逐步從完善功能升級為代際比拚時,或許留給 DeepSeek 的“沉默期”正在縮小。比較直觀的感受是,DeepSeek的月活使用者規模和使用率較年初峰值已出現下滑。據QuestMobile資料顯示,雖然DeepSeek仍是國內使用者量最多的AI工具平台,但其移動端月活躍使用者規模已經從今年3月的1.94億下降至6月的1.63億。而據Semianalysis的統計資料顯示,DeepSeek的使用率由年初高點的7.5%下滑至7月份的3%。需要指出的是,上述機構的資料統計主要以DeepSeek官網為主,不包括騰訊元寶、百度、夸克等深度接入DeepSeek的第三方管道。有投資人評價稱,DeepSeek最不缺的就是流量,梁文鋒要做的事情一直都是在探索AGI的本質。聯想創投集團高級合夥人和首席投資官宋春雨去年2月就和梁文鋒有過深度交流,“梁文鋒是堅信AGI的人,他是技術極客背景出身,他給自己的使命就是要去摸AGI的上限,或者說人類能達到矽基智能的上限是什麼。DeepSeek不融資,梁文鋒對商業化不感興趣,他專注打磨基礎模型,確保每一代模型都保持領先。”有消息稱,DeepSeek不會為了達成某一資料指標,在Android及iOS管道上投流,其和使用者的交流主要以近百個微信交流群為主。對於公司為何不重營運DeepSeek應用,梁文鋒在去年接受“暗湧Waves”採訪時表示:“我們認為,當前階段是技術創新期,而不是應用爆發期。從長遠來看,我們希望建立一個生態系統,讓行業直接使用我們的技術和成果,其他公司基於我們的模型開發B2B/B2C服務,而我們專注於基礎研究。如果產業鏈完整,我們無需親自做應用。當然,如果有必要,我們完全有能力去做,但研究和創新始終是我們的核心優先順序。”梁文鋒在忙什麼?自1月20日DeepSeek R1發佈至今,梁文鋒幾乎處於“隱身”狀態,其僅有的兩次公開露面,一次是上了新聞聯播,一次是參加民營企業家座談會。有消息稱,梁文鋒一直保持著每天看論文、寫程式碼、參與小組討論、招聘核心技術人員的習慣。據不完全統計,自今年2月至7月,DeepSeek團隊和梁文鋒一共發表了兩篇論文。一篇是DeepSeek於2月18日在社交平台X上掛出的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,主要介紹 NSA:一種與硬體對齊且本機可訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。據該論文顯示,NSA的核心元件主要包括動態分層稀疏策略、粗粒度標記壓縮、細粒度的令牌選擇。NSA 針對現代硬體進行了最佳化設計,在不影響性能的情況下,加快了推理速度,同時降低了預訓練成本。它在通用基準測試、長上下文任務和基於指令的推理方面,性能堪比甚至超越了全注意力模型。其中,梁文鋒(Wenfeng Liang)作為作者之一出現在論文作者名單裡。另外一篇論文是,今年4月3日DeepSeek團隊和清華大學電腦科學與技術系(Dept. of Computer Sci. & Tech.)及人工智慧產業研究院(AIR)聯合發表的論文《Inference-Time Scaling for Generalist Reward Modeling》。該論文主要提出了原則批判調整(Self-Principled Critique Tuning, SPCT)方法,提升通用reward model(獎勵模型)在推理階段動態分配計算資源(如多次採樣)以提升性能的方法(inference-time scaling)等。除發表論文外,DeepSeek自今年4月下旬以來,明顯加快了在海內外“招兵買馬”的節奏。據DeepSeek官網顯示,目前“產品&設計”、“深度學習研發工程師”、“全端開發工程師”、“核心系統研發工程師”、“深度學習研究員”等崗位都處於“急招”狀態。在Meta開“天價Offer”搶人的當下,DeepSeek也在嘗試吸引海外人才加入。據海外招聘平台領英資訊顯示,DeepSeek也用中文在領英上發佈了10個職位,招聘前端開發工程師、全端工程師、核心系統研發工程師、深度學習研發工程師、深度學習研究員、AGI大模型實習生等,工作地點在北京或杭州。有曾參與DeepSeek的面試的人士透露,“面試時可直接與創始人對話,公司不設KPI考核,採取扁平化管理模式,每位核心演算法人員都能直接與梁文鋒探討問題,不太像傳統公司,更像大學的一個研究團隊。” (每日天使)