#CANN
DeepSeek再次會師華為昇騰!1.2萬億MoE震撼發佈,全端重寫CANN架構,CUDA時代終結?
事情是這樣的。前兩天,大模型圈子裡出了個特別炸裂的消息,炸到什麼程度呢,連輝達的黃仁勳(Jensen Huang)在採訪裡都說了一句話。雖然那個傳得有鼻子有眼的「Terrible」評價大機率是圈內人自嗨的段子,但老黃對 DeepSeek 的忌憚是真的。他在內部和公開場合多次感嘆過,DeepSeek這種用極低算力成本跑出極高性能的演算法效率,確實讓輝達感到了前所未有的壓力。如果你一直關注 AI 圈子,你應該知道 DeepSeek(深度求索)這家公司的脾氣,他們以前有個鐵律:不拿外部融資。這家由幻方量化(國內頂尖量化私募)一手帶大的實驗室,一直以來給人的感覺就是個「純粹的技術極客」,不差錢,也不想被資本指手畫腳。但就在最近,這個鐵律被打破了。根據《The Information》的爆料,DeepSeek 正在跟投資者談首輪外部融資,估值直接奔著 100 億美元去了。很多人納悶,為啥以前不拿,現在拿了?其實答案就在即將發佈的 DeepSeek V4 身上,這玩意兒不僅是個模型,更是一次「飽和攻擊」等級的戰略轉型。我聽到的消息是,DeepSeek V4 預計在 4 月下旬正式亮相,它的參數量直接堆到了 1.2 萬億(1.2T)等級,採用的是 MoE(混合專家)架構。為了養活這個萬億參數的「哥斯拉」,DeepSeek 已經在內蒙古烏蘭察布大規模招人了,專門負責自建算力中心。但這還不是最騷的。最騷的事在於,DeepSeek V4 是他們第一個完全基於華為昇騰(Ascend)晶片訓練出來的旗艦模型。如果你還記得我前兩天寫過的那篇關於 GLM-5 的文章,你就會發現,這件事的訊號意義已經強到溢出來了。在那篇文章裡我聊過,智譜(Z.ai)用了 10 萬塊華為昇騰晶片,把 GLM-5.1 基礎模型從頭練完了,最後在 SWE-Bench Pro 這個全球最硬核的軟體工程榜單上,跑出了比 Claude 和 GPT 還要高的分數。雖然咱得承認,跑分高不代表實戰手感就能完全取代 Claude,但在這種公認的、需要解決真實 GitHub Bug 的硬核榜單上,國產模型第一次登頂,而且是基於華為晶片跑出來的,這事兒本身就足夠離譜了。如果說 GLM-5.1 是國產大模型在華為晶片上的第一次「奇蹟會師」,那現在的 DeepSeek V4,就是在嘗試把這個奇蹟推向另一個量級。為了在國產晶片上跑出最優效率,DeepSeek 的工程師幹了一件特別狠的事:他們把模型底層程式碼全重寫了,直接從輝達的 CUDA 生態完全遷移到了華為的 CANN Next 軟體棧。甚至為了適配華為昇騰 950PR 晶片的記憶體訪問特性,他們還專門重構了算子庫,針對 128 位元組的記憶體顆粒度做了專項最佳化。這事兒聽著簡單,但做過底層開發的兄弟應該知道,這跟「把房子的地基整個換掉還要保證房子不塌」沒啥區別。這也是為什麼 V4 引入了一個叫 Engram 的條件記憶架構,能支援 100 萬 token 的上下文,而且百萬長度下的資訊召回率還能頂到 97%。我突然意識到一個很重要的轉變。以前大家覺得用國產晶片是「沒辦法」,是由於被制裁後的無奈之舉。但從 GLM-5 到 DeepSeek V4,這個邏輯變了。它們不是在「勉強運行」,而是在「超越」。GLM-5 證明了用華為晶片能練出在全球頂級榜單登頂的模型,而 DeepSeek V4 準備證明,用華為晶片能練出萬億參數的多模態旗艦,而且效率高到讓老黃都覺得脊背發涼。說真的,我挺感慨的。以前我們聊 AI,總覺得我們是在「追趕」,用著別人的卡,跑著別人的架構。但現在,智譜和 DeepSeek 就像是兩條平行線,最後在華為的算力底座上匯合了。這種感覺,怎麼說呢,確實挺帶勁的。我們正在見證一套完全獨立於美國技術堆疊的 AI 生態,正從地底下冒出頭來。至於 V4 到底有多強,咱們等它發佈那天,我一定第一時間去試。 (KmTech)
DeepSeek V4 新進展:使用華為昇騰晶片, 從CUDA生態轉變為CANN框架!
有關Deepseek V4 要來的消息可以說是從去年炒到今年,本月真的要來了嗎?根據相關報導——DeepSeek創始人梁文鋒近日在內部溝通中透露,DeepSeek V4將於4月下旬正式發佈。真的可謂是“千呼萬喚始出來,猶抱琵琶半遮面”了!但從節奏上看,這一訊號並非孤立出現:首先是,Deepseek 網頁端出現疑似新模型測試痕跡。在4月8日,Deepseek 上線“專家模式”與“快速模式”;以及在部分使用者中又增添了一個視覺模式(vision),被認為是V4 版本的灰度測試。第二,多項關於“兆參數、超長上下文、國產算力適配”的資訊開始集中流出。換句話說,DeepSeek V4 的發佈,從“長期預期”,進入到了可驗證的倒計時階段。網傳模型更新內容有關V4的模型內容在網路上傳的沸沸揚揚,有的媒體使用了洩露的基準測試資料進行了測試。網傳的更新內容包括:最佳化 MoE 架構,推理成本極低繼承 V3 的 MoE 設計,但更進一步。採用兆參數混合專家架構,每次推理過程中,只有約 320 億個參數處於啟動狀態。這使得推理成本和速度與 V3 相當,甚至 API 定價可能比 GPT-5.4 等低 20-50 倍。有網友評論:“V4 改變了幾乎所有內容,除了每花一美元最大化能力的核心理念。”引入Engram 條件記憶:“記”與“算”分開引入條件記憶機制,將靜態知識儲存與動態推理計算分離,能夠高效地從超過 100 萬個詞元的上下文中檢索資訊。傳統 Transformer 把所有知識塞進參數,容易導致長上下文檢索衰退;Engram該模組將經典的 N-gram 嵌入現代化,以實現 O(1) 尋找。效果也很顯著:提升了長上下文檢索能力(例如,Multi-Query NIAH:從 84.2 提升到 97.0);減輕 Transformer 主幹負擔,讓模型“記性好”且不浪費視訊記憶體——與 MoE 的條件計算互補。備註:2026 年 1 月 DeepSeek 開放原始碼的論文技術 | GitHub: deepseek-ai/EngrammHC(Manifold-Constrained Hyper-Connections,流形約束超連接)這是 DeepSeek 在 2026 年1月份發佈的另一項架構創新論文成果,主要解決超大規模(兆級)訓練中的梯度不穩、訊號爆炸問題。備註:論文連結 https://arxiv.org/abs/2512.24880通過 Sinkhorn-Knopp 等數學約束,將層間連接投影到流形上,把訊號放大控制在合理範圍(例如從傳統方法的 3000 倍壓到 1.6 倍以內)據報導:可提升訓練效率約 30%,讓兆參數模型的訓練變得可行。除此之外,還有降低注意力計算成本的DSA機制——這使得 1M 上下文窗口成為可能等等。等到Deepseek-v4正式發佈,各位大佬可以對照一下~採用國產晶片這個可以說是小編最期待的一點。晶片問題一直是行業最敏感也最關鍵的痛點。過去幾年,中國大模型開發幾乎離不開輝達GPU,從訓練到推理都高度依賴CUDA生態。一旦遇到出口管制或供應鏈波動,整個AI落地節奏就會被卡住。而根據The information媒體的報導:DeepSeek 即將推出的 V4 型號將採用華為技術有限公司生產的硬體;與華為和寒武紀科技直接合作,對 V4 核心軟體架構的部分內容進行了修改;V4 預計將在未來幾周內亮相,同時還將推出另外兩款正在研發中的衍生型號。而在以往大模型開發,早期測試往往優先給輝達、AMD等美系晶片測試。而V4反過來,將完全運行在華為最新AI晶片上(主要為Ascend 950PR,部分適配寒武紀晶片)。阿里、字節跳動、騰訊等巨頭已提前向華為採購數十萬顆新一代昇騰晶片(Ascend 950PR等),晶片價格一度上漲約20%。華為3月發佈的Atlas 350加速卡搭載該晶片,FP8算力達1PFLOPS、FP4算力達2PFLOPS,支援多種低精度,單卡性能強勁。X上神秘的Elephant Alpha.在正式發佈前,通過匿名模型進行灰度測試,正在成為大模型行業的常見方式。在今年2月,一個名為Pony Alpha的匿名模型出現在OpenRouter上,五天後智譜確認這是其GLM-5系統的一部分;OpenRouter 上也曾短暫出現Hunter Alpha和Healer Alpha,憑藉兆參數與超長上下文迅速引發關注,並一度被猜測為 DeepSeek V4 的前期測試版本——後續被證實是小米 MiMo-V2系列的早期測試版。而昨天, X.上又出現了一款名為 Elephant Alpha 且擁有 1000 億參數的即時模型,讓網友興奮起來了!有網友猜測是 DeepSeek V4,也有網友認為它是Qwen,或者其他系列的模型,與騰訊混元同步發佈根據相關媒體報導: DeepSeek V4或與騰訊混元或將同期發佈。而混元模型的負責人姚順雨曾經是OpenAI研究員,於2025年底從OpenAI回國加入騰訊。DeepSeek V4或與騰訊混元的這次撞期,並非是簡單的同台PK,更像是大模型兩條技術路徑(“底層架構+自主硬體”和“場景驅動+Agent落地”)的碰撞。 (51CTO技術堆疊)
華為開源CANN,挑戰輝達的CUDA霸權
在 GPU 的競爭中,硬體性能只是表面——深層次在於軟體生態系統壁壘。就在今天,華為宣佈開源CANN,正面硬鋼CUDA霸權。Nvidia 的地位是建立在一個由領先硬體、網路能力以及深厚軟體生態系統構成的三巨頭之上。在這個生態系統的核心是 CUDA,這是一個專有的程式設計框架,允許開發者高效地將計算對應到 Nvidia 的 GPU 上。CUDA 的價值不僅在於其性能,還在於其廣泛的庫、最佳化的工作流程以及與廣泛使用的機器學習框架的緊密整合,使其成為行業標準。這裡又要再次提到前段時間龍芯董事長講的:從設計的複雜度來講,通用CPU是最難的,其次是圖形GPU,而AI用的NPU/GPGPU是比較容易的。如果CPU複雜度是1的話,那麼圖形GPU的複雜度是0.3-0.4,而AI晶片的複雜度還不到0.1,它就是矩陣乘法和摺積運算,就是需要堆料。而且從國內這幾年突然就冒出來的一堆GPGPU公司就能看出,GPGPU的設計難度確實不是很大,但這些公司沒有一個能挑戰輝達,就是因為輝達成熟的CUDA生態。筆者之前跟一個CSP的朋友聊,他們內部已經把國內頭部的GPGPU/NPU公司的晶片跑起來了,但也是在原廠大力支援下才跑起來的,但並沒有更多的精力去適配其他國產GPU廠的硬體,主要原因當然是因為軟體生態。所以國內的某些GPGPU公司,還是會儘量相容CUDA,不然都沒有參與進去的機會。在輝達之前發佈的一個聲明中,也可以輝達對於CUDA生態的重視程度:NVIDIA 的一大優勢在於我們擁有超過 600 萬開發者的全球網路,他們基於我們的平台進行開發。如果我們失去這個生態系統,要重新奪回將幾乎不可能。這個聲明中特意提到了華為,老黃也害怕華為搶了輝達的開發者生態,但為時已晚,華為真的來了。在Substack的ChinaTalk上,有一篇文章分析了華為的CANN和輝達CUDA的現狀,經過原作者的允許,我們下面把裡面的部分內容,結合筆者自己的理解重新梳理一下。CUDA的發展CUDA 的發展歷程是 GPU 從圖形加速邁向通用計算的變革史。20 世紀 90 年代,GPU 作為圖形加速器逐漸可程式設計,1999 年輝達推出首款 GPU,其卓越浮點性能吸引研究人員用於通用計算。2003 年,Ian Buck 團隊推出 Brook 程式設計模型,擴展了 C 語言的資料平行能力。2006 年,輝達在 Tesla 架構基礎上推出 CUDA,開啟了 GPU 通用計算時代。2007 年,CUDA 1.0 發佈,支援 C 語言程式設計,適配 GeForce 8800 系列 GPU。此後,CUDA 不斷發展,2008 年的 CUDA 2.0 引入 C++ 部分支援,2010 年的 CUDA 3.0 引入 Fermi 架構 GPU。隨著技術演進,CUDA 陸續支援了 Kepler、Maxwell、Pascal 等架構,到 2022 年 CUDA 12.0 發佈,支援 Hopper 架構和 Grace CPU,持續提升高性能計算和深度學習性能。CUDA 已從單純的程式設計模型發展為全端軟體生態的核心。隨著輝達軟硬體在深度學習領域的普及,其持續最佳化 CUDA,建構了包括深度學習庫 cuDNN 在內的豐富工具集,大幅降低了高性能模型部署的門檻和專業要求。這幾年,CUDA 不斷進化,吸引了眾多開發者且至今仍在完善。儘管閉源,輝達重視開發者反饋並常融入更新,還通過線上論壇提供交流支援,以建立基於CUDA的開發者生態。到現在,輝達在全球已擁有超過600萬的開發者。這種成熟生態帶來了顯著的轉換成本:開發者若離開 CUDA,不僅要重寫大量程式碼,還可能面臨替代庫不成熟的問題,同時失去龐大社區的技術支援。如今,多數機器學習開發者雖不直接編寫 CUDA 程式碼,而是使用 Python 及 PyTorch、JAX 等框架,但 CUDA 依然是連接這些框架與輝達 GPU 架構的關鍵後端橋樑,地位舉足輕重。華為的軟體替代方案華為對 CUDA 最直接的挑戰來自 CANN(昇騰神經網路計算架構)—— 這是專為昇騰神經網路處理器打造的專有程式設計環境。CANN 在軟體棧中的定位與 CUDA 相當,為在華為硬體上運行高性能機器學習模型提供必要工具。與之配套的還有華為的高級深度學習框架 MindSpore,其概念類似 PyTorch。這兩者共同構成了華為原生的替代方案,對標輝達主導的 “PyTorch + CUDA” 組合。CANN 的研發至少可追溯至 2019 年(當年華為被列入美國實體清單)。華為 2024 年年度報告中四次提及 2024 年 9 月發佈的 CANN 8.0,稱這一進展是提升 AI 計算能力的重要一步。為提高 CANN 的 adoption 率,華為借鑑了輝達 2000 年代推廣 CUDA 的策略:直接派遣工程師入駐客戶現場,協助程式碼遷移。不過,儘管在原生軟體棧上投入巨大,華為似乎也意識到,短期內用 CANN 取代 CUDA 並不現實。因此,其部分策略已從 “替代” 轉向 “互操作”,這一點在華為日益深入參與 PyTorch 生態中體現得尤為明顯。為降低開發者從輝達生態遷移的難度,華為將與 PyTorch 的相容性作為重點 ——PyTorch 是目前學術界和工業界廣泛使用的主流開源機器學習框架。該框架最初由 Meta 旗下 AI 研究實驗室於 2016 年開發,2017 年公開發佈,2022 年轉入 Linux 基金會旗下,由更廣泛的企業網路共同管理,形成了 PyTorch 基金會。基金會的核心成員包括 Meta、微軟、Google、亞馬遜、AMD、英特爾、輝達,以及 2023 年 10 月加入的華為。PyTorch 能讓開發者用簡潔直觀的 Python 程式碼定義、訓練和部署機器學習模型,其流行得益於 “即時執行” 模式:每個操作都能立即運行,相比Google TensorFlow 等其他框架,更便於偵錯、原型開發和迭代。從一開始,PyTorch 就針對輝達 GPU 進行了最佳化 —— 新算子和功能會先在 CUDA 上測試調優,性能基準測試也常基於輝達硬體;通過 Python 包管理器安裝 PyTorch 時,會自動配置為在輝達 GPU 上運行。這使得該框架幾乎成了輝達的 “原生工具”,要在非輝達硬體上使用它,不僅需要替換後端,還得進行完整的生態工程改造。但就像我們前面提到的,畢竟昇騰屬於NPU,不是GPU的架構,所以在國內客戶剛開始使用時,華為也是派了專門的工程師去一起偵錯,幫助客戶能把真實的應用場景在昇騰處理器上運行起來。這並不說昇騰做的不好,而是所有的軟體都要經歷這樣一個過程,輝達的CUDA也是這麼過來的。CUDA vs CANN下面這個表詳細對比了輝達的CUDA和華為的CANN在各方面的差異。對輝達的影響1、華為的Ascend AI晶片通過開源CANN降低開發者使用門檻,可能搶佔輝達CUDA平台的部分市場份額,當然主要是在中國。輝達在全球AI晶片市場佔據主導地位,但華為的開源策略可能吸引對成本敏感或尋求替代方案的客戶。2、開發者生態的挑戰 ,輝達的CUDA平台因其成熟生態和廣泛開發者支援而領先。華為開源CANN旨在建構Ascend生態,吸引開發者從CUDA遷移或平行開發。如果CANN生態快速成長,可能分流部分開發者資源,長期削弱輝達生態的獨佔性。3、開源CANN可能加速華為AI技術迭代,通過社區貢獻最佳化Ascend性能。這對輝達形成間接壓力,促使其加快CUDA、cuDNN等工具的創新步伐,以維持技術領先。但最後還要提一點,其實除了輝達,其他的國產GPU廠商也會受到影響,等昇騰的生態做起來了,而且國內的先進工藝產能也提升了,華為如果供貨充足的話,其他的國產AI晶片何去何從?除了CSP們為了供應商的均衡還是會買一些其他廠商,還有其他理由不選擇華為嗎? (傅里葉的貓)