#CANN | 熱門關鍵字 | 鉅亨號

事情是這樣的。前兩天，大模型圈子裡出了個特別炸裂的消息，炸到什麼程度呢，連輝達的黃仁勳（Jensen Huang）在採訪裡都說了一句話。雖然那個傳得有鼻子有眼的「Terrible」評價大機率是圈內人自嗨的段子，但老黃對 DeepSeek 的忌憚是真的。他在內部和公開場合多次感嘆過，DeepSeek這種用極低算力成本跑出極高性能的演算法效率，確實讓輝達感到了前所未有的壓力。如果你一直關注 AI 圈子，你應該知道 DeepSeek（深度求索）這家公司的脾氣，他們以前有個鐵律：不拿外部融資。這家由幻方量化（國內頂尖量化私募）一手帶大的實驗室，一直以來給人的感覺就是個「純粹的技術極客」，不差錢，也不想被資本指手畫腳。但就在最近，這個鐵律被打破了。根據《The Information》的爆料，DeepSeek 正在跟投資者談首輪外部融資，估值直接奔著 100 億美元去了。很多人納悶，為啥以前不拿，現在拿了？其實答案就在即將發佈的 DeepSeek V4 身上，這玩意兒不僅是個模型，更是一次「飽和攻擊」等級的戰略轉型。我聽到的消息是，DeepSeek V4 預計在 4 月下旬正式亮相，它的參數量直接堆到了 1.2 萬億（1.2T）等級，採用的是 MoE（混合專家）架構。為了養活這個萬億參數的「哥斯拉」，DeepSeek 已經在內蒙古烏蘭察布大規模招人了，專門負責自建算力中心。但這還不是最騷的。最騷的事在於，DeepSeek V4 是他們第一個完全基於華為昇騰（Ascend）晶片訓練出來的旗艦模型。如果你還記得我前兩天寫過的那篇關於 GLM-5 的文章，你就會發現，這件事的訊號意義已經強到溢出來了。在那篇文章裡我聊過，智譜（Z.ai）用了 10 萬塊華為昇騰晶片，把 GLM-5.1 基礎模型從頭練完了，最後在 SWE-Bench Pro 這個全球最硬核的軟體工程榜單上，跑出了比 Claude 和 GPT 還要高的分數。雖然咱得承認，跑分高不代表實戰手感就能完全取代 Claude，但在這種公認的、需要解決真實 GitHub Bug 的硬核榜單上，國產模型第一次登頂，而且是基於華為晶片跑出來的，這事兒本身就足夠離譜了。如果說 GLM-5.1 是國產大模型在華為晶片上的第一次「奇蹟會師」，那現在的 DeepSeek V4，就是在嘗試把這個奇蹟推向另一個量級。為了在國產晶片上跑出最優效率，DeepSeek 的工程師幹了一件特別狠的事：他們把模型底層程式碼全重寫了，直接從輝達的 CUDA 生態完全遷移到了華為的 CANN Next 軟體棧。甚至為了適配華為昇騰 950PR 晶片的記憶體訪問特性，他們還專門重構了算子庫，針對 128 位元組的記憶體顆粒度做了專項最佳化。這事兒聽著簡單，但做過底層開發的兄弟應該知道，這跟「把房子的地基整個換掉還要保證房子不塌」沒啥區別。這也是為什麼 V4 引入了一個叫 Engram 的條件記憶架構，能支援 100 萬 token 的上下文，而且百萬長度下的資訊召回率還能頂到 97%。我突然意識到一個很重要的轉變。以前大家覺得用國產晶片是「沒辦法」，是由於被制裁後的無奈之舉。但從 GLM-5 到 DeepSeek V4，這個邏輯變了。它們不是在「勉強運行」，而是在「超越」。GLM-5 證明了用華為晶片能練出在全球頂級榜單登頂的模型，而 DeepSeek V4 準備證明，用華為晶片能練出萬億參數的多模態旗艦，而且效率高到讓老黃都覺得脊背發涼。說真的，我挺感慨的。以前我們聊 AI，總覺得我們是在「追趕」，用著別人的卡，跑著別人的架構。但現在，智譜和 DeepSeek 就像是兩條平行線，最後在華為的算力底座上匯合了。這種感覺，怎麼說呢，確實挺帶勁的。我們正在見證一套完全獨立於美國技術堆疊的 AI 生態，正從地底下冒出頭來。至於 V4 到底有多強，咱們等它發佈那天，我一定第一時間去試。 (KmTech)

2026/04/15

•

DeepSeek V4 新進展：使用華為昇騰晶片，從CUDA生態轉變為CANN框架！

有關Deepseek V4 要來的消息可以說是從去年炒到今年，本月真的要來了嗎？根據相關報導——DeepSeek創始人梁文鋒近日在內部溝通中透露，DeepSeek V4將於4月下旬正式發佈。真的可謂是“千呼萬喚始出來，猶抱琵琶半遮面”了！但從節奏上看，這一訊號並非孤立出現：首先是，Deepseek 網頁端出現疑似新模型測試痕跡。在4月8日，Deepseek 上線“專家模式”與“快速模式”；以及在部分使用者中又增添了一個視覺模式（vision），被認為是V4 版本的灰度測試。第二，多項關於“兆參數、超長上下文、國產算力適配”的資訊開始集中流出。換句話說，DeepSeek V4 的發佈，從“長期預期”，進入到了可驗證的倒計時階段。網傳模型更新內容有關V4的模型內容在網路上傳的沸沸揚揚，有的媒體使用了洩露的基準測試資料進行了測試。網傳的更新內容包括：最佳化 MoE 架構，推理成本極低繼承 V3 的 MoE 設計，但更進一步。採用兆參數混合專家架構，每次推理過程中，只有約 320 億個參數處於啟動狀態。這使得推理成本和速度與 V3 相當，甚至 API 定價可能比 GPT-5.4 等低 20-50 倍。有網友評論：“V4 改變了幾乎所有內容，除了每花一美元最大化能力的核心理念。”引入Engram 條件記憶：“記”與“算”分開引入條件記憶機制，將靜態知識儲存與動態推理計算分離，能夠高效地從超過 100 萬個詞元的上下文中檢索資訊。傳統 Transformer 把所有知識塞進參數，容易導致長上下文檢索衰退；Engram該模組將經典的 N-gram 嵌入現代化，以實現 O(1) 尋找。效果也很顯著：提升了長上下文檢索能力（例如，Multi-Query NIAH：從 84.2 提升到 97.0）；減輕 Transformer 主幹負擔，讓模型“記性好”且不浪費視訊記憶體——與 MoE 的條件計算互補。備註：2026 年 1 月 DeepSeek 開放原始碼的論文技術 | GitHub: deepseek-ai/EngrammHC（Manifold-Constrained Hyper-Connections，流形約束超連接）這是 DeepSeek 在 2026 年1月份發佈的另一項架構創新論文成果，主要解決超大規模（兆級）訓練中的梯度不穩、訊號爆炸問題。備註：論文連結 https://arxiv.org/abs/2512.24880通過 Sinkhorn-Knopp 等數學約束，將層間連接投影到流形上，把訊號放大控制在合理範圍（例如從傳統方法的 3000 倍壓到 1.6 倍以內）據報導：可提升訓練效率約 30%，讓兆參數模型的訓練變得可行。除此之外，還有降低注意力計算成本的DSA機制——這使得 1M 上下文窗口成為可能等等。等到Deepseek-v4正式發佈，各位大佬可以對照一下~採用國產晶片這個可以說是小編最期待的一點。晶片問題一直是行業最敏感也最關鍵的痛點。過去幾年，中國大模型開發幾乎離不開輝達GPU，從訓練到推理都高度依賴CUDA生態。一旦遇到出口管制或供應鏈波動，整個AI落地節奏就會被卡住。而根據The information媒體的報導：DeepSeek 即將推出的 V4 型號將採用華為技術有限公司生產的硬體；與華為和寒武紀科技直接合作，對 V4 核心軟體架構的部分內容進行了修改；V4 預計將在未來幾周內亮相，同時還將推出另外兩款正在研發中的衍生型號。而在以往大模型開發，早期測試往往優先給輝達、AMD等美系晶片測試。而V4反過來，將完全運行在華為最新AI晶片上（主要為Ascend 950PR，部分適配寒武紀晶片）。阿里、字節跳動、騰訊等巨頭已提前向華為採購數十萬顆新一代昇騰晶片（Ascend 950PR等），晶片價格一度上漲約20%。華為3月發佈的Atlas 350加速卡搭載該晶片，FP8算力達1PFLOPS、FP4算力達2PFLOPS，支援多種低精度，單卡性能強勁。X上神秘的Elephant Alpha.在正式發佈前，通過匿名模型進行灰度測試，正在成為大模型行業的常見方式。在今年2月，一個名為Pony Alpha的匿名模型出現在OpenRouter上，五天後智譜確認這是其GLM-5系統的一部分；OpenRouter 上也曾短暫出現Hunter Alpha和Healer Alpha，憑藉兆參數與超長上下文迅速引發關注，並一度被猜測為 DeepSeek V4 的前期測試版本——後續被證實是小米 MiMo-V2系列的早期測試版。而昨天， X.上又出現了一款名為 Elephant Alpha 且擁有 1000 億參數的即時模型,讓網友興奮起來了！有網友猜測是 DeepSeek V4，也有網友認為它是Qwen,或者其他系列的模型，與騰訊混元同步發佈根據相關媒體報導： DeepSeek V4或與騰訊混元或將同期發佈。而混元模型的負責人姚順雨曾經是OpenAI研究員，於2025年底從OpenAI回國加入騰訊。DeepSeek V4或與騰訊混元的這次撞期，並非是簡單的同台PK，更像是大模型兩條技術路徑（“底層架構+自主硬體”和“場景驅動+Agent落地”）的碰撞。 (51CTO技術堆疊)

2025/08/06

•

華為開源CANN，挑戰輝達的CUDA霸權

在 GPU 的競爭中，硬體性能只是表面——深層次在於軟體生態系統壁壘。就在今天，華為宣佈開源CANN，正面硬鋼CUDA霸權。Nvidia 的地位是建立在一個由領先硬體、網路能力以及深厚軟體生態系統構成的三巨頭之上。在這個生態系統的核心是 CUDA，這是一個專有的程式設計框架，允許開發者高效地將計算對應到 Nvidia 的 GPU 上。CUDA 的價值不僅在於其性能，還在於其廣泛的庫、最佳化的工作流程以及與廣泛使用的機器學習框架的緊密整合，使其成為行業標準。這裡又要再次提到前段時間龍芯董事長講的：從設計的複雜度來講，通用CPU是最難的，其次是圖形GPU，而AI用的NPU/GPGPU是比較容易的。如果CPU複雜度是1的話，那麼圖形GPU的複雜度是0.3-0.4，而AI晶片的複雜度還不到0.1，它就是矩陣乘法和摺積運算，就是需要堆料。而且從國內這幾年突然就冒出來的一堆GPGPU公司就能看出，GPGPU的設計難度確實不是很大，但這些公司沒有一個能挑戰輝達，就是因為輝達成熟的CUDA生態。筆者之前跟一個CSP的朋友聊，他們內部已經把國內頭部的GPGPU/NPU公司的晶片跑起來了，但也是在原廠大力支援下才跑起來的，但並沒有更多的精力去適配其他國產GPU廠的硬體，主要原因當然是因為軟體生態。所以國內的某些GPGPU公司，還是會儘量相容CUDA，不然都沒有參與進去的機會。在輝達之前發佈的一個聲明中，也可以輝達對於CUDA生態的重視程度：NVIDIA 的一大優勢在於我們擁有超過 600 萬開發者的全球網路，他們基於我們的平台進行開發。如果我們失去這個生態系統，要重新奪回將幾乎不可能。這個聲明中特意提到了華為，老黃也害怕華為搶了輝達的開發者生態，但為時已晚，華為真的來了。在Substack的ChinaTalk上，有一篇文章分析了華為的CANN和輝達CUDA的現狀，經過原作者的允許，我們下面把裡面的部分內容，結合筆者自己的理解重新梳理一下。CUDA的發展CUDA 的發展歷程是 GPU 從圖形加速邁向通用計算的變革史。20 世紀 90 年代，GPU 作為圖形加速器逐漸可程式設計，1999 年輝達推出首款 GPU，其卓越浮點性能吸引研究人員用於通用計算。2003 年，Ian Buck 團隊推出 Brook 程式設計模型，擴展了 C 語言的資料平行能力。2006 年，輝達在 Tesla 架構基礎上推出 CUDA，開啟了 GPU 通用計算時代。2007 年，CUDA 1.0 發佈，支援 C 語言程式設計，適配 GeForce 8800 系列 GPU。此後，CUDA 不斷發展，2008 年的 CUDA 2.0 引入 C++ 部分支援，2010 年的 CUDA 3.0 引入 Fermi 架構 GPU。隨著技術演進，CUDA 陸續支援了 Kepler、Maxwell、Pascal 等架構，到 2022 年 CUDA 12.0 發佈，支援 Hopper 架構和 Grace CPU，持續提升高性能計算和深度學習性能。CUDA 已從單純的程式設計模型發展為全端軟體生態的核心。隨著輝達軟硬體在深度學習領域的普及，其持續最佳化 CUDA，建構了包括深度學習庫 cuDNN 在內的豐富工具集，大幅降低了高性能模型部署的門檻和專業要求。這幾年，CUDA 不斷進化，吸引了眾多開發者且至今仍在完善。儘管閉源，輝達重視開發者反饋並常融入更新，還通過線上論壇提供交流支援，以建立基於CUDA的開發者生態。到現在，輝達在全球已擁有超過600萬的開發者。這種成熟生態帶來了顯著的轉換成本：開發者若離開 CUDA，不僅要重寫大量程式碼，還可能面臨替代庫不成熟的問題，同時失去龐大社區的技術支援。如今，多數機器學習開發者雖不直接編寫 CUDA 程式碼，而是使用 Python 及 PyTorch、JAX 等框架，但 CUDA 依然是連接這些框架與輝達 GPU 架構的關鍵後端橋樑，地位舉足輕重。華為的軟體替代方案華為對 CUDA 最直接的挑戰來自 CANN（昇騰神經網路計算架構）—— 這是專為昇騰神經網路處理器打造的專有程式設計環境。CANN 在軟體棧中的定位與 CUDA 相當，為在華為硬體上運行高性能機器學習模型提供必要工具。與之配套的還有華為的高級深度學習框架 MindSpore，其概念類似 PyTorch。這兩者共同構成了華為原生的替代方案，對標輝達主導的 “PyTorch + CUDA” 組合。CANN 的研發至少可追溯至 2019 年（當年華為被列入美國實體清單）。華為 2024 年年度報告中四次提及 2024 年 9 月發佈的 CANN 8.0，稱這一進展是提升 AI 計算能力的重要一步。為提高 CANN 的 adoption 率，華為借鑑了輝達 2000 年代推廣 CUDA 的策略：直接派遣工程師入駐客戶現場，協助程式碼遷移。不過，儘管在原生軟體棧上投入巨大，華為似乎也意識到，短期內用 CANN 取代 CUDA 並不現實。因此，其部分策略已從 “替代” 轉向 “互操作”，這一點在華為日益深入參與 PyTorch 生態中體現得尤為明顯。為降低開發者從輝達生態遷移的難度，華為將與 PyTorch 的相容性作為重點 ——PyTorch 是目前學術界和工業界廣泛使用的主流開源機器學習框架。該框架最初由 Meta 旗下 AI 研究實驗室於 2016 年開發，2017 年公開發佈，2022 年轉入 Linux 基金會旗下，由更廣泛的企業網路共同管理，形成了 PyTorch 基金會。基金會的核心成員包括 Meta、微軟、Google、亞馬遜、AMD、英特爾、輝達，以及 2023 年 10 月加入的華為。PyTorch 能讓開發者用簡潔直觀的 Python 程式碼定義、訓練和部署機器學習模型，其流行得益於 “即時執行” 模式：每個操作都能立即運行，相比Google TensorFlow 等其他框架，更便於偵錯、原型開發和迭代。從一開始，PyTorch 就針對輝達 GPU 進行了最佳化 —— 新算子和功能會先在 CUDA 上測試調優，性能基準測試也常基於輝達硬體；通過 Python 包管理器安裝 PyTorch 時，會自動配置為在輝達 GPU 上運行。這使得該框架幾乎成了輝達的 “原生工具”，要在非輝達硬體上使用它，不僅需要替換後端，還得進行完整的生態工程改造。但就像我們前面提到的，畢竟昇騰屬於NPU，不是GPU的架構，所以在國內客戶剛開始使用時，華為也是派了專門的工程師去一起偵錯，幫助客戶能把真實的應用場景在昇騰處理器上運行起來。這並不說昇騰做的不好，而是所有的軟體都要經歷這樣一個過程，輝達的CUDA也是這麼過來的。CUDA vs CANN下面這個表詳細對比了輝達的CUDA和華為的CANN在各方面的差異。對輝達的影響1、華為的Ascend AI晶片通過開源CANN降低開發者使用門檻，可能搶佔輝達CUDA平台的部分市場份額，當然主要是在中國。輝達在全球AI晶片市場佔據主導地位，但華為的開源策略可能吸引對成本敏感或尋求替代方案的客戶。2、開發者生態的挑戰，輝達的CUDA平台因其成熟生態和廣泛開發者支援而領先。華為開源CANN旨在建構Ascend生態，吸引開發者從CUDA遷移或平行開發。如果CANN生態快速成長，可能分流部分開發者資源，長期削弱輝達生態的獨佔性。3、開源CANN可能加速華為AI技術迭代，通過社區貢獻最佳化Ascend性能。這對輝達形成間接壓力，促使其加快CUDA、cuDNN等工具的創新步伐，以維持技術領先。但最後還要提一點，其實除了輝達，其他的國產GPU廠商也會受到影響，等昇騰的生態做起來了，而且國內的先進工藝產能也提升了，華為如果供貨充足的話，其他的國產AI晶片何去何從？除了CSP們為了供應商的均衡還是會買一些其他廠商，還有其他理由不選擇華為嗎？ (傅里葉的貓)

2024/06/18

•

華為CANN要取代輝達CUDA，比鴻蒙取代安卓還難嗎？

在數位時代，石油曾是工業的血液，驅動世界的運作。然而，隨著人工智慧的興起，一種新的能源正在悄悄崛起，它就是算力──AI時代的新石油。這不再是關於地下的挖掘，而是關於數據的開採和智慧的提煉。在這個新紀元，算力成為了衡量一個企業、一個國家甚至一個文明進步的關鍵指標。每一個算力時代，都有兩大核心，一個是運算晶片，一個是作業系統。在CPU時代，就是大名鼎鼎的Wintel聯盟。那麼在AI時代呢？目前看最有可能的就是輝達的GPU+CUDA。也就是說，輝達集最強的AI算力和AI作業系統於一身，難怪其市值能直逼3兆美元。在CPU算力時代，我們被Wintel卡了很多年脖子。直到華為晶片+鴻蒙操作系統的出現，我們才看到了一點點「解套」的曙光（注意，也只是一點曙光）。上一個卡點還沒解決好，輝達GPU+CUDA又成了AI時代的另一個卡點。那這一個卡點該怎麼解決呢？目前來看，還是得靠華為——Ascend（昇騰）+CANN。但這有幾成勝算呢？要知道，生態的障礙是最難打破的。鴻蒙都不能算成功了，CANN要打破CUDA的圍堵，還有漫漫長路。