DeepSeek再次會師華為昇騰！1.2萬億MoE震撼發佈，全端重寫CANN架構，CUDA時代終結？

2026/04/25

•

事情是這樣的。

前兩天，大模型圈子裡出了個特別炸裂的消息，炸到什麼程度呢，連輝達的黃仁勳（Jensen Huang）在採訪裡都說了一句話。

雖然那個傳得有鼻子有眼的「Terrible」評價大機率是圈內人自嗨的段子，但老黃對 DeepSeek 的忌憚是真的。他在內部和公開場合多次感嘆過，DeepSeek這種用極低算力成本跑出極高性能的演算法效率，確實讓輝達感到了前所未有的壓力。

如果你一直關注 AI 圈子，你應該知道 DeepSeek（深度求索）這家公司的脾氣，他們以前有個鐵律：不拿外部融資。

這家由幻方量化（國內頂尖量化私募）一手帶大的實驗室，一直以來給人的感覺就是個「純粹的技術極客」，不差錢，也不想被資本指手畫腳。

但就在最近，這個鐵律被打破了。

根據《The Information》的爆料，DeepSeek 正在跟投資者談首輪外部融資，估值直接奔著 100 億美元去了。

很多人納悶，為啥以前不拿，現在拿了？

其實答案就在即將發佈的 DeepSeek V4 身上，這玩意兒不僅是個模型，更是一次「飽和攻擊」等級的戰略轉型。

我聽到的消息是，DeepSeek V4 預計在 4 月下旬正式亮相，它的參數量直接堆到了 1.2 萬億（1.2T）等級，採用的是 MoE（混合專家）架構。

為了養活這個萬億參數的「哥斯拉」，DeepSeek 已經在內蒙古烏蘭察布大規模招人了，專門負責自建算力中心。

但這還不是最騷的。

最騷的事在於，DeepSeek V4 是他們第一個完全基於華為昇騰（Ascend）晶片訓練出來的旗艦模型。

如果你還記得我前兩天寫過的那篇關於 GLM-5 的文章，你就會發現，這件事的訊號意義已經強到溢出來了。

在那篇文章裡我聊過，智譜（Z.ai）用了 10 萬塊華為昇騰晶片，把 GLM-5.1 基礎模型從頭練完了，最後在 SWE-Bench Pro 這個全球最硬核的軟體工程榜單上，跑出了比 Claude 和 GPT 還要高的分數。

雖然咱得承認，跑分高不代表實戰手感就能完全取代 Claude，但在這種公認的、需要解決真實 GitHub Bug 的硬核榜單上，國產模型第一次登頂，而且是基於華為晶片跑出來的，這事兒本身就足夠離譜了。

如果說 GLM-5.1 是國產大模型在華為晶片上的第一次「奇蹟會師」，那現在的 DeepSeek V4，就是在嘗試把這個奇蹟推向另一個量級。

為了在國產晶片上跑出最優效率，DeepSeek 的工程師幹了一件特別狠的事：他們把模型底層程式碼全重寫了，直接從輝達的 CUDA 生態完全遷移到了華為的 CANN Next 軟體棧。

甚至為了適配華為昇騰 950PR 晶片的記憶體訪問特性，他們還專門重構了算子庫，針對 128 位元組的記憶體顆粒度做了專項最佳化。

這事兒聽著簡單，但做過底層開發的兄弟應該知道，這跟「把房子的地基整個換掉還要保證房子不塌」沒啥區別。

這也是為什麼 V4 引入了一個叫 Engram 的條件記憶架構，能支援 100 萬 token 的上下文，而且百萬長度下的資訊召回率還能頂到 97%。

我突然意識到一個很重要的轉變。

以前大家覺得用國產晶片是「沒辦法」，是由於被制裁後的無奈之舉。

但從 GLM-5 到 DeepSeek V4，這個邏輯變了。

它們不是在「勉強運行」，而是在「超越」。

GLM-5 證明了用華為晶片能練出在全球頂級榜單登頂的模型，而 DeepSeek V4 準備證明，用華為晶片能練出萬億參數的多模態旗艦，而且效率高到讓老黃都覺得脊背發涼。

說真的，我挺感慨的。

以前我們聊 AI，總覺得我們是在「追趕」，用著別人的卡，跑著別人的架構。

但現在，智譜和 DeepSeek 就像是兩條平行線，最後在華為的算力底座上匯合了。

這種感覺，怎麼說呢，確實挺帶勁的。

我們正在見證一套完全獨立於美國技術堆疊的 AI 生態，正從地底下冒出頭來。

至於 V4 到底有多強，咱們等它發佈那天，我一定第一時間去試。 (KmTech)