事情是這樣的。
前兩天,大模型圈子裡出了個特別炸裂的消息,炸到什麼程度呢,連輝達的黃仁勳(Jensen Huang)在採訪裡都說了一句話。
雖然那個傳得有鼻子有眼的「Terrible」評價大機率是圈內人自嗨的段子,但老黃對 DeepSeek 的忌憚是真的。他在內部和公開場合多次感嘆過,DeepSeek這種用極低算力成本跑出極高性能的演算法效率,確實讓輝達感到了前所未有的壓力。
如果你一直關注 AI 圈子,你應該知道 DeepSeek(深度求索)這家公司的脾氣,他們以前有個鐵律:不拿外部融資。
這家由幻方量化(國內頂尖量化私募)一手帶大的實驗室,一直以來給人的感覺就是個「純粹的技術極客」,不差錢,也不想被資本指手畫腳。
但就在最近,這個鐵律被打破了。
根據《The Information》的爆料,DeepSeek 正在跟投資者談首輪外部融資,估值直接奔著 100 億美元去了。
很多人納悶,為啥以前不拿,現在拿了?
其實答案就在即將發佈的 DeepSeek V4 身上,這玩意兒不僅是個模型,更是一次「飽和攻擊」等級的戰略轉型。
我聽到的消息是,DeepSeek V4 預計在 4 月下旬正式亮相,它的參數量直接堆到了 1.2 萬億(1.2T)等級,採用的是 MoE(混合專家)架構。
為了養活這個萬億參數的「哥斯拉」,DeepSeek 已經在內蒙古烏蘭察布大規模招人了,專門負責自建算力中心。
但這還不是最騷的。
最騷的事在於,DeepSeek V4 是他們第一個完全基於華為昇騰(Ascend)晶片訓練出來的旗艦模型。
如果你還記得我前兩天寫過的那篇關於 GLM-5 的文章,你就會發現,這件事的訊號意義已經強到溢出來了。
在那篇文章裡我聊過,智譜(Z.ai)用了 10 萬塊華為昇騰晶片,把 GLM-5.1 基礎模型從頭練完了,最後在 SWE-Bench Pro 這個全球最硬核的軟體工程榜單上,跑出了比 Claude 和 GPT 還要高的分數。
雖然咱得承認,跑分高不代表實戰手感就能完全取代 Claude,但在這種公認的、需要解決真實 GitHub Bug 的硬核榜單上,國產模型第一次登頂,而且是基於華為晶片跑出來的,這事兒本身就足夠離譜了。
如果說 GLM-5.1 是國產大模型在華為晶片上的第一次「奇蹟會師」,那現在的 DeepSeek V4,就是在嘗試把這個奇蹟推向另一個量級。
為了在國產晶片上跑出最優效率,DeepSeek 的工程師幹了一件特別狠的事:他們把模型底層程式碼全重寫了,直接從輝達的 CUDA 生態完全遷移到了華為的 CANN Next 軟體棧。
甚至為了適配華為昇騰 950PR 晶片的記憶體訪問特性,他們還專門重構了算子庫,針對 128 位元組的記憶體顆粒度做了專項最佳化。
這事兒聽著簡單,但做過底層開發的兄弟應該知道,這跟「把房子的地基整個換掉還要保證房子不塌」沒啥區別。
這也是為什麼 V4 引入了一個叫 Engram 的條件記憶架構,能支援 100 萬 token 的上下文,而且百萬長度下的資訊召回率還能頂到 97%。
我突然意識到一個很重要的轉變。
以前大家覺得用國產晶片是「沒辦法」,是由於被制裁後的無奈之舉。
但從 GLM-5 到 DeepSeek V4,這個邏輯變了。
它們不是在「勉強運行」,而是在「超越」。
GLM-5 證明了用華為晶片能練出在全球頂級榜單登頂的模型,而 DeepSeek V4 準備證明,用華為晶片能練出萬億參數的多模態旗艦,而且效率高到讓老黃都覺得脊背發涼。
說真的,我挺感慨的。
以前我們聊 AI,總覺得我們是在「追趕」,用著別人的卡,跑著別人的架構。
但現在,智譜和 DeepSeek 就像是兩條平行線,最後在華為的算力底座上匯合了。
這種感覺,怎麼說呢,確實挺帶勁的。
我們正在見證一套完全獨立於美國技術堆疊的 AI 生態,正從地底下冒出頭來。
至於 V4 到底有多強,咱們等它發佈那天,我一定第一時間去試。 (KmTech)
