矽基昇騰,中國突圍
用空間換算力;用頻寬換算力;用能源換算力……用一切換算力。

2025年1月15日,中國AI大模型DeepSeek R1剛一問世,便震動全球。

針對DeepSeek,全世界展開了一場龍爭虎鬥。

可僅僅2周之後,2月1日(大年初四),華為雲就聯合矽基流動基於昇騰雲推出DeepSeek R1/V3,引爆全網。

從模型到算力,從引擎到框架,全面實現國產化。

這其中,DeepSeek和華為自不用說。矽基流動作為一家AI Infra(AI基礎設施)企業,則是清華博士袁進輝2023年剛創立的創業公司。

創業公司往往嗅覺極度靈敏。

其實,早在DeepSeek V3發佈前一個月,DeepSeek創始人梁文鋒就找到袁進輝,問他要不要部署?

袁進輝算了一筆帳:動用80台輝達H800伺服器,單月花費五六百萬,風險很大。

但眼見著DeepSeek越來越火爆,全世界的AI團隊都爭分奪秒,連輝達也親自下場。

時間不等人,矽基流動火速找到華為雲。雙方一拍即合,決心大幹一場,希望能用國產算力率先搞定部署難題。

華為雲的方案,正是昇騰雲。

於是,雙方經過徹夜不息的努力,終於在2月推出基於昇騰雲與矽基流動推理加速引擎的DeepSeek,成為國內第一個成功部署DeepSeek服務的企業。


僅2月,矽基流動網站存取量暴增40倍,沖上中國AI網站排行榜第6、全球AI網站增長榜第2。

狂暴的流量,讓人又驚又喜。

據華為雲技術負責人王磊回憶,矽基流動DeepSeek剛上線,第一波流量超乎想像。他不得不四處騰挪,緊急調撥2000多張昇騰910B卡馳援,才勉強扛住。

但第一波“洪峰”之後,更大的流量爆發了。

這一次,不得不每次1000卡地往上加,不計上限地調配算力,才勉強扛住。

但這一波之後呢?未來的流量,還會爆發到怎樣的程度?

沒有人知道。

於是,華為雲找到袁進輝,亮出當時還秘不示人的“大殺器”——CloudMatrix 384超節點。

對於超節點,袁進輝早有耳聞。

2024年3月,輝達首發NVL72超節點,一度震驚世界。

傳統AI伺服器裡,一張計算卡僅能容納8塊GPU;但NVL72超節點,能將72塊GPU組成一台超級AI伺服器,令AI算力和通訊速度實現飆升。

所以,超節點是一種將GPU高度整合的AI伺服器“黑科技”。

誰也沒想到,華為雲這麼快就搞出了CloudMatrix 384超節點。

而且,華為雲超節點的昇騰卡互聯數量飆升到384張,遠超輝達NVL72的72卡。

這是中國AI的算力之巔,更是前所未有的應用挑戰。

當時,袁進輝坦承對CloudMatrix 384懷有疑慮:

第一,DeepSeek所需的大規模專家平行,要求多卡之間實現低延遲、高協同,並使用All-to-All通訊。

但即便是輝達,對All-to-All的支援也相當乏力。

CloudMatrix 384行不行?沒有人知道。

第二,輝達NVL72超節點,採用銅連接;CloudMatrix 384卻採用光模組。區別在那呢?

光模組通訊具備更高頻寬和更低時延,適合大容量、長距離傳輸;此外光網路架構簡化,空間和功耗節省顯著,且擴展性更強。但光模組最大的問題就在於故障率高。

這個超高難度的連接方式,到底行不行?沒有人知道。

儘管充滿疑慮,但袁進輝選擇“信華為”:

“華為不僅是打過硬仗的團隊,更創造了很多很多的奇蹟。”

實際上,袁進輝的疑慮,也正是騰建軍所擔心的。

2023年2月,一場驟然爆發的電源浪湧,席捲新加坡資料中心,多家雲廠商和資料中心客戶受影響。

騰建軍,正是這場危機的親歷者。


當時,新加坡華為雲和微軟雲恰好在同一資料中心。唯一不同的是,電源浪湧爆發後,華為雲的AI for DC(Data Center),迅速“感知”到電源浪湧引發的高溫,自動觸發應急預警。


作為資深專家,騰建軍和團隊迅速判斷出,這將是一場全域危機。


這也是一場爭分奪秒的戰鬥。


1分鐘發現故障,3分鐘建立作戰室進行統一指揮,1小時內啟動乾冰應急計畫……


騰建軍率領團隊頭戴防毒面罩、手挑乾冰,衝進現場給伺服器物理降溫,生生扛住這波突襲,確保了華為雲穩定運行。


江湖傳言,這一天,新加坡的乾冰被華為雲直接搬空。


微軟雲在內部溫度驟升、短暫抵抗之後,關閉了伺服器,中斷了雲服務。


微軟雲客戶甚至是在Twitter上,才得知自家業務猛然當機,被打了個措手不及。


一邊迅速趴窩,一邊穩如泰山。


僅此一招,足見華為雲的功力。


但智算超節點時代,對資料中心的要求更加苛刻。


在騰建軍眼中,CloudMatrix 384超節點要在物理上真正落地,資料中心要解決的是一連串實打實的難題。


因為資料中心,是“智算超節點產品”不可分割的一部分。


比如供電。


傳統資料中心,供電只做到8-10千瓦/機櫃;但為了驅動CloudMatrix 384,僅供電就要飆升到50千瓦甚至更高,怎麼辦?


那就突破標準,超前技術準備、超前建設。


散熱上,一套CloudMatrix 384橫跨16個機櫃,熱量密度飆升,必須建構一套精密的液冷散熱系統。


這其中,僅鏟齒散熱器的縫隙,就堪比髮絲般精細。一旦散熱液潔淨度出現些許問題,或是不可避免滋生細菌微生物,就很可能將鏟齒散熱器堵死,不可避免導致大規模當機。


這時候,又怎麼辦?


一方面,用AI for DC提前預警;另一方面,通過物理+化學的新方法長效殺菌,實現數學、物理到生物、化學的跨界研究,引領一場液冷革命。


而這些技術,早在幾年前就在華為雲得到規模應用,展現出技術超前投入的前瞻價值。


光模組,差點成了騰建軍“過不去的坎”。


實際上,華為在光通訊領域早已世界領先。


2020年,華為全球首發800G超高速光模組,獨步全球;2025年,華為再發1.6T矽光模組,在800G基礎上再翻一倍。


至此,業界已無人得見華為光通訊的“車尾燈”。


強大的技術積澱,讓華為雲用光模組建構超節點,而非採用銅連接,成為一種必然。


可真槍實彈幹起來才發現,困難比預想的大得多。


實測中,騰建軍發現:光鏈路的閃斷太頻繁了,結果就是——完全不能用!


“咯噔”一下子。問題嚴重了!


當時,CloudMatrix 384赫然被列入華為重點密級項目,是必須強渡的“大渡河”。加上單卡性能不如人,被逼得只能闖光模組這“華山一條路”。真被卡死,滿盤皆輸。


但那段時間,騰建軍對團隊說的最多的話卻是:


不要談困難,想盡辦法去突破。


於是,一邊內部想辦法,一邊外界請高人,同時,只能用最笨的辦法把難題列出來,一條條去攻克。


終於,騰建軍團隊發現:八成以上問題,出在光模組幾乎肉眼不可見的髒污上,嚴重影響了通訊質量;而髒污的產生,就在資料中心現場超節點內部網路互連的安裝環節。


找準了關鍵就好辦。


於是,團隊打造出針對光模組故障的定位和修復系統,通過數位化平台上的專家經驗庫和現場光模組的故障現象進行對接,實現了問題快速定位、故障迅速處置。


這一次,CloudMatrix 384再上線,速率、穩定性大幅提高。


作為全球首次大規模動用光模組部署超節點的探索,華為雲創造了“奇蹟”。


這一切,都成為矽基流動基於CloudMatrix 384再次爆發的堅實根基。

2月底,當強大的CloudMatrix 384呈現在矽基流動團隊面前時,所有人面對的,卻是一場新的長征。

王磊清楚記得:

3月初,矽基流動DeepSeek服務在超節點上剛跑通,吞吐量只有320 Tokens/秒,低到令人難以置信。

一台算力怪獸,表現如此拉胯,問題出在那?沒有人知道。

實際上,普通人很難想像,大模型內星辰般的宏大:

它的參數,高達數千億級;它的神經網路層級,成百上千;每個算子(神經網路中具備特定功能的演算法節點)背後,連接著不計其數的分佈式系統;它的結果,則由成百上千張GPU協同計算輸出,充滿機率偶然。

要在這其中找出問題,彷彿是在一座亞馬遜雨林中通緝一隻細菌。

這幾乎是一個不可能完成的任務。

但華為雲,必須上。

很快,王磊發動“超能力”,開始全公司“搖人”。

從底層做晶片的、做儲存的、做計算的,到上層做算子的、做推理的、做平台的……王磊竭盡所能,幾乎把技術堆疊上的所有團隊拉到現場,跟矽基流動團隊協同辦公、攻堅克難。

協議有問題,馬上改協議;算子有問題,馬上改算子……圍繞矽基流動DeepSeek服務上的超節點大計,華為上百人的團隊,晝夜攻關不息。

而對華為雲團隊來說,冗長的測試,更是一個永不停歇的“西西弗神話”。

通訊有瓶頸,最佳化通訊;但接著,計算問題又冒出來了;於是,最佳化計算後,GPU、NPU太快,CPU不匹配……

當整個技術堆疊全部最佳化一遍後,王磊猛然發現,問題又從最初的源頭,再次冒了出來。

總之,按下葫蘆浮起瓢。

但就是在這種重複、重複、再重複的最佳化過程中,CloudMatrix 384,終於被托舉到一個不可思議的新高度。

4月10日,華為雲生態大會,矽基流動創始人袁進輝鄭重宣佈:

基於CloudMatrix 384的DeepSeek-R1在保證單使用者 20 TPS 水平前提下,單卡 Decode 吞吐量突破 1920 Tokens/秒。

這什麼概念?

相較輝達H100,性能追平;相較3月初的CloudMatrix 384,性能提升6倍;相較昇騰910B單卡,性能飆升10倍。

這背後,CloudMatrix 384還實現了性能倍增(訓推提升20%)、以存強算(吞吐量提升100%)、MoE親和(千億MoE提升3X)、長穩可靠(長穩運行40天不中斷)、朝推夜訓(算力利用率提升30%)、即開即用六大特性。

以MoE親和為例。

所謂MoE,即DeepSeek中的“混合專家模型”。DeepSeek之所以功能超強,在於其會內建多個“專家”處理問題。而在硬體層面,通常1枚晶片對應1個“專家”,於是晶片越多,效率越高、性能越強。

而超節點整合了384張昇騰卡,極大最佳化了MoE能力。

這不僅令DeepSeek性能大爆發,更展現出華為雲在AI技術上的前瞻佈局。

今天,在華為雲三大雲核心樞紐(貴州貴安、內蒙古烏蘭察布、安徽蕪湖),CloudMatrix 384實現全面佈局,成為國內唯一正式商用的大規模超節點。

強大的算力網,令萬卡級服務,分分鐘即可開啟。

這不僅是華為雲的自我超越,也不僅是部分指標上對輝達的超越,更大的意義,在於中國AI正呈現出體系化的突破式創新。

用袁進輝的話說:美國試圖像“三體人”一樣,用晶片鎖死中國科技。

但6年抗爭過去,向死而生的華為,卻越挫越勇。

當歷經了鴻蒙蟄伏、海思攻堅、昇騰崛起……憑藉華為雲CloudMatrix 384超節點,一道堅不可摧的國產算力防線正在建構。

AI長跑沒有終點,突破,也不會有終點。但中國AI,一定會迎來自己的“奇點”時刻。 (華商韜略)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題