華為,在黎明之前

跪著的都輸了,站著才可能贏。


黎明前最黑暗,勝利前最絕望,成功前最渺茫。

堂吉訶德舉著破矛衝向風車,切格瓦拉的摩托車駛向安第斯山脈,蓋茲比始終追逐著心中的綠光,他們的命運終章永遠只有兩種筆法:加冕為盜火者,或坍縮成黑洞。

華為素來不愛“造夢”,這是一家理性大於感性的公司。

所有關於聯接的答案,都能在方程組的深處,找到最簡潔的表達,那些被高斯噪聲吻過的頻譜,在香農的公式裡凝結成精巧的資訊,在華為眼裡都是理性的計算。

然而,當華為被置於風暴中央之時,成功除了前赴後繼的突圍,故事中總帶有那麼一些理想主義色彩。

上甘嶺

曾經的黑夜對於華為來說,並不算短。

2019.5.16,19萬華為人因“實體清單”的消息集體落入慌亂與不安的情緒。

越是在行業待得足夠久的人,越知曉其中的份量,高通晶片、英特爾/AMD晶片、Windows和Android作業系統等,這是大眾顯而易見看到的部分,還有更重要但外界感知不到的部分,例如資料庫、ERP軟體、各種生產工具等軟體等,華為的業務面臨全面停擺的風險。

更重要的是,還有一個在當時並不明顯,但後來被驗證的預言。“他們不只想遏制華為的現在,更想摧毀華為的未來。”

華為的未來是什麼?

2018年,華為首次對外發佈了AI戰略與全端全場景AI解決方案,包括全球首個覆蓋全場景人工智慧的華為昇騰系列晶片以及基於華為昇騰系列晶片的產品和雲服務。

在所有預設前提改變的情況下,華為AI戰略被打亂了步伐。

“再窮也要對未來投資”,華為比任何人都更明白這一點,如果趕不上AI的時代浪潮,華為可能在十年、二十年後就變成一家“泯然眾人矣”的公司。

現在與未來交織成兩條主線。華為發起的“三丫坡會戰”,成功保障了自身的生產營運,實現了關鍵產品和技術的自主研發,涵蓋硬體、作業系統、資料庫、中介軟體、應用軟體等領域。

但是,關於未來的問題,就像“達摩克利斯之劍”懸於頭頂。

美國對AI的封鎖層層加碼,華為連基本的AI算力供應都難以實現,又該如何與美國的AI企業競爭?

外界無從知曉,華為扛著多大的壓力,但它沒有給自己徬徨的時間。

不久之後,華為內部就成立了一支特殊的“作戰部隊”,結合了包括雲、計算、晶片等業務線的精兵強將,這支隊伍領到的“軍令”,就是攻克AI算力的“上甘嶺”。

那條坑道

彼時,憑藉GPU和CUDA生態系統的堅固壁壘,輝達可謂“獨孤求敗”,打遍天下無敵手。

輝達和華為,恰如一個在上甘嶺的南坡,洋槍大炮重兵佈陣,另一個卻在北坡,小米加步槍艱難突進。

那條打通南北坡,決勝千里的“坑道”在那裡?

答案指向超節點。單晶片性能落後,那就靠系統性能力來彌補,甚至超越。一場決定未來10年甚至20年成敗的“冒險”,在華為內部悄然卻激烈的啟動了。

2022年下半年,華為正式啟動了超節點的研發,當時誰也沒想到AI的發展會在第二年就迎來了第一個爆發點——ChatGPT發佈,並在全球掀起了大模型浪潮。

華為早有預感,作為基礎設施提供商,華為的定位就是為各種應用“架橋修路”,從5G到AI算力都是如此,基於這種戰略導向,華為雲前瞻性地判斷出了AI的大發展,並決定要提前投入。

第一個核心問題很快到來,超節點立項的時候,ChatGPT還沒發佈,大模型還沒顯露趨勢,更沒人預料到DeepSeek的爆火,從一個時代進入到另一個時代,就用了不到2年的時間。

超節點項目要面對的第一個選擇:超節點是建64個晶片,還是384個晶片?

“在當時的環境下,64卡是夠用的,但是我們要佈局未來,而且以昇騰AI雲服務提供算力服務,可以把超節點算力分開或者合併,做大了沒問題,做小了可能就會很被動。”華為一位項目組專家回憶道。

彼時誰也不知道AI的市場什麼時候會來,資源有限,當時的昇騰也還不是戰略重心。那麼,是否要投入一個如此耗費精力,結果又不十分確定的大項目,是不是明智之舉?

猶豫的時間並不長,不久之後的2023年初,華為就決策要堅定投入384超節點。

超節點項目涉及到海思、計算和雲等多個業務團隊。華為雲資料中心一位負責人表示,“公司面臨困難的時候,大家都想到前線去參戰,到晶片的團隊作貢獻,公司還特別發了個文,號召大家做好自己的本職工作。而超節點項目讓我們也成為了參戰部隊,大家內心非常自豪和興奮。”

在晶片能力落後於輝達一代的情況下,華為的策略是用“非摩爾定律補摩爾定律”,單晶片性能不足,就上升到系統層面,因為大模型的訓練推理本來就需要算力叢集,才能發揮出更高的效果。

時間緊迫,任務艱巨,戰略清晰。然而實踐,卻依然艱難。在落後的情況下,想要追平甚至超越輝達,意味著需要付出更大的代價。

當華為選擇了384卡之後,那就只能採用光模組來通訊的技術路線,而不是輝達NVL72選擇的全電通訊,這是一個巨大的技術挑戰。

業內有消息指出,輝達此前也考慮過光模組方案,但由於其成本高昂、功耗大且由於所需的光學收發器和兩級網路導致不可靠,最終被放棄。於是,輝達NVL72超節點採用全銅線架構,一經部署便保持固定狀態,相對穩定。缺點是:只能部署2米以內,否則速度會大幅衰減,因此可聯接晶片數量有限。而光模組則有高頻寬和高速率的優勢,損耗低,適合長距離傳輸,因而可聯接更多晶片,部署靈活。

但是光模組故障率高,這就需要資料中心有一套高效的故障定位和修復系統,保證超節點長穩運行,不影響客戶業務。

不管是千卡叢集,還是萬卡叢集,還是十萬卡的叢集,華為CloudMatrix 384超節點可實現1分鐘故障感知、3分鐘故障定界、10分鐘故障恢復。

作為挑戰者,想實現領先者都實現不了的方案,本是個“妄想”,但是,偏執卻常是成功的必要條件。

既然找到了384超節點這條“坑道”,必須一掘到底。

勝利,但沒有終點

2025年4月,CloudMatrix 384超節點一經發佈,便引起了極大關注,海外的關注度比國內還要高得多。究其原因,就像華為雲副總裁黃瑾在最近的華為雲AI峰會所說:“CloudMatrix 384超節點具備MoE親和、以網強算、以存強算、長穩可靠、朝推夜訓、即開即用六大領先技術優勢,這項技術創新跳出單點技術限制走向系統性、工程性的創新算力架構直面通訊效率瓶頸、記憶體牆制約、可靠性短板三大技術挑戰。”可以說,華為雲以系統架構創新重新定義新一代AI基礎設施。

起初很多人不相信華為能實現這樣的突破。海外知名分析機構SemiAnalysis,以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”為題,猜測和分析了CloudMatrix 384超節點的種種細節。

SemiAnalysis得出的結論是,華為的晶片技術落後一代,但其自主研發的雲端超級算力解決方案CloudMatrix 384卻可領先於輝達和AMD當前市售產品一代,直接對標輝達GB200 NVL72系統,在多項關鍵指標上展現出超越輝達機架級解決方案的技術優勢。

這是工程創新的“奇蹟”。可能瘋狂就是反覆做著同樣的事情,卻期待不同的結果。

“早期光模組根本不可用”,上述華為雲資料中心負責人還記得,光模組試驗時的沮喪,“想用非摩爾去解決摩爾定律,結果非摩爾這邊的問題反而更大,我們用了最土的辦法,每一個光模組的端面全部拍照,再逐個分析,解決了數不清的問題,才實現了較好的穩定性。”

當時,承接超節點落地的華為雲資料中心面臨著空前壓力。

傳統的分佈式系統本質上是一個松耦合系統,伺服器之間一般用25Gbps或100Gbps乙太網路頻寬就可以滿足絕大多數應用的需求。而AI時代的應用負載與傳統業務有很大不同,當前伺服器叢集的乙太網路互聯頻寬已經越來越難滿足前面提到的AI時代的訓練、推理等場景的需求。

CloudMatrix 384實現了CPU、NPU、GPU、記憶體等多樣資源的跨伺服器統一池化,用“對等架構”替換掉傳統的“主從架構”,讓多元算力可以直接通訊,不需要通過CPU,讓系統能夠靈活配置跨伺服器的多種資源,形成一個大規模的緊耦合的多元算力池化架構,這是AI原生雲基礎設施最重要的能力。

DeepSeek成為CloudMatrix 384顯露崢嶸的一個縮影。DeepSeek使用了大規模專家平行(Expert Parallelism,大EP平行)的MoE模型架構,特點是大模型設定了多個專家來處理問題,1個卡(算力晶片)對應著1個專家,專家越多,效率越高,傳統輝達伺服器都是8卡,CloudMatrix 384可以對應384個專家,極大提高專家數量,並且最佳化協同效率。

矽基流動CEO袁進輝記得,2025年除夕,DeepSeek的爆火快速點燃市場,矽基流動和華為雲當即決定要在CloudMatrix 384上跑DeepSeek。

若採用單機部署方案,最終的性能遠不如DeepSeek官方公佈的部署方案,且至少有數倍成本差距。更具挑戰的是,雖然DeepSeek公開了大EP平行方案,但技術難度較大,業內還沒有其他團隊快速復現這一部署方法。

效率和精度是核心問題,每秒輸出的token可能卡在計算或者通訊上,模型輸出的結果可能和官方不一致,經過雙方團隊的數月攻關,DeepSeek在CloudMatrix 384終於實現了較好的效果,可比肩H100部署性能。

“首先,他們無視你,而後嘲笑你,接著攻擊你,再後來就是你的勝利之日。”

無人知曉華為人如何度過那些漫長黑夜,想來那必定是充滿了焦慮、懷疑和不甘。最終華為熬過了一道關卡,CloudMatrix 384超節點不是終點,華為人來不及慶祝,收拾心情整裝再出發,奔赴下一個戰場。

跪著的都輸了,站著才可能贏。 (鈦媒體)