川普“關稅”洪流還在醞釀,最新對全球半導體進行加征關稅。其目的指向依然明確,那就是製造回流;就如川普所言:“我們希望簡化許多其他公司的關稅程序,因為我們希望在美國生產晶片、半導體和其他產品。”
這也意味著中國國產晶片形勢依然嚴峻,尤其是一直受制於輝達GPU的中國國產算力產業。而領銜中國國產AI算力突圍的依然是華為!
2025年4月10日,華為雲生態大會2025上一項名為“CloudMatrix 384超節點”的技術橫空出世,迅速成為全球AI產業的焦點。據瞭解,華為Cloudmatrix384超節點,在算力規模和推理性能上全面超越了輝達NVL72,這也是目前中國唯一正式商用的大規模超節點;這也標誌著中國企業在算力架構上的革命性突破。
在美國放鬆對華出口“閹割版”H20晶片的背景下,華為的這次技術亮劍,不僅是對算力“卡脖子”困境的破局,更是國產AI產業從“依賴進口”轉向“自主定義”的轉折點。那具體而言,華為Cloudmatrix384超節點相比輝達NVL72有那些突破呢?
用一句話來說,那就是華為CloudMatrix 384超節點的核心突破在於“高密、高速、高效”的架構創新。其技術參數與輝達NVL72的對比在三大維度上“遙遙領先”:
傳統單節點伺服器(如輝達8卡A100/H100)的算力受限於單晶片性能,而華為通過新型高速匯流排技術,將384顆昇騰晶片緊耦合互聯,形成單一邏輯計算單元,算力密度提升至300 PFlops(每秒300千兆次浮點運算),是傳統8卡伺服器的50倍。相比之下,輝達NVL72系統雖通過72顆H100晶片互聯實現算力提升,但其單叢集算力密度仍低於華為的架構設計。
輝達NVL72依賴NVLink 4.0實現晶片間互聯,頻寬雖高但受限於物理伺服器邊界。而華為CloudMatrix 384採用“共享匯流排網路”,將傳統乙太網路的分散式連接升級為全對等互聯架構,互聯頻寬提升超10倍,且支援跨節點的資源池化。這一設計大幅降低了大規模模型訓練時的通訊延遲,使得萬卡級叢集的協同效率顯著提升。
在超大規模AI訓練中,系統故障導致的訓練中斷是行業痛點。輝達系統通常需要小時級恢復時間,而華為CloudMatrix 384通過昇騰雲腦-全端故障診斷模型,實現了“分鐘級故障感知+10秒級斷點恢復”,確保大模型訓練任務可穩定運行40天以上。這一特性對需要長期連續訓練的超大模型(如兆參數級)至關重要。
因而,隨著華為CloudMatrix 384商用大規模落地,對國產AI產業的影響遠不止於技術參數本身,而是從底層基礎設施到應用生態的系統性變革。
此前,中國企業因國產晶片單卡算力不足,被迫高價採購輝達的“特供版”晶片(如H20)。而CloudMatrix 384通過系統級創新,以昇騰晶片叢集實現比肩H100的推理性能(如矽基流動實測單卡1920 tokens/s,與H100持平),且成本降低53%。這直接推動國產算力從“實驗室可用”邁向“商業級可靠”。
更重要的是,目前昇騰MindSpore框架與Cloudmatrix384的深度適配,使國產AI開髮套件首次在ImageNet基準測試上超越ResNet-50的輝達生態方案。目前,華為昇騰雲服務已適配160多個主流大模型(如DeepSeek),並在30多個行業的400多個場景中落地,覆蓋金融、醫療、氣象等領域。以醫療行業為例,某三甲醫院基於昇騰雲部署的AI輔助診斷系統,將CT影像分析時間從30分鐘縮短至5秒,精準率提升至98%。
綜上所述,華為硬體層上,CloudMatrix 384提供算力底座;軟體層上,逐步升級CodeArts、DataArts等工具鏈,支援AI模型快速開發;服務層面上,聯合數百家國產AI企業共建行業解決方案。也就是說,華為正通過“超節點+昇騰雲”逐步建構了從晶片、架構到開發工具鏈的完整生態。
因此,華為CloudMatrix 384超節點的意義,遠超一場技術發佈會——它標誌著中國AI產業正式進入“系統創新”時代;根據IDC報告預計,該技術將使中國AI晶片市佔率從2024年的12%躍升至2026年的34%。 (飆叔科技洞察)