華為AI叢集性能超越輝達GB200!

在無法使用最先進的工藝技術生產高端人工智慧處理器的情況下,華為採取了一種“以數量換性能”的策略,通過增加處理器數量來實現與行業競爭對手相當的性能。這一策略包括採用雙晶片HiSilicon Ascend 910C處理器、光互連技術以及華為AI CloudMatrix 384機架級解決方案,該方案依賴於專有軟體,據SemiAnalysis報導,整個系統雖然在每瓦性能上比輝達的GB200 NVL72低2.3倍,但仍然能夠使中國企業訓練先進的AI模型。


華為CloudMatrix 384系統概述

華為的CloudMatrix 384是一個機架級AI系統,由384個Ascend 910C處理器組成,這些處理器通過全光、全互連的網格網路排列。系統跨越16個機架,包括12個電腦架(每個機架容納32個加速器)和4個網路機架,用於通過6912個800G LPO光收發器實現高頻寬互連。

與傳統使用銅線進行互連的系統不同,CloudMatrix完全依賴光互連技術,實現極高的聚合通訊頻寬。CloudMatrix 384是一款企業級裝置,具備容錯能力,並且設計上支援可擴展性。在性能方面,CloudMatrix 384提供約300 PFLOPs的密集BF16計算能力,幾乎是輝達GB200 NVL72系統的兩倍(後者提供約180 BF16 PFLOPs)。此外,該系統還提供2.1倍的總記憶體頻寬,儘管使用的是HBM2E,但HBM容量超過輝達3.6倍。該機器還具有2.1倍更高的擴展頻寬和5.3倍的擴展頻寬,這得益於其光互連技術。

然而,這些性能優勢並非沒有代價:該系統每FLOP的功耗效率比輝達低2.3倍,每TB/s記憶體頻寬的效率低1.8倍,每TB HBM記憶體的效率低1.1倍。但這些並不重要,因為中國企業(包括華為)無論如何都無法獲得輝達的GB200 NVL72。因此,如果他們想要獲得真正高性能的AI訓練,他們將願意投資華為的CloudMatrix 384。

華為HiSilicon Ascend 910C處理器

當華為的HiSilicon Ascend 910C處理器首次曝光時,它被認為是一個計算晶片,由中芯國際(SMIC)生產,其I/O介面用於連接I/O晶片。然而,事實證明,HiSilicon Ascend 910C是一個雙晶片處理器,帶有八個HBM2E記憶體模組,沒有類似AMD Instinct MI250X和輝達B200的I/O晶片。該單元提供780 BF16 TFLOPS,相比之下,MI250X為383 BF16 TFLOPS,B200為2.25至2.5 BF16 TFLOPS。HiSilicon Ascend 910C是為大規模訓練和推理工作負載而設計的,使用先進的EDA工具,並且可以使用7奈米級工藝技術生產。SemiAnalysis報告稱,儘管SMIC可以為Ascend 910C生產計算晶片,但華為使用的大多數Ascend 910C晶片是由台積電通過涉及第三方實體(如Sophgo)的變通方法生產的,這使得華為能夠在美限制下獲得晶圓。據估計,從2023年到2025年,華為獲得了超過一百萬個Ascend 910C處理器的晶圓。然而,隨著SMIC能力的提升,華為可以將更多生產外包給國內代工廠。

Ascend 910C使用HBM2E記憶體,其中大部分來自三星,通過另一個代理CoAsia Electronics採購。CoAsia將HBM2E元件運往Faraday Technology,這是一家設計服務公司,然後與SPIL合作組裝HBM2E堆疊和低性能16奈米邏輯晶片。這些組裝件在技術上符合美國出口管制,因為它們沒有超過美國法規規定的任何閾值。系統級封裝(SiP)單元被運往中國,然後將HBM2E堆疊拆焊,重新安裝在華為的Ascend 910C SiP上。

從性能角度來看,Ascend 910C在每個晶片的基礎上遠不如輝達最新的B200 AI GPU強大,但華為的系統設計策略通過增加每個系統的晶片數量來彌補這一差距。

更多處理器 = 更高性能

正如其名稱所示,CloudMatrix 384是一個由384個Ascend 910C AI處理器組成的高密度計算叢集,物理上組織成一個16機架系統,每個機架有32個AI加速器。在這個佈局中,12個機架用於計算模組,而另外4個機架用於通訊交換。與輝達的架構類似,所有Ascend 910C都可以相互通訊,因為它們通過自訂網格網路互連。

然而,CM384的一個顯著特點是其完全依賴光鏈路進行機架內和機架間的內部通訊。它整合了6912個線性可插拔光(LPO)收發器,每個收發器的速率高達800 Gbps,總內部頻寬超過5.5 Pbps(687.5 TB/s),具有低延遲和最小訊號完整性損失。該系統支援向上擴展和向外擴展拓撲結構:通過384個處理器內的全網格實現向上擴展,通過額外的叢集間連接實現向外擴展,這使得該系統能夠在更大的超大規模環境中部署,同時保持緊密的計算整合。

擁有384個處理器,華為的CloudMatrix 384提供了300 PFLOPs的密集BF16計算性能,比輝達的GB200 NVL72高出166%。然而,CM384的總系統功耗(包括網路和儲存)約為559千瓦,而輝達的GB200 NVL72消耗145千瓦。

因此,輝達的解決方案比華為的解決方案提供了2.3倍的更高功耗效率。然而,正如前面提到的,如果華為能夠大規模交付其CloudMatrix 384,並提供適當的軟體和支援,其客戶將不會關心系統的功耗。 (晶片行業)