根據最新消息揭露,包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、英特爾(Intel)、Meta和微軟(Microsoft)在內的八家公司宣告,他們已經為人工智慧資料中心的網路制定了新的互聯技術UALink(Ultra Accelerator Link)。透過為人工智慧加速器之間的溝通建立一個開放標準,以打破市場領導者Nvidia的壟斷。
眾所周知,輝達是人工智慧晶片市場最大的參與者,他們在GPU上擁有了絕對領先的份額。但其實除此之外,輝達還擁有一系列技術,可用於在多個GPU 和系統上擴展工作負載。其中包括其片上和封裝互連、用於伺服器或pod 中GPU 到GPU 通訊的NVLink、用於擴展pod 之外的Infiniband 以及用於連接到更廣泛基礎設施的乙太網路。
現在,該行業的其他公司正試圖以開放標準進行反擊,以爭奪這些細分市場。去年,我們看到了Ultra Ethernet,它使用增強型乙太網路旨在取代Nvidia 的InfiniBand 高效能互連,後者已迅速成為連接GPU 加速節點的事實標準,並且獲得了豐厚的利潤。
今年,我們將獲得Ultra Accelerator Link 或UALink ,一項旨在取代Nvidia 的NVLink 協定和NVLink Switch(有時稱為NVSwitch)記憶體結構新標準。在具體介紹UALink 之前,我們先對Nvlink進行介紹。
過去,我們看到了許多有關輝達GPU和CUDA護城河的介紹。誠然,經過多年的投入,他們已經建立了難以逾越的優勢。但除此之外,如上所述,輝達還有很多隱形護城河,NVLink就是其中的一個,一個為GPU到GPU互聯提供高速連接的技術。
在摩爾定律逐漸失效,但對算力要求越來越高的當下,這種互聯顯得特別必要。
根據輝達在官方網站中表示,NVLink 是全球首創的高速GPU 互連技術,為多GPU 系統提供另一種選擇,與傳統的PCI-E 解決方案相比,速度方面擁有顯著提升。使用NVLink 連接兩張NVIDIA GPU,即可彈性調整記憶體與效能,滿足專業視覺運算最高工作負荷的需求。
相關資料顯示,NVLink 最初是一種將Nvidia GPU 卡上的記憶體組合在一起的方法,最終Nvidia Research 實現了一個交換器來驅動這些端口,允許Nvidia 以槓鈴拓撲(barbell topology )連接兩個以上的GPU,或以十字交叉方形拓撲(crisscrossed square topology)連接四個GPU,這種拓撲幾十年來通常用於創建基於CPU 的雙插槽和四插槽伺服器。
幾年前,AI 系統需要八個或十六個GPU 共享內存,以簡化編程,並使這些GPU 能夠以內存速度(而不是網路速度)存取資料集。因此,實驗室中的NVSwitch 於2018 年在基於「Volta」V100 GPU 加速器的DGX-2 平台上迅速商業化。
目前,NVLink可在GPU 之間以每秒1.8 TB 的速度傳輸資料。此外,還有一個NVLink 機架級交換機,能夠在無阻塞運算結構中支援多達576 個完全連接的GPU。透過NVLink 連接的GPU 稱為“pod”,表示它們有自己的資料和運算域。
其實除了Nvlink以外,還有兩種連接GPU的方法,分別是PCI匯流排和Server-to-Server互聯。據了解,標準伺服器通常可以在PCI 總線上支援4-8 個GPU。透過使用GigaIO FabreX 記憶體結構等技術,可以將這個數字增加到32 個。
除此之外,乙太網路或InfiniBand可以連接包含GPU 的伺服器。這種連接等級通常稱為橫向擴展,其中較快的多GPU 域透過較慢的網路連接以形成大型運算網路。
其實自從比特開始在機器之間移動以來,乙太網路一直是電腦網路的主力。最近,透過引入超級乙太網路聯盟,該規範已被推動以提供高效能。事實上,英特爾已經在乙太網路上插上了互連旗幟,因為英特爾Gaudi -2 AI 處理器在晶片上擁有24 個100 千兆乙太網路連接。
不過,Nvidia 並沒有加入超級乙太網路聯盟,因為他們在2019 年3 月收購Mellanox 後,基本上獨佔了高效能InfiniBand 互連市場。超級乙太網路聯盟旨在成為其他所有人的“InfiniBand”。值得一提的是,英特爾曾經高舉InfiniBand 大旗。
因此在這種情況下,對於其他人來說,除了用於連接MI300A APU 的AMD Infinity Fabric 之外,沒有其他選擇。與InfiniBand/乙太網路的情況類似,需要某種「超級」競爭對手聯盟來填補非Nvidia 的「pod 空缺」。而這正是UALink推出的重要原因。
超級加速器鏈(Ultra Accelerator Link,UALink)同樣是一種可提高新一代AI/ML叢集效能的高速加速器互連技術。八家發起廠商(和超級乙太網路聯盟一樣,我們也沒有在UAlink聯盟中看到輝達的身影)也成立了一個開放產業標準機構來制定相關技術規範,以促進新使用模式所需的突破性性能,同時支持資料中心加速器用開放生態系的發展。
在他們看來,發起這個標準很有必要。因為隨著AI運算需求的成長,擁有穩健、低延遲且可高效縱向擴展的網絡,從而輕鬆將運算資源添加到單一實例中至關重要。而針對縱向擴展功能製訂開放的業界標準規範,有助於為AI工作負載創造開放的高效能環境,從而提供盡可能高的效能。
正是由於這個原因,UALink和產業規範對於新一代AI資料中心用AI和機器學習、HPC和雲端應用程式的介面標準化及其實現至關重要。此工作小組將制定相應的規範來界定AI計算容器組中加速器與交換器之間進行縱向擴展通訊所需的高速低延遲互連。
從相關資料可以看到,Ultra Accelerator Link 聯盟的核心於去年12 月就已經建立,當時CPU 和GPU 製造商AMD 和PCI-Express 交換器製造商博通表示,博通未來的PCI-Express 交換器將支援xGMI 和Infinity Fabric 協議,用於將其Instinct GPU 記憶體相互連接,以及使用CPU NUMA 連結的載入/儲存記憶體語義將其記憶體連接到CPU 主機的記憶體。相關消息顯示,這將是未來的「Atlas 4」交換機,它將遵循PCI-Express 7.0 規範,並於2025 年上市。博通資料中心解決方案集團副總裁兼總經理Jas Tremblay 證實,這項工作仍在進行中,但不要妄下結論。換而言之,我們不要以為PCI-Express 是唯一的UALink 傳輸,也不要以為xGMI 是唯一的協定。
AMD 為UALink 專案貢獻了更廣泛的Infinity Fabric 共享記憶體協定以及功能更有限且特定於GPU 的xGMI,而所有其他參與者都同意使用Infinity Fabric 作為加速器互連的標準協定。英特爾資深副總裁兼網路與邊緣事業部總經理Sachin Katti 表示,由AMD、博通、思科系統、Google、惠普企業、英特爾、Meta Platforms 和微軟組成的Ultra Accelerator Link「推動者小組」正在考慮使用乙太網路第1 層傳輸層,並在其上採用Infinity Fabric,以便將GPU 記憶體黏合到類似於CPU 上的NUMA 的巨大共享空間中。
如下圖所示,我們分享瞭如何使用乙太網路將Pod 連結到更大的叢集:
如thenextplatform所說,沒人期望將來自多個供應商的GPU 連接到一個機箱內,甚至可能是一個機架或多個機架中的一個Pod內。但UALink 聯盟成員確實相信,系統製造商將創建使用UALink 的機器,並允許在客戶建造其艙時將許多參與者的加速器放入這些機器中。您可以有一個帶有AMD GPU 的Pod,一個帶有Intel GPU 的Pod,另一個帶有來自任意數量的其他參與者的自訂加速器Pod。它允許在互連層級實現伺服器設計的通用性,就像Meta Platforms 和Microsoft 發布的開放加速器模組(OAM) 規範允許系統板上加速器插槽的通用性一樣。
總而言之,UALink 的一大優勢是讓業界其他所有人都有機會與NVIDIA 保持同步。 NVIDIA 現在有能力製造NVSwitch盒並將這些NVSwitch 托盤放入NVIDIA DGX GB200 NVL72等產品中。
英特爾今年的AI 加速器銷售額達數億美元,這可能意味著它只賣出數萬台加速器。 AMD 今年將銷售數十億美元的MI300X,但這仍然遠不及NVIDIA 的AI 規模。擁有UALink 允許像Broadcom 這樣的公司製造UALink 交換機來幫助其他公司擴大規模,然後在多家公司的加速器上使用這些交換器。
我們已經報導了Broadcom Atlas 交換器計劃與AMD Infinity Fabric AFL Scale Up 競爭NVIDIA NVLink 即將出現在PCIe Gen7 中的Broadcom 交換機上。我們在簡報中被告知,這些可能會實作UALink 的V1.0。當然,UALink V1.0 規範尚未出台。
他們表示,1.0版的規格將允許在AI容器組中連接不超過1,024個加速器,支援在容器組中掛載到加速器(例如GPU)的記憶體之間進行直接載入和儲存。 UALink發起人工作小組已經成立了UALink聯盟,預計在2024年第三季正式成立。 1.0版規範預計將於2024年第三季推出,並開放給參加超級加速器鏈(UALink)聯盟的公司。
其實在過去幾年,產業參與者已經承諾在PCI-Express 結構上運行的Compute Express Link (CXL) 協議將提供相同的功能。例如CXLmem 子集就已經提供了CPU 和GPU 之間的記憶體共享嗎。
但在分析師看來,PCI-Express 和CXL 是更廣泛的傳輸和協定。
Katti 指出,AI 加速器模組的記憶體域比CPU 叢集的記憶體域大得多,我們知道CPU 叢集的擴展範圍從2 個到4 個,有時到8 個,很少到16 個運算引擎。許多人認為,AI 加速器的GPU 模組可擴展到數百個運算引擎,並且需要擴展到數千個。更重要的是,與CPU NUMA 叢集不同,GPU 叢集(尤其是運行AI 工作負載的叢集)對記憶體延遲的容忍度更高。
為此The Next Platform表示,我們不要指望看到UALinks 將CPU 捆綁在一起,但沒有理由相信未來的CXL 連結最終不會成為CPU 共享記憶體的標準方式——甚至可能跨越不同的架構。
這其實是為了打破NVLink 在互連結構記憶體語意學方面的壟斷。無論Nvidia 如何使用NVLink 和NVSwitch,它的幾家競爭對手都需要為潛在客戶提供可靠的替代方案——無論他們是銷售GPU 還是其他類型的加速器或整個系統——這些潛在客戶肯定希望為AI 伺服器節點和機架式設備提供比Nvidia 互連更開放、更便宜的替代方案。
「當我們審視整個資料中心對AI 系統的需求時,有一點非常明顯,那就是AI 模型繼續大規模成長,」AMD 資料中心解決方案事業部總經理Forrest Norrod 說。 「每個人都可以看到,這意味著對於最先進的模型,許多加速器需要協同工作以進行推理或訓練。能夠擴展這些加速器對於推動未來大規模系統的效率、性能和經濟性至關重要。擴展有幾個不同的方面,但Ultra Accelerator Link 的所有支持者都非常強烈地感受到,行業需要一個可以快速推進的開放標準,一個允許多家公司為整個生態系統增加價值的開放標準。不受任何一家公司的束縛而快速進行。
毫無疑問,AMD Forrest Norrod所說的這家公司是Nvidia,他們透過投資了InfiniBand,並創建了具有絕對超大網路頻寬的NVSwitch 來為GPU 進行NUMA 叢集。當然,他們最初這樣做的是因為PCI-Express 交換器在總頻寬方面仍然有限。
有趣的是,UALink 1.0 規範將在今年第三季完成,屆時Ultra Accelerator Consortium 也將加入進來,擁有智慧財產權並推動UALink 標準的發展。今年第四季度,UALink 1.1 更新將發布,這將進一步提高規模和效能。目前尚不清楚1.0 和1.1 UALink 規範將支援哪些傳輸,或哪些將支援PCI-Express 或乙太網路傳輸。
使用NVLink 4 連接埠的NVSwitch 3 結構理論上可以在共享記憶體pod 中跨越多達256 個GPU,但Nvidia 的商業產品僅支援8 個GPU。借助NVSwitch 4 和NVLink 5 端口,Nvidia 理論上可以支援跨越多達576 個GPU 的pod,但實際上,商業支援僅在DGX B200 NVL72 系統中最多72 個GPU 的機器上提供。
如今,許多公司都在嘗試採用標準PCIe 交換器並建造基於PCIe 的結構以擴展到更多加速器。業內大公司似乎將此視為權宜之計。相反,NVIDIA 的NVLink 更像是業界擴展的黃金標準。
現在,UAlink團隊正準備發布專有NVLink 的公開競爭對手。
所有這些都需要時間。記者在簡報會上問這是否是2026 年左右的實施目標。 2024 年還太早,即使它被融入產品中,目前也不太可能成為2025 年初的產品。如果你看看CXL或UCIe,這些標準需要很長時間才能最終成為產品。 2026 年將是一個快速實施的時間。
對於AMD 和英特爾等公司來說,這提供了一條複製NVLink 和NVSwitch 功能並與其他公司分享開發成果的途徑。像博通這樣的公司很可能是最大的贏家,因為它定位為非NVIDIA 系統的連接供應商,無論是用於縱向擴展還是橫向擴展。無論是AMD 還是英特爾獲勝,博通都在銷售連結。對於超大規模企業來說,無論誰製造端點,投資標準化結構的能力都非常有意義。
順便說一句,在2019-2020 年期間,業界考慮將CXL in-box 和Gen-Z作為擴展解決方案。許多當年展示Gen-Z 的人現在都在AMD 工作,就像AMD 多年來一直在組建一支團隊,他們看到並一直在努力解決擴展挑戰。
希望我們能夠盡快看到UALink 投入使用。對啦,多說一句,似乎沒有看到Marvell的身影?(半導體產業觀察)