反輝達聯盟的里程碑,UA Link 1.0:正式發佈

在很早之前,我們就報導了UAlink。

該聯盟於2024 年 5 月由一群供應商成立,其中包括 AMD、AWS、博通、思科、Google、HPE、英特爾、Meta、微軟和 Astera Labs,他們認為世界需要一個 Nvidia NVLink 技術的開放替代方案,以允許建立運行大規模 AI 工作負載所需的聯網 GPU 叢集。



UALink 的會員們希望建立一個更便宜的替代方案,他們可以自行控制和部署超大規模,或者通過建立我們其他人購買的硬體從中獲利。他們還認為,世界已經準備好迎接一種可應用於多個供應商的 GPU 的網路標準,而不需要使用者為每個加速器供應商建立專用的網路孤島。為了實現這些目標,UAC 還希望在大多陣列織已經營運的乙太網路網路上開展工作。

在此前的文章《NVLink迎來勁敵:九大巨頭,正式成立UALink聯盟》中,我們對此有了深入的描述。

現在,這個標準的第一個版本,終於正式發佈。


UALink 1.0:連接1024個GPU,頻寬200 GT/s

據官方介紹,這個名為UALink 200G 1.0 的規範定義了 AI 計算艙中加速器和交換機之間通訊的低延遲、高頻寬互連。UALink 1.0 規範支援 AI 計算艙內最多 1024 個加速器實現每通道 200G 的擴展連接,為下一代 AI 叢集性能提供開放標準互連。

UALink 聯盟董事會主席 Kurtis Bowman 表示:“隨著對 AI 計算的需求不斷增長,我們很高興能夠提供一項必不可少的開放行業標準技術,使下一代 AI/ML 應用能夠推向市場。UALink 是唯一一款針對擴展 AI 的記憶體語義解決方案,它針對降低功耗、延遲和成本進行了最佳化,同時增加了有效頻寬。UALink 200G 1.0 規範帶來的突破性性能將徹底改變雲服務提供商、系統 OEM 和 IP/晶片提供商處理 AI 工作負載的方式。”

UALink 為加速器建立了一個交換機生態系統,為新興的 AI 和 HPC 工作負載提供關鍵性能支援。它使用讀取、寫入和原子事務實現跨系統節點的加速器到加速器通訊,並定義了一組協議和介面,從而為 AI 應用程式建立多節點系統。

英特爾公司網路和邊緣事業部高級副總裁兼總經理Sachin Katti在談到這個新標準的時候表示:“UALink 是人工智慧計算發展的重要里程碑。英特爾很自豪能夠共同領導這項新技術,並利用我們的專業知識來建立開放、動態的 AI 生態系統。作為這個新聯盟的創始成員,我們期待通過 UALink 標準帶來新一波行業創新和客戶價值。這一舉措擴大了英特爾對 AI 連接創新的承諾,包括在超級乙太網路聯盟和其他標準機構中擔任領導角色。”

UALink 為加速器建立了一個交換機生態系統,為新興的 AI 和 HPC 工作負載提供關鍵性能支援。它使用讀取、寫入和原子事務實現跨系統節點的加速器到加速器通訊,並定義了一組協議和介面,從而為 AI 應用程式建立多節點系統。

據聯盟總結說,UALink 的主要優勢包括以下幾點:

1.高性能

  • 為一個艙內的數百個加速器提供低延遲、高頻寬的互連;
  • 提供簡單的載入/儲存協議,具有與乙太網路相同的原始速度和 PCIe 交換機的延遲;
  • 專為實現 93% 有效峰值頻寬的確定性性能而設計;

2.低功耗

實現高效的開關設計,降低功耗和複雜性;

3.成本效益

  • 使用明顯更小的晶片面積進行鏈路堆疊,降低功耗和採購成本,從而降低總擁有成本 (TCO);
  • 提高頻寬效率可進一步降低 TCO;

4.開放、標準化

  • 多家供應商正在開發 UALink 加速器和交換機;
  • 利用成員公司的創新來將尖端功能納入規範並將可互操作的產品推向市場;


UALink 聯盟總裁 Peter Onufryk 表示:“隨著 UALink 200G 1.0 規範的發佈,UALink 聯盟的成員公司正在積極建構一個開放的生態系統,以擴大加速器連接。我們很高興看到各種解決方案即將進入市場,並支援未來的 AI 應用。”

正如Dell'Oro Group 副總裁 Sameh Boujelbene 所說,AI 正以前所未有的速度發展,開啟了具有新擴展定律的 AI 推理新時代。隨著計算需求激增和速度要求繼續呈指數級增長,擴展互連解決方案必須不斷髮展,以跟上這些快速變化的 AI 工作負載要求。我們很高興看到 UALink 1.0 規範的發佈,該規範通過在同一 AI 計算艙內為多達 1,24 個加速器實現每通道 200G 的擴展連接來應對這一挑戰。這一里程碑標誌著我們在滿足下一代 AI 基礎設施需求方面邁出了重要一步。


究竟是怎麼做到的?

其實當 UALink 小組成立時,其成員對於他們究竟會怎麼做和做什麼有些含糊其辭。有人說 PCI-Express 和乙太網路不是合適的東西,因為已經做的事情簡單而優雅,網路生態系統應該很容易採用和產品化。製造 PCI-Express 交換機的公司(Astera Labs、Broadcom、Marvell 和 Microchip)將希望製造 UALink 交換機,我們將其稱為 UASwitch,以區別於計算引擎上的 UALink 連接埠。

具體到UALink 1.0 規範,則定義了一種用於加速器的高速、低延遲互連,支援每通道 200 GT/s 的最大雙向資料速率,訊號傳輸速率為 212.5 GT/s,以適應前向糾錯和編碼開銷。UALink 可組態為 x1、x2 或 x4,四通道鏈路在傳送和接收方向上均可實現高達 800 GT/s 的速度。

一個 UALink 系統支援通過 UALink 交換機連接的最多 1024 個加速器(GPU 或其他),每個加速器分配一個連接埠和一個 10 位唯一識別碼以實現精確路由。UALink 電纜長度最佳化為 <4 米,在 64B/640B 有效載荷下實現 <1 µs 的往返延遲。這些鏈路支援跨一到四個機架的確定性性能。



UALink 協議棧包括四個硬體最佳化層:物理層(physical)、資料鏈路層(data link)、事務層(transaction)和協議層(protocol)。物理層使用標準乙太網路元件(例如 200GBASE-KR1/CR1),并包括使用 FEC 減少延遲的修改。資料鏈路層將來自事務層的 64 字節 flit 打包成 640 字節單元,應用 CRC 和可選重試邏輯。該層還處理裝置間消息傳遞並支援 UART 樣式的韌體通訊。

事務層實現壓縮定址,在實際工作負載下以高達 95% 的協議效率簡化資料傳輸。它還支援直接記憶體操作,例如加速器之間的讀取、寫入和原子事務(atomic transactions),從而保留本地和遠端記憶體空間之間的順序。

由於它面向現代資料中心,UALink 協議支援整合的安全和管理功能。例如,UALinkSec 為所有流量提供硬體級加密和身份驗證,防止物理篡改,並通過租戶控制的可信執行環境(如 AMD SEV、Arm CCA 和 Intel TDX)支援機密計算。該規範允許虛擬 Pod 分區,其中加速器組通過交換機級組態在單個 Pod 內隔離,以在共享基礎架構上實現並行多租戶工作負載。而UALink Pod 將通過專用控制軟體和韌體代理使用 PCIe 和乙太網路等標準介面進行管理。通過 REST API、遙測、工作負載控制和故障隔離支援完全可管理性。

具體而言,從外到內,UALink 堆疊從稍微修改過的乙太網路 SerDes 開始,其訊號速率為 215.5 GT/秒,一旦考慮到編碼開銷,每個 UALink 通道的頻寬就會減少到 200 Gb/秒:


此乙太網路物理層具有標準前向糾錯 (FEC) 並遵守 IEEE P802.3dj 規範。通過單向和雙向程式碼字交織改善了延遲,並且略有變化以支援 680 字節 flit。(flit 或流控制單元是鏈路等級的資料原子單位。)這是巧妙之處,PCI-Express 已隨 6.0 規範發生變化並為 UALink 奠定了基礎。

隨著 PCI-Express 6.0 的推出,控制該標準的 PCI-SIG(主要由英特爾主導)不再僅僅實施標準 FEC(這會大幅增加 PCI-Express 資料傳輸的延遲),而是轉向混合使用流量控制和循環冗餘校驗 (CRC) 錯誤檢測,這實際上提高了訊號傳輸的可靠性,同時降低了延遲。一些智能功能正在加入到 UALink 中,而記憶體結構不需要的大量功能並未包含在內。

“我們從 200 Gb/秒 SerDes 開始,”受僱主委託從事 UALink 工作的英特爾研究員 Peter Onufryk 表示:“它每個連接埠有四個通道,速度為 800 Gb/秒,您可以聚合多個連接埠。您還可以在結構中使用多達 1,024 個加速器,因此它在我們所處的空間中可擴展性相當高。”

UALink 是一種簡單的協議,因此它不是 PCI Express,但它針對擴展結構進行了最佳化,具有簡單的記憶體讀寫和原子操作以及大型操作。它消除了 PCI-Express 的排序限制,因此唯一的排序是在 256 字節邊界內。但如果跨越,您可以重新排序。

“UALink 的思考方式是,它具有 PCI-Express 交換機的延遲、PCI-Express 交換機的功率、PCI-Express 交換機的面積,但具有乙太網路 SerDes。”Peter Onufryk強調。



順便說一句,1024 個計算引擎一致性限制僅限於 UALink 交換基礎設施的單層。如果要加入更多層級(這會增加延遲),您可以為計算引擎建構更大的 NUMA 域。

UALink 1.0 規範支援每通道 100 Gb/秒和 200 Gb/秒的速度,前者用於建構 100 Gb/秒、200 Gb/秒和 400 Gb/秒的連接埠,後者用於建構 200 Gb/秒、400 Gb/秒和 800 Gb/秒的連接埠。我們不知道未來的 UASwitch 會有多少個連接埠,所以我們不知道它與任何現有的 NVSwitch 相比如何。但顯然,如果 Nvidia 能夠整合連接埠以從裝置中獲取更多頻寬,那麼 UALink 的採用者也可以做到。


專為確定性性能而設計

在UALink 1.0 的簡報中,有一句話很有趣,那就是——“專為確定性性能而設計,可實現 93% 的有效峰值頻寬。”這是在之前的資料中沒有看到過的。

UALink 成員在今年早些時候的演示中表示,UALink 的功耗僅為同等乙太網路 ASIC 晶片面積的一半到三分之一(每個連接埠),並且每個記憶體結構加速器可節省 150 瓦到 200 瓦的功耗。更小的晶片尺寸意味著更便宜的晶片,更低的功耗意味著更少的電力和冷卻消耗,從而降低整體 TCO。

這些演示還表示,UALink 連接埠到連接埠的跳變延遲將低於 100 納秒。Onufryk 表示,根據 PCI-Express 交換機的基數和品牌,PCI-Express 交換機的連接埠跳變延遲最低為 70 納秒,最高為 250 納秒。在 21 世紀初的商用晶片時代,我們看到 10 Gb/秒乙太網路交換機的延遲為 350 納秒到 450 納秒,而普通乙太網路交換機的延遲達到 1 毫秒甚至 2 毫秒的情況也很常見。與 InfiniBand 交換機 100 納秒到 120 納秒的延遲相比,這個延遲相當高。UALink 聯盟並未強制執行延遲限制,因此供應商可以自行決定。

AMD 架構與戰略總監、UALink 項目聯合負責人兼 UALink 聯盟主席庫蒂斯·鮑曼 (Kutis Bowman) 表示,UALink 交換機的延遲時間在 100 納秒到 150 納秒之間“感覺合適”。

“就像任何事情一樣,”鮑曼說。“一旦第一批Switch推出,他們就會想辦法改進。我們可能會看到一些不錯的中端資料,然後,隨著時間的推移,他們會把這個數字往左移。”

至於這些交換機的基數(即它們驅動多少條通道和連接埠,以及總頻寬是多少),這也取決於 UALink 交換機製造商。

“我們已經指定了物理層,也指定了封包如何根據ID路由,人們可以隨心所欲地建構,”Onufryk說。“這就像PCI-Express——有些人建構小型交換機,有些人建構大型交換機,他們都在努力找到正確的位置。”

從概念上講,UALink 機架式機櫃可能如下所示:


僅僅因為 UALink 1.0 協議能夠支援 1024 個裝置互連的加速器 NUMA 記憶體域,並不意味著人們會立即投入其中,開始建構能夠擴展到如此規模的東西。(不過,如果有人真的這麼做了,那可就太有趣了。)

我們來看看 Nvidia 有多保守。

理論上,使用 NVLink 4 連接埠的 NVSwitch 3 結構可以在共用記憶體池中跨越多達 256 個 GPU,但 Nvidia 的商業產品僅支援 8 個 GPU。 借助 NVSwitch 4 和 NVLink 5 連接埠,Nvidia 理論上可以支援跨越多達 576 個 GPU 的記憶體池,但實際上,僅在 DGX B200 和 B300 NVL72 系統中最多具有 72 個 GPU 的機器上提供商業支援。並且 Nvidia 在其路線圖上最大的域(至少現在)在單個記憶體映像中只有 576 個 GPU 晶片,每個插槽有 4 個 GPU 晶片,每個機架有 72 個插槽。

看起來,在某種程度上,UALink 可能具有擴大規模的優勢,但這很大程度上取決於支援 AI 處理的全網路在具有數百個共享高頻寬記憶體的計算引擎的機器上運行得如何。

重要的是要意識到 UALink 並非 NVLink 的山寨版。儘管 NVLink 看起來像是 PCI-Express 和 InfiniBand 的結合體,但它們確實不同。(而且 NVLink 和 NVSwitch 的出現早於 Nvidia 收購 Mellanox Technologies。)

Bowman 表示:“UALink 和 NVLink 之間存在差異。NVLink 是 x2 的,所以它們總是將兩個通道組合在一起。UALink 允許連接埠使用 x1、x2 或 x4,之後你可以組合連接埠,就像 Nvidia 可以組合 NVLink 連接埠一樣。所以它們之間存在一些差異,雖然這些差異很細微,但根據你試圖建構的系統類型和所需的頻寬,它們確實會有所幫助。我們認為,單向 800 Gb,即雙向 1.6 Tb,在這些 UALink 裝置即將面世的時間段內,提供的頻寬足夠了。”

通常情況下,當一項網路規範發佈後,首批使用該技術的裝置投入使用大約需要兩年時間。但鮑曼表示,這一次只需要十二到十八個月,因為需求量非常大,而且每個製造 UALink 交換機的人都知道自己在做什麼。 (半導體行業觀察)