今年GTC大會上,輝達黃仁勳發言稱到 2027 年下半年,Nvidia 計畫推出 Rubin Ultra NVL576 機架,並最終實現 600kW 等級的 Kyber 機架。
Kyber 機架將徹底摒棄風冷,實現 100% 液冷,並採用計算刀片(compute blade),即更小的垂直伺服器,以提升機架內的計算密度和網路能力。
NVIDIA 今年在CTG大會也展示這些刀鋒伺服器。採用 100% 液冷,並且需要大量銅質熱管來冷卻收發器和 SSD,因此密度極高。刀鋒伺服器的正面位於左側,上面是液冷 SuperNIC(頂部)、InfiniBand 收發器(中間)和 SSD(底部)。右側是四個 Rubin GPU 的冷卻板,左側是兩個 Vera CPU 的冷卻板,推測中間是液體歧管,可以在照片的右側看到液體和 NVLink 的連接器。
銅質中板取代了當前 Blackwell 時代 Oberon 機架中粗糙的電纜盒,中板面向計算的一側有 72 個連接器外殼(4 x 18),每個外殼似乎有 152 個引腳(19 行,4 列,每個位置 2 個引腳)。意味著每側中板的引腳數量高達 10,000 個。如果計算正確的話,這意味著單個 Kyber 機架將擁有超過 87,000 個 NVLink 引腳。
雖然中板配有凸輪,有助於刀片在安裝時對齊,但這類連接器還是有些風險,因為針腳可能會彎曲,Kyber 將交換機和計算刀片都垂直安裝,這無疑需要在中板的前後針腳之間進行一些複雜的銅布線。
根據Rubin Ultra的NVLink連接埠數量,和NVSwitch的連接埠數量,以及下面這個示意圖。屆時每個switch tray上晶片數量應該是3個。
以下是輝達kyber 交換機的原型,可以看出,也是大量採用液冷佈局。
Rubin Ultra NVL576 機架宣稱其功率高達 600 kW,剛推出給行業很震驚,因為當下輝達即將推出的GB300 NV72單機也才135kw左右,這款代號為Kyber 的NVIDIA NVL576 機架的功率密度將是當今領先機架的三倍,在如此狹小的空間內,如此巨大的功率和冷卻能力似乎難以想像,而且Kyber 的機架寬度大約是標準 OCP (ORv2) 機架的兩倍。
Kyber 機架佈置了一個機架大小的 sidecar 來處理電源和冷卻,將風扇和電源(目前)移出了主伺服器的機架,以提高計算密度。Kyber機架一共四個底盤,每個部署八個刀鋒伺服器,共布部署36個正面垂直安裝的計算刀片,每個刀片最多可支援十六個 GPU 和兩個 CPU。
下方Kyber 機架背面的照片,顯示了所有四個底盤,每個底盤8個刀鋒伺服器。
NVLink 交換機,移除連接 NVL72 中的 NVLink 交換機和計算刀片的電纜盒。每個交換機刀片右側都有六個連接器外殼;這表明一種配置,其中中板用於連接兩個計算刀片(每個刀片有四個外殼)和跨接交換機刀片(每個交換機有兩個外殼)。
目前NVLink 結構之外,Kyber 平台還缺少很多細節,因為這只是一個概念機架,因為這個機架要兩年後才能正式推出。目前有很多行業認識提關於供電和冷卻的側櫃,但概念機架完全沒有考這部分,目前還不清楚這裡需要多少個整流器、變壓器和泵。除了 Kyber 伺服器機箱之外,計機架中沒有太多空間容納其他任何東西,包括InfiniBand 交換機、電源架等。其次還尚不清楚側邊櫃的液體和電力將如何輸送到電腦架,考慮到600千瓦的功率,採用跨機架母線幾乎是必然的。 (零氪1+1)