Nvlink把小互連做成了大買賣--透過GB200的NVL72看輝達DGX的發展方向--如何搭上AI網路的班車？

2024/06/11

•

在今年的GTC大會上，皮衣老黃攜GB200，再次引爆GPU產業。從14年推出P100，到後來的V100、A100、H100，直到24年的GB200，輝達的推出的GPU及DGX讓人眼花繚亂，我們是否可以從中發現nvidia推陳出新的內在邏輯，看到DGX的發展方向，進而提早進行產業佈局，實現與AI產業共舞？

一、跳過B100，直接上B200

這次發表會上，沒有按照以前的GPU的序號發布B100，而是直接發布了B200，從而實現更高的效能。這裡的B200是由兩顆同構的B100在旋轉180度後，封裝而成。由於受到reticle的限制， B100的die的面積是800平方毫米。 Die之間的互連頻寬是10TB/s。

一個superchip的GB200則包含了一個Grace 72核心的ARM CPU和2顆Blackwell GPU。如下圖所示。 GB200中的G就是Grace。

在一個compute tray中，有兩顆Superchip，見下圖。

二、放棄DGX的1機8卡配置，直接發表NVL72，是8年來最大的變化

沒有延續H100的DGX的一機8卡的架構，直接發布NVL72的DGX，即在一個交付的機架中，使用NVSwitch把72個GPU進行全頻寬的互連，實現性能的最大化。

Nvidia的高層Boyle在接受HPCwire採訪時說，DGX GB200是輝達8年內最大的變化，是一個具有里程碑意義的產品。

「We announced a new type of system, just like we announced a new type of system eight years ago. This new system is a rack-level computer, which we call the DGX GB200 system.. integrated into a single NVLink domain. ”

另外，這次DGX的交付方式也很有特色，也就是整個機架在工廠化生產測試完成後，拆掉一半的線纜，打包出貨。在用戶處再重新安裝運作。

下圖是GB200的DGX伺服器，即NVL72的整體圖。在這個機架中有18個compute tray和9個switch tray。

下圖是NVL72的網路連線圖，在這個連結圖中，有18個compute tray，每個tray有4個B200的GPU，總共的互連頻寬是18NVLink*2*2* 18。而switch tray的下行頻寬則是72NVLink*2*9。這是一個標準的3級clos架構的CLOS網路。

由於NVL72的功耗比較大，輝達同時也推出了NVL72的雙機架版。對於不方便進行液冷改造的機房，也可以透過風冷的方式來實現散熱。 NVL36有兩個版本，一個是可擴充版，即9個Switch tray配上18個單GB200的switch tray。網路連線圖如下。

此方案，還可擴充為576個GPU的superPOD，使用16個NVL36的可擴充機架和162個switch tray，網路連線見下圖。

另外，NVL36還有一個不可擴展的方案，主要是應付風冷的散熱環境。

三、Nvlink是主線索，把小互連做成了大買賣

在2014年Nvlink正式發布前，GPU之間的互連，一般都是用PCIe或PCIe橋進行連接的，也有使用QPI、SLI/CrossFire等專有的互連總線進行互連，但是，由於各種原因，都沒有能夠做大做強。

在P100的DGX-1發布的時候，直接將4個GPU進行mesh互連，再將之和另外的4個GPU組成的mesh網路進行4路的連接，即稱之為Cube mesh的網路架構。

2017年推出的V100的DGX-1，正式把NVSwitch引進到GPU之間的互連中去了，開創了Nvlink的大互連時代。從此GPU之間互連的小互連，變成了大網路。把小互連做成了大買賣。

其它帶際的GPU不細說，下圖是Nvlink和GPU及GPU發布的時間對應表。可以看出，在Nvlink升級的同時，DGX中GPU的數量也不斷地攀升。

四、Nvlink的成功之處與互連網路的挑戰

除了Nvlink針對GPU互連的專門最佳化外，GPU的成功與挑戰在於以下幾點

1.封閉的系統，有利於技術的快速迭代

在一個封閉的系統中，可以完全按照自己的技術能力和產品的整體設計進行快速的優化和迭代，不需要停下技術發展的腳步，進行討論和拉齊。這是Nvlink迅速和PCIe拉開距離的重要原因。

2.得益於CUDA等十年磨一劍的生態系統

在nvidia的生態系中，CUDA扮演著重要的角色，DGX網路架構的改變，往往會對系統的效能產生很大的影響，進而影響運算的效率，使用CUDA系統則可以迅速的得到效能方面的最佳化，可以讓軟體人員對於網路架構的變化感知最小。一句話，成功是為有備而來者準備的。

3.Nvlink域擴展的努力和夢想，NVL576是下一個版本DGX的預覽？

從P100的DGX引入Nvlink，在DGX中的GPU之間的互連是cube mesh方式，在引入NVSwitch以後，DGX全部採用all to all的互連方式。在V100的DGX-2中，引入了16個GPU互連的方式。

在DGX H100的階段，除了發布1機8卡的配置外，還引入了superPOD的概念，即把DGX通過Nvswitch在NVLink域進行scale-up的互連，提升整體的性能。雖然，在實際的商用中，由於使用了大量的光互連，導致成本和功耗增加，最後，產業化方面不太理想。

針對H100的SuperPOD的產業化不利，Nvidia又推出了基於H100的NVL32的方案，還是希望透過機架+線纜的方式擴展NVLink域的連接。

如果把H100的SuperPOD 256作為一個技術和市場的探索的話，那麼在GB200階段的NVL72則是一個輝達擴展NVlink域的一個技術的產業化的突破。

這次發布的NVL576需要使用16個NVL36的機架和162個switch tray，這個系統中如果使用DAC進行跨機架的互連，顯然不太現實。如果使用LACC或AOC則成本和功耗就會上升，客戶是否為此買單？基於H100的superPOD的歷史經驗，NVL576大概率是為了下一代技術做推演和預告，而不會規模商用。

從上述的輝達在DGX的推進過程來看，整個DGX的發展歷史，就是一個不斷嘗試更大的NVLink域的擴展的過程，也是輝達不斷成功的過程。

從此，我們是否可以推測，即使GB200的NVL576的市場接受度不高，下一代，下下代，輝達將會促使NVL在技術和成本上實現突破，進而實現更大容量的DGX？

4.Nvlink域網路互連包含更大的商機和更大的挑戰

從GB200 超級晶片的介面可以看出，NVLink、InfiniBand、Ethernet 三種網路的容量配比為，NVLink 網路14.4Tb/s，InfiniBand 網路1.6Tb/s，Ethernet 網路400Gb/s。三種網路的連接埠頻寬之比為NVLink : InfiniBand : Ethernet = 36 : 4 : 1。那麼在GB200的NVL72/576的系統中，NVLink域的互連網路非常龐大。這個一方面提升了GPU的整體的效能，另一方面也提供了龐大商機。

首先是GPU本身的頻寬就很大，GB200的吞吐量就達14.4 Tb/s。這就需要switch tray提供大容量的高密度的交換能力。

其次，在NVLinks域上有兩個維度可以擴展，一個是DGX維度，這個是3級clos的互連架構，另一個維度就是基於DGX進行superPOD維度的擴展，在這個維度上，則是5級clos網絡，其網絡端口的利用率就更加低，只有1/5。那麼成本和耗電量都會大幅提升。

在此，如何解決GPU之間的高密度、低功耗和低成本的連接？ OIO應該是個不錯的選擇。其實，我們也看到了nvidia在這方面的努力，包括向業界呼籲，加入OIO的產業化大軍。請參閱「AI的盡頭是能源，CPO的盡頭是OIO，OFC 2024 Nvidia光互連的技術路徑和呼籲」。在這篇小作文中，輝達認為可插拔模組，甚至CPO，在未來（200T switch）都存在著功耗不可持續的現象。那麼，未來的技術方向的選擇就非常明確了。

四、反NVLink的聯盟正在聚集-UALink宣布成立

面對NVLink技術的一家獨特的局面，對抗NVLink的盟軍正在聚集，包括了全球主要的GPU的晶片廠家、網路廠商和GPU用戶的8家公司，5.30聯手發起UALink Promoter Group。UALink 促進會表示，將在第三季成立一個聯盟，即UALink聯盟，以監督UALink 規範未來的發展。 UALink 1.0將在同一時間向加入聯盟的公司提供，頻寬更高的更新規範UALink 1.1 將於2024 年第四季推出。

這8家公司就是AMD、英特爾、Google、微軟、博通、思科、Meta、惠普企業！！！

透過UASwitch來實現加速器之間的互連，相同的配方，熟悉的味道。

據說博通已經做好了交付UASwitch的準備工作，看來這也是蓄謀已久呀。

五、Xlink大戰的攻防-DGX的發展方向與UALlink聯盟的重點

既然針對Xlink的大戰已經拉開，那麼，雙方的攻防將是未來一段時間內產業內的主旋律。

1.輝達會繼續推進superPOD的路線

首先，成功的路線肯定是要繼續推進的，我想輝達之所以成功，也是基於對整個產業的特徵和自身的能力的獨特的理解，熟悉的戰場、熟悉的戰法。所以，不斷擴張的scale-up的路線會繼續走下去。我們什麼時候能夠看到更大的NVL和更新的網路技術呢？畢竟電纜互連的NVL在一個機架內將是一個盡頭，需要尋找新的技術來突破成本、功耗和密度的瓶頸。

2、加速GPU及superPOD的推進速度

天下武功唯快不破，面對群狼的競爭，快是取勝的法寶。這幾天皮衣老黃在台北的電腦展上也表示，加快GPU的更新速度，一年一更，突破摩爾定律。

3.加速設備更新速度

GPU到使用者手中變成實際的AI factory，裝置階段的工程化和時間是關鍵。這點上，華人的勤奮工作是很大的優勢，這個也是老黃近期在台灣頻繁走動和大手筆投資的目的吧

4.UAlink的重點是scale-up網絡

從UAlink促進會的ppt來看，擴張GPU的scale-up的網路是一個主要的目的，既然把大家忽悠起來了，總得有點乾貨，來個三板斧吧。從技術層面來說，scale-up網路的需求就是時延、功耗、密度，再者成本。這個8國聯軍，到底有什麼新的武器，我們拭目以待吧。

5.產業生態鏈快速成熟，OIO光互連

大廠打仗，需要是各種武器和物資，那麼就會砸進去大量的money，這個對於配套的產業鍊是一非常難得的商機。無論是OIF的EEI，或是輝達的新變革的呼籲，OIO一直是個熱門景點。預計也會是一個產業的風口。

光互連和網路設備，有幸能和AI大潮共舞

六、總結

1.輝達將繼續推進nvlink的擴展之路，更新速度加快

2.UAlink聚集在GPU的scale-up的技術解決方案

3.scale-up網路的商業前景看好，會成為下一個風口

4.高密度、低功耗、低成本的OIO是未來的發展方向

5.制定國內的Xlink的標準，推動產業化與產業鏈的發展

(電光夜談)