輝達加速擁抱光晶片

如果你覺得輝達的GB200機架式系統已經夠龐大了,那麼CEO黃仁勳的野心才剛剛開始。在上個月的GTC大會上,這家全球市值最高的公司公佈了計畫,擬利用光子互連技術,在2028年前將超過一千個GPU整合到一個巨型系統中。

該公司並未坐等供應鏈的穩定。過去一個月,這家GPU巨頭已向Marvell、Coherent和Lumentum等光學和互連技術公司投資數十億美元,為這些系統的廣泛部署做好準備。

黃仁勳在GTC主題演講中表示:“對於我們生態系統中的所有參與者來說,我們需要更大的產能。我們需要更大的銅纜產能;我們需要更大的光器件產能;我們需要更大的CPO產能;正因如此,我們一直在與大家合作,為實現這一增長水平奠定基礎。”

然而,輝達走到今天這一步的歷程其實開始得更早。事實上,早在2022年底OpenAI向世界發佈ChatGPT時,輝達就已經意識到自己遇到了問題。

當時,這家GPU巨頭最強大的系統也只有8個GPU,而推動人工智慧蓬勃發展的模型卻需要數千個GPU進行訓練。輝達需要更大的處理器,或者至少需要一個速度更快的網路,能夠有效地將工作負載分配到數十個晶片上。

我們在2023年輝達的Grace Hopper超級晶片上首次窺見了這種技術的雛形,但直到2024年初,其全貌才得以展現。同年在GTC大會上亮相的Grace Blackwell NVL72,是一款功率高達120千瓦的巨型機器,它採用銅質背板,內部佈滿數英里的線纜,使36個節點和72個GPU能夠像一個巨大的AI加速器一樣協同工作。

Nvidia 網路高級副總裁 Gilad Shainer 告訴El Reg ,銅是實現這一目標的自然選擇。

“如果條件允許,銅線是最佳的連接方式,”他說。“它非常經濟實惠,價格低廉,而且零功耗。它非常可靠,也沒有任何有源元件。”

但銅線並非完美無缺。在 1.8 TB/s 的傳輸速率下,由於 GPU 之間通訊,銅線只能延伸幾英呎,訊號就會開始衰減。如果你曾經好奇為什麼 NVL72 的 NVSwitch 都位於機架中央,那是因為線路長度有限。銅線傳輸距離的侷限性也意味著輝達必須儘可能多地將 GPU 塞進單個機架中。

兩年後,輝達正迅速接近銅的極限,如果想要組裝更大的 GPU 系統,就需要採用光學技術。

可插拔問題

當黃先生首次展示代號為 Oberon 的 NVL72 機架時,將兩個加速器進行光學連接的唯一商業可行方法是使用可插拔光學器件。

這些模組的大小和一包口香糖差不多,包含了將電訊號轉換成光訊號以及將光訊號轉換回電訊號所需的所有雷射器、定時器和數字訊號處理裝置。

可插拔裝置在資料中心網路中並不新鮮,但將其用於像輝達的 NVLink 這樣的縱向擴展計算架構,會帶來一些問題。

為了達到 1.8 TB/s 的頻寬,每塊 Blackwell GPU 需要 18 個 800 Gbps 的可插拔模組:9 個用於加速器,另外 9 個用於交換機。這些可插拔模組本身功耗並不高——大約 10-15 瓦——但 72 塊 GPU 加起來,功耗就相當可觀了。

正如黃在 2024 年 GTC 主題演講中指出的那樣,光學器件需要額外的 20,000 瓦功率。

然而,自 Oberon 機架首次亮相以來,很多情況都發生了變化。共封裝光學器件 (CPO) 技術的進步,將光引擎直接整合到交換機 ASIC 旁邊,有助於降低功耗。

2025年,輝達成為首批採用CPO技術的AI基礎設施提供商之一,將其直接整合到Spectrum乙太網路和Quantum InfiniBand交換機中。(博通旗下的Micas Networks也在採取類似舉措。)

這大大減少了建構人工智慧訓練叢集所需的可插拔元件數量。然而,直到最近,該公司才開始探討在其NVSwitch架構中使用光模組和CPO(光纖通道模組)。

NVLink 實現光纖化

兩年前,黃仁勳還對光互連過於耗電嗤之以鼻,但今年春天在GTC大會上,他又重新審視了這一話題,推出了Vera Rubin NVL576和Rosa Feynman NVL1152,這兩個多機架系統將利用光子學技術將其計算域擴展八倍。

如果您覺得 NVL576 這個數字耳熟,那是因為它之前就出現過。事實上,在最初的 NVL72 機架式顯示卡發佈時,Nvidia就曾預告過一款配置了這麼多 GPU 的顯示卡,但據我們所知,這樣的系統從未在實際應用中部署過。

Nvidia 也曾短暫地以 NVL576 品牌銷售其 Vera Rubin Ultra Kyber 機架,但後來決定實際上並不想將每個單獨的 GPU 晶片計為一個獨立的加速器。

除非輝達的市場行銷或路線圖再次發生變化,否則真正的 Vera Rubin NVL576 將採用銅和光纖互連的組合。

黃仁勳在本次 GTC 主題演講中表示:“現在有很多關於‘輝達是會擴大銅纜規模還是擴大光纜規模?’的討論。我們將兩者都做。”

據輝達超大規模和高性能計算副總裁伊恩·巴克 (Ian Buck) 介紹,網路的第一層將採用機架內的銅纜互連,這意味著GPU無需任何改動。第二層主幹網將採用可插拔模組。

我們尚不清楚輝達計畫為此使用那種拓撲結構,但兩層胖樹肯定符合要求,並且脊柱層只需要一個機架的交換機(總共 72 個 ASIC)。

對於模組本身而言,可插拔模組是最簡單的選擇,但輝達也可以選擇近封裝光學器件 (NPO),就像Lightmatter上個月展示的那樣。

Vera Rubin 認為,輝達目前只談論其 Oberon NVL72 機架的光學縮放,而不是其 NVL144 Kyber 系統。

我們不太清楚輝達做出這個決定的具體原因,但值得注意的是,如果支援光刻擴展,就不需要把所有東西都塞進一個機架裡。因此,從散熱和功耗的角度來看,支援跨越八個機架的光刻擴展可能更合理。

Nvidia Feynman 採用共封裝

真正有趣的地方在於輝達的費曼一代產品,預計將於 2028 年中後期開始出貨。據悉,這些系統將提供銅纜或共封裝光纖 NVLink 互連兩種選擇。

輝達對這一切將如何運作守口如瓶,但有幾種可能的途徑。

最簡單的選擇是將 CPO 整合到 NVLink 交換機 ASIC 中,並繼續在機架中使用銅互連。

這將需要一個兩層 NVSwitch 架構和兩到三個不同的交換機 ASIC:一個半光纖的,一個全光纖的,以及一個可能沒有 CPO 的。

這樣做可以讓輝達通過簡單地更換 NVLink 交換機托架或根據需要推入脊柱機架來支援多種配置。

更有趣的方案是將CPO整合到交換機和GPU封裝中。這幾乎肯定會導致Feynman GPU推出多個SKU——一個帶光模組,一個不帶——但可以將網路架構簡化為單層結構。

上個月在 GTC 大會上,Shainer 在接受El Reg採訪時拒絕評論公司計畫採用那種方法,但他強調了單層計算架構的優勢。

他說:“如果沒有必要,就不要建構多個層級,因為要儘量減少計算引擎之間的延遲。”

雖然可以將CPO整合到GPU中,但單層NVL1152系統需要一個極其高階的交換機。不過,考慮到Feynman晶片不太可能在2028年中後期上市,我們認為這並非不可能。

保障生產資料

無論那種方案,都需要充足的雷射模組供應。雖然CPO(整合光刻)技術將大部分光學和訊號處理功能整合到封裝中,但為了便於維護,雷射器通常仍保持獨立。這或許可以解釋輝達上個月為何向Coherent和Lumentum這兩家專注於光學雷射器的公司分別投資40億美元(各20億美元)。如果輝達想要真正有效地採用CPO技術,其供應鏈必須做好準備。

進一步的證據表明,輝達正在轉向加速器上的CPO策略,例如該公司本周早些時候宣佈與Marvell達成20億美元的合作協議。

作為這項投資的一部分,輝達將與 Marvell 合作,將 NVLink Fusion(其高速互連技術的授權版本)整合到定製的 XPU 中,供輝達 Vera CPU 使用。雙方還將合作開發光纖 I/O 技術,但具體合作範圍並未透露。

正如The Next Platform本周早些時候 討論的那樣,Marvell 以 32.5 億美元收購 Celestial AI 的交易可能與此有關。

這家初創公司的光子互連技術可用於建構跨多個機架的相干儲存網路,這對於輝達來說可能極具吸引力,正如它對Marvell最大的客戶之一(包括AWS)一樣。您可能還記得,AWS是輝達NVLink Fusion的最大客戶之一,並計畫在其下一代Trainium4計算叢集中使用這項技術。

總之,輝達顯然已經意識到光學擴展的重要性,我們可以預期CPO將在其未來的系統設計中發揮更大的作用。 (半導體行業觀察)