據傳言,Nvidia 預計要到2027 年的「Rubin Ultra」 GPU 計算引擎才會為其GPU 記憶體綁定NVLink 協議提供光學互連。這意味著每個設計加速器的人——尤其是超大規模和雲建構者內部設計的加速器——都希望透過在Big Green 之前部署光學互連來在AI 計算方面勝過Nvidia,從而獲得優勢。
由於加速器到加速器和加速器到內存的帶寬瓶頸巨大,因此對光互連的需求如此之高,以至於籌集風險投資資金不成問題。我們看到這方面的行動越來越多,今天我們將討論Xscape Photonics,這是一家從哥倫比亞大學的研究機構分離出來的光互連初創公司。
無論你是否知道,哥倫比亞大學都是互連和光子學的溫床。
Al Gara 教授和Norman Christ 教授建構了一台採用DSP 驅動的超級電腦,該電腦具有專有互連功能,可運行量子色動力學應用程序,並於1998 年榮獲戈登貝爾獎。這項QCDSP 系統研究為IBM 的BlueGene 大規模平行超級電腦奠定了基礎,Gara 是該超級電腦的首席架構師。 (Gara 轉投英特爾,也是其假定繼任者-阿貢國家實驗室的「Aurora」超級電腦的架構師。)
哥倫比亞大學有一組完全不同的研究人員致力於矽光子學研究,他們中的許多人聯手建立了Xscape Photonics。該公司聯合創始人之一、光波研究實驗室負責人Keren Bergman一直在利用光子學降低系統中資料傳輸的能量。聯合創始人Alex Gaeta 是這家初創公司的總裁,他最初擔任首席執行官,在量子和非線性光子學方面做了基礎性工作,即參量放大器和光頻梳髮生器。聯合創始人Michal Lipson 發明了一些關鍵的光子學元件,例如微環調製器和納米錐耦合器。聯合創始人Yoshi Okawachi 是光頻梳這一特殊雷射器的專家。
有趣的是,當這些哥倫比亞大學的研究人員決定將他們的光互連理念商業化時,他們選擇了Xscape 的聯合創始人之一、並非來自哥倫比亞大學的維韋克·拉古納坦(Vivek Raghunathan ) 擔任首席執行官,因為加埃塔(Gaeta) 決定減少自己的職責,重返大學教授職位。
Raghunathan 來自麻省理工學院,在那裡獲得了材料科學與工程學位,Xscape 的一些同事也曾在此工作;他在麻省理工學院擔任了六年的研究助理,參與了各種矽光子學項目,並於2013 年加入英特爾,擔任亞利桑那州錢德勒代工廠的高級封裝研發工程師。 Raghunathan 一步步晉陞,領導開發了英特爾首款100 Gb/秒以太網光收發器,並致力於其GPU 到HBM 互連。 Raghunathan 曾在Rockley Photonics 擔任工程師,然後於2019 年加入博通,擔任“Humbolt”共封裝光學器件的負責人,該器件用於25.6 Tb/秒的Tomahawk 4 交換機ASIC 變體,由騰訊和字節跳動在中國部署。 Raghunathan 啟動了52.6 Tb/秒Tomahawk 5 代“Bailly”後續CPO 項目,但在完成之前離開並加入了Xscape。
本周的重磅新聞是,Xscape 在A 輪風險投資中籌集了4,400 萬美元,此前該公司於2022 年成立後進行了1,300 萬美元的種子輪融資。此次融資由IAG Capital Partners 領投。有趣的是,HyperWorks 電腦輔助工程工具的創造者Altair 是投資者之一,其創始人之一也是哥倫比亞大學的校友,也是工程學院的董事會成員。思科投資、Fathom Fund、Kyra Ventures、LifeX Ventures、Nvidia 和Osage University Partners 也參與了投資。
Nvidia 的投資很有意思,因為需要將大量的GPU 連接在一起,而這家GPU 巨頭在3 月宣佈使用「Blackwell」B100 GPU 加速器推出的GB200 NVL72 機架式系統中使用銅基NVLink-NVSwitch 互連能夠做到這一點。透過在GPU 及其記憶體之間使用光導管,Nvidia 可以將資料中心真正變成一個巨大的虛擬GPU。你可以打賭,這正是Nvidia 想要做的事情,而且早在2022 年,它就暗示了其帶有CPO 概念設計的NVSwitch。
無論人工智慧加速器的架構如何,它的問題在於,一旦超出給定裝置的邊緣,計算元素或內存之間的帶寬就會開始逐漸減小,而且速度相當快。
對於任何加速器來說,都需要使用電信號將HBM堆疊記憶體放置在非常靠近計算引擎的位置,這意味著你只能在晶片給定的周長內封裝這麼多東西。 (而且你只能將內存堆疊得這麼高才能增加容量,即使這樣做,也不會增加帶寬。只有更快的內存和更多的內存連接埠才能增加帶寬。而且由於HBM 價格昂貴且供應不足,我們看到GPU 加速器路線圖做了一些奇怪的事情,以匹配有限的內存容量和帶寬,以應對有時性能過強的GPU。
Raghunathan 說,歸根結底,就是數據從加速器中出來的“逃逸速度”,這也是Xscape Photonics 這個名字的由來。 (不要太拘泥於字面意思。)
這些是我們經常談論的數字,但最好將它們全部放在一個地方以顯示逐漸減小的情況,當您查看Nvidia GB200 混合叢集時,該逐漸減小大約為160 倍,每個“Grace”CG100 Arm 服務器CPU 都有兩個「Blackwell」GB100 GPU 加速器。帶寬逐漸減小是將其中一個GPU 與400 Gb/秒Quantum 2 InfiniBand 連接埠進行比較,該連接埠通常用於讓GPU 與叢集中及其自身節點之外的其他GPU 進行通訊。
那麼帶寬減少會產生什麼影響呢?這意味著資料無法足夠快地進出GPU。這會導致非常昂貴的裝置的利用率低。
對於AI 訓練和推理,Raghunathan 引用了Alexis Bjorlin 的資料,他曾經負責Meta Platforms 的基礎設施,但現在已轉任Nvidia 的DGX Cloud 總經理。請看:
Raghunathan 告訴The Next Platform :「因此,對於訓練來說,隨著GPU 的不斷擴展,問題已經從GPU 裝置級效能轉變為系統級網絡問題。根據工作負載,你最終會花費大量時間在GPU 之間的通訊上。 ChatGPT 搜尋時利用率在30% 到40% 之間。
這個數學很簡單。利用率為50% 時,峰值計算的百分比是由有限的GPU 進出帶寬預先決定和限制的,這意味著GPU 的成本是你認為的兩倍,這意味著你浪費了一半的錢。
現在,公平地說,我們非常懷疑全世界的平均CPU 使用率是否會高於50%。但平均CPU 成本也不會達到30,000 美元。每年大約1500 萬台伺服器的平均成本可能接近1,000 美元。但這仍然是每年數百億美元的低效率浪費。 GPU 的浪費比「損失」的資金多出一個數量級,這就是每個人都感到恐慌的原因。
「我們真正想在Xscape Photonics 解決的是帶寬逐漸減少的問題,」Raghunathan 說道,他與我們聽到的Ayar Labs、Lightmatter、Eliyan、Celestial AI 、 Ultra Accelerator Link 聯盟成員等許多公司的意見一致。 「我們如何解決這個問題?我們認為,將所有從GPU 中逸出的電信號直接轉換為同一封裝中的光信號,並在我們將GPU 和內存池連接在一起時最大化利用光信號,這是擴展GPU 性能最具成本效益和能源效率的方法。
Xscape 團隊想出的訣竅是,使用一種雷射器,它可以同時從光纖中驅動多種波長,例如多達128 種不同的顏色,這意味著帶寬可能比驅動四種不同顏色的光互連中使用的雷射器高32 倍。此外,Raghunathan 表示,Xscape 的ChromX 平台方法將使用更簡單的調製方案,例如NRZ,它不會像PAM-4 等高階調製方案那樣影響延遲,近年來,這種方案已用於提高InfiniBand 和乙太網絡的帶寬。
也許同樣重要的是,ChromX 光子平台是可編程的,因此提供的波長數量與特定AI 訓練或推理工作負載的需求以及加速器與其HBM 內存之間的連接需求相匹配,所有這些都在交換結構基礎設施內完成。可程式設計雷射器將率先問世,其概念如下:
此圖表左側顯示了CWDM4 收發器用於建立AI 訓練群集互連的雷射器所需的四種波長。
中間是製造LR4 光纖收發器所需的四種不同波長,這種光纖收發器通常用於當您必須使用光纖鏈路跨越兩個資料中心並同步連接它們時,以便可以在兩個資料中心上進行訓練,就好像它們是一個更大的資料中心。
右邊是一個推理引擎,它有一個交換加速器和HBM 內存複合體,與Nvidia 對NVLink 和NVSwitch 所做的有很大不同,並且有16 種不同的波長。
不同的波長對應於裝置之間的預期距離。根據Raghunathan 的說法,裝置之間的訓練距離通常為2 公里或更短,跨資料中心邊緣用例預計在20 公里到40 公里之間,但有些人說的是10 公里到20 公里。推理具有更多波長,裝置之間的距離預計在10 公尺到200 公尺之間,並且需要更多的帶寬才能使這些裝置高效運行。
後一點與計算和記憶體的分解結構架構有關,我們認為這對於訓練和推理都有效,這很有趣。讓我們來看看:
在這種架構下,HBM 記憶體不會連接到GPU,而是黏合在一起,這些儲存體可能位於機架中物理上不同的架子上,或跨整個機架。 GPU(或任何類型的AI 或HPC 加速器)都儲存在一起,因此它們可以在一致性域中共享緩存中的本地資料,但它們都透過交換機連接,該交換機將加速器池與內存池交叉連接。上述每條管道都是一條光鏈路,其屬性可以由ChromX 平台編程,使用適當數量的波長和適當的頻率來滿足帶寬和距離(以及延遲)要求。
「我們的技術幾乎打破了成本障礙和規模障礙,並且非常可靠,因為我們只需要一個雷射器就可以泵送一塊矽片,而且我們可以從單個裝置生成多達數百個波長,」Raghunathan 說。 「我們提供了一個全新的帶寬擴展向量。核心IP 由哥倫比亞大學獨家授權,完全歸我們所有。我們的願景是將封裝內通訊帶寬與封裝外通訊逃逸帶寬相匹配。我們認為,當我們使用多色方法時,我們可以匹配這一點,以便大型資料中心(或多個資料中心)可以像大型GPU 一樣運行。
目前,Xscape Photonics 並未試圖製造支援這種分解式光子結構的網路介面或交換機,而是試圖製造其他人想要購買的適合的低功率、多色雷射器,以製造這些裝置。他們擁有一台雷射器,可以實現所有這些頻率,而市場上其他人則必須使用多台雷射器來實現這一點。他們的想法是將加速器及其內存的互連總功耗降低10 倍,同時將帶寬提高10 倍,從而將每個帶寬的能量降低100 倍。
看看誰會採用這款Xscape 雷射以及如何採用它,將會很有趣。 (半導體產業觀察)