光子學在資料中心人工智慧的加速中發揮著越來越重要的作用。
全球光學元件市場規模龐大,去年營收達170億美元。歷史上,電信行業(例如海底電纜和光纖到戶)一直是光學元件需求的主導。然而,資料通訊領域,尤其是人工智慧驅動的資料中心,如今佔據了超過60%的市場份額。這種轉變正在加速光學技術的發展。
為了跟上AI計算叢集(XPU,包括GPU和定製加速器)不斷提升的性能,光傳輸速率正在快速提升。
據摩根大通稱,最大的光學元件供應商是相干公司和旭創科技(各佔20%的市場份額),其次是博通,佔10%。眾多規模較小的供應商也在為不斷擴大的生態系統做出貢獻。
大型語言模型 (LLM) 正在推動 AI 工作負載呈指數級增長。隨著 AI 能力的提升和成本的下降,需求也隨之激增。LLM 規模的不斷擴大需要龐大的 XPU 叢集。互連需求的增長速度超過了 XPU 數量本身的增長速度,這迫切需要高頻寬、低延遲的網路解決方案。
博通首席執行官 Hock Tan 指出,資料中心的網路成本正在攀升,從目前資本支出的 5% 到 10% 上升到 2030 年預計的 15% 到 20%。
例如,Oracle 雲基礎設施 (OCI) 正在部署通過 NVLink72 互連的 131,000 個 Nvidia Blackwell GPU 的叢集。
在人工智慧資料中心中,互連主要有兩種類型:
雖然橫向擴展網路已經是光學的,但縱向擴展網路向光子學的轉變正在進行中,但尚未完成。
光子技術是橫向擴展架構的核心。如今,可插拔光纖收發器能夠實現數十米範圍內部網路卡和交換機之間的資料傳輸。隨著資料速率的提升,這些解決方案面臨著越來越大的功耗和性能限制。
Oracle 的 131K-GPU 架構在其橫向擴展網路的三個層級上均使用了光纖鏈路。然而,傳統的可插拔光纖鏈路功耗巨大。
為了滿足LLM的增長和吞吐量需求,橫向擴展網路中的資料速率不斷提升,網路功率已超過加速器機架功率。據Nvidia稱,從可插拔光模組轉換為CPO(共封裝光模組)可以大幅降低1.6Tbps鏈路的光模組功率,從30W降至9W。
在 GTC25 上,Nvidia 推出了首款搭載 CPO 的橫向擴展交換機。其節能特性可實現更高的 GPU 密度——在相同的資料中心功率範圍內,GPU 數量最多可增加 3 倍。
可靠性是從銅纜到光纖再到CPO的關鍵考慮因素。人工智慧資料中心的資料量巨大,而且增長速度飛快,就像iPhone一樣。從統計資料來看,良率和可靠性必須非常高。Google平台光學總監表示,每天0.004%的鏈路故障率聽起來不錯,但對於100萬條鏈路來說,這意味著每天有40條鏈路故障。光學解決方案需要設計成極低的故障率,並在非常苛刻的條件下進行測試,並使用非常大的樣本量,以確保量產成功。
目前,縱向擴展互連仍以銅線為主。Nvidia 的 Blackwell 架構採用全銅解決方案 NVLink72,其廣泛的布線貫穿了主機板、交換機和機架背板。如今訊號頻率極高,銅線束可以直接連接到 GPU,從而繞過傳統的 PCB 走線。
然而,銅纜的侷限性正日益凸顯。Nvidia 的路線圖已延伸至 NVLink576,該線路仍然使用銅纜,但不斷增長的資料速率和訊號完整性問題最終將需要光纖解決方案。
微軟提出了對未來AI加速器的CPO要求,希望用一個具有可組態介面的單一物理層來取代現有的介面。
新的統一介面需要“兼顧兩者”——合併後的規範比它們所取代的傳統介面更好。這給CPO帶來了更大的挑戰,但同時也擴大了市場。
Nvidia 還提出了對 CPO 與 AI 加速器整合的要求:
這些要求雖然具有挑戰性,但切實可行。Needham & Company 建議,在 Scale-Up 網路中,CPO 的初步遷移將發生在單個 GPU 域內的機架之間,而機架內連接暫時仍採用銅纜連接。
100% 的資料中心 AI 晶片均由台積電製造。他們深度參與所有主要 AI 廠商的技術路線圖:他們只開發主要客戶所需的產品。台積電在 4 月底的年度技術大會上展示了其 AI 晶片路線圖,其中包括共封裝光學器件:他們預見到了這一趨勢,並正在為此做好準備。
預計未來幾年內,規模化網路將開始向 CPO 過渡,並在 2030 年代大規模替換可插拔式光模組。到 2030 年,CPO 市場規模將從目前的零增長到 50 億美元。博通、Marvell、Ayar Labs、Celestial AI 和 Lightmatter 等早期進入者以及 Coherent 等雷射器供應商都將從中受益。
光子學不再僅僅賦能人工智慧,它正成為人工智慧規模化發展中不可或缺的一部分。到2030年代中期,所有互連都將是光學的,並且都將採用CPO。 (半導體行業觀察)