光晶片之爭,愈演愈烈

AMD 本周宣佈收購光子晶片初創公司Enosemi,正式加入共封裝光學競賽。

House of Zen 旨在將該技術融入其下一代機架式系統,以便在人工智慧領域更好地與競爭對手 Nvidia 競爭。

與銅互連或走線相比,共封裝光學器件具有許多優勢,包括更高的頻寬、更低的延遲和更低的功耗。

顧名思義,這些改進通常是通過將光子晶片或中介層與計算晶片一起封裝來實現的,通過光纖而不是銅線傳輸訊號。

在人工智慧蓬勃發展的背景下,人們對這項技術的興趣激增,因為晶片設計師和系統製造商一直在努力解決傳統銅纜的有限覆蓋範圍和頻寬以及高性能可插拔光學器件不斷增長的功率需求。

AMD 在共封裝光學器件領域稍晚了一步。英特爾和博通多年來一直在探索這項技術,而在今年春季的 GTC 大會上,Nvidia發佈了兩款將在今年晚些時候開始採用該技術的網路交換機。

照亮未來之路

AMD 可能計畫在未來的機架級設計中使用 Enosemi 的 IP。然而,我們尚不清楚該光子技術將如何以及在何處整合。

但AMD的高管此前曾討論過將光子晶片整合到其 MI300 系列晶片等晶片中以提高頻寬。

現代 GPU 通常具有極高性能的互連技術,例如 Nvidia 的 NVLink 或 AMD 的 Infinity Fabric,使滿滿一機架的晶片能夠像一個大型機架一樣運行。然而,要實現這一點,這些互連需要以每秒數百甚至數千 GB 的速度傳輸資料。

由於這些縱向擴展互連依賴於銅線或線纜,其覆蓋範圍最多隻有幾英呎。如果你曾經好奇過,為什麼 Nvidia 的 NVL72 系統的 NVLink 交換機要將計算刀鋒伺服器分開,而不是全部放在頂部,原因就在這裡。

光纖互連則不受此限制。您的擴展網路不再侷限於機架,而是可以將一整排 GPU 整合在一起。

棘手的是讓光子學速度足夠快,以證明其更高的功耗是合理的。

AMD 高級副總裁兼院士 Sam Naffziger 在去年的一段視訊中解釋道:“你需要整合光學元件,因為你需要巨大的頻寬。因此,你需要低能耗,而封裝內晶片是實現最低能耗介面的方法。” 他還表示,向共封裝光學元件的轉變“即將到來”。

因此,除非您確實需要頻寬和覆蓋範圍,否則銅線可能仍然是更好的選擇。

CPO 的權力遊戲

這就是為什麼 Nvidia 堅持在其機架級系統內使用銅互連的原因。選擇光纖互連會使功率預算再增加 20 千瓦。

相反,Nvidia 的目標是在橫向擴展網路中使用 CPO,將多個 HGX GPU 節點或 NVL72 機架拼接成一個大規模叢集進行訓練。

在 GTC 大會上,這家 GPU 巨頭預告了其下一代 Spectrum 乙太網路和 Quantum InfiniBand 交換機,它們將摒棄可插拔式光模組,轉而採用整合光子學。但這些設計並非追求更長的傳輸距離或更高的頻寬,而是旨在抑制用於將電訊號轉換為光訊號(反之亦然)的光插拔式光模組的功耗。

每個可插拔裝置都可以消耗 20W 至 40W 的功率,當每個交換機上有 64 至 512 個可插拔裝置時,功率就會迅速增加。

Nvidia 的設計消除了對這些可插拔裝置的需要——至少在交換機端是這樣——這使得光纖電纜可以直接插入交換機的前端。Nvidia 認為,這可以降低功耗並消除故障源。

NVIDIA 網路高級副總裁 Gilad Shainer 在今年春季 GTC 大會前表示:“通過整合光學技術,我們將功耗降低了近 3.5 倍。”

競爭激烈

雖然 Nvidia 的首款共封裝光交換機要到今年晚些時候才會上市,但博通多年來一直致力於 CPO 交換機的生產。第一代交換機由騰訊採用,但現在像 Micas Networks 這樣的公司正在提供基於博通 51.2 Tbps Bailly CPO 交換機平台的交換機。

博通也在嘗試將該技術應用於擴展網路。在去年的Hot Chips大會上,博通聲稱已將GPU與一個能夠實現1.6TB/s無差錯雙向頻寬的光學晶片整合在一起。

英特爾也在探索CPO在機架級系統中的應用。在上個月英特爾第一季度財報電話會議上,產品首席執行官米歇爾·約翰斯頓·霍爾索斯(Michelle Johnston Holthaus)表示,她認為“光學器件是機架級架構的關鍵要素”。

與此同時,Celestial AI、Lightmatter 和 Ayar Labs 等初創公司繼續推進自己的 CPO 晶片和光學中介層設計。

然而,儘管 CPO 繼續受到晶片製造商的青睞,但它仍處於起步階段,人們仍然擔心其可靠性、可維護性以及與這種緊密整合的技術相關的整體爆炸半徑。 (半導體行業觀察)