#交換機
Google分享:光交換的下一步
在本文中,Google討論了面向未來光電路交換機的器件技術,重點關注資料中心網路和機器學習超級電腦。包括插入損耗、串擾、連接埠數量、重構時間以及偏振敏感性在內的器件參數,都會影響最終系統的性能與可靠性。引言大規模系統依賴網路通過交換機將資訊從源端傳輸到目的端。目前大多數大規模資料網路是圍繞電分組交換機(EPS)以及一種固定的 Clos 拓撲結構建構的。儘管這類網路可以支援任意的通訊模式,但在成本、時延和可重構性等關鍵系統指標上,其擴展性並不理想。正是這些已知的擴展性限制,促使早期研究工作探索使用光電路交換機(OCS),以動態調整網路拓撲,從而匹配所需的通訊模式。這些早期工作推動了光電路交換機在大規模資料中心網路以及機器學習系統中的實際部署。這些光交換機成為實現高性能、具成本效益且可重構網路的關鍵技術。本文將簡要介紹現有的商用光電路交換機,並探討未來交換機可能採用的器件技術發展方向。背景數字電分組交換機會在共享儲存器中對封包進行排隊,並根據封包頭中包含的資訊,作出本地路由決策,將封包轉發到相應的輸出連接埠。端到端連接通常由經過多個交換機的多跳路徑構成。本地路由決策是基於逐包進行的,這可能導致來自同一源、發往同一目的地的封包經歷不同的傳輸時延。光電路交換機會在輸入連接埠和輸出連接埠之間建立一條端到端的光路或電路。進入交換機的封包始終保持在光域中傳輸,並依據預先設定的路徑被路由到輸出連接埠,而不是通過讀取封包頭來進行本地路由決策。因此,所有封包都會沿同一條光路傳播,並經歷相同的時延,這對於同步的機器學習工作負載而言是理想的特性。此外,許多光電路交換機對速率不敏感,因此同一台交換機可以跨越多個不同資料速率的光收發器世代使用。這些簡化的特性要求對光交換機進行集中式控制,而在大規模 OCS 部署中,開發這一控制平面的工作量,可能甚至超過 OCS 硬體本身的開發工作。未來光交換技術表 I 列出了用於商用和研發型光電路交換機(OCS)的多種器件技術的四個關鍵性能指標。這些指標取決於交換功能是基於空間還是基於波長實現的,以及交換功能是在自由空間中的三維結構中實現,還是在平面內的二維結構中實現。表 I:商用及研發型光電路交換機(OCS)的關鍵性能指標。現有商用 OCS 所使用的所有器件都基於定製化的硬體與控制方案,目前尚不存在一種能夠在所有應用場景中、在所有性能指標上都達到最優的單一交換器件技術。當前,面向現有大規模系統應用場景設計的光交換機,主要聚焦於大連接埠數量以及低插入損耗和低回波損耗。圖 1 展示了當前用於基於 MEMS 的交換機的一種器件技術示例。MEMS 反射鏡採用深反應離子刻蝕工藝製造,該工藝可以製備出大直徑、平坦且具有高反射率的微反射鏡。高電壓訊號控制圍繞每個反射鏡的四個梳齒驅動器。這些驅動器可以使反射鏡繞兩個軸旋轉。由兩組此類器件可以建構從任意輸入連接埠到任意輸出連接埠的三維光路。圖 1: 帶反射鏡的 MEMS 執行器細節圖(偽彩色顯示),以及用於繞兩個軸產生旋轉的四個梳齒驅動器。基於圖 1 所示定製 MEMS 器件的光電路交換機,在大規模資料中心網路中提供了顯著的成本優勢,並且在用於 TPU 超級節點(superpods)時提升了系統的可用性和性能。用於三維自由空間交換的新型器件包括(非機械式的)二維數字液晶(DLC)像素陣列。該器件利用偏振特性,以數字方式控制光束的傳播方向。通過由 N 個二進制級聯單元組成的折疊級聯結構,可以建構一個具有 2^N 個連接埠的交換機,如圖 2 所示。圖 2: 採用液晶像素陣列的三維自由空間光交換機原型結構示意圖二維平面交換器件與三維自由空間交換機相比,大多數研發中的二維器件基於每個方向具有 N 條波導的交叉矩陣結構。在 N² 個波導交叉點中的每一個位置放置一個二進制交換器件,用於控制光在該交叉點處的傳播方向。許多研發中的二維光交換機採用某種形式的矽光子(SiP)技術,該技術設計為與標準 CMOS 工藝相容。針對這類器件已開展了大量研發工作,並報導了多種不同的交換驅動機制。這一路徑的優勢在於:基於 SiP 的平面光交換機有望實現更低的單連接埠成本、更快的交換速度、更容易與電子系統整合,並且由於驅動電壓較低,相比大多數商用三維自由空間交換機,潛在地具有更高的可靠性。截至目前,這一優勢尚未在量產系統中實現。當前面臨的挑戰包括光纖耦合與交換過程中的高損耗,以及受限的連接埠數量。其中一些缺點(如插入損耗)幾乎適用於所有二維交換架構。1)基於干涉的器件:基於干涉器件的二維平面交換機已被廣泛研究。這類器件包括馬赫–曾德爾干涉儀,其通過單次傳播干涉來產生交換狀態;以及微環諧振器,其通過環形諧振腔內的多次傳播干涉來產生交換狀態。總體而言,基於諧振器的交換器件可以具有更低的驅動電壓,但其頻寬更窄,且控制難度更高。這兩類器件的驅動機制均基於改變折射率,從而產生相長或相消干涉。常見方法包括熱調諧,以及利用電光效應,即折射率隨外加電場發生變化。所誘導的折射率變化具有波長依賴性,並會影響器件的可用頻寬。熱調諧速度較慢(微秒級相對於納秒級),並且需要精細控制以防止器件之間的熱串擾。基於這兩類器件的交換機所面臨的挑戰包括降低整體損耗、對偏振多樣化設計的需求,以及隨著級聯器件數量和交換機連接埠數增加而加劇的訊號串擾。2)異質整合器件:光交換機的一個新興應用場景是光子量子計算。光交換機用於生成初始計算資源,並在量子計算各個階段之間執行前饋操作。這種依賴關係意味著整體計算速度由光電路交換機的切換速度所決定。光子量子計算還對損耗和串擾提出了極為嚴格的要求。為應對這些挑戰,基於異質整合的高速光交換機正在被研究。這類器件將具有強電光效應的材料薄膜與代工廠工藝的矽光子整合在一起。該整合方式可以實現驅動電壓較低、速度較快的光交換機。其他基於微轉移印刷的異質整合工藝也在開發中。所有基於干涉器件的挑戰同樣適用於這些交換機,同時還需要解決實現實用化異質整合工藝的問題。3)矽光子 MEMS 器件:MEMS 器件也可用於矽光子二維交換機。圖 3 展示了該器件的佈局結構。輸入與輸出光纖陣列單元(FAU)連接到一個由波導構成的二維交叉矩陣結構上。在每一個波導交叉點處,採用 MEMS 驅動的耦合器,將光引導至兩個方向之一。隨後,該 MEMS 光子積體電路(PIC)與一個控制 CMOS 晶片進行整合。圖 3: 研發型矽光子 MEMS 交換機的佈局結構。與用於自由空間交換機的模擬 MEMS 器件相比,二值 MEMS 耦合器的速度可快 1000 倍,並且已展示出相對較大的連接埠數量。某一研發型器件的切換速度如圖 4 所示。這類器件面臨的挑戰包括為 2N 個光纖–波導連接器實現低損耗封裝,而這也是大多數矽光子二維交換機所共同面臨的問題。圖 4: 矽光子 MEMS 交換機的上升時間 / 下降時間。4)波長交換器件:波長交換採用可調諧雷射器、無源陣列波導器件(AWG)以及可調諧濾波器的組合。與其他器件技術相比,可調諧雷射器通常成本更高、功耗更大,而無源光學器件則可能具有更高的損耗並且工作在固定波長波段。這些特性限制了連接埠數量以及單連接埠可用頻寬。結論隨著光電路交換技術實現商業化,圍繞未來光交換機器件技術的研究活動正在迅速增加。隨著光交換機應用場景的不斷擴展,預計其中一些研發階段的器件技術將被引入未來的計算與網路系統中並實現量產應用。附:GoogleOCS的起源其實從幾年前開始,Google一直在悄悄地對其資料中心進行改造,用一種徹底的內部方法取代了其網路基礎設施,這長期以來一直是網路社群的夢想。這項計畫名為“阿波羅計畫”,其核心在於用光代替電子,並用光路交換機(OCS:optical circuit switches)取代傳統的網路交換機。在2023年年底,Google系統和服務基礎設施團隊負責人曾在外媒的採訪中解釋了這項計畫為何如此重要。把資料留在“光”裡面資料中心通訊存在一個根本性的挑戰,即效率低下,這源於它橫跨兩個世界的特性。資料處理在電子裝置上進行,因此伺服器層面的資訊保存在電子域中。但在光域(即光學領域)中傳輸資訊則更快更便捷。在傳統的網路拓撲結構中,訊號在電訊號和光訊號之間來回轉換。“一直以來都是一跳一跳地進行,先轉換回電訊號,再輸出到光訊號,如此反覆,大部分工作都留在電訊號傳輸環節,”Vahdat說道。“這在成本和能耗方面都非常高昂。”通過 OCS 技術,該公司“儘可能長時間地將資料留在光域中”,使用微型鏡子將光束從源點重新導向,並將其直接傳送到目標連接埠,作為光交叉連接。“這項技術的應用降低了通訊延遲,因為現在無需在資料中心內進行如此頻繁的資料傳輸,”Google方面表示。“它省去了電力交換環節——這原本是包括我們自己在內的大多數資料中心的核心部分。”Google進一步支援其他資料中心中常見的傳統“Clos”架構依賴於由電子分組交換機 (EPS:electronic packet switches ) 構成的主幹,該主幹以博通和 Marvell 等公司的矽晶片為基礎,連接到“葉子”或機架頂部交換機。EPS 系統價格昂貴,耗電量也相當大,而且在訊號以電子形式傳輸時,需要進行延遲較高的逐包處理,然後再將其轉換回光訊號形式進行後續傳輸。Google方面表示表示,OCS需要的功率更少:“有了這些系統,這些裝置消耗的功率基本上只有維持鏡子位置所需的功率。由於這些鏡子很小,所以所需的功率非常小。”光線通過光纖束進入“阿波羅計畫”交換機,並被多個矽晶片反射,每個矽晶片都包含一個微型反射鏡陣列。這些反射鏡是三維微機電系統(MEMS),可以快速單獨重新對準,從而使每個光訊號都能立即重新導向到輸出光纖束中的不同光纖。每個陣列包含176個微型反射鏡,但出於良率考慮,只使用了136個。“這些反射鏡都是定製的,每個都略有不同。因此,這意味著所有可能的輸入輸出組合的總和是136的平方,”他說道。這意味著兩個鏡像元件之間有 18,496 種可能的組合。整個系統的最大功耗為 108 瓦(而且通常情況下,它的功耗要低得多),這遠遠低於類似的 EPS 所能達到的 3000 瓦左右的功耗。過去幾年,Google已經部署了數千套這樣的OCS系統。Google認為這是全球規模最大的OCS應用,而且優勢相當明顯。“我們在這方面已經投入了一段時間,”Google方面說道。自己出手定製整個系統的開發需要許多定製元件以及定製的生產裝置。帕洛瑪光學(Palomar)控制系統 (OCS) 的生產意味著需要為 MEMS 反射鏡、光纖準直器、光芯及其組成部件以及整個 OCS 產品開發定製的測試儀、對準和組裝工作站。此外,還開發了一種定製的自動化對準工具,能夠以亞微米級的精度將每個二維透鏡陣列放置到位。“我們還製造了收發器和環形器,”Google說,後者可以幫助光線沿一個方向穿過不同的連接埠。“環形器是我們發明的嗎?不是,但它是我們設計、製造並大規模部署的定製元件嗎?是的。”他補充道:“這些光環形器蘊含著一些非常酷的技術,與以往任何技術相比,它可以將光纖數量減少一半。”至於用於在資料中心傳送和接收光訊號的收發器,Google結合高速光學、電子和訊號處理技術的發展,共同設計了跨越四代光互連速度(40、100、200、400GbE)的低成本波分復用收發器。“我們發明了具有合適功率和損耗特性的收發器,因為這項技術面臨的挑戰之一是,我們現在會在兩個電開關之間的路徑上引入插入損耗。”現在,光纖通道被光路開關取代,光在穿過裝置時會因反射而損失部分強度。“我們必須設計出能夠平衡成本、功耗和格式要求的收發器,以確保它們能夠承受適度的插入損耗,”戉方面說道。“我們相信我們擁有市面上能效最高的收發器之一。這確實促使我們確保能夠從頭到尾地進行工程設計,以充分利用這項技術。”這一整體願景的一部分是名為 Orion 的軟體定義網路 (SDN) 層。Google說,Orion 的出現早於阿波羅計畫,“所以我們當時已經進入了一個邏輯上集中化的控制平面”。“從基於脊樑拓撲的邏輯集中式路由,到通過一定程度的流量工程來管理這種直接連接拓撲,這其中的差異——我並不是說這很容易,這花了很長時間,也投入了很多工程師,但如果我們之前沒有 SDN 流量工程,那麼這就不會是一次巨大的飛躍。”該公司“本質上擴展了 Orion 及其路由控制平面,以管理這些直接連接拓撲,並最終根據交通訊號即時執行流量工程和鏡像的重新配置,但邏輯拓撲是即時的。“因此,這是一項艱巨的任務,但它是可以想像的,而不是不可想像的。”面臨的挑戰Apollo計畫面臨的挑戰之一是重配置時間。雖然Clos網路使用EPS系統將所有連接埠相互連接,但OCS的靈活性卻不如EPS。如果您想更改直連架構以連接兩個不同的點,鏡像需要幾秒鐘才能重新配置,這比繼續使用EPS要慢得多。Google認為,克服這一難題的關鍵在於減少重新配置的頻率。該公司在部署 OCS 時就考慮到了 OCS 系統,並以此為基礎建構了資料中心基礎設施。“如果你聚集足夠多的資料,就可以利用長期存在的通訊模式,”Google方面說道。“我將使用Google的術語‘超級塊’,它是由1到2000台伺服器組成的聚合體。一定數量的資料會流向另一個超級塊。”“如果我在一個資料中心裡有 20、30、40 個超級塊(甚至可能更多),從超級塊 X 到超級塊 Y 的資料量相對於其他超級塊來說並不是完全固定的,但存在一定的穩定性。“因此,我們可以將所有資料保留在光域中,並將這些資料切換到目標超級塊,全程保持光傳輸。如果通訊模式發生變化,尤其是劇烈的變化,我們就可以重新配置拓撲結構。”這也為資料中心內部網路的重新配置創造了機會。“如果我們需要更多的電分組交換機,我們可以動態地調配一個超級模組作為骨幹網,”Google方面說道。“想像一下,我們有一個沒有連接任何伺服器的超級區塊,現在你可以招募這個超級區塊來充當專用主幹網,”他說,該系統將接管一個還沒有伺服器或未使用的區塊。“它不需要同步任何資料,就可以將資料傳輸出去。一個並非流量源的超級塊本質上可以成為一個小型骨幹網。如果你喜歡圖論,也喜歡路由,這絕對是一個很棒的成果。而我恰好就很喜歡圖論。”值得投入“光路交換機現在可以成為樓宇基礎設施的一部分,”Google表示。“光子不關心資料是如何編碼的,所以它們的傳輸速度可以從每秒10吉位元提升到40吉位元,再到200吉位元,400吉位元,甚至800吉位元及更高,而無需進行任何升級。”Google方面支出表示,不同代的收發器可以在同一網路中運行,而Google則按照自己的節奏進行升級,“而不是遵循外部最先進的技術,後者基本上規定,一旦你從一代速度升級到另一代速度,你就必須關閉整個資料中心並重新開始。”Google方面之言從客戶的角度來看,最痛苦的是服務中斷長達六個月,他們不得不將服務遷移到其他平台一段時間。”“以我們的規模來說,這意味著我們要不斷地進行人員調動,因為我們總要在某些方面進行升級,而且我們的服務部署在全球各地,有多個實例,這意味著我們的服務會一直受到這些變動的影響。”同樣,由於每代產品都可以使用相同的OCS系統,資本支出成本也得以降低,而EPS系統則需要連同收發器一起更換。該公司認為成本已下降高達70%。瓦赫達特表示:“節能效果也相當顯著。”保持輕量級通訊方式將為Google節省數十億美元,降低能源消耗,並減少延遲。“我們目前是在超級模組等級進行這項工作,”Google方面說到說道。“我們能否找到更頻繁的光纖重配置方法,從而將其進一步下推至機架頂部等級?因為這樣做也會帶來顯著的優勢。這是一個我們尚未完全解決的難題。”該公司目前正致力於開發連接埠數量更多、插入損耗更低、重配置速度更快的OCS系統。“我認為,效率和可靠性的提升空間將由此而來,”Google方面指出。Google認為,其影響可能非常巨大。“如今現代資料中心的二分頻寬與整個網際網路的頻寬相當,”他說。“換句話說,如果你把一個資料中心——我說的不僅僅是我們自己的資料中心,你最喜歡的超大規模資料中心也一樣——把它切成兩半,然後測量一下這兩半之間的頻寬,你會發現頻寬和把網際網路切成兩半看到的頻寬一樣多。所以,這代表著巨大的通訊量。”Google說。 (半導體行業觀察)
CPO,勢不可擋
2025 年 OFC 展會明確表明:資料中心向 CPO 交換機的轉型不可避免,其主要驅動力在於 CPO 帶來的功耗節省。從黃仁勳在 2025 年 GTC 大會上展示 CPO 交換機,到眾多廠商在 2025 年 OFC 展會上演示整合在 ASIC 封裝內的光引擎,共封裝光學技術已無處不在。值得注意的是,Arista 聯合創始人、資料中心網路領域的長期遠見者安迪・貝托爾斯海姆(Andy Bechtolsheim)尚未改變立場。在 2025 年 OFC 展會上,他繼續主張線性可插拔光學(LPO)是更優選擇。LPO 移除了板載數字訊號處理器,功耗較傳統可插拔光學器件顯著降低 —— 通常減少 30-50%。更多細節可查看我的帖子。安迪的核心論點是,至少在 1600G 代際,LPO 與 CPO 的功率效率大致相當。那麼,為何要接受 CPO 額外的複雜性呢?然而,在這些更高的 SerDes 速率下,LPO 面臨著 ASIC 與面板光器件之間電通道插入損耗的挑戰。安迪認為,在 1600G 代際,可通過帶近封裝連接器的跨接電纜來緩解這一問題。他對 CPO 的擔憂包括:失去配置靈活性(所有連接埠必須使用相同類型的光器件)、光器件類型混合搭配的困難,以及潛在的廠商互操作性和可維護性挑戰。眾所周知,光模組會出現硬故障和軟故障。即使是高品質光器件,硬故障率約為 100 FIT,而軟故障(通常由連接器灰塵引起)更為常見。採用 CPO 時,檢查或更換故障光器件所需時間長得多。更糟的是,封裝內嵌入的光連接埠故障會導致交換機吞吐量下降,且難以更換。這些擔憂並非新鮮事,但行業在過去兩年已取得顯著進展。CPO 技術如今可靠性大幅提升。展望 400G 每通道 SerDes 代際,CPO 可能成為唯一可行選擇。在如此高的速率下,即使是最佳的 PCB 走線或跨接電纜也可能引入過多插入損耗。屆時,在封裝內實現光訊號傳輸將成為必要。因此,若轉型不可避免,為何不更早擁抱 CPO 並助力其演進呢?看看 Arista 在為其淺緩衝交換機產品線採用 CPO 之前能堅持多久,將是一件有趣的事!CPO 整合無論是共封裝還是作為可插拔模組一部分的光收發器,其光引擎通常包含電子積體電路(EIC)和光子積體電路(PIC)。在包含交換機或 XPU 核心的 ASIC 封裝內整合這些光引擎,主要有兩種方式。矽中介層方案核心裸片與電子 IC(EIC)可共置於矽中介層上(或通過英特爾 EMIB 等矽橋連接),而 PIC 則要麼 3D 堆疊在 EIC 上方,要麼放置在有機基板中。當 PIC/EIC 堆疊在矽中介層上的核心裸片旁時,它們也被稱為光學 I/O。該方案的目標是通過利用高密度 D2D 鏈路和中介層布線,縮短並改善核心裸片與光引擎之間的電連接。這種中介層方案允許將多個光學小晶片更靠近主裸片放置,從而實現更小的封裝。然而,將高功耗 EIC 與核心裸片共置於中介層上會使熱管理複雜化。此外,若 PIC 堆疊在 EIC 上,EIC 的散熱將更加困難。大型矽中介層會增加封裝成本和複雜性,且中介層尺寸限制了可圍繞 ASIC 佈置的光模組數量。為在不增加複雜性或成本的前提下提升頻寬,光引擎需要具備更高的頻寬密度。有機基板方案第二種方案將光引擎保留在 ASIC 封裝內的有機基板上(而非矽中介層)。PIC 和 EIC 被組裝在一起(通常是 PIC 在底部堆疊於 EIC 上方),形成緊湊的光引擎模組,然後安裝在主裸片周圍的有機基板上。核心裸片通過 SerDes 介面與 EIC 通訊,在最新工藝節點中,該介面通常具有 500-1000 Gbps/mm 的頻寬密度。這意味著,一個面積為 625 平方毫米(每邊 25 毫米)的核心裸片可向光引擎傳送約 100 Tbps 的頻寬。為實現超過 100 Tbps 的頻寬,封裝內通常需要多個核心裸片。該方案允許光引擎在基板上間隔佈置,從而在一定程度上放寬了對每個引擎的光頻寬密度要求。由於引擎與主裸片距離較遠,這有助於熱隔離。每個光引擎可配備獨立的微型散熱器,或通過間隔佈置使氣流或冷板能夠觸及。重要的是,將 PIC 堆疊在 EIC 下方(最靠近基板)比反向堆疊具有更好的散熱和訊號性能。由於不受大型中介層的限制,若有需要,封裝可做得更大(且不會顯著增加成本)以容納更多引擎。儘管組裝過程仍然複雜,但具有模組化特點。光引擎可在安裝到有機基板之前進行獨立測試。這是整合 CPO 的流行方案。光學器件各種整合技術示意圖。引自 ASE什麼是頻寬密度?並非所有 CPO 解決方案都相同。任何 CPO 解決方案的最終目標都是以最低功耗實現高頻寬密度。這就引出了下一個問題:頻寬密度究竟是什麼?在 CPO 和光學 I/O 的語境中,頻寬密度(通常稱為 “前沿密度” 或 “海岸線密度”)描述的是沿光介面整合邊緣每毫米可傳輸的資料量,單位通常為太位元每秒(Tbps)。請注意,該指標並非在面板連接器等級測量,而是在 ASIC 裸片邊緣或與 ASIC 共封裝的光子小晶片 / 光引擎邊緣測量。這些是封裝內光纖或波導耦合的物理邊界。行業來源一致採用這一定義,頻寬密度單位常為 Tbps/mm 或光纖數 /mm,具體取決於側重點是吞吐量還是物理通道數。更高的前沿密度意味著晶片可在不增加佔用面積的情況下輸出更多光頻寬。提升前沿密度對滿足資料中心和高性能計算系統中爆炸式增長的頻寬需求至關重要。方案對比:博通 vs 輝達現在,為理解共封裝光學,讓我們更深入地考察博通和輝達的 CPO 產品。封裝頻寬博通去年推出了 Bailly CPO 交換機。該交換機基於 Tomohawk-5 ASIC,封裝內整合了八個 6.4 Tbps 光引擎,總封裝外光頻寬為 51.2 Tb/s(64×800 Gbps 或 128×400 Gbps)。博通 Bailly CPO ASIC我們預計下一代 102.4 Tbps CPO 交換機將採用演進的 CPO 架構,圍繞 Tomohawk-6 裸片部署改進的矽光子引擎(每個引擎頻寬 12.8 Tbps 甚至更高)。這些約 100 Tbps 的交換機可能在今年下半年面市。博通製造的晶片可供交換機廠商用於建構系統。已有幾家公司處於使用 Bailly 交換機開發交換機的不同階段(或已進入早期採樣)。在所有這些交換機產品中,均使用單個 Baily 晶片(面板具有 128×400G 連接埠)建構獨立系統。輝達在 2025 年 GTC 大會上推出的共封裝光學平台目標更高,可擴展至 100 Tb/s 及以上。Quantum-X InfiniBand 交換機系統將具備:144 個 800 Gb/s 連接埠(或 576×200 Gbps),總計 115.2 Tbps 頻寬四個採用 Quantum X800 ASIC 的 Quantum-X CPO 封裝,每個封裝具備 28.8 Tbps 頻寬(144×200 Gbps 或 36×800 Gbps)若要通過 28.8 Tbps 交換機實現 115.2 Tbps 的無阻塞交換容量,採用 Clos 架構時所需交換機數量將遠多於四個。鑑於目前似乎僅有四個交換機,這看起來並非真正的 115.2 Tbps 交換機。對此有何評論?預計 2025 年底面市。Quantum-X 光子交換機系統。引自 2025 年 GTC 大會演示Spectrum-X 光子乙太網路交換機系列將具備:128 個 800G 連接埠(或 512 個 200G 連接埠),提供 102.4 Tb/s 頻寬。這可能包含兩個 Spectrum-X CPO 封裝,每個封裝具備 51.2 Tbps 頻寬(64×800 Gbps 或 256×200 Gbps)還將提供更大配置,包含 512 個 800G 連接埠(409.6 Tb/s),可能採用 4 個 CPO 封裝與 Quantum 類似,除非在交換機機箱內使用更多交換機用於晶片間連接,否則這些並非真正的 102.4 T 或 409.6 Tbps 交換機預計 2026 年面市因此,在容量方面,博通目前擁有 51.2T 解決方案,與當前網路需求(800G 乙太網路時代,100G Serdes)一致,2025 年路線圖中規劃了 100 Tbps;而輝達則跨越式發展至 100-400T,以滿足未來百萬 GPU 叢集需求(200G Serdes)。輝達更大的頻寬數字反映了其更激進的架構方案,專注於通過大規模整合(系統內使用多個光子交換機晶片)實現更高基數的交換機。光引擎博通 Bailly 晶片在 ASIC 封裝內整合了 6.4 Tbps 矽光子基光引擎。這些高密度邊緣安裝的光引擎通過有機基板上的短晶片間連接直接與核心裸片互動。這種緊密整合實現了更簡單的物理佈局。輝達的 Spectrum-X(乙太網路)和 Quantum-X(InfiniBand)光子交換機也整合了多個 1.6 Tbps 矽光子基光子引擎。每個光子引擎採用台積電 COUPE™工藝製造,將電子裸片(EIC)堆疊在光子裸片上方。三個此類引擎叢集組成可拆卸光子元件(OSA),吞吐量達 4.8 Tbps。這意味著光引擎(及其光纖介面)位於可更換模組上,與交換機基板對接,而非像博通方案那樣永久粘合!引自 2025 年 GTC 大會演示。輝達 CPO 可視化因此,輝達的封裝更為複雜,採用先進的 2.5D/3D 整合(引擎裸片使用台積電 SoIC 堆疊)和光部件的模組化連接系統。這在一定程度上解決了可維護性擔憂。若在製造測試中發現外掛模組故障,可更換為其他模組。在 Quantum-X CPO 交換機中,每個 ASIC 封裝包含 Quantum X800 28.8 Tbps 交換機 ASIC 核心,以及連接至主封裝的六個 OSA 外掛模組。總之,博通方案是光器件嵌入的單封裝交換機,而輝達方案則是具備可拆卸光子模組的新型封裝。Spectrum-X CPO 封裝讓我們對小晶片架構有了更多瞭解。它似乎將主核心交換機裸片與八個 I/O 裸片緊密整合(通過裸片間介面),而光子引擎(36 個)圍繞它們佈置在有機基板中。這些光子引擎是否屬於可拆卸 OSA 的一部分尚不可知。Quantum-X 和 Spectrum-X CPO 封裝。引自 2025 年 GTC 大會演示光纖耦合博通 CPO 交換機採用光引擎的邊緣耦合光纖連接,以實現高前沿密度。每個光引擎 PIC 上有承載光訊號的片上波導,這些波導終止於光子小晶片邊緣。光纖被精確對準並永久粘合(通常使用環氧樹脂)到這些波導端面。博通已開發出高度自動化的高密度光纖連接工藝,可將多根光纖芯精確對準光子小晶片邊緣。這種邊緣耦合方案允許大量光通道以緊湊的佔用面積從封裝中引出。在第一代 CPO 中,博通似乎使用 400G-FR4,通過 CWDM 在單根光纖上實現四個 100G 通道。如此,每個光引擎配備 16 對光纖(傳送 + 接收 = 一對)以處理 6.4T 吞吐量。然而,博通可能正在開發新版本晶片,配備 64 對光纖(每對承載 100 Gbps),以支援更大基數的交換機(512×100G 連接埠)。直接從光引擎引出的短光纖稱為 “光纖尾纖”。光引擎引出的光纖尾纖必須路由至面板連接器,但這些尾纖短而脆弱,無法直接路由至面板。ASIC 引出的光纖尾纖通常通過連接器在交換機盒內部與更長、更堅固的光纖連接,後者再延伸至面板。輝達 Quantum-X InfiniBand 交換機封裝每個 CPO 封裝有 324 個光連接。為支援 144×200 Gbps,需要 144 對光纖(288 根光纖),剩餘 36 個用於連接 ASIC 的雷射器 ——18 個光子引擎各獲得兩個雷射輸入。四對光纖(4×200 Gbps)每組匯聚為一個 DR4,並在面板處端接至單個 MPO(多光纖推入式)連接器。因此,配備 4 個 CPO 封裝的交換機系統在面板處有 144 個 MPO。儘管耦合方法的細節尚未完全公開,但輝達很可能也在光子引擎上使用邊緣耦合。總之,博通和輝達都必須解決大規模光纖耦合問題。博通在第一代 CPO 交換機中依靠 WDM 減少光纖數量,而從 GTC 演示中的光纖數量來看,輝達似乎未使用 WDM。雷射器整合CPO 設計中最大的考量之一是如何處理為光引擎內調製器提供光源的雷射器。博通和輝達的設計均將所有高功率雷射器置於主交換機封裝之外,轉而使用外部可插拔雷射模組(外部雷射源或 ELS)。這些模組可插入面板 LC 連接埠,接受熱插拔雷射 cartridges。光纖跳線將連續波光從這些雷射模組傳輸至共封裝光引擎。該策略可保持 CPO 的低功耗並提高其可靠性。雷射器的退化可能快於其他元件,因此外部雷射器可輕鬆更換,而無需干擾交換機 ASIC。Bailly 交換機使用 16 個高效可插拔雷射模組,每個 6.4 Tbps 光引擎配備兩個模組。輝達的方案更進一步,大幅減少了所需雷射源的總數。在 Quantum-X 光子交換機系統中,僅 18 個面板連接的雷射模組為所有 144×800G 光通道提供光源。每個模組整合八個雷射器,為八個 1.6 Tbps 光子引擎提供光源。因此,輝達架構的可插拔雷射模組數量(按每單位頻寬的模組數計算)比博通方案少 4 倍。更少的雷射器意味著需要冷卻和監控的元件更少,但這也意味著若某個雷射模組故障,受影響的通道會更多。調製器調製器是光引擎內將電訊號轉換為光訊號的元件。它們從雷射器獲取穩定光,並通過將光轉換為強度或相位調製的光資料流,將高速資料 “印刻” 在其上。深入理解這些調製器的工作原理是一個超出我專業領域的技術話題。簡而言之,博通很可能使用馬赫 - 曾德爾調製器(MZM)。這類調製器對雷射不穩定性較不敏感,對溫度變化的耐受性更好,但功耗更高且佔用面積更大(尺寸更大)。儘管 MZM 適用於 100 Gbps 訊號傳輸,但在擴展至~200G 通道和數百 Tbps CPO 封裝時,會面臨密度和功耗限制。這可能就是輝達 CPO 方案選擇微環諧振器調製器(MRM)的原因。MRM 佔用面積更小(可很好地擴展),所需驅動電壓更低,因此功耗更低。這些調製器還原生支援 WDM;每個環針對一個波長,非常適合每根光纖 8-16 個波長的系統。但這些調製器需要更多調諧(因其熱敏感性)和強大的 DSP 邏輯來減少串擾。輝達選擇 MRM 表明其在 CPO 方案中對功耗節省的激進追求。MRM 的功耗約為 1-2 pJ/bit,而 MZM 為 5-10 pJ/bit。波分復用博通在每根光纖上使用粗波分復用(CWDM),採用 4 通道 4λ×100G 配置承載 400G。其文件未解釋如何實現 800 Gbps 連接埠配置,可能涉及非標準配置,如聚合兩條 400G FR4 鏈路,或可能正在開發支援 DR 鏈路(直接傳輸,無 WDM,每根光纖承載 100G)的新版本 CPO 交換機。從每個 CPO 封裝的光纖對數量來看,輝達 Quantum-X 似乎不支援 WDM,這與 200G 連接埠數量一致。功率效率與散熱共封裝光學的主要動機之一是提升功率效率。博通和輝達均報告稱,與傳統可插拔收發器相比,單位位元功耗顯著降低。博通聲稱其共封裝光學每個 800 Gb/s 連接埠功耗約 5.5W,而等效可插拔模組約為 15W。這 3 倍的降幅意味著滿載的 64 連接埠(每個 800G)交換機可節省數百瓦功率。5.5W 的功耗轉化為光鏈路 6-7 pJ/bit 的功耗,這在 2024 年屬於領先水平。冷卻此類系統比冷卻包含數十個 15W 可插拔器件的等效交換機更容易。儘管如此,51.2T CPO 交換機的 ASIC 封裝功率密度集中,仍會散發出大量熱量,需要冷板液冷。不過,其單元很可能也可使用高性能風冷。輝達同樣宣揚效率大幅提升:通過使用微環調製器和更少的雷射器,其矽光子交換機的網路鏈路功率效率提升 3.5 倍。與博通類似,這些交換機需要液冷以有效散除 ASIC 封裝的熱量。事實上,GTC 大會上的 Quantum-X CPO 演示顯示,交換機 ASIC 採用冷板液冷。簡而言之,兩種方案均實現了更低的 pJ/bit 功耗,使超高頻寬網路更具可持續性。突破頻寬牆 —— 未來方向垂直耦合傳統光引擎常使用邊緣耦合,將光纖對準晶片邊緣的波導端面。帶 V 型槽光纖陣列的邊緣耦合是一種已知方法,可精確排列光纖(間距通常為 50-250 µm)並將其被動對準波導。邊緣耦合器可實現低插入損耗,且易於連接光纖帶。然而,由於光纖必須並排佈置且間距最小,它們會消耗大量邊緣長度。另一種方法是垂直耦合,使用片上衍射光柵耦合器或反射鏡將光從晶片頂面耦合出去。這允許光 I/O 佈置在晶片區域內,而不僅限於周邊。垂直耦合器加上微透鏡陣列可實現相當高的耦合密度,並可在光子裸片上方的任意位置靈活佈置。其權衡通常是在擴展至多根光纖時損耗更高且對準更複雜。儘管邊緣耦合目前佔主導地位(因其成熟度和效率),但垂直耦合正在研究實驗室和部分公司中積極探索,以克服邊緣長度限制。多芯光纖與光纖間距縮小若每根光纖可承載多個纖芯(光路),則對於給定的通道數,邊緣的光纖數量可減少。多芯光纖(MCF)在單個光纖包層內封裝多個獨立纖芯,通過在單個光纖橫截面內堆疊通道,高效利用有限的前沿面積。例如,4 芯光纖可使每根光纖的通道數增至 4 倍,立即將邊緣通道密度提升 4 倍。儘管尚未在商用 CPO 產品中標準化,但它被視為解決光子前沿受限問題的 “有吸引力的方案”。MCF 的缺點在於,若系統需要連接至不同伺服器 / NIC 的更多低頻寬連接埠基數,在單根光纖內聚合更多頻寬並非良策。另一種增加光纖密度的方法是縮小間距。標準單模光纖帶間距約為 250 µm,通過使用更細光纖或去除緩衝層,可實現 50 µm 甚至更小的間距。IBM 已在可靠組裝中演示了 50 µm 光纖通道間距,實驗室中使用定製聚合物光纖甚至實現了 18 µm 間距。如此小的間距可大幅增加 “每毫米光纖數”,使 ASIC 封裝能夠輸出更大頻寬。先進耦合器、透鏡與連接方法隨著光纖間距縮小和數量增加,對準容差成為挑戰。正在開發光柵耦合器與微透鏡陣列等技術,以緩解對準限制,這可能實現光子晶片上方非常密集的 3D 堆疊光纖連接器陣列。光纖連接方法也在演進。如今許多 CPO 實現仍依賴光纖陣列的精確放置,然後用環氧樹脂固定。展望未來,預計會看到更多連接器化解決方案,如輝達的可拆卸模組或初創公司提供的 “即插即用” 光插座小晶片。WDM 是當前實現每根光纖更多通道的方法,垂直耦合、多芯光纖、密集光纖和新型連接技術正在興起,以進一步提升前沿密度。每種技術解決不同方面的問題(幾何密度 vs. 每光纖容量 vs. 對準)。下一代 CPO 實現正在探索結合多種方法,以在給定邊緣長度內提升總封裝外頻寬。CPO 部署挑戰主要挑戰並非核心技術本身,更多在於 CPO 對現有生態系統和營運模式的影響:生態系統顛覆:CPO 從根本上改變了供應鏈。客戶不再從多家廠商購買可互換的可插拔模組,而是必須從單一系統廠商或緊密合作的夥伴處採購整合的 CPO 交換機或伺服器。這降低了採購靈活性,增加了廠商鎖定。營運複雜性:現場更換和故障管理變得更加複雜。光引擎故障可能需要更換整個 CPO 交換機線卡或伺服器主機板,而非僅更換可插拔模組。大規模開發適用於 CPO 系統的穩健測試、診斷和修復策略是一項重大任務。可靠性驗證:儘管 CPO 通過消除可插拔連接器介面(常見故障點)有望提供更高可靠性,但這需要通過大規模長期部署來證明。CPO 可靠性資料已開始出現,但仍需更多驗證。成本:目前,CPO 與高容量可插拔光學器件相比無顯著成本優勢。隨著產量上升,這種情況有望改變。熱管理:在 ASIC 封裝內整合對熱敏感的光元件帶來顯著熱管理挑戰,液冷成為必需。鑑於這些挑戰以及 1.6T 可插拔光學器件的快速成熟,在 200G / 通道代際,CPO 不太可能在橫向擴展應用中實現大規模部署。但行業預計將看到越來越大的 CPO 測試部署,以驗證技術和營運模式,可能為下一代大規模部署鋪平道路。CPO 用於縱向擴展?CPO 在縱向擴展用例(機架內連接)中的前景似乎更為光明。在此場景中,整個機架解決方案(包括加速器、交換機和互連)更可能從單一廠商(如輝達)或緊密整合的合作夥伴處採購。這簡化了生態系統挑戰,使 CPO 整合更為直接。在 2025 年 GTC 大會上,黃仁勳推出了 NVL144(基於 Rubin GPU),該產品在 200 Gbps 通道速率下繼續使用銅纜進行 NVLink 互連。在這些速率下,銅纜可能體積龐大,電纜管理可能混亂。光背板 / 中板鏈路在電纜和傳輸距離方面提供了巨大改進。單根帶狀光纖可承載多個波長,取代數十根銅纜,這大大減輕了重量和擁塞,這不僅對散熱重要,對訊號完整性也至關重要。光學器件還允許機箱尺寸擴展,並建立跨多個機架的超大規模縱向擴展叢集,而無需將所有元件限制在數米範圍內。配備用於 NVLink 互連的 CPO 的 GPU 和縱向擴展交換機(如 NVSwitch)支援這些光背板。欲瞭解更多資訊,可參考我關於寬匯流排光子背板及光背板其他趨勢的帖子。然而,無源銅纜在功率方面仍具優勢,只要輝達能在更低功耗下使其工作(即使必須在中間加入重定時器),就會繼續在縱向擴展系統中使用銅纜。縱向擴展系統中 GPU(或其他加速器)的合理選擇可能是先過渡到 CPC(共封裝銅纜),這將消除 PCB 走線,完全依靠跨接銅纜實現背板連接,然後在鏈路速度達~400 Gbps 及以上時過渡到 CPO 和光互連。對此你有何想法 / 觀點?下一步是什麼?光子織物 / 中介層?除邊緣佈置光引擎的傳統 CPO 外,另一種方案是使用置於核心裸片下方的光子中介層或織物。可將其視為 3D 堆疊配置,其中雷射器、波導和光交換 / 路由位於基礎層,計算或儲存小晶片可安裝在其上方,這本質上為小晶片提供了光主機板。由於光子中介層可以很大(3-4 倍光罩尺寸),它可提供非常長的 “邊緣”—— 一個用於光 I/O 的連續 2D 表面。因此,每毫米邊緣的有效頻寬可能遠高於分散佈置的多個獨立光引擎所能實現的頻寬。過去幾年,多家初創公司一直在積極探索這一領域,2025 年 OFC 展會上也有許多演示證明了其可行性。Photonic fabrics 或中介層示意圖。引自 LightMatterPhotonic fabrics 的主要挑戰在於基礎層的光引擎會散發出大量熱量,使這種 3D 堆疊配置中的熱管理相當困難。儘管演示主要展示頂部的測試晶片(僅包含 Serdes 和最小邏輯),但在真實的 3D 光子織物晶片中,核心裸片和光基礎層消耗大量功率,其熱管理情況將十分有趣。一些初創公司也在研究Photonic fabrics ,以連接封裝內的多個 XPU。當封裝內有多個核心時,Photonic fabrics 可在非相鄰核心之間提供連接,延遲遠低於通過有機基板路由的傳統方法。光子中介層另一示意圖。引自 Celestial.ai光互連的另一應用是將 XPU 連接至板上獨立 ASIC 封裝中容納的記憶體池(HBM)。由於光纖延遲低,這可實現記憶體與 ASIC 的解耦。然而,任何光連接的電光 - 光電轉換都會消耗大量功率。若超大規模整合的替代方案涉及多個 ASIC 封裝和 PCB 走線,光子織物方案可能成為更優解決方案。儘管如此,這些均屬於長期發展。當今的重點是交換機用 CPO,因為這是迫在眉睫的痛點,行業正為此興奮不已。CPO 交換機的成功部署將在技術、供應鏈和對光學技術的信任方面為光子技術向其他領域擴展鋪平道路!未來令人興奮…… (半導體行業觀察)
最新曝光!NVIDIA GB300 NVLink液冷交換機的設計思路和圖片資料
NVIDIA GB300 NVLink液冷交換機今年GTC大會輝達發佈最新的GB300AI晶片及AI伺服器,但是對於GB300的液冷交換機少有完整曝光,以下是零氪海外合作方STH傳回的GB300 NVLink液冷交換機圖片資料。NVIDIA GB300 NVLink 液冷交換機托盤在 NVIDIA GTC 2025 上展示的 NVIDIA GB300 NVLink 交換機托盤。這是位於 GB300 計算刀片之間的液冷交換機托盤。與當今的許多交換機不同,這些交換機採用液冷設計,適合 NVL72 機架。這是 GB300 NVLink 交換機托盤。可以看到前面的手把,然後是後面的液體冷卻噴嘴、母線電源和四個 NVLink 電纜盒的連接器。NVIDIA GB300 NVLink 交換機托盤 1該設計非常巧妙的一點是,NVLink 交換機晶片採用液冷,但並不是唯一的液冷組件。NVIDIA GB300 NVLink 交換機托盤 2這是 NVLink Switch 部分的冷板。實際的 NVLink Switch PCB 與底盤的深度相比相對較短。NVIDIA GB300 NVLink 交換機托盤 4這裡可以看到功率分佈。NVIDIA GB300 NVLink 交換機托盤 5在當今主流的液冷伺服器中,有很多橡膠軟管。在這種設計中,主要是金屬管。這是一個小特點,但卻是設計的一個區別。NVIDIA GB300 NVLink 交換機托盤 3在底部,我們看到一些控制元件,其中包括 M.2 SSD。NVIDIA GB300 NVLink 交換機托盤 6NVIDIA 通常將其 GTC 2025 展示模型上的許多其他徽標塗黑,但我們可以看到兩顆 Marvell 88E1514 和 Lattice LCMXO3D-9400HC。總結這只是 NVLink Switch 托盤的簡單介紹,這些托盤將安裝在較新的 GB300 NVL72 機架上,今年晚些時候我們將看到更多此類機架。目前,大多數市場仍在生產和消費 GB200 NVL72 機架。不過,NVIDIA 對液體冷卻的承諾是這一代產品的標誌,隨著我們進入 Rubin 時代,這一承諾只會加速。 (零氪1+1)