Google分享:光交換的下一步
在本文中,Google討論了面向未來光電路交換機的器件技術,重點關注資料中心網路和機器學習超級電腦。包括插入損耗、串擾、連接埠數量、重構時間以及偏振敏感性在內的器件參數,都會影響最終系統的性能與可靠性。
引言
大規模系統依賴網路通過交換機將資訊從源端傳輸到目的端。目前大多數大規模資料網路是圍繞電分組交換機(EPS)以及一種固定的 Clos 拓撲結構建構的。儘管這類網路可以支援任意的通訊模式,但在成本、時延和可重構性等關鍵系統指標上,其擴展性並不理想。正是這些已知的擴展性限制,促使早期研究工作探索使用光電路交換機(OCS),以動態調整網路拓撲,從而匹配所需的通訊模式。
這些早期工作推動了光電路交換機在大規模資料中心網路以及機器學習系統中的實際部署。這些光交換機成為實現高性能、具成本效益且可重構網路的關鍵技術。本文將簡要介紹現有的商用光電路交換機,並探討未來交換機可能採用的器件技術發展方向。
背景
數字電分組交換機會在共享儲存器中對封包進行排隊,並根據封包頭中包含的資訊,作出本地路由決策,將封包轉發到相應的輸出連接埠。端到端連接通常由經過多個交換機的多跳路徑構成。本地路由決策是基於逐包進行的,這可能導致來自同一源、發往同一目的地的封包經歷不同的傳輸時延。
光電路交換機會在輸入連接埠和輸出連接埠之間建立一條端到端的光路或電路。進入交換機的封包始終保持在光域中傳輸,並依據預先設定的路徑被路由到輸出連接埠,而不是通過讀取封包頭來進行本地路由決策。因此,所有封包都會沿同一條光路傳播,並經歷相同的時延,這對於同步的機器學習工作負載而言是理想的特性。此外,許多光電路交換機對速率不敏感,因此同一台交換機可以跨越多個不同資料速率的光收發器世代使用。
這些簡化的特性要求對光交換機進行集中式控制,而在大規模 OCS 部署中,開發這一控制平面的工作量,可能甚至超過 OCS 硬體本身的開發工作。
未來光交換技術
表 I 列出了用於商用和研發型光電路交換機(OCS)的多種器件技術的四個關鍵性能指標。這些指標取決於交換功能是基於空間還是基於波長實現的,以及交換功能是在自由空間中的三維結構中實現,還是在平面內的二維結構中實現。
現有商用 OCS 所使用的所有器件都基於定製化的硬體與控制方案,目前尚不存在一種能夠在所有應用場景中、在所有性能指標上都達到最優的單一交換器件技術。當前,面向現有大規模系統應用場景設計的光交換機,主要聚焦於大連接埠數量以及低插入損耗和低回波損耗。
圖 1 展示了當前用於基於 MEMS 的交換機的一種器件技術示例。MEMS 反射鏡採用深反應離子刻蝕工藝製造,該工藝可以製備出大直徑、平坦且具有高反射率的微反射鏡。高電壓訊號控制圍繞每個反射鏡的四個梳齒驅動器。這些驅動器可以使反射鏡繞兩個軸旋轉。由兩組此類器件可以建構從任意輸入連接埠到任意輸出連接埠的三維光路。
基於圖 1 所示定製 MEMS 器件的光電路交換機,在大規模資料中心網路中提供了顯著的成本優勢,並且在用於 TPU 超級節點(superpods)時提升了系統的可用性和性能。
用於三維自由空間交換的新型器件包括(非機械式的)二維數字液晶(DLC)像素陣列。該器件利用偏振特性,以數字方式控制光束的傳播方向。通過由 N 個二進制級聯單元組成的折疊級聯結構,可以建構一個具有 2^N 個連接埠的交換機,如圖 2 所示。
二維平面交換器件
與三維自由空間交換機相比,大多數研發中的二維器件基於每個方向具有 N 條波導的交叉矩陣結構。在 N² 個波導交叉點中的每一個位置放置一個二進制交換器件,用於控制光在該交叉點處的傳播方向。
許多研發中的二維光交換機採用某種形式的矽光子(SiP)技術,該技術設計為與標準 CMOS 工藝相容。針對這類器件已開展了大量研發工作,並報導了多種不同的交換驅動機制。這一路徑的優勢在於:基於 SiP 的平面光交換機有望實現更低的單連接埠成本、更快的交換速度、更容易與電子系統整合,並且由於驅動電壓較低,相比大多數商用三維自由空間交換機,潛在地具有更高的可靠性。
截至目前,這一優勢尚未在量產系統中實現。當前面臨的挑戰包括光纖耦合與交換過程中的高損耗,以及受限的連接埠數量。其中一些缺點(如插入損耗)幾乎適用於所有二維交換架構。
1)基於干涉的器件:基於干涉器件的二維平面交換機已被廣泛研究。這類器件包括馬赫–曾德爾干涉儀,其通過單次傳播干涉來產生交換狀態;以及微環諧振器,其通過環形諧振腔內的多次傳播干涉來產生交換狀態。總體而言,基於諧振器的交換器件可以具有更低的驅動電壓,但其頻寬更窄,且控制難度更高。
這兩類器件的驅動機制均基於改變折射率,從而產生相長或相消干涉。常見方法包括熱調諧,以及利用電光效應,即折射率隨外加電場發生變化。所誘導的折射率變化具有波長依賴性,並會影響器件的可用頻寬。熱調諧速度較慢(微秒級相對於納秒級),並且需要精細控制以防止器件之間的熱串擾。基於這兩類器件的交換機所面臨的挑戰包括降低整體損耗、對偏振多樣化設計的需求,以及隨著級聯器件數量和交換機連接埠數增加而加劇的訊號串擾。
2)異質整合器件:光交換機的一個新興應用場景是光子量子計算。光交換機用於生成初始計算資源,並在量子計算各個階段之間執行前饋操作。這種依賴關係意味著整體計算速度由光電路交換機的切換速度所決定。光子量子計算還對損耗和串擾提出了極為嚴格的要求。
為應對這些挑戰,基於異質整合的高速光交換機正在被研究。這類器件將具有強電光效應的材料薄膜與代工廠工藝的矽光子整合在一起。該整合方式可以實現驅動電壓較低、速度較快的光交換機。其他基於微轉移印刷的異質整合工藝也在開發中。所有基於干涉器件的挑戰同樣適用於這些交換機,同時還需要解決實現實用化異質整合工藝的問題。
3)矽光子 MEMS 器件:MEMS 器件也可用於矽光子二維交換機。圖 3 展示了該器件的佈局結構。輸入與輸出光纖陣列單元(FAU)連接到一個由波導構成的二維交叉矩陣結構上。在每一個波導交叉點處,採用 MEMS 驅動的耦合器,將光引導至兩個方向之一。隨後,該 MEMS 光子積體電路(PIC)與一個控制 CMOS 晶片進行整合。
與用於自由空間交換機的模擬 MEMS 器件相比,二值 MEMS 耦合器的速度可快 1000 倍,並且已展示出相對較大的連接埠數量。某一研發型器件的切換速度如圖 4 所示。這類器件面臨的挑戰包括為 2N 個光纖–波導連接器實現低損耗封裝,而這也是大多數矽光子二維交換機所共同面臨的問題。
4)波長交換器件:波長交換採用可調諧雷射器、無源陣列波導器件(AWG)以及可調諧濾波器的組合。與其他器件技術相比,可調諧雷射器通常成本更高、功耗更大,而無源光學器件則可能具有更高的損耗並且工作在固定波長波段。這些特性限制了連接埠數量以及單連接埠可用頻寬。
結論
隨著光電路交換技術實現商業化,圍繞未來光交換機器件技術的研究活動正在迅速增加。隨著光交換機應用場景的不斷擴展,預計其中一些研發階段的器件技術將被引入未來的計算與網路系統中並實現量產應用。
附:GoogleOCS的起源
其實從幾年前開始,Google一直在悄悄地對其資料中心進行改造,用一種徹底的內部方法取代了其網路基礎設施,這長期以來一直是網路社群的夢想。
這項計畫名為“阿波羅計畫”,其核心在於用光代替電子,並用光路交換機(OCS:optical circuit switches)取代傳統的網路交換機。在2023年年底,Google系統和服務基礎設施團隊負責人曾在外媒的採訪中解釋了這項計畫為何如此重要。
把資料留在“光”裡面
資料中心通訊存在一個根本性的挑戰,即效率低下,這源於它橫跨兩個世界的特性。資料處理在電子裝置上進行,因此伺服器層面的資訊保存在電子域中。但在光域(即光學領域)中傳輸資訊則更快更便捷。
在傳統的網路拓撲結構中,訊號在電訊號和光訊號之間來回轉換。“一直以來都是一跳一跳地進行,先轉換回電訊號,再輸出到光訊號,如此反覆,大部分工作都留在電訊號傳輸環節,”Vahdat說道。“這在成本和能耗方面都非常高昂。”
通過 OCS 技術,該公司“儘可能長時間地將資料留在光域中”,使用微型鏡子將光束從源點重新導向,並將其直接傳送到目標連接埠,作為光交叉連接。
“這項技術的應用降低了通訊延遲,因為現在無需在資料中心內進行如此頻繁的資料傳輸,”Google方面表示。“它省去了電力交換環節——這原本是包括我們自己在內的大多數資料中心的核心部分。”Google進一步支援
其他資料中心中常見的傳統“Clos”架構依賴於由電子分組交換機 (EPS:electronic packet switches ) 構成的主幹,該主幹以博通和 Marvell 等公司的矽晶片為基礎,連接到“葉子”或機架頂部交換機。
EPS 系統價格昂貴,耗電量也相當大,而且在訊號以電子形式傳輸時,需要進行延遲較高的逐包處理,然後再將其轉換回光訊號形式進行後續傳輸。
Google方面表示表示,OCS需要的功率更少:“有了這些系統,這些裝置消耗的功率基本上只有維持鏡子位置所需的功率。由於這些鏡子很小,所以所需的功率非常小。”
光線通過光纖束進入“阿波羅計畫”交換機,並被多個矽晶片反射,每個矽晶片都包含一個微型反射鏡陣列。這些反射鏡是三維微機電系統(MEMS),可以快速單獨重新對準,從而使每個光訊號都能立即重新導向到輸出光纖束中的不同光纖。
每個陣列包含176個微型反射鏡,但出於良率考慮,只使用了136個。“這些反射鏡都是定製的,每個都略有不同。因此,這意味著所有可能的輸入輸出組合的總和是136的平方,”他說道。
這意味著兩個鏡像元件之間有 18,496 種可能的組合。
整個系統的最大功耗為 108 瓦(而且通常情況下,它的功耗要低得多),這遠遠低於類似的 EPS 所能達到的 3000 瓦左右的功耗。
過去幾年,Google已經部署了數千套這樣的OCS系統。Google認為這是全球規模最大的OCS應用,而且優勢相當明顯。“我們在這方面已經投入了一段時間,”Google方面說道。
自己出手定製
整個系統的開發需要許多定製元件以及定製的生產裝置。
帕洛瑪光學(Palomar)控制系統 (OCS) 的生產意味著需要為 MEMS 反射鏡、光纖準直器、光芯及其組成部件以及整個 OCS 產品開發定製的測試儀、對準和組裝工作站。此外,還開發了一種定製的自動化對準工具,能夠以亞微米級的精度將每個二維透鏡陣列放置到位。
“我們還製造了收發器和環形器,”Google說,後者可以幫助光線沿一個方向穿過不同的連接埠。“環形器是我們發明的嗎?不是,但它是我們設計、製造並大規模部署的定製元件嗎?是的。”
他補充道:“這些光環形器蘊含著一些非常酷的技術,與以往任何技術相比,它可以將光纖數量減少一半。”
至於用於在資料中心傳送和接收光訊號的收發器,Google結合高速光學、電子和訊號處理技術的發展,共同設計了跨越四代光互連速度(40、100、200、400GbE)的低成本波分復用收發器。
“我們發明了具有合適功率和損耗特性的收發器,因為這項技術面臨的挑戰之一是,我們現在會在兩個電開關之間的路徑上引入插入損耗。”
現在,光纖通道被光路開關取代,光在穿過裝置時會因反射而損失部分強度。“我們必須設計出能夠平衡成本、功耗和格式要求的收發器,以確保它們能夠承受適度的插入損耗,”戉方面說道。
“我們相信我們擁有市面上能效最高的收發器之一。這確實促使我們確保能夠從頭到尾地進行工程設計,以充分利用這項技術。”
這一整體願景的一部分是名為 Orion 的軟體定義網路 (SDN) 層。Google說,Orion 的出現早於阿波羅計畫,“所以我們當時已經進入了一個邏輯上集中化的控制平面”。
“從基於脊樑拓撲的邏輯集中式路由,到通過一定程度的流量工程來管理這種直接連接拓撲,這其中的差異——我並不是說這很容易,這花了很長時間,也投入了很多工程師,但如果我們之前沒有 SDN 流量工程,那麼這就不會是一次巨大的飛躍。”
該公司“本質上擴展了 Orion 及其路由控制平面,以管理這些直接連接拓撲,並最終根據交通訊號即時執行流量工程和鏡像的重新配置,但邏輯拓撲是即時的。
“因此,這是一項艱巨的任務,但它是可以想像的,而不是不可想像的。”
面臨的挑戰
Apollo計畫面臨的挑戰之一是重配置時間。雖然Clos網路使用EPS系統將所有連接埠相互連接,但OCS的靈活性卻不如EPS。如果您想更改直連架構以連接兩個不同的點,鏡像需要幾秒鐘才能重新配置,這比繼續使用EPS要慢得多。
Google認為,克服這一難題的關鍵在於減少重新配置的頻率。該公司在部署 OCS 時就考慮到了 OCS 系統,並以此為基礎建構了資料中心基礎設施。
“如果你聚集足夠多的資料,就可以利用長期存在的通訊模式,”Google方面說道。“我將使用Google的術語‘超級塊’,它是由1到2000台伺服器組成的聚合體。一定數量的資料會流向另一個超級塊。”
“如果我在一個資料中心裡有 20、30、40 個超級塊(甚至可能更多),從超級塊 X 到超級塊 Y 的資料量相對於其他超級塊來說並不是完全固定的,但存在一定的穩定性。
“因此,我們可以將所有資料保留在光域中,並將這些資料切換到目標超級塊,全程保持光傳輸。如果通訊模式發生變化,尤其是劇烈的變化,我們就可以重新配置拓撲結構。”
這也為資料中心內部網路的重新配置創造了機會。“如果我們需要更多的電分組交換機,我們可以動態地調配一個超級模組作為骨幹網,”Google方面說道。
“想像一下,我們有一個沒有連接任何伺服器的超級區塊,現在你可以招募這個超級區塊來充當專用主幹網,”他說,該系統將接管一個還沒有伺服器或未使用的區塊。
“它不需要同步任何資料,就可以將資料傳輸出去。一個並非流量源的超級塊本質上可以成為一個小型骨幹網。如果你喜歡圖論,也喜歡路由,這絕對是一個很棒的成果。而我恰好就很喜歡圖論。”
值得投入
“光路交換機現在可以成為樓宇基礎設施的一部分,”Google表示。“光子不關心資料是如何編碼的,所以它們的傳輸速度可以從每秒10吉位元提升到40吉位元,再到200吉位元,400吉位元,甚至800吉位元及更高,而無需進行任何升級。”
Google方面支出表示,不同代的收發器可以在同一網路中運行,而Google則按照自己的節奏進行升級,“而不是遵循外部最先進的技術,後者基本上規定,一旦你從一代速度升級到另一代速度,你就必須關閉整個資料中心並重新開始。”
Google方面之言從客戶的角度來看,最痛苦的是服務中斷長達六個月,他們不得不將服務遷移到其他平台一段時間。”
“以我們的規模來說,這意味著我們要不斷地進行人員調動,因為我們總要在某些方面進行升級,而且我們的服務部署在全球各地,有多個實例,這意味著我們的服務會一直受到這些變動的影響。”
同樣,由於每代產品都可以使用相同的OCS系統,資本支出成本也得以降低,而EPS系統則需要連同收發器一起更換。該公司認為成本已下降高達70%。瓦赫達特表示:“節能效果也相當顯著。”
保持輕量級通訊方式將為Google節省數十億美元,降低能源消耗,並減少延遲。
“我們目前是在超級模組等級進行這項工作,”Google方面說到說道。“我們能否找到更頻繁的光纖重配置方法,從而將其進一步下推至機架頂部等級?因為這樣做也會帶來顯著的優勢。這是一個我們尚未完全解決的難題。”
該公司目前正致力於開發連接埠數量更多、插入損耗更低、重配置速度更快的OCS系統。“我認為,效率和可靠性的提升空間將由此而來,”Google方面指出。
Google認為,其影響可能非常巨大。“如今現代資料中心的二分頻寬與整個網際網路的頻寬相當,”他說。
“換句話說,如果你把一個資料中心——我說的不僅僅是我們自己的資料中心,你最喜歡的超大規模資料中心也一樣——把它切成兩半,然後測量一下這兩半之間的頻寬,你會發現頻寬和把網際網路切成兩半看到的頻寬一樣多。所以,這代表著巨大的通訊量。”Google說。 (半導體行業觀察)