【GTC大會】黃仁勳GTC演講中被忽視的重磅技術:即將改寫AI工廠遊戲規則的CPO

在GTC2025大會上,NVIDIA依舊延續著“算力的故事”。如果AI的發展依舊遵循著scaling law(規模定律),那麼這個故事還能繼續講下去。

而事實卻是,雖然“算力不眠”的核心框架未變,但底層技術架構正在悄然發生變革。

當行業目光仍聚焦於 Blackwell Ultra GPU 的性能突破時,演講中那僅有幾分鐘的技術發佈 ——“將矽光技術直接整合至交換機晶片”—— 實則暗藏著 AI 基礎設施演進的關鍵密碼。


1 輝達的CPO

究竟是什麼?

在GTC大會上,黃仁勳的Keynote環節裡,輝達宣佈了Spectrum-X和Quantum-X矽光CPO交換機。

這兩款產品支援144×800G(H2 2025推出)和512×800G(H2 2026推出)的組態,旨在滿足AI超算對高頻寬、低功耗的迫切需求。


  • Spectrum-X Photonics: 乙太網路交換機,提供高達512個800Gb/s連接埠或2,048個200Gb/s連接埠,總吞吐量可達400Tbps
  • Quantum-X Photonics: InfiniBand交換機,提供144個基於200Gb/s SerDes的800Gb/s連接埠,總吞吐達115.2Tbps

根據Keynote提供的資訊,這些交換機相比傳統解決方案提供了顯著優勢:

  • 減少了系統整體的雷射器數量(75%)
  • 實現了3.5倍的能耗降低
  • 網路彈性提升10倍,顯著增強可靠性並保障執行階段間
  • 部署速度提升1.3倍
  • 訊號完整性提高到63倍





2 為百萬GPU

AI工廠打開大門

發佈會上,老黃的原話是:“NVIDIA將矽光直接整合到交換機中,打破了超大規模和企業網路的舊有限制,為百萬GPU AI工廠打開大門。”

在Scaling Law的引領下,不斷提升算力的規模成為了業界共識。從系統的角度看,擴大算力規模有兩個維度:一是提升晶片算力;二是增加系統中晶片的數量,也就是提升叢集規模。這又有兩種方式:橫向擴展(Scale-Out)和縱向擴展(Scale-Up)。

1)在第一種情況下,單晶片算力本身的效能提升主要受兩個因素的影響:算力值(密度)和記憶體頻寬,要想取得大幅度提升都需要在高端工藝製程上下功夫。

舉例來說,同樣面積下3nm製程的晶片就是比12nm的算力密度要高很多,HBM的頻寬就是要比傳統的DDR要高很多,這都和生產製造能力強相關。

對Fabless的AI晶片公司來講,卷算力就是卷製程,已經無法靠自己的架構設計的多麼巧妙來實現了,而是是否可以獲得甚至牽頭開發頂級製造能力的競爭。而即便這些都可以解決,基於電子計算的矽晶片的高端製程工藝提升,也面臨著物理極限的限制(劃重點,後面會提到)。

2)第二種是叢集規模的提升,橫向擴展(Scale Out)指的是突破規模限制進行擴展,而縱向擴展(Scale Up)則指成比例地增加性能。

  • 橫向擴展:可以理解為分散式運算,通過增加獨立的伺服器來分散工作負載,從而提高計算容量。在AI叢集裡可以類比為InfiniBand或者RoCE網路在做的事;
  • 縱向擴展:專注於升級單台伺服器或基於機箱的系統,通過向現有系統增加晶片來提升算力。在AI叢集裡可以類比為NVLink在做的事情;

可以看出,提升叢集規模算力的本質,是在卷通訊技術;


3 CPO究竟解決了什麼問題?

這樣一來,叢集中的通訊和組網技術就成了系統算力提升的關鍵要素。

傳統的方案裡,其中最重要的是兩點一線:兩點指的是通訊兩端的網路晶片(卡)和交換機,一線指的是基於包含了光模組和光纖在內的光傳輸系統。訊號的傳輸是在光纖裡,通過光模組連接到交換機。

傳統的光通訊架構裡,隨著交換機頻寬的增加,總鏈路功耗也快速增長。如下圖所示:


鏈路速率提升不僅意味著功耗增加,也加大了訊號完整性(SI)的技術難度,技術進步的挑戰顯著增大,如下圖所示:


考慮到光模組中DSP和交換機中的ASIC都是電晶片,如果將DSP的一些功能轉移到ASIC上,就可以省掉DSP,進而降低功耗。而另一方面,如果光模組中的光晶片和交換機中的電晶片(ASIC)的距離縮的足夠短,短到可以整合在一顆晶片上,那就又解決了訊號完整性的問題。如圖所示:


Co-Packaged Optics(CPO,共封裝光學,筆者也會翻譯作光電合封)的出現,就是為瞭解決這一系列問題。與傳統基於DSP的可插拔光模組相比具有顯著優勢。

CPO將光學元件直接與ASIC整合,拿掉了DSP晶片,將其功能遷移至ASIC(交換機的Switch晶片)側。這種整合有效降低了功耗,提升了效率和整體性能。通過將DSP從光模組中移除,並將光晶片與Switch ASIC晶片整合在一起從而極大縮短了二者之間的傳輸距離,CPO減少了訊號轉換過程中的延遲和功耗,使其成為高速資料傳輸中更具可擴展性和能效優勢的解決方案。如圖所示,基於台積電工藝下的能耗與延時在可插拔和CPO下的提升。


簡而言之,這次發佈的CPO交換機,就是去掉了光模組,讓光纖連接器直接接入交換機。




對於上圖中典型的“AI工廠”,以400K的GPU數量為例,主要的功耗資料如下表所示:



4 巨頭入局

AI計算將迎來改變

事實上,輝達並不是業內首家發佈CPO交換機的企業,此前,Broadcom率先發佈了25.6T和51.2T的CPO交換機晶片,並和業內廠商推出對應的CPO交換機。


還有Marvell,也推出了Teralynx® 的CPO方案。思科之前也推出過25.6T的CPO交換機。

今天NVIDIA CPO方案的正式推出,其重要的意義在於,全球最重要的資料中心級晶片大廠,繼Broadcom和Marvell兩大頂級通訊晶片和AI ASIC定製業務巨頭之後,計算與通訊雙料晶片巨頭的輝達也實現了產品化。這些頂級巨頭在產業具有極大的影響力,其在矽光和光電子領域的投入與產品迭代,對推動矽光與光電子產業的發展、進而實現計算系統的光化,都會起到超越推波助瀾的作用。

到此,意義已經不限於交換機。基於矽光的光電合封,將會從面向交換的CPO擴展到 GPU或其他AI計算晶片上,進一步提升計算晶片間通訊效能。如圖所示,Broadcom面向橫向擴展的基於網路交換的CPO方案和面向縱向擴展的基於AI計算核的CPO方案示意圖。


事實上,如果將同樣的思路用在Scale-Up上,也就是說將AI晶片和光晶片整合到一顆晶片上,AI晶片間互聯會極大地提高傳輸頻寬、降低功耗、提升訊號完整性,還可以大幅度拓展節點數。拿輝達來舉例,如果可以實現GPU+SiPh(矽光)的CPO,既可以加大NVLink的頻寬,還可以拓展集聯的GPU數量,NVL後面的數字可能就會超越288了。這種將GPU的基於電計算的矽晶片和基於光的矽光晶片異質整合,就是面向AI計算的CPO了。如圖所示,傳輸每位元所耗費的能量更低,延時更短。


如果站在互聯的角度,業內也將這樣的方案稱之為OIO(Optical I/O);

本次GTC上發佈的新GPU架構名叫Rubin,下一代將會是Feynman,預期在2028年推出。到那時,基於Feynman的架構將會是具備OIO能力新晶片:

  • Silicon Photonics (矽光連接) 將會替代銅纜互聯
  • 世界第一顆 1.6T 基於矽光的光互連介面
  • GPU/NVSwitch 將會實現光互連,如圖所示:


5 對中國的意義和影響是什麼?

近些年來,地緣政治格局出現巨大的不確定性,技術限製成了新聞常態。對中國來說,基於電計算的算力晶片,一直面臨著高端工藝製程和封裝的技術限制。美國商務部從2022年開始,逐年對此推出限制,從早起的算力密度、算力上限和互聯頻寬,到後來的電晶體數量、晶片面積和製程工藝,以致近期直接推行的白名單制度。中國算力晶片的前行之路,困難重重。多少業內精英,投身其中;多少天量資本,投入其中;而今,似有希望的微光,但產能依然緊缺;高端技術與工藝,仍需追趕。

而光計算與光傳輸給了另一重希望。

前面提到,算力晶片本身算力的提高,如果還是基於電子計算的矽算力核(Si-Compute Die),就要面臨著物理的極限。從技術路線的可行性角度看,基於光計算的算力核(Optical-Compute Die)是提升算力能耗比新的方向。當把AI晶片中的算力核也換成光計算的時候,這種基於光計算核+OIO的新型光電合封晶片,就會成為非常重要的技術路線和產品方案。


這種形態的AI算力晶片新形態,是下一階段算力的競爭戰略高地。

矽光晶片的流片,對Fab的要求並沒有那麼高,DUV光刻機就可以滿足需求,甚至都可以脫離光刻機採取其他的方式來實現更有想像力的產品形態。基於傳統電晶片封裝技術的積累,突破光電合封的難度並不會比傳統電晶片難更多。從這個角度來說,CPO帶來的趨勢對中國是友好的。在光通訊領域,中國有著世界前列的光模組和光晶片廠商,交換機領域國內企業市佔率也較高。矽光產業近一兩年來也獲得了更多的重視,矽光產線的建設也方興未艾。

但,還是要正視差距。如前所述,此領域靠前的依然是Broadcom、NVDIA和Marvell這些傳統大廠,是他們在引領產業和技術的發展。而在製造端,台積電作為傳統矽電晶片的高端製造巨頭,在2024年也對外宣佈了面向光電合封的技術方案——COUPE方案,在當前時刻又處於領先優勢。

更需要謹慎的是,美國在去年也開始關注中國的矽光產業發展,表示會實施出台限制政策。國會兩黨議員在10月28日敦促美國商務部審查中國發展矽光子技術對美國國家安全造成的威脅。其表示,矽光子技術是一個迅速發展的領域,可以加快人工智慧的進步。

但,東方既白,曙“光”已然呈現。在AI產業的競爭中,一直可以留在牌桌上是最重要的戰略目標。電晶片的時代在努力趕上,光晶片在更好開局的情況下,中國更不能、也不會落下。 (騰訊科技)