#叢集
兆空間!面向大規模智算叢集場景光互連技術白皮書! 2025
前言目前,智算叢集已成為支撐人工智慧大模型訓練、自動駕駛演算法迭代等前沿領域的核心基礎設施,並以驚人的速度從萬卡向十萬卡級規模演進。隨著單節點算力突破每秒百億億次,這類超大規模叢集的極致運算能力對互連鏈路頻寬、延遲和功耗提出了極為嚴苛的要求。傳統以銅介質為基礎的電互連方案,正面臨「頻寬牆」、「延遲牆」及「功耗牆」等三重嚴峻挑戰:單通道速率難以突破400Gbps,傳輸延遲高達數微秒,單機架互連功耗佔比更是超過40%,這一系列瓶頸已成為制約超大規模智算叢集互連功耗的核心障礙。相較於傳統可插拔光模組等設備級光互連技術,晶片級光互連正開闢全新的技術路徑與產業賽道。它透過先進封裝將光引擎與電晶片合封在一起,把電訊號的傳輸距離從米級大幅壓縮至毫米級,從而改寫了物理層互連架構,實現50%以上的系統能源效率提升。由此建構的「晶片—設備—叢集」一貫式全光互連架構,已被業界廣泛認定為下一代智算基礎設施的關鍵技術。本白皮書系統性剖析晶片級光互連技術的核心原理與架構設計,深入探討光源、調變器等關鍵元件的技術發展路徑。同時,全面整理晶片級光互連在國內外的產業現狀,客觀地研判未來演進趨勢與技術挑戰。期望透過產學研用多方協作,加速晶片級光互連技術從實驗室原型走向規模化商用落地,推動中國智算基礎設施在硬體架構層面實現跨越式升級,為數位經濟的高品質發展築牢堅實的算力基石。1. 下一代智算叢集提出近乎嚴苛的互連需求1.1. 大模型的巨量迭代引發智算叢集架構變革實現通用人工智慧(AGI, Artificial General Intelligent)已成為大模型未來發展方向的廣泛共識。大模型技術整體仍遵循擴展法則(Scaling Law),參數已邁向兆甚至十兆規模,對智慧算力的需求呈現爆炸性成長。如下圖所示,模型參數規模的成長速度約每兩年400倍,其演算法結構在原有Transformer的基礎上,引入擴散模型、專家系統(MoE, Mixture of Expert)等,使模型泛化能力增強,並具備處理10M+超長序列能力,推動晶片算力(FLOPS)約每兩年3倍的提升,需要至少百倍規模的叢集演進速度來支撐大模型的發展,但晶片間的互連能力提升緩慢,只有約每兩年1.4倍,遠落後於模型規模和算力的演進速度。圖1-1 智算場景中各技術領域擴展趨勢超大模型的訓練過程尤其是張量並行(TP, Tensor Parallelism)、專家並行(EP, Expert Parallelism)等模式依賴叢集內GPU晶片之間頻繁的資料互動。然而,互連速率的提升已嚴重滯後於算力的快速演進,導致顯著的通訊開銷,這直接限制了叢集有效算力隨GPU數量的線性增長,已成為制約叢集規模擴展和性能提升的關鍵瓶頸,如下圖所示。在此背景下,僅依靠IB(InfiniBand)或RoCE(RDMA over ConvergedEthernet)等傳統網路技術來滿足模型效能指標已十分困難,需建構具備高頻寬、低延遲特徵的GPU卡間互連技術體系,以擴大節點規模,大幅降低通訊時間佔比,最終實現叢集算效的顯著叢集算效的顯著叢集。圖1-2 算力隨著卡數規模擴大難以線性擴展同時,全球智算中心規模觸達十萬卡級別,智算叢集架構正經歷一場根本變革,從傳統單機八卡向超節點演變。超節點並非簡單的硬體堆疊,是一種透過極致效能的高速互連技術,將數十乃至上千顆GPU晶片整合於單一或多個機櫃的叢集系統,突破傳統裝置算力瓶頸,大幅降低多晶片並行運算的通訊損耗,實現大模型訓練與推理效率的飛躍。1.2. 大規模智算叢集呼喚「光進電退」技術目前,超節點智算群集展現出三大技術特性,一是互連效能高,GPU之間具有超低時延超高頻寬(百奈秒級,TB/s級)且無收斂的互連能力;二是算力密度高,由單一或多個機櫃構成,包含32個以上甚至到千卡的GPU數量,不斷逼近電互連物理部署極限;第三是能源效率PUE高,超節點單機櫃功率可達40kW以上,採用液冷為主、風冷為輔的散熱方案,配合櫃級集中電源供電,在提供更高供電效率的同時大幅降低資料中心PUE。為了實現更高的叢集算效水平,互連技術方案的演進迫在眉睫。在超節點設備的互連選擇上,目前主要存在兩種路徑:基於銅纜和基於光纖的傳輸方式。儘管銅纜作為目前的主流方案,相較於傳統的可插拔光模組與光纖組合,擁有技術成熟度、成本、可靠性以及部署維護便利性等多方面優勢。通常在小於2公尺短距離、低於800Gbps的非超高速網路場景中,銅纜憑藉這些優勢仍能滿足絕大多數應用需求。特別是無源直連銅纜(DAC, Direct Attach Cable),憑藉其極低的成本和超高的平均無故障時間(MTBF, Mean Time Between Failures),成為當前主流選擇。然而,在高速傳輸場景下,銅纜面臨距離受限、功耗激增、速率瓶頸和佈線困難等嚴峻挑戰,已然逼近其效能極限。隨著超節點叢集規模持續擴展至256節點乃至千卡級別,且單通道傳輸速率邁向800Gb/s,銅纜的固有物理侷限性正日益凸顯,已成為制約智算叢集互連性能與擴展潛力的嚴峻挑戰。圖1-3 不同速率的電訊號在伺服器內不同位置的損耗狀況首先,銅纜的限制體現在其距離限制。受限於訊號衰減,銅纜的有效傳輸距離極為有限。例如,在極短的10公分PCB走線中,100Gbps的速率就足以造成超過15dB的插入損耗,導致訊號失真率突破5%。當GPU跨越多機櫃時,距離超過10公尺的情況下,訊號衰減與功耗問題更為突出。其次,功耗激增是另一個核心痛點。在800Gbps及以上的高速傳輸場景下,電流通過銅線產生的巨大熱量不僅大幅推高了資料中心的營運成本,也顯著增加了系統的散熱複雜性。再者,銅纜面臨傳輸速率瓶頸。受限於「趨膚效應」和PCB走線的寄生電容、電感,其中長距離傳輸的單通道速率難以突破200Gbps,且多通道並行會導致嚴重的串擾,進一步限制了電互連的頻寬密度。最後,佈線困難成為規模化部署的巨大障礙。隨著智算叢集規模呈指數級擴張,所需的銅纜數量幾何級增長,使得佈線難度與成本顯著提高,嚴重限制叢集快速擴展和高效運維。這四大固有物理侷限,使得銅纜已無法滿足未來高算力密度和大規模擴展的智算叢集的嚴苛需求。為跨越基於電訊號銅纜傳輸的固有物理極限,新一代光互連技術正快速登上歷史舞台。以近封裝光學(NPO, Near Package Optics)、共封裝光學(CPO, Co-Packaged Optics)、以及光輸入/輸出(OIO, OpticalInput Output)為代表的創新方案成為替代銅纜方案的優秀選擇。這些技術的核心在於最大程度地縮短電訊號與光引擎(OE, OpticaEngine)之間的距離,實現在晶片層面即完成光電轉換,從根本上規避了傳統可插拔光模組的高成本與易故障問題,同時繼承了光纖傳輸的技術優勢。功耗顯著降低。 NPO、CPO等技術將光引擎與GPU封裝在同一基板甚至同一晶片上,將電信號路徑縮短至釐米甚至毫米級別,大幅減少了傳輸過程中的中繼損耗,並降低了SerDes介面的性能要求,從而係統性地降低了整體功耗。圖1-4 不同介面設計的SerDes功耗頻寬密度顯著提升。透過縮短電訊號傳輸路徑,這些技術可支援更高的單一連接埠傳輸速率,同時在同一封裝體內整合多個光通道,使得頻寬密度達到百Gbps/mm²至Tbps/mm²,遠超銅纜互連方案。此外,連接距離得到極大擴展。光訊號的低損耗特性使其能夠輕鬆覆蓋資料中心內數百公尺甚至10公里以上的距離,徹底打破了銅纜在遠距離傳輸上的桎梏。更重要的是,光互連在訊號完整性上展現出壓倒性優勢。多根銅纜並行傳輸時固有的串擾和反射問題,需依賴複雜的均衡演算法進行補償,而光訊號在傳輸過程中幾乎不受電磁幹擾,其傳輸損耗比電訊號低4至5個數量級,且與傳輸頻率無關,從根本上保障了訊號純度。圖1-5 不同速率下光和電訊號分別在晶片內和晶片外的損耗情況在空間利用方面,光互連在空間佔用和重量上也展現出較大優勢。一束直徑僅6mm的光纖即可容納12根光纖,提供超過19.2Tbps的總傳輸頻寬,而提供同等頻寬的銅纜束直徑將超過50mm,重量更是光纖的8倍。這種極致的輕量化與小型化設計,大大簡化了大規模叢集的佈線難度,降低了資料中心的營運成本,並為未來更高密度的整合提供了寶貴的實體空間。圖1-6 銅纜和光纖的部署對比儘管面臨初期成本高和技術門檻高等挑戰,但光互連技術所帶來的低損耗、長距離、高頻寬密度、高訊號完整性以及低空間佔用等核心優勢,使其成為突破超節點規模和算力極限的關鍵支撐。透過將光電轉換技術整合到晶片級別,光互連不僅拓展了傳輸距離,降低了系統功耗,更透過光訊號的長距離傳輸解決了單節點規模擴大的空間限制問題。 「光進銅退」已成為智算叢集的必然趨勢,是實現未來算力跨越式發展的核心驅動力。此外,光技術的引入已拓展到交換層,即光交換技術(OCS,OpticalCircuit Switching)。為解決傳統電交換機多次光電轉換導致的高能耗和微妙級延遲瓶頸,OCS直接在光域完成訊號路由,最高可達奈秒切換速度,較電交換快2-3個數量級。純光交換中微鏡反射型(MEMS,Micro-Electro-Mechanical Systems)做為其中一種比較成熟的技術,已經實現了商業化應用。2. 極致化需求驅動光互連技術革新根據不同應用場景,光互連技術主要分為資料中心間(DataCenter Interconnect,DCI)與資料中心內兩大類。資料中心內聚焦短距離傳輸場景(數公尺至數百公尺),核心訴求是高頻寬密度、低延遲及低功耗,常用多模光纖,精準適配機櫃內/跨機櫃互連需求。本白皮書重點探討資料中心內光互連技術的分類、裝置與技術趨勢。2.1. 業界存在兩大類光互連技術光互連技術是透過應用光電轉換與融合技術,取代電訊號在傳統資料傳輸場景中的主導角色,甚至直接取代晶片上的電IO功能,最終實現訊號在傳輸過程中遠距離、低功耗、高密度的目標。其中,實現光電轉換的光引擎(Optical Engine,OE)是光互連技術的核心。根據應用場景、光引擎與xPU晶片的距離以及封裝整合程度的差異,業界衍生出許多技術範疇,我們將其主要分為兩大類:設備級光互連和晶片級光互連。如下圖所示,在未來十萬卡級以上的智算中心群集設計中,設備級光互連主要有兩大技術,一是以光交換技術為主,主要應用於交換設備間網路連線中,提供超高連接埠密度、極高速率(無頻寬瓶頸)、連接距離從公尺到百公里級;二是以可插拔光模組技術為主,主要應用於超節點設備間網路連接中,提供較高速率、千卡以上規模、公里級長距離連接。晶片級光互連主要以共封裝光學為主,主要應用於超節點內並進一步下探到晶片內場景,提供超高頻寬密度(可達Tbps/mm²級)、超低時延、千卡以下互連規模、公里距離之內的連接,要求高可靠性。圖2-1 十萬卡級智算中心群集光互連架構設計2.1.1. 設備級光互連:光交換器的演進與應用隨著智算群集規模持續擴展,電交換晶片逐漸顯現瓶頸。單晶片容量受制於積體電路製程的發展,使得電交換晶片在製程製程、轉送架構與快取設計等方面面臨諸多挑戰,交換晶片更新迭代速度明顯放緩,網路規模難以快速擴展;高速SerDes和複雜轉送架構導致功耗和延遲不斷上升,訊號完整性問題也需要依賴複雜DSP補償。光交換為突破電交換的限制提供了新的路徑:一是,其在光層面直接完成連接埠間的切換,無需OEO轉換,徹底繞開了過程、緩存和SerDes衰減等物理瓶頸,可支援極高傳輸速率與超大規模叢集部署。光交換天然具備速率和協議無關的特性,從400G到800G乃至1.6T均可平滑支援,在速率升級時無需更換交換設備,極大降低了系統演進的複雜度和成本。二是,光交換透過端對端光路直通,避免了複雜的包解析與快取轉發,延遲大幅降低,功耗顯著優於電交換。其大規模連接埠整合能力,使得數百乃至數千埠的互聯成為可能,從而支撐大規模GPU叢集的靈活網路需求。第三是,透過集中化的控制與軟體編排,光交換也能夠支援拓樸重構、故障繞行和網路切片,提升算力利用率與網路穩健性。在維運方面,自動化光路配置減少了人工佈線帶來的潛在錯誤,進一步增強了網路的可用性和可靠性。圖2-2 光交換器內部架構範例2.1.2. 設備級光互連:可插拔光模組的演進與應用可插拔光模組已廣泛應用在傳統資料中心、電信網路以及智算中心大規模連接中,具備靈活性高與相容性強等特徵。其將光引擎(OE, Optical Engine)整合在可插拔模組中,如下圖所示,透過PCB(PCB,Printed Circuit Board)板級走線與有獨立基板的xPU(GPU, NPU, Swtich, etc)相連。目前市場主力產品的速率已達800G,未來採用矽光技術可達1.6T水平,封裝向高密度QSFP-DD/OSFP等演進。但面向智算未來高速率1.6T/3.2T以上的互連場景下,可插拔光模組將面臨訊號完整性惡化、依賴數位訊號處理器(DSP,Digital Signal Processor)進行複雜訊號補償所導致的系統功耗高、傳輸時延高等難題。圖2-3 可插拔光模組範例為解決DSP帶來的功耗、時延等難題,2022年Macom聯合輝達推出線性直驅可插拔光模組(LPO, Linear Pluggable Optics)方案,如下圖所示,相較於傳統可插拔光模組,LPO直接去除了DSP晶片,保留發射端高線性度的驅動晶片(Driver),以及接收電阻端高程的高線性度的驅動晶片(線性度電聯機(BD先前) Amplifier),從而建構一個純粹的模擬、「線性直驅」的光訊號處理通道,實現功耗和延遲的降低。雖然去除了DSP,但是DSP的功能並未消失,而是將部分功能轉移到了xPU晶片中。這意味著xPU的SerDes必須具備更強的線性驅動能力和訊號處理能力。圖2-4 傳統可插拔光模組(上圖)與LPO(下圖)的對比2.1.3. 晶片級光互連:從近封裝到光學I/O隨著專家模型的大EP(Expert Parallelism)架構發展趨勢,更大規模、更高頻寬密度和極低時延成為智算叢集的主要需求。如下圖所示:在規模方面,目前Scale-Up單層規模以32卡或64卡為主,需要進一步提升至256卡甚至千卡,高速傳輸的距離從板級、櫃內擴展到櫃間;在頻寬密度方面,目前國內單通道頻寬以200Gbps為主,需要進一步向800Gbps 甚至1.6Tbps 邁進, 頻寬密度要求提升至百Gbps/mm 2 到TGbps/mm 2 ;在時延方面,目前卡間資料傳輸時延為微秒級,需要進一步縮短至百奈米甚至十奈秒。目前可插拔光模組的互連延遲和頻寬瓶頸已無法滿足大規模智算群集互連需求。圖2-5 大規模智算叢集的互連效能需求晶片級光互連技術透過將電訊號傳輸路徑縮短至公分到毫米級(即加速卡內部),相較於基於電互連與可插拔光模組的互連方案,可實現超高頻寬密度、超低時延及高能效的智算群集互連能力。依據應用情境、光引擎與xPU 晶片的距離及包裝整合度,可將此技術分為近封裝光學(NPO,Near Packaged Optics)、共封裝光學(CPO,Co-packaged Optics)及光學IO(OIO,Optical Input/Output)三類。近封裝光學(NPO)NPO的核心思想是將光引擎(OE)與封裝後的xPU晶片相鄰佈局於同一塊高性能PCB基板上,透過極短的高性能電氣鏈路與GPU相連,形成一個整合度較高的系統,GPU與OE的間距通常在數釐米以內,同時確保通道損耗≤13dB。相較於傳統可插拔光模組,互連密度提高了2-3倍,是光互連向高整合度發展的過渡階段技術,為進一步向CPO演進奠定基礎。因NPO將GPU與光引擎物理分離,避免了GPU在工作時的高溫熱量直接衝擊對溫度敏感的光器件,從而導致波長漂移和系統性能下降,因此散熱設計更簡單、高效,系統更加穩定。同時,由於光引擎未和GPU共同封裝,在可維護性方面具備一定優勢,如果光部分失效,只需更換光引擎模組即可,避免了大量的維護成本;因此,NPO目前是國內GPU晶片廠商選擇的主要技術路徑,但仍需要在整合度、頻寬密度、延遲和能源效率方面進一步優化。圖2-6 近封裝光學(NPO)結構共封裝光學(CPO)CPO技術透過將OE與電晶片共同封裝在同一晶片基板或中介層上,實現系統的高整合度,使電訊號只需傳輸幾毫米。圖2-7 共封裝光學(CPO)結構CPO技術大幅提升了互連頻寬密度並能夠大幅降低系統誤碼率和設備功耗,同時也能夠大幅節省設備(如交換器)面板的空間,克服面板IO密度的限制。目前作為可插拔光模組的替代技術,CPO可實現整機設備功耗降低50%左右,如下圖所示。圖2-8 交換器設備功耗分析由於光引擎和電晶片緊密共封裝,任何子模組的故障都可能導致整個封裝體的更換,對良率和可維護性方面提出了極高要求。因此,基於CPO技術的產品處於發展初期,主要應用場景是智算中心的交換設備。但憑藉其在超高頻寬、低功耗、低延遲、高密度互連等方面的巨大潛力,CPO有望進一步下探至GPU算力晶片,實現算力晶片的直接出光,建構更有效率的端對端光互連鏈路。片間光學互連(OIO)相較於NPO/CPO是突破可插拔光模組的性能限制,OIO技術目標是為了取代計算晶片上電IO方案,透過先進封裝以芯粒形式與計算晶片整合,比CPO的互連性能更優。其核心理念是徹底摒棄傳統的銅線電氣I/O,消除了板級電氣走線的瓶頸,將頻寬密度提升至1Tbps/mm²(3D封裝)並將延遲降低至納秒級,能效提升相比CPO低一個數量級。OIO技術可以在運算資源池化領域發揮更大的作用,如應對計算晶片顯存容量和頻寬擴展受限的雙重挑戰,依託其顯著傳輸性能和距離,打破單晶片顯存物理邊界,將多節點獨立顯存整合為共享顯存池,透過光域直連實現池化顯存的低時延調度與高頻寬訪問,成為未來新數據中心的新關鍵結構架構。圖2-10 非聚合資料中心(Disaggregated DC)的互連頻寬需求2.1.4. 新型光互連技術具備巨大潛力可插拔光模組、NPO、CPO和OIO四大技術在頻寬密度、時延、能耗、相容性等方面表現各異,共同構成了覆蓋資料中心內不同需求場景的光互連技術體系(見下表),其中晶片級光互連聚焦出更能精準匹配智算群集未來演進需求的潛力技術,後續聚焦此類將聚焦。表2-1 傳統電交換與光交換(OCS)比較分析表2-2 光互連技術比較分析2.2. 晶片級光互連三大技術路線場景互補2.2.1. 晶片級光互連技術的組成原理從元件構成上來看,相較於採用分離式元件的傳統可插拔光模組,主流晶片級光互連技術由於矽光的引入,除雷射外,大部分已實現了多種光電元件的矽基整合。其技術方案構成主要分為三大關鍵組件:雷射(外部或與光引擎耦合)、光引擎、光纖及連接器。無論與電晶片的距離與整合度如何,實現高效光電轉換的光引擎和雷射都是晶片級光互連方案的主要研究對象。圖2-11 晶片級光互連的組件構成(以基於矽光技術的CPO設備為例)如下圖所示,光引擎由光積體電路(PIC, Photonic IntegratedCircuit)和電積體電路(EIC, Electronic Integrated Circuit)組成。其中PIC主要包含調製器(MOD, Modulator)和探測器(PD, Photo-detector),基於矽光子或III-V族化合物材料實現光訊號的調製、探測、解調和濾波等功能。其中,調製器負責將光訊號調製為與電氣介面相符的頻寬能力,多採用矽光調變器,包括馬赫-曾德爾調變器(MZM, Mach-Zehnder Modulator)、微環調變器(MRM, Micro Ring Modulator)等方案。偵測器負責在收端將光訊號轉換成電訊號;傳統可插拔光模組中常採用分立的PIN或雪崩光電偵測器,在晶片級光互連中,整合於矽光晶片上的鍺矽探測器(Ge-Si, Germanium-Silicon)成主流方案。EIC 主要由驅動電路( DRV, Driver ) 、 跨阻放大器( TIA, Transimpedance Amplifier)等組成,提供光調製器的驅動與控制,接收端訊號的放大、均衡以及功耗管理等功能。圖2-12 光引擎光電轉換的原理雷射(Laser)負責提供連續的、高品質的光源,而調製器則將電訊號編碼到光訊號上。與傳統光模組將雷射和調製器封裝在同一個發射光組件(TOSA, Transmitter Optical Subassembly)內不同,該方案通常將調製器整合到矽光晶片上,而將雷射器作為獨立的外接光源(ELS, External Laser Source)。這種架構通常以可插拔模組的形式存在,如下圖所示,可減少散熱影響,增強系統穩定性。外接雷射方案與光引擎的耦合帶了新的挑戰,業界也有基於直接調製光源的技術方案,可解決光源與調製器分離帶來的光效率問題,但也面臨傳輸距離以及速率性能受限等難題。圖2-13 左圖:博通自訂的ELS模組;右圖:符合OIF ELSFP規格ELS模組與傳統設備內部無光纖佈線設計不同,基於晶片級光互連技術的設備內部引入了額外的光纖及光纖連接器。如下圖所示,以基於矽光技術的CPO交換設備為例,光引擎緊密地圍繞ASIC晶片放置,設備內部的光互連路徑包含兩條:從ELS到光引擎,以及光引擎到機殼前方面板。其中後者為業界主要研究方向,其連接方法和類型會影響訊號、熱量和佈線密度的設備設計。圖2-14 基於矽光技術的CPO交換設備範例(博通CPO交換器)2.2.2. 三大技術路線並駕齊驅,矽光或成未來主流業界已提出並應用了多種晶片級光互連(如CPO)的實現方案,這些方案可按材料分類,也可按雷射器的放置位置分類,而材料與雷射器位置往往密切相關。業界目前有三大主要技術路線:其中基於矽光的整合方案通常採用外接雷射光源,屬於間接調製(即需要一個獨立的調製器來對光進行編碼);而基於垂直腔面發射雷射(VCSEL, Vertical-Cavity Surface-Emitting Laser)的方案則是由電子設備直接改變其註入電流來調製光源,無需額外的獨立調製器;Micro-LED則摒棄傳統雷射器,採用Micro-LED作為光源,採用陣列形式,單個晶片可整合數十至數百個,滿足高聚合速率需求。目前產業主線多以矽光整合為核心,採用MZM或MRM等調製方式,並配合外接雷射器實現高速信號中短距(~幾百米)傳輸;VCSEL陣列則在短距互連(~幾十米)中有成熟應用,但在高溫穩定性和更高速率下仍面臨一定挑戰;Mic ro-LED作為一種新興技術,主要聚焦於櫃內短距高速鏈路(~數米內)中的應用,展現出高響應速度、高密度陣列整合及低功耗的特性,但其在高速調製(如100Gbps以上)的穩定性以及與電晶片異質整合適配性等方面仍存在問題。外接雷射光源+矽光光引擎矽光整合方案是利用現有CMOS ( Complementary Metal OxideSemiconductor)製程進行光元件(包括調變器、偵測器、光波導等)開發與整合的技術。依調製器的不同,矽光方案可進一步分為兩類:一類採用MZM調變器,另一類則採用MRM調變器。 MZM在矽光可插拔光模組市場中應用廣泛,經過大量部署驗證了其可靠性。基於MZM的晶片級互連方案藉助此優勢,透過高度整合進一步提升了密度。MRM方案則提供了另一種可能,能夠進一步降低調變器的功耗,並提高整合密度。 MZM與MRM相比,MRM具有小尺寸及低驅動電壓的優點,而MZM則有較寬的可操作光波長範圍及較佳的熱穩定性,相關比較如圖2-13所示。圖2-15 左圖:MZM調變器右圖:MRM調變器矽光技術方案因整合度高、調變速率高,光源外接穩定性高,可涵蓋其他短距方案等特性,成為CPO的主流方案。隨著研究的深入,矽光技術有望成為OIO中最核心的光學解決方案。採用MRM的矽光整合方案實現OIO的第一步,可利用多個波長攜帶訊號,提高頻寬密度。目前此路線面臨光鏈路效率與系統協同性上的挑戰。一是外接雷射耦合損耗與對準難題,易因偏移導致功率衰減,雷射需提升輸出功率增加整體耗電量;二是單一光源故障可能影響多通道工作;第三是光源參數與矽光引擎的驅動需求適配依賴客製化調試,缺乏統一標準導致整合成本高。未來產業可透過採用晶圓級光學技術整合微透鏡陣列,並結合先進封裝方案,將系統損耗降低;光源側可採用量子點光頻梳雷射器,減少光纖用量並降低功耗並透過標準化統一光源電氣與機械參數,進一步優化能效與互通性。基於VCSEL的光引擎方案VCSEL方案依託垂直出光結構所帶來的光路設計彈性,以及高密度陣列支援多聲道並行傳輸的能力,可滿足智算群集櫃內/間的短距傳輸需求。憑藉成本優勢與低功耗特性,在光模組領域已應用多年。但基於VCSEL的晶片級互連方案目前仍處研發階段,核心瓶頸在於砷化鎵材料與矽基製程存在晶格失配,異質整合良率低,難以實現與電晶片的深度共封裝,更適合應用於NPO互連方案。圖2-16 基於VCSEL的光引擎範例基於VCSEL的晶片級互連方案研究趨勢主要聚焦於性能瓶頸突破,如推動單模化以解決頻寬限制,業界透過光子晶體結構設計、氧化限制層精度優化,結合PAM4高階調變技術,已實現單通道200Gbps速率高電導率電能提升訊號耗耗;透過低損耗訊號與電波進一步提升方案電能化電能與動力提升的關係電能提升距離電能動能與功率提升方案相增動能。基於Micro-LED的光引擎方案在光互連領域中,Micro-LED作為新型光源陣列逐漸受到關注。與矽光和VCSEL相比,Micro-LED的突出特點在於其天然適合建構二維高密度陣列,能夠實現多通道並行和空分複用,在有限封裝岸線上實現超過Tbps/mm 2的頻寬密度。在功耗方面,研究顯示其連結能源效率可望達到亞pJ/bit量級,適用於機櫃內的10公尺級短距連接。在製程路徑上,Micro-LED通常基於氮化鎵(GaN, Gallium Nitride)外延,在藍寶石或GaN基板上製備微米級發光單元,並透過異質整合與CMOS電路鍵合,為短距互連帶來一種能效與密度兼具的潛力方案。圖2-17 AVICENA MicroLED的光引擎方案範例基於Micro-LED的光互連方案技術趨勢著重於優化驅動電路、改進量子阱材料結構、延長雷射光源使用壽命以適應大規模叢集的高可靠性需求。整體來看,矽光方案因其性能優、CMOS製程整合高等特性已形成較成熟的產業和標準牽引,VCSEL陣列依託既有的短距應用在NPO方案中仍具競爭力,Micro-LED陣列提供了能效和並行密度上的新路徑。三者將在智算互連不同場景中形成互補,共同推動短距至中短距光互連技術的迭代升級。 (AI雲原生智慧算力架構)
華為發佈全球最強算力超節點和叢集
今日,華為全聯接大會2025在上海啟幕,華為副董事長、輪值董事長徐直軍發表題為“以開創的超節點互聯技術,引領AI基礎設施新範式”的主題演講,正式發佈全球最強算力超節點和叢集。華為副董事長、輪值董事長徐直軍發表主題演講徐直軍指出:“算力過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵,”並再次強調:“基於中國可獲得的晶片製造工藝,華為努力打造‘超節點+叢集’算力解決方案,來滿足持續增長的算力需求。”徐直軍認為,超節點在物理上由多台機器組成,但邏輯上以一台機器學習、思考、推理。華為發佈了最新超節點產品Atlas 950 SuperPoD和Atlas 960 SuperPoD超節點,分別支援8192及15488張昇騰卡,在卡規模、總算力、記憶體容量、互聯頻寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節點。基於超節點,華為同時發佈了全球最強超節點叢集,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規模分別超過50萬卡和達到百萬卡,是當之無愧的全世界最強算力叢集。徐直軍表示,基於全球最強算力的超節點和叢集,華為對於為人工智慧的長期快速發展提供可持續且充裕算力,充滿信心。同時,華為率先把超節點技術引入通用計算領域,發佈全球首個通用計算超節點TaiShan 950 SuperPoD,結合GaussDB分佈式資料庫,能夠徹底取代各種應用場景的大型機和小型機以及Exadata資料庫一體機,將成為各類大型機、小型機的終結者。華為基於三十多年構築的聯接技術能力,通過系統性創新,突破了大規模超節點的互聯技術巨大挑戰,開創了面向超節點的互聯協議靈衢(UnifiedBus),徐直軍宣佈華為將開放靈衢2.0技術規範,歡迎產業界夥伴基於靈衢研發相關產品和部件,共建靈衢開放生態。徐直軍強調:“華為將以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值。” (華為數字中國)
華為如何馴服AI算力「巨獸」?
HUAWEI  X  HUXIU在通往通用人工智慧(AGI)的路上,如何像其他領域一樣實現彎道超車,是業界繞不開的話題。在過去的十餘年時間裡,各項單點技術飛速演進,但隨著單點技術演進的邊際效應遞減和系統複雜度的提升,系統性能的天花板逐步從單點技術的上限演變成系統工程上限:單點優勢越來越像是精緻的零件,提升空間有限;但採用系統工程創新,各個部分完美配合、高效協同,實現整個系統的效能最優,才有更積極的現實意義。如何在發揮單點技術優勢的同時,以整體視角重新建構路徑,通過對複雜系統的極致把控與再組織、找到新的突破可能?解決這個看似不可能的問題,就有望為我們獨立引領最前沿技術發展創造條件。近期,虎嗅將推出《華為技術披露集》系列內容,通過一系列技術報告,首次全面詳述相關技術細節,為業界提供參考價值。我們期待通過本系列內容,攜手更多夥伴共同建構開放協作的生態系統,助力昇騰生態在中國的蓬勃發展。《華為技術披露集》系列 VOL.13 :萬卡叢集你是否注意到,現在的 AI 越來越 "聰明" 了?能寫小說、做翻譯、甚至幫醫生看 CT 片,這些能力背後離不開一個默默工作的 "超級大腦工廠"——AI 算力叢集。隨著人工智慧從簡單規則判斷進化到能處理兆參數的大模型,單台電腦的算力就像小舢板面對汪洋大海,而算力叢集則是把上萬台甚至幾十萬台電腦像搭積木一樣連接起來,形成一艘能承載巨量計算任務的 "算力航空母艦"。當我們把上萬台電腦整合成一個有機整體時,需要解決一系列世界級難題:如何讓它們像精密鐘錶一樣協同工作?如何在部分裝置故障時依然保持高效運行?如何快速修復大規模訓練中的中斷問題?接下來我們將逐一揭秘這些支撐 AI 算力叢集的關鍵特性,看看華為團隊如何用工程智慧馴服這頭算力巨獸。01 超節點高可用:24 小時不停工的智能工廠就像醫院的急診系統必須時刻線上,AI 訓練和推理也不能輕易中斷。算力叢集裡每台電腦都有 "備用替身",當某台機器出現故障(比如突然斷電或硬體損壞),系統會立刻啟動備用機接管任務,就像接力賽中接力棒無縫傳遞,確保自動駕駛訓練、語音識別等任務持續運行,不會因為個別裝置故障而全盤停止。針對CloudMatrix 384超節點,華為團隊提出面向整個超節點的故障容錯方案,分為“系統層容錯”、“業務層容錯”,以及後續“維運層容錯”,核心思想就是 將故障問題轉為亞健康問題,通過維運手段優雅消除:(1) 系統層容錯:通過超時代答欺騙OS+網路路由切換,防系統藍色畫面,同時避免整個超節點級故障。(2) 業務層容錯:租戶無感知下,通過重試容忍網路閃斷,將系統故障轉為亞健康。(3) 維運層容錯:主要構築亞健康感知和優雅恢復技術,通過主動方式將消減亞健康事件影響。02 叢集線性度:人多力量大的完美協作理想情況下,100 台電腦的算力應該是 1 台的 100 倍,1000 台就是 1000 倍,這就是 "線性度"。算力叢集通過精密的任務分配演算法,讓每台電腦都像 orchestra(交響樂團)的樂手一樣各司其職,避免出現 "三台和尚沒水喝" 的混亂。比如訓練一個需要兆次計算的模型時,萬台電腦能像整齊劃一地划槳的龍舟隊,讓算力隨規模增長而幾乎同步提升。華為團隊提出華為團隊提出拓撲感知的協同編排技術TACO、網路級網存算融合技術NSF、拓撲感知的層次化集合通訊技術NB、無侵入通訊跨層測量與診斷技術AICT等四項關鍵技術,實現盤古模型訓練線性度提升。實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2叢集相比256卡基線,線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡A2叢集相比512卡基線,線性度95.05%;4K卡CloudMatrix 叢集相比256卡基線,線性度96.48%。03 萬卡叢集訓練快速恢復:帶 "存檔功能" 的訓練師當用上萬個計算單元(俗稱 "萬卡")訓練超大規模模型時,偶爾有幾台機器 "罷工" 是難免的。這時系統會像遊戲存檔一樣,自動記錄最近的訓練進度。一旦檢測到故障,能快速定位出問題的計算單元,跳過故障部分,從最新的存檔點繼續訓練,避免從頭再來的巨大浪費。比如訓練一個需要 30 天的模型,即使中間有裝置故障,也能在幾分鐘內恢復進度,就像影片播放可以隨時續播。為了使萬卡叢集訓練可以達到分鐘級快恢,華為團隊提出了以下多個創新:(1) 處理程序級重調度恢復:正常節點通過參數面網路將臨終CKPT傳遞到備用節點上,完成參數狀態恢復後繼續訓練,能夠有效縮短訓練恢復時間到3min以內。(2) 處理程序級線上恢復:針對硬體UCE故障,通過業務面昇騰CANN軟體、框架軟體、MindCluster軟體配合實現故障地址線上修復,進一步縮短訓練恢復時間到30s以內。(3) 算子級線上恢復:針對CloudMatrix 384產品HCCS網路、ROCE參數面網路提供HCCL算子重試能力,容忍更長時間的網路異常,實現網路故障影響的通訊算子秒級重執行,訓練任務不中斷。04 超大規模MoE模型推理分鐘級恢復:各路英豪來幫忙隨著千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進為大EP組網架構,將多且小的專家部署在多個伺服器節點上緩解視訊記憶體頻寬壓力,目前在大EP組網架構下主要面臨部署規模擴大導致的故障機率數量增大、故障爆炸半徑變大的可靠性問題,任意硬體故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。針對當前超大規模MoE模型帶來的大EP推理架構的可靠性難題,我們提出三級容錯方案,實例間切換、實例內重啟恢復、實例內無損恢復,從硬體驅動層、框架層、平台層相互協作,構築端到端可靠性體系。在不同的故障場景下,採用不同的容錯恢復手段,可以最小化使用者損失。(1)實例內快速重啟恢復技術:根據實際環境測試驗證,該技術將實例恢復時間從20min降低5min。(2)TOKEN級重試:基於DeepSeekV3在CloudMatrix 384超節點場景下,驗證30~60s實現實例恢復。(3)減卡彈性恢復技術:作為當前進行工作,解決硬體故障下業務中斷問題,通過專家遷移,實現故障時推理處理程序不退出,以減卡為容錯手段,動態調整推理實例規模,在使用者無感知情況下秒級恢復。05 故障管理與感知診斷:24 小時線上的裝置醫生算力叢集裡有一套即時監控系統,就像給每台電腦安裝了 "健康手環",持續監測溫度、算力利用率、資料傳輸速度等指標。一旦發現某台裝置運行異常(比如散熱不良導致速度變慢),系統會立即發出警報,並像醫生一樣分析故障原因 —— 是硬體老化?網路擁堵?還是軟體 bug?快速定位問題並啟動修復機制,防止小故障演變成大停機。針對面向算力叢集的硬體故障管理,華為團隊提供了一套完整的解決方案:基於CloudMatrix 384超節點的裝置物理形態和組網方案的昇騰AI硬體災備高可靠架構設計、涵蓋基礎檢錯糾錯能力、故障隔離能力、故障容錯能力以及深度巡檢與故障預測能力的昇騰RAS統一故障管理容錯框架、進一步提升光鏈路的可靠性的網路自診斷可靠性管理、以及綠色低碳、穩定可靠和安全可信的雲資料中心管理體系。針對面向算力叢集的故障感知能力,華為團隊建構了大規模叢集線上故障感知(全端可觀測)和故障診斷(全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷)技術:(1) 全端可觀測能力:建構了大規模叢集的故障感知能力,主要由叢集運行檢視、告警檢視、網路鏈路監控、告警接入和配置、網路流可觀測能力組成。(2) 故障診斷能力:包括全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷。06 建模模擬:算力底座的“數位化風洞”在正式開展複雜AI模型的訓推之前,算力叢集可以先在虛擬環境的“數位化風洞”中 "綵排"。比如研發一個新藥篩選模型時,先通過模擬不同的演算法參數、資料輸入和計算資源分配方案,預測模型在真實場景中的表現,就像電影導演用動畫預演複雜鏡頭。這種 "先模擬後實戰" 的方式,能提前發現計算系統的瓶頸點和邏輯漏洞,並提出相應最佳化手段,節省大量真實訓推的時間和資源。華為團隊創新性提出系統化、可擴展的馬爾科夫建模模擬平台,圍繞對訓練、推理、高可用三大核心領域實現多維度系統性建模分析與性能預測調優,實現叢集資源高效配置與動態最佳化,達成算力極致利用與系統長期穩定可靠運行。(1)Sim2Train訓練建模模擬:馬爾科夫訓練叢集建模模擬平台,AdaptPack編排最佳化長序列PP空泡,吞吐提升4.5%-8.24%。通訊與計算協同場景,引入AdaptS/R技術,通訊暴露時間降89.84%,單步總時長縮短3.25%;MoE通過AdaptExpert提升端到端性能7.5%。(2)Sim2Infer推理建模模擬:面向昇騰複雜推理系統的馬爾科夫建模模擬平台,實現了從高層算子描述到底層硬體指令的自動化對應與模擬,平均誤差低至6.6%。(3)Sim2Availability高可用建模模擬:馬爾科夫高可用建模模擬框架,通過離散時間步長模擬,建模單步時長內的故障性能劣化影響與恢復耗時,模擬複雜系統訓練任務中的故障場景及維運響應,實現對訓練過程性能表現與故障恢復狀態的全周期監控模擬。07 框架遷移:給模型跑車換更酷炫輪胎自從2020年3月全面開源以來,華為推出的全場景AI框架昇思MindSpore一路高歌猛進,開發者生態迅速成長。除了為基於昇騰+昇思的自主創新外,昇思MindSpore也提供了擁抱主流生態的相容方案,適應大模型時代的挑戰和需求。(1)訓練階段,MindSpore建構了MSAdapter生態適配工具,覆蓋90%以上PyTorch介面,實現第三方框架的無縫遷移,並針對動態圖執行效率的問題,通過多級流水線技術與即時編譯(JIT)最佳化顯著提升執行效率。(2)推理階段,MindSpore基於主流生態的HuggingFace權重配置,無需修改即可實現一鍵部署,通過vllm-MindSpore外掛對接vLLM框架,支援大模型推理服務化能力。實現盤古72B模型快速部署,實現推理性能提升。08 寫在最後綜上所述,華為團隊針對昇騰算力叢集基礎設施,提出了針對超節點高可用、叢集線性度、萬卡叢集訓練快速恢復、兆MoE模型推理容錯、叢集故障感知及感知診斷、叢集模擬建模、框架遷移等方面的全維度的創新方案。隨著新型應用快速變化,硬體系統持續創新,系統架構不斷演進,工程能力走向智能化,未來算力基礎設施的演進將走上演算法-算力-工程協同進化的道路,有可能形成形成“應用需求→硬體創新→工程反哺”的閉環,演算法層驅動算力專用化(如復合AI需異構加速),算力層通過架構革新(如光電混合)釋放性能潛力,工程層以智能化手段(如AI維運)彌合複雜度鴻溝,最終實現高效、彈性、自癒的下一代算力基礎設施。 (虎嗅APP)
華為昇騰萬卡叢集揭秘:如何馴服AI算力「巨獸」?
萬卡叢集可用度達到98%,叢集秒級快恢(訓練+推理)。01 引言你是否注意到,現在的AI 越來越 "聰明" 了?能寫小說、做翻譯、甚至幫醫生看 CT 片,這些能力背後離不開一個默默工作的 "超級大腦工廠"——AI 算力叢集。隨著人工智慧從簡單規則判斷進化到能處理兆參數的大模型,單台電腦的算力就像小舢板面對汪洋大海,而算力叢集則是把上萬台甚至幾十萬台電腦像搭積木一樣連接起來,形成一艘能承載巨量計算任務的 "算力航空母艦"。當我們把上萬台電腦整合成一個有機整體時,需要解決一系列世界級難題:如何讓它們像精密鐘錶一樣協同工作?如何在部分裝置故障時依然保持高效運行?如何快速修復大規模訓練中的中斷問題?接下來我們將逐一揭秘這些支撐AI 算力叢集的關鍵特性,看看華為團隊如何用工程智慧馴服這頭算力巨獸。02 超節點高可用:24小時不停工的智能工廠就像醫院的急診系統必須時刻線上,AI 訓練和推理也不能輕易中斷。算力叢集裡每台電腦都有 "備用替身",當某台機器出現故障(比如突然斷電或硬體損壞),系統會立刻啟動備用機接管任務,就像接力賽中接力棒無縫傳遞,確保自動駕駛訓練、語音識別等任務持續運行,不會因為個別裝置故障而全盤停止。針對CloudMatrix 384超節點,華為團隊提出面向整個超節點的故障容錯方案,分為“系統層容錯”、“業務層容錯”,以及後續“維運層容錯”,核心思想就是 將故障問題轉為亞健康問題,通過維運手段優雅消除:(1) 系統層容錯:通過超時代答欺騙OS+網路路由切換,防系統藍色畫面,同時避免整個超節點級故障。(2) 業務層容錯:租戶無感知下,通過重試容忍網路閃斷,將系統故障轉為亞健康,(3) 維運層容錯:主要構築亞健康感知和優雅恢復技術,通過主動方式將消減亞健康事件影響。03 叢集線性度:人多力量大的完美協作理想情況下,100 台電腦的算力應該是 1 台的 100 倍,1000 台就是 1000 倍,這就是 "線性度"。算力叢集通過精密的任務分配演算法,讓每台電腦都像 orchestra(交響樂團)的樂手一樣各司其職,避免出現 "三台和尚沒水喝" 的混亂。比如訓練一個需要兆次計算的模型時,萬台電腦能像整齊劃一地划槳的龍舟隊,讓算力隨規模增長而幾乎同步提升。華為團隊提出華為團隊提出拓撲感知的協同編排技術TACO、網路級網存算融合技術NSF、拓撲感知的層次化集合通訊技術NB、無侵入通訊跨層測量與診斷技術AICT等四項關鍵技術,實現盤古模型訓練線性度提升。實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2叢集相比256卡基線,線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡A2叢集相比512卡基線,線性度95.05%;4K卡CloudMatrix 叢集相比256卡基線,線性度96.48%。04 萬卡叢集訓練快速恢復:帶"存檔功能" 的訓練師當用上萬個計算單元(俗稱"萬卡")訓練超大規模模型時,偶爾有幾台機器 "罷工" 是難免的。這時系統會像遊戲存檔一樣,自動記錄最近的訓練進度。一旦檢測到故障,能快速定位出問題的計算單元,跳過故障部分,從最新的存檔點繼續訓練,避免從頭再來的巨大浪費。比如訓練一個需要 30 天的模型,即使中間有裝置故障,也能在幾分鐘內恢復進度,就像影片播放可以隨時續播。為了使萬卡叢集訓練可以達到分鐘級快恢,華為團隊提出了以下多個創新:(1) 處理程序級重調度恢復:正常節點通過參數面網路將臨終CKPT傳遞到備用節點上,完成參數狀態恢復後繼續訓練,能夠有效縮短訓練恢復時間到3min以內(2) 處理程序級線上恢復:針對硬體UCE故障,通過業務面昇騰CANN軟體、框架軟體、MindCluster軟體配合實現故障地址線上修復,進一步縮短訓練恢復時間到30s以內。(3) 算子級線上恢復:針對CloudMatrix 384產品HCCS網路、ROCE參數面網路提供HCCL算子重試能力,容忍更長時間的網路異常,實現網路故障影響的通訊算子秒級重執行,訓練任務不中斷。05 超大規模MoE模型推理分鐘級恢復:各路英豪來幫忙隨著千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進為大EP組網架構,將多且小的專家部署在多個伺服器節點上緩解視訊記憶體頻寬壓力,目前在大EP組網架構下主要面臨部署規模擴大導致的故障機率數量增大、故障爆炸半徑變大的可靠性問題,任意硬體故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。針對當前超大規模MoE模型帶來的大EP推理架構的可靠性難題,我們提出三級容錯方案,實例間切換、實例內重啟恢復、實例內無損恢復,從硬體驅動層、框架層、平台層相互協作,構築端到端可靠性體系。在不同的故障場景下,採用不同的容錯恢復手段,可以最小化使用者損失。(1)實例內快速重啟恢復技術:根據實際環境測試驗證,該技術將實例恢復時間從20min降低5min。(2)TOKEN級重試:基於DeepSeekV3在CloudMatrix 384超節點場景下,驗證30~60s實現實例恢復。(3)減卡彈性恢復技術:作為當前進行工作,解決硬體故障下業務中斷問題,通過專家遷移,實現故障時推理處理程序不退出,以減卡為容錯手段,動態調整推理實例規模,在使用者無感知情況下秒級恢復。06 故障管理與感知診斷:24小時線上的裝置醫生算力叢集裡有一套即時監控系統,就像給每台電腦安裝了"健康手環",持續監測溫度、算力利用率、資料傳輸速度等指標。一旦發現某台裝置運行異常(比如散熱不良導致速度變慢),系統會立即發出警報,並像醫生一樣分析故障原因 —— 是硬體老化?網路擁堵?還是軟體 bug?快速定位問題並啟動修復機制,防止小故障演變成大停機。針對面向算力叢集的硬體故障管理,華為團隊提供了一套完整的解決方案:基於CloudMatrix 384超節點的裝置物理形態和組網方案的昇騰AI硬體災備高可靠架構設計、涵蓋基礎檢錯糾錯能力、故障隔離能力、故障容錯能力以及深度巡檢與故障預測能力的昇騰RAS統一故障管理容錯框架、進一步提升光鏈路的可靠性的網路自診斷可靠性管理、以及綠色低碳、穩定可靠和安全可信的雲資料中心管理體系。針對面向算力叢集的故障感知能力,華為團隊建構了大規模叢集線上故障感知(全端可觀測)和故障診斷(全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷)技術:(1) 全端可觀測能力:建構了大規模叢集的故障感知能力,主要由叢集運行檢視、告警檢視、網路鏈路監控、告警接入和配置、網路流可觀測能力組成(2) 故障診斷能力:包括全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷;07 建模模擬:算力底座的“數位化風洞”在正式開展複雜AI模型的訓推之前,算力叢集可以先在虛擬環境的“數位化風洞”中 "綵排"。比如研發一個新藥篩選模型時,先通過模擬不同的演算法參數、資料輸入和計算資源分配方案,預測模型在真實場景中的表現,就像電影導演用動畫預演複雜鏡頭。這種 "先模擬後實戰" 的方式,能提前發現計算系統的瓶頸點和邏輯漏洞,並提出相應最佳化手段,節省大量真實訓推的時間和資源。華為團隊創新性提出系統化、可擴展的馬爾科夫建模模擬平台,圍繞對訓練、推理、高可用三大核心領域實現多維度系統性建模分析與性能預測調優,實現叢集資源高效配置與動態最佳化,達成算力極致利用與系統長期穩定可靠運行。(1)Sim2Train訓練建模模擬:馬爾科夫訓練叢集建模模擬平台,AdaptPack編排最佳化長序列PP空泡,吞吐提升4.5%-8.24%。通訊與計算協同場景,引入AdaptS/R技術,通訊暴露時間降89.84%,單步總時長縮短3.25%;MoE通過AdaptExpert提升端到端性能7.5%。(2)Sim2Infer推理建模模擬:面向昇騰複雜推理系統的馬爾科夫建模模擬平台,實現了從高層算子描述到底層硬體指令的自動化對應與模擬,平均誤差低至6.6%。(3)Sim2Availability高可用建模模擬:馬爾科夫高可用建模模擬框架,通過離散時間步長模擬,建模單步時長內的故障性能劣化影響與恢復耗時,模擬複雜系統訓練任務中的故障場景及維運響應,實現對訓練過程性能表現與故障恢復狀態的全周期監控模擬。08 框架遷移:給模型跑車換更酷炫輪胎自從2020年3月全面開源以來,華為推出的全場景AI框架昇思MindSpore一路高歌猛進,開發者生態迅速成長。除了為基於昇騰+昇思的自主創新外,昇思MindSpore也提供了擁抱主流生態的相容方案,適應大模型時代的挑戰和需求。(1)訓練階段,MindSpore建構了MSAdapter生態適配工具,覆蓋90%以上PyTorch介面,實現第三方框架的無縫遷移,並針對動態圖執行效率的問題,通過多級流水線技術與即時編譯(JIT)最佳化顯著提升執行效率。(2)推理階段,MindSpore基於主流生態的HuggingFace權重配置,無需修改即可實現一鍵部署,通過vllm-MindSpore外掛對接vLLM框架,支援大模型推理服務化能力。實現盤古72B模型快速部署,實現推理性能提升。09 總結與展望綜上所述,華為團隊針對昇騰算力叢集基礎設施,提出了針對超節點高可用、叢集線性度、萬卡叢集訓練快速恢復、兆MoE模型推理容錯、叢集故障感知及感知診斷、叢集模擬建模、框架遷移等方面的全維度的創新方案。隨著新型應用快速變化,硬體系統持續創新,系統架構不斷演進,工程能力走向智能化,未來算力基礎設施的演進將走上演算法-算力-工程協同進化的道路,有可能形成形成“應用需求→硬體創新→工程反哺”的閉環,演算法層驅動算力專用化(如復合AI需異構加速),算力層通過架構革新(如光電混合)釋放性能潛力,工程層以智能化手段(如AI維運)彌合複雜度鴻溝,最終實現高效、彈性、自癒的下一代算力基礎設施。 (雷峰網)
光晶片,火力全開
光子學在資料中心人工智慧的加速中發揮著越來越重要的作用。全球光學元件市場規模龐大,去年營收達170億美元。歷史上,電信行業(例如海底電纜和光纖到戶)一直是光學元件需求的主導。然而,資料通訊領域,尤其是人工智慧驅動的資料中心,如今佔據了超過60%的市場份額。這種轉變正在加速光學技術的發展。為了跟上AI計算叢集(XPU,包括GPU和定製加速器)不斷提升的性能,光傳輸速率正在快速提升。圖1:光學元件市場歷史及預測據摩根大通稱,最大的光學元件供應商是相干公司和旭創科技(各佔20%的市場份額),其次是博通,佔10%。眾多規模較小的供應商也在為不斷擴大的生態系統做出貢獻。大模型 (LLM) 推動 AI 資料中心增長大型語言模型 (LLM) 正在推動 AI 工作負載呈指數級增長。隨著 AI 能力的提升和成本的下降,需求也隨之激增。LLM 規模的不斷擴大需要龐大的 XPU 叢集。互連需求的增長速度超過了 XPU 數量本身的增長速度,這迫切需要高頻寬、低延遲的網路解決方案。博通首席執行官 Hock Tan 指出,資料中心的網路成本正在攀升,從目前資本支出的 5% 到 10% 上升到 2030 年預計的 15% 到 20%。圖 2:AI 叢集規模呈爆炸式增長例如,Oracle 雲基礎設施 (OCI) 正在部署通過 NVLink72 互連的 131,000 個 Nvidia Blackwell GPU 的叢集。圖 3:Oracle 雲基礎設施超級叢集產品,助力生成式 AI橫向擴展與縱向擴展網路在人工智慧資料中心中,互連主要有兩種類型:橫向擴展:光纖鏈路連接跨機架和跨行的交換機擴大規模:電氣鏈路連接少量機架內和機架之間的 GPU圖 4:資料中心的光學系統雖然橫向擴展網路已經是光學的,但縱向擴展網路向光子學的轉變正在進行中,但尚未完成。橫向擴展網路中的光學進步光子技術是橫向擴展架構的核心。如今,可插拔光纖收發器能夠實現數十米範圍內部網路卡和交換機之間的資料傳輸。隨著資料速率的提升,這些解決方案面臨著越來越大的功耗和性能限制。Oracle 的 131K-GPU 架構在其橫向擴展網路的三個層級上均使用了光纖鏈路。然而,傳統的可插拔光纖鏈路功耗巨大。圖 5:Oracle 光纖叢集網路結構圖6:功耗和TCO仍然是主要考慮因素為了滿足LLM的增長和吞吐量需求,橫向擴展網路中的資料速率不斷提升,網路功率已超過加速器機架功率。據Nvidia稱,從可插拔光模組轉換為CPO(共封裝光模組)可以大幅降低1.6Tbps鏈路的光模組功率,從30W降至9W。在 GTC25 上,Nvidia 推出了首款搭載 CPO 的橫向擴展交換機。其節能特性可實現更高的 GPU 密度——在相同的資料中心功率範圍內,GPU 數量最多可增加 3 倍。圖 7:Spectrum-X 光子技術可節省 3.5 倍功耗可靠性是從銅纜到光纖再到CPO的關鍵考慮因素。人工智慧資料中心的資料量巨大,而且增長速度飛快,就像iPhone一樣。從統計資料來看,良率和可靠性必須非常高。Google平台光學總監表示,每天0.004%的鏈路故障率聽起來不錯,但對於100萬條鏈路來說,這意味著每天有40條鏈路故障。光學解決方案需要設計成極低的故障率,並在非常苛刻的條件下進行測試,並使用非常大的樣本量,以確保量產成功。擴大網路中 CPO 之路目前,縱向擴展互連仍以銅線為主。Nvidia 的 Blackwell 架構採用全銅解決方案 NVLink72,其廣泛的布線貫穿了主機板、交換機和機架背板。如今訊號頻率極高,銅線束可以直接連接到 GPU,從而繞過傳統的 PCB 走線。圖 8:Nvidia 的路線圖已延伸至 NVLink576,該線路仍使用銅纜,但不斷提升的資料速率和訊號完整性問題最終將需要採用光纖解決方案然而,銅纜的侷限性正日益凸顯。Nvidia 的路線圖已延伸至 NVLink576,該線路仍然使用銅纜,但不斷增長的資料速率和訊號完整性問題最終將需要光纖解決方案。微軟提出了對未來AI加速器的CPO要求,希望用一個具有可組態介面的單一物理層來取代現有的介面。圖9:新的互連場景需要統一介面,並具有更嚴格的延遲和可靠性要求新的統一介面需要“兼顧兩者”——合併後的規範比它們所取代的傳統介面更好。這給CPO帶來了更大的挑戰,但同時也擴大了市場。圖10:新的統一介面需要比它所取代的傳統介面更好Nvidia 還提出了對 CPO 與 AI 加速器整合的要求:圖 11:Nvidia 的 CPO 要求這些要求雖然具有挑戰性,但切實可行。Needham & Company 建議,在 Scale-Up 網路中,CPO 的初步遷移將發生在單個 GPU 域內的機架之間,而機架內連接暫時仍採用銅纜連接。100% 的資料中心 AI 晶片均由台積電製造。他們深度參與所有主要 AI 廠商的技術路線圖:他們只開發主要客戶所需的產品。台積電在 4 月底的年度技術大會上展示了其 AI 晶片路線圖,其中包括共封裝光學器件:他們預見到了這一趨勢,並正在為此做好準備。市場前景和行業參與者預計未來幾年內,規模化網路將開始向 CPO 過渡,並在 2030 年代大規模替換可插拔式光模組。到 2030 年,CPO 市場規模將從目前的零增長到 50 億美元。博通、Marvell、Ayar Labs、Celestial AI 和 Lightmatter 等早期進入者以及 Coherent 等雷射器供應商都將從中受益。圖12:光學元件快速發展,CPO將在2027-2030年出現光子學不再僅僅賦能人工智慧,它正成為人工智慧規模化發展中不可或缺的一部分。到2030年代中期,所有互連都將是光學的,並且都將採用CPO。 (半導體行業觀察)