#智算
比GPU性能更強?TPU全解析(AI算力、Google、輝達、智算中心)
AI能在幾秒內處理百萬條資料,背後靠的是什麼晶片?常聽人說GPU支撐AI算力,那TPU又在起什麼作用?它和我們手機裡的晶片有本質區別嗎?實際上TPU就像AI的專屬廚師,專門做AI最需要的算力工作,不多但精準高效。一、TPU1、TPU不是一開始就為通用AI設計的很多人以為TPU從誕生就針對大模型訓練,其實它最初是Google為自家業務定製的工具。Google ML發展關鍵時間線(2011-2015)2015年前後,Google的搜尋排序、語音識別這些服務需要大量重複的數值運算,當時的GPU處理起來總有些力不從心,要麼速度不夠,要麼耗電太多。Google工程師乾脆重新設計晶片架構,把所有計算資源都集中在這類運算上,這就是第一代TPU的由來。後來大模型興起,大家才發現這種架構剛好符合AI的需求,TPU才從Google內部走向公開市場。TPU v12、TPU不用常見的快取設計普通電腦和手機晶片裡,快取是個重要部件,就像書桌邊的抽屜,常用的東西放裡面方便拿。可是TPU不怎麼依賴快取,反而用了超大頻寬的記憶體。這是因為AI運算的特點和普通計算不一樣,它需要處理海量連續的資料,比如一張圖片的像素點或者一段文字的編碼,這些資料要不斷輸入計算單元。快取的容量再大也裝不下這麼多連續資料,換成高頻寬記憶體,就能像消防水管送水一樣,把資料快速送到計算部分,反而更高效。二、晶片設計1、架構設計TPU的設計第一步就是設計架構,這就像蓋房子先畫圖紙,決定了晶片的性能上限。架構設計要先明確晶片的用途,是給大模型訓練用,還是給智能音箱這類裝置做推理用。訓練用的TPU需要更強的平行計算能力,能同時處理海量資料;推理用的TPU則更看重能效比,不能太耗電。Google最新的Trillium TPU就是典型的訓練型架構,把多個計算部分連在一起,還最佳化了資料傳輸的路徑,相比上一代訓練速度提升了4倍多,能耗反而降了不少。TPU v4 架構2、演算法適配比單純增加參數更重要設計TPU不能只看硬體參數,還要和AI演算法配合好。不同的AI模型,比如圖像識別和語言翻譯,運算邏輯不一樣。如果晶片架構和演算法不匹配,就算參數再高也沒用,就像用菜刀砍骨頭,再鋒利也不如斧頭順手。Google的TPU能在Gemini模型上做得很好,就是因為設計時針對多模態模型的運算特點做了最佳化,比如加強了對圖像和文字混合資料的處理能力。國內企業設計TPU時,也會針對政務、金融這些領域的特定演算法做調整。人工智慧模型訓練計算量趨勢圖3、IP核採購TPU設計不用所有部分都從零開始,有些通用模組可以直接買現成的IP核。IP核就像現成零件,比如記憶體控製器、介面模組這些,有專業公司專門研發銷售。買IP核能節省大量時間,不用再花幾年研發這些成熟技術,還能降低風險。大部分中小設計企業都會用這種方法,只專注於TPU主要計算部分的設計。Google這樣的大企業,為了追求最好的性能,會自己研發所有IP核,但投入的研發費用往往要數十億。三、晶圓1、矽片TPU的製造要從矽片開始,這種高純度的矽片表面光滑,純度要達到99.9999999%以上,一點雜質都可能影響晶片性能。矽片的尺寸也很重要,現在主流是12英吋矽片,一片就能切割出幾百個TPU晶片,比小尺寸矽片的效率高很多。生產矽片的過程很複雜,要經過晶體生長、切片、拋光等幾十道工序,國內的中環股份、滬矽產業都能生產這種高純度矽片,不過高端產品還需要進口。2、光刻光刻就像給矽片刻上電路圖案,是製造環節最重要的一步。這個過程需要用光刻機,把設計好的電路圖案通過雷射投射到塗了光刻膠的矽片上,再用化學藥劑蝕刻,形成電路紋理。TPU的製程越先進,光刻的難度就越大。目前主流的TPU用7奈米或5奈米製程,需要極紫外光刻機才能完成。全球能生產這種光刻機的企業很少,台積電就是靠掌握先進光刻技術,成為Google、蘋果等企業的TPU代工廠。3、摻雜工藝矽本身的導電性能一般,需要通過摻雜工藝來調整。簡單來說就是在矽片的特定區域注入硼、磷這些雜質,形成PN接面,這樣才能控制電流,讓晶片完成計算。摻雜的精度要求極高,雜質的濃度和注入深度都要精確到奈米等級。不同的計算部分,摻雜的參數不一樣,比如TPU的主要計算區域需要更高的導電效率,摻雜濃度就會高一些;而外圍的控制區則需要更穩定的性能,摻雜參數會更穩。四、封裝測試1、封裝晶圓切割成單個晶片後,下一步就是封裝。封裝主要有三個作用:一是保護晶片不受潮濕、灰塵這些外界環境影響;二是引出晶片的電極,方便和外部電路連接;三是幫晶片散熱——TPU工作時會發熱,封裝材料和結構都影響散熱效果。訓練用的TPU功率大,所以會用更複雜的倒裝封裝技術:把晶片正面朝下貼在基板上,這樣散熱路徑更短。國內像長電科技、通富微電這些企業都能做TPU封裝,技術水平和國際企業差不了多少。2、測試要過三道關封裝好的晶片不能直接出廠,得經過嚴格測試,主要有三道關。第一道是性能測試,用專門裝置給TPU輸入測試資料,檢查計算速度、精度這些指標是否符合要求——Google的TPU還會專門測試在Gemini模型上的訓練效率。第二道是穩定性測試,把TPU放在高溫高濕的環境裡連續工作幾百小時,看看會不會出故障。第三道是功耗測試,測測不同負載下的耗電量,確保符合設計要求。不合格的晶片會被標記淘汰,合格率直接關係到企業的成本。能效比例3、模組化設計現在的TPU大多用模組化封裝,把多個晶片整合到一個模組裡——比如Google的TPU Pod就是由好幾個TPU晶片組成的。這種設計有兩個好處:一是組合起來方便,根據需求拼接不同數量的模組,就能滿足不同的算力需求;二是維護起來省事,如果某個晶片壞了,只換對應的模組就行,不用把整個裝置都廢掉。智算中心裡的TPU叢集都用這種方式,維護人員不用拆開晶片,直接換模組就能解決問題,能省不少停機時間。五、材料供應1、聚氨酯材料這裡說的聚氨酯材料和晶片不是一回事,但在TPU產業鏈裡也挺重要的。汽車車衣用的就是熱塑性聚氨酯材料,彈性好、耐老化,還能防刮擦。張家界有家企業專門做這種材料,全球市場佔有率能到90%,連阿迪達斯的運動鞋都用他們的TPU膠膜來粘接。生產這種材料需要高品質的聚酯多元醇,國內的華峰化學通過收購企業,打通了從原料到成品的全鏈條,成本比進口材料低很多。2、光刻膠光刻膠是光刻環節必須用的材料,塗在矽片表面,經過雷射照射後會發生化學反應,形成可以蝕刻的圖案。光刻膠的質量直接影響電路精度,先進的5奈米製程得用極紫外光刻膠,這種材料研發難度很大,成分配比要精確到百萬分之一。現在國內企業已經能生產28奈米製程用的光刻膠,高端的還得從日本或者美國進口。光刻膠的儲存條件也挺嚴格,得放在低溫環境裡,不然會失效。3、散熱材料TPU工作時產生的熱量要是不能及時散出去,會影響性能甚至縮短壽命,所以散熱材料就很關鍵。封裝環節會用到散熱膏和散熱片:散熱膏填在晶片和散熱片之間的縫隙裡,能提高導熱效率;散熱片則增大散熱面積,把熱量傳到空氣裡。大功率的TPU叢集還需要專門的液冷散熱系統,用冷卻液把熱量帶走。國內像高瀾股份、同飛股份做的液冷系統,已經用到不少智算中心的TPU叢集裡了,散熱效率比傳統的風冷高3倍多。六、終端整合1、智算中心是TPU的主要陣地智算中心就像TPU的大本營,很多TPU在這裡組成叢集,給AI企業提供算力服務。天津移動建的TPU智算中心,通過最佳化叢集佈局和散熱系統,單位算力成本降了很多。這些智算中心會根據客戶需求,提供不同的算力套餐:比如給科研機構提供大模型訓練用的高算力服務,給中小企業提供智能客服推理用的輕量算力服務。像視拓雲這樣的企業,還把TPU算力做成了零售業務,客戶按需購買就行,不用一次性投很多錢建機房。2、汽車行業TPU在汽車行業的應用分兩種:一種是晶片,一種是材料。晶片方面,有些智能汽車的自動駕駛系統會用TPU做推理,處理攝影機和雷達傳來的路況資料,判斷行人和車輛的位置。材料方面,汽車車衣用的熱塑性聚氨酯材料越來越常見,納琳威做的真漆車衣,還能適配特斯拉賽博皮卡的不鏽鋼車身,貼合度特別高。易車和邦泰集團合作研發車用TPU粒子,做成的車衣性價比更高,已經覆蓋了從一線到三四線城市的門店。3、小型化TPU智慧型手機、智能音箱這些消費電子產品,需要的是小型、低功耗的TPU。智能音箱裡的TPU,主要負責語音識別的推理,能把使用者的語音指令快速轉成文字,還能理解意圖。這種TPU尺寸很小,有的只有指甲蓋那麼大,功耗也低,一節電池就能支援長時間工作。國內的瑞芯微、全志科技都做這類小型TPU,很多智能家電廠商都會買。有些高端耳機裡也會裝小型TPU,用來最佳化降噪演算法。Coral Edge TPU與NVIDIA GTX 1080 GPU在最大功耗和每瓦特運算性能上的對比七、市場規模情況1、全球市場增長速度很快TPU所屬的智能算力市場,這幾年漲得特別快。2024年全球AI算力市場中,GPU和TPU主導的智能算力規模超過了750億美元。有機構估計,2025年這個數字會跳到3500億美元,差不多翻五倍。這當中TPU的佔比還在慢慢上升,特別是Google推出Trillium TPU後,不少企業開始換成TPU來做訓練和推理。Meta甚至打算從2027年開始,在自家資料中心裡裝Google的TPU,這筆單子說不定能到幾十億美元呢。2、中國市場增速超過全球平均中國智能算力市場的增長速度比全球平均還要快。根據IDC和浪潮資訊的報告,2025年中國人工智慧算力市場規模能到259億美元,比去年漲了36.2%。TPU的用途現在越來越多,政務、金融、製造這些行業都在往裡面砸錢。天津、上海這些大城市都在蓋TPU智算中心,中國移動打算到2028年底建成本國最大的智算設施,裡面會裝很多國產TPU。國產TPU的市場份額也在往上走,寒武紀、華為的TPU在國內政務領域用得已經挺多了。3、不同應用場景的市場差異大TPU的市場分佈不太均勻,智算中心佔了大部分,大概能有70%以上。為何呢?因為大模型訓練和推理需要好多TPU湊成叢集,一套裝置的投入就不低。汽車行業的TPU市場漲得最快,特別是自動駕駛和車衣材料這兩塊,2025年的漲幅可能超過50%。消費電子領域的TPU市場規模不算大,但勝在穩,每個智能裝置裡都得有個小TPU,賣出去的數量特別多。材料類的TPU市場也不小,光汽車車衣和運動鞋這兩個地方,全球一年賣的錢就超過一百億美元。八、市場競爭態勢1、Google和輝達國際上TPU市場主要是Google和輝達在搶地盤,不過兩家擅長的地方不一樣。Google的TPU在AI訓練這塊優勢很明顯,特別是和自家Gemini模型搭著用的時候,效率比輝達的GPU高不少,還更省電。輝達則在生態這塊更厲害,好多AI框架都先適配GPU,企業要換成TPU得調整演算法,難度相對大一點。但這種情況正在改變,Google通過雲服務把TPU租給其他公司,Meta這樣的大公司也開始考慮用了,Google在市場上的說話份量慢慢變重了。2、國內企業細分領域國內的TPU企業沒直接和Google、輝達硬碰硬,而是從細分領域入手。寒武紀的TPU主要針對政務和金融行業,這些地方對安全性要求高,國產晶片更吃香。華為的TPU則和自家鴻蒙系統、雲服務綁在一起,在智能汽車和工業網際網路這塊推。材料領域的國內企業表現更亮眼,張家界齊匯新材料在運動鞋用TPU膠膜市場佔了全球90%的份額,邦泰集團在車用TPU粒子這塊的國內市場佔比超過60%。這些企業通過盯著細分市場做,給自己築起了一道競爭的牆。九、需求分析1、網際網路科技巨頭網際網路科技巨頭是TPU的主要客戶,尤其是那些做AI大模型的公司。Google、Meta、百度、阿里這些企業,每年都會買好多TPU搭成算力叢集,用來訓練模型和做推理。他們買TPU的時候最看重性能和穩不穩定,對價格不太在乎。Google自己做TPU,同時也把算力租給其他公司;百度則混著用國產和進口TPU,重要業務用進口的,邊緣業務用國產的來省錢。這些巨頭買的量很大,一單就能佔企業年銷售額的20%以上。2、製造企業製造企業買TPU主要用在兩個地方,一是生產線上的智能檢測,用TPU處理攝影機拍的產品圖片,找出缺陷;二是生產TPU材料做的東西,比如汽車零件、運動鞋材料。這些企業買的時候最看重性價比,不會瞎買高端產品。汽車零件廠商會選國產的中低端TPU晶片,足夠滿足檢測需求,價格比進口的低30%以上。買材料這塊,他們會和供應商長期合作,比如阿迪達斯就把齊匯新材料當成最大的TPU膠膜供應商,兩家還一起研發新產品。3、科研機構和政務部門科研機構和政務部門買TPU,安全是第一個要考慮的。高校和科研院所買TPU主要用來研發AI演算法,他們需要晶片能靈活擴展,適配不同的實驗場景。政務部門買的TPU則主要用在人口統計、交通管理這些地方,資料很敏感,必須用通過安全認證的國產晶片。寒武紀的TPU就通過了好幾個政務安全認證,在好多城市的智能交通系統裡都在用。這些客戶買的量雖然不如巨頭,但訂單穩,給錢也比較快。十、TPU和GPU誰更厲害1、訓練場景TPU更有優勢在AI模型訓練場景裡,尤其是大模型訓練,TPU的優勢很明顯。因為訓練過程需要反覆做矩陣運算,TPU的架構就是專門為這個做的,所有計算資源都集中在這事兒上,沒有多餘功能浪費資源。Google的Trillium TPU訓練Gemini模型時,速度比輝達最新的GPU快4倍,能耗卻低67%。這就意味著訓練同一個模型,用TPU能省好多時間和電費,對經常要訓練模型的企業來說,這筆省下來的錢可不少。2、推理場景兩者各有千秋推理場景就是模型訓練完後,處理實際資料的過程,比如語音識別、圖像分類。這種場景下TPU和GPU各有各的好,得看具體用在那兒。如果是單一任務的大量推理,比如智能音箱的語音識別,TPU更高效,成本也更低。如果是複雜的多工推理,比如自動駕駛同時處理路況、行人、交通燈這些資訊,GPU的通用性更強,能同時處理不同類型的運算,更佔優勢。好多企業會混著用,簡單任務用TPU,複雜任務用GPU。3、生態完善度GPU領先雖然TPU在性能上有優勢,但GPU的生態更成熟,這也是好多企業不願換的原因。現在市面上大部分AI框架、演算法庫都是先適配GPU的,企業要是改用TPU,得重新調整演算法程式碼,還要培訓工程師,花的錢不少。Google為了打破這個局面,做了兩件事:一是開放自己的AI框架,讓開發者更容易適配TPU;二是通過Google雲提供TPU算力服務,企業不用自己買晶片,直接租就能用,降低了換用的難度。隨著越來越多企業試著用,TPU的生態也在慢慢變好。 (小叔報告)
2026最具影響的10大科技主線
2026 十大科技主線:從“算力底座”到“場景爆發”的躍遷(按產業成熟度與政策催化力度排序,僅供參考)人工智慧+:從“工具”到“作業系統”2026 年,AI 不再是輔助工具,而是千行百業的“新作業系統”。國家發改委已明確在製造、醫療、金融等 8 大行業推出“AI+”實施細則。多模態大模型(文字-圖像-視訊-3D 一體化)與領域專用語言模型(DSLM)走向成熟,企業可將通用大模型“蒸餾”為行業小模型,實現低成本、高精度落地。Gartner 預測,到 2028 年,50% 以上的生成式 AI 模型將是 DSLM。普通人用自然語言就能指揮 ERP、CAD、BI,生產力門檻被徹底削平。智算經濟:算力即生產力,液冷即競爭力2026 年全球 AI 伺服器出貨量再增 20%,單晶片 TDP 突破 1000 W,風冷全面讓位於液冷。北美 CSP 資本開支激增,帶動“東數西算”進入 2.0:西部綠電匹配東部需求,形成全國一體化算力網。GPU/ASIC 多元競爭(輝達 B300、AMD MI400、雲廠商自研)拉低算力價格,中小企業首次可按需訂閱超算資源。智算中心將成為繼電網、高鐵之後的第三大基礎設施。晶片經濟:2 nm 量產 + 3D 封裝重塑全球分工台積電、三星、英特爾同步量產 2 nm GAAFET,CoWoS/SoIC、EMIB/FOVEROS 等 3D 封裝把 HBM、CPU、GPU 堆成“超級晶片”。地緣政治倒逼國產替代:華為昇騰 910C、寒武紀 590 進入主流 CSP 採購清單,國產 EDA、光刻膠、RISC-V IP 訂單爆發。晶片設計-製造-封測“全鏈國產化”完成 0→1 後,下一步是 1→10 的成本與良率攻堅。新能源智駕:800 V 高壓 + 城市 NOA 的“iPhone 時刻”2026 年中國 L2+ 滲透率超 60%,城市 NOA 成為 20 萬元級新車標配。800 V 高壓平台 + SiC 器件實現“充電 10 分鐘,續航 400 km”,緩解補能焦慮。工信部啟動“智能網聯汽車准入和上路通行試點”,北京、深圳、合肥等地開放 1000 km 全無人測試路段。特斯拉 FSD 入華倒逼本土演算法迭代,資料閉環 + 影子模式成為護城河。人形機器人:量產成本跌破 15 萬元,場景從工廠到客廳2026 年全球出貨量預計突破 5 萬台,年增 700%。特斯拉 Optimus、小米 CyberOne、優必選 Walker X 同步量產,關節模組(PEEK 材料 + 六維力感測器)國產化率升至 70%。工業場景率先落地:3C 裝配、物流分揀、高危巡檢;家庭場景緊隨其後:老人陪護、兒童教育。開源 ROS 3.0 降低二次開發門檻,催生“機器人 App Store”。低空經濟:空域改革 + eVTOL 量產,打開“三維交通”2026 年中國低空經濟規模突破 1 兆元。《低空飛行管理條例》正式施行,3000 米以下空域分級分類開放。億航 EH216-S、峰飛盛世龍獲 TC 證,廣州-深圳-珠海“空中計程車”航線試營運。無人機物流進入“15 分鐘配送圈”,順豐、京東在珠三角日飛 1000 架次。低軌衛星 + 5G-A 建構“空天一體”通訊網,破解低空監管難題。數字經濟:資料要素 × 千行百業2026 年,國家資料局發佈《資料要素流通標準》,公共資料授權營運全面推開。企業端,資料資產入表(IASB 新規)催生“資料資產負債表”新職業;個人端,區塊鏈 + 隱私計算讓“我的資料我做主”成為現實。典型場景:醫療資料訓練 AI 診斷、交通資料最佳化紅綠燈、農業資料指導精準種植。資料交易規模有望突破 3000 億元,成為 GDP 新增長極。量子科技:從“實驗室”到“專用機”2026 年,中國“悟空”量子電腦發佈 1000 量子位元專用機,聚焦藥物分子模擬、金融組合最佳化。合肥、深圳、北京三地量子產業園落地,形成“上游稀釋製冷機—中游量子晶片—下遊行業演算法”全鏈生態。通用量子電腦仍遙遠,但“量子 + AI”混合演算法已在銀行風控、電網調度中實現 10 倍加速。央行設立 100 億元量子科技專項再貸款。新能源經濟:光儲氫氨醇一體化2026 年,中國太陽能元件價格跌破 0.8 元/W,儲能度電成本降至 0.3 元,綠氫在長三角、珠三角率先平價。《可再生能源法》修訂草案首次將“綠氫”納入可再生能源範疇。隆基、陽光電源推出“太陽能-制氫-合成氨”一體化集裝箱,解決新能源消納與長時儲能難題。歐盟 CBAM 碳關稅倒逼中國綠電制氨、綠甲醇成為國際船燃新寵。醫療生物:AI 製藥 + 腦機介面進入臨床2026 年,首款由 AI 設計的小分子藥物通過 FDA 加速審批,研發周期從 10 年壓縮至 3 年。華為“盤古藥物分子大模型”、英矽智能 PHARMA.AI 與 50 家 MNC 簽約。腦機介面方面,Neuralink 競品“北腦一號”完成 100 例帕金森臨床植入,實現意念控制機械臂。國家衛健委發佈《腦機介面臨床倫理指引》,為行業劃紅線。消費級應用:睡眠監測頭環、抑鬱情緒干預耳機登上電商爆款榜。 (TOP行業報告)
兆空間!面向大規模智算叢集場景光互連技術白皮書! 2025
前言目前,智算叢集已成為支撐人工智慧大模型訓練、自動駕駛演算法迭代等前沿領域的核心基礎設施,並以驚人的速度從萬卡向十萬卡級規模演進。隨著單節點算力突破每秒百億億次,這類超大規模叢集的極致運算能力對互連鏈路頻寬、延遲和功耗提出了極為嚴苛的要求。傳統以銅介質為基礎的電互連方案,正面臨「頻寬牆」、「延遲牆」及「功耗牆」等三重嚴峻挑戰:單通道速率難以突破400Gbps,傳輸延遲高達數微秒,單機架互連功耗佔比更是超過40%,這一系列瓶頸已成為制約超大規模智算叢集互連功耗的核心障礙。相較於傳統可插拔光模組等設備級光互連技術,晶片級光互連正開闢全新的技術路徑與產業賽道。它透過先進封裝將光引擎與電晶片合封在一起,把電訊號的傳輸距離從米級大幅壓縮至毫米級,從而改寫了物理層互連架構,實現50%以上的系統能源效率提升。由此建構的「晶片—設備—叢集」一貫式全光互連架構,已被業界廣泛認定為下一代智算基礎設施的關鍵技術。本白皮書系統性剖析晶片級光互連技術的核心原理與架構設計,深入探討光源、調變器等關鍵元件的技術發展路徑。同時,全面整理晶片級光互連在國內外的產業現狀,客觀地研判未來演進趨勢與技術挑戰。期望透過產學研用多方協作,加速晶片級光互連技術從實驗室原型走向規模化商用落地,推動中國智算基礎設施在硬體架構層面實現跨越式升級,為數位經濟的高品質發展築牢堅實的算力基石。1. 下一代智算叢集提出近乎嚴苛的互連需求1.1. 大模型的巨量迭代引發智算叢集架構變革實現通用人工智慧(AGI, Artificial General Intelligent)已成為大模型未來發展方向的廣泛共識。大模型技術整體仍遵循擴展法則(Scaling Law),參數已邁向兆甚至十兆規模,對智慧算力的需求呈現爆炸性成長。如下圖所示,模型參數規模的成長速度約每兩年400倍,其演算法結構在原有Transformer的基礎上,引入擴散模型、專家系統(MoE, Mixture of Expert)等,使模型泛化能力增強,並具備處理10M+超長序列能力,推動晶片算力(FLOPS)約每兩年3倍的提升,需要至少百倍規模的叢集演進速度來支撐大模型的發展,但晶片間的互連能力提升緩慢,只有約每兩年1.4倍,遠落後於模型規模和算力的演進速度。圖1-1 智算場景中各技術領域擴展趨勢超大模型的訓練過程尤其是張量並行(TP, Tensor Parallelism)、專家並行(EP, Expert Parallelism)等模式依賴叢集內GPU晶片之間頻繁的資料互動。然而,互連速率的提升已嚴重滯後於算力的快速演進,導致顯著的通訊開銷,這直接限制了叢集有效算力隨GPU數量的線性增長,已成為制約叢集規模擴展和性能提升的關鍵瓶頸,如下圖所示。在此背景下,僅依靠IB(InfiniBand)或RoCE(RDMA over ConvergedEthernet)等傳統網路技術來滿足模型效能指標已十分困難,需建構具備高頻寬、低延遲特徵的GPU卡間互連技術體系,以擴大節點規模,大幅降低通訊時間佔比,最終實現叢集算效的顯著叢集算效的顯著叢集。圖1-2 算力隨著卡數規模擴大難以線性擴展同時,全球智算中心規模觸達十萬卡級別,智算叢集架構正經歷一場根本變革,從傳統單機八卡向超節點演變。超節點並非簡單的硬體堆疊,是一種透過極致效能的高速互連技術,將數十乃至上千顆GPU晶片整合於單一或多個機櫃的叢集系統,突破傳統裝置算力瓶頸,大幅降低多晶片並行運算的通訊損耗,實現大模型訓練與推理效率的飛躍。1.2. 大規模智算叢集呼喚「光進電退」技術目前,超節點智算群集展現出三大技術特性,一是互連效能高,GPU之間具有超低時延超高頻寬(百奈秒級,TB/s級)且無收斂的互連能力;二是算力密度高,由單一或多個機櫃構成,包含32個以上甚至到千卡的GPU數量,不斷逼近電互連物理部署極限;第三是能源效率PUE高,超節點單機櫃功率可達40kW以上,採用液冷為主、風冷為輔的散熱方案,配合櫃級集中電源供電,在提供更高供電效率的同時大幅降低資料中心PUE。為了實現更高的叢集算效水平,互連技術方案的演進迫在眉睫。在超節點設備的互連選擇上,目前主要存在兩種路徑:基於銅纜和基於光纖的傳輸方式。儘管銅纜作為目前的主流方案,相較於傳統的可插拔光模組與光纖組合,擁有技術成熟度、成本、可靠性以及部署維護便利性等多方面優勢。通常在小於2公尺短距離、低於800Gbps的非超高速網路場景中,銅纜憑藉這些優勢仍能滿足絕大多數應用需求。特別是無源直連銅纜(DAC, Direct Attach Cable),憑藉其極低的成本和超高的平均無故障時間(MTBF, Mean Time Between Failures),成為當前主流選擇。然而,在高速傳輸場景下,銅纜面臨距離受限、功耗激增、速率瓶頸和佈線困難等嚴峻挑戰,已然逼近其效能極限。隨著超節點叢集規模持續擴展至256節點乃至千卡級別,且單通道傳輸速率邁向800Gb/s,銅纜的固有物理侷限性正日益凸顯,已成為制約智算叢集互連性能與擴展潛力的嚴峻挑戰。圖1-3 不同速率的電訊號在伺服器內不同位置的損耗狀況首先,銅纜的限制體現在其距離限制。受限於訊號衰減,銅纜的有效傳輸距離極為有限。例如,在極短的10公分PCB走線中,100Gbps的速率就足以造成超過15dB的插入損耗,導致訊號失真率突破5%。當GPU跨越多機櫃時,距離超過10公尺的情況下,訊號衰減與功耗問題更為突出。其次,功耗激增是另一個核心痛點。在800Gbps及以上的高速傳輸場景下,電流通過銅線產生的巨大熱量不僅大幅推高了資料中心的營運成本,也顯著增加了系統的散熱複雜性。再者,銅纜面臨傳輸速率瓶頸。受限於「趨膚效應」和PCB走線的寄生電容、電感,其中長距離傳輸的單通道速率難以突破200Gbps,且多通道並行會導致嚴重的串擾,進一步限制了電互連的頻寬密度。最後,佈線困難成為規模化部署的巨大障礙。隨著智算叢集規模呈指數級擴張,所需的銅纜數量幾何級增長,使得佈線難度與成本顯著提高,嚴重限制叢集快速擴展和高效運維。這四大固有物理侷限,使得銅纜已無法滿足未來高算力密度和大規模擴展的智算叢集的嚴苛需求。為跨越基於電訊號銅纜傳輸的固有物理極限,新一代光互連技術正快速登上歷史舞台。以近封裝光學(NPO, Near Package Optics)、共封裝光學(CPO, Co-Packaged Optics)、以及光輸入/輸出(OIO, OpticalInput Output)為代表的創新方案成為替代銅纜方案的優秀選擇。這些技術的核心在於最大程度地縮短電訊號與光引擎(OE, OpticaEngine)之間的距離,實現在晶片層面即完成光電轉換,從根本上規避了傳統可插拔光模組的高成本與易故障問題,同時繼承了光纖傳輸的技術優勢。功耗顯著降低。 NPO、CPO等技術將光引擎與GPU封裝在同一基板甚至同一晶片上,將電信號路徑縮短至釐米甚至毫米級別,大幅減少了傳輸過程中的中繼損耗,並降低了SerDes介面的性能要求,從而係統性地降低了整體功耗。圖1-4 不同介面設計的SerDes功耗頻寬密度顯著提升。透過縮短電訊號傳輸路徑,這些技術可支援更高的單一連接埠傳輸速率,同時在同一封裝體內整合多個光通道,使得頻寬密度達到百Gbps/mm²至Tbps/mm²,遠超銅纜互連方案。此外,連接距離得到極大擴展。光訊號的低損耗特性使其能夠輕鬆覆蓋資料中心內數百公尺甚至10公里以上的距離,徹底打破了銅纜在遠距離傳輸上的桎梏。更重要的是,光互連在訊號完整性上展現出壓倒性優勢。多根銅纜並行傳輸時固有的串擾和反射問題,需依賴複雜的均衡演算法進行補償,而光訊號在傳輸過程中幾乎不受電磁幹擾,其傳輸損耗比電訊號低4至5個數量級,且與傳輸頻率無關,從根本上保障了訊號純度。圖1-5 不同速率下光和電訊號分別在晶片內和晶片外的損耗情況在空間利用方面,光互連在空間佔用和重量上也展現出較大優勢。一束直徑僅6mm的光纖即可容納12根光纖,提供超過19.2Tbps的總傳輸頻寬,而提供同等頻寬的銅纜束直徑將超過50mm,重量更是光纖的8倍。這種極致的輕量化與小型化設計,大大簡化了大規模叢集的佈線難度,降低了資料中心的營運成本,並為未來更高密度的整合提供了寶貴的實體空間。圖1-6 銅纜和光纖的部署對比儘管面臨初期成本高和技術門檻高等挑戰,但光互連技術所帶來的低損耗、長距離、高頻寬密度、高訊號完整性以及低空間佔用等核心優勢,使其成為突破超節點規模和算力極限的關鍵支撐。透過將光電轉換技術整合到晶片級別,光互連不僅拓展了傳輸距離,降低了系統功耗,更透過光訊號的長距離傳輸解決了單節點規模擴大的空間限制問題。 「光進銅退」已成為智算叢集的必然趨勢,是實現未來算力跨越式發展的核心驅動力。此外,光技術的引入已拓展到交換層,即光交換技術(OCS,OpticalCircuit Switching)。為解決傳統電交換機多次光電轉換導致的高能耗和微妙級延遲瓶頸,OCS直接在光域完成訊號路由,最高可達奈秒切換速度,較電交換快2-3個數量級。純光交換中微鏡反射型(MEMS,Micro-Electro-Mechanical Systems)做為其中一種比較成熟的技術,已經實現了商業化應用。2. 極致化需求驅動光互連技術革新根據不同應用場景,光互連技術主要分為資料中心間(DataCenter Interconnect,DCI)與資料中心內兩大類。資料中心內聚焦短距離傳輸場景(數公尺至數百公尺),核心訴求是高頻寬密度、低延遲及低功耗,常用多模光纖,精準適配機櫃內/跨機櫃互連需求。本白皮書重點探討資料中心內光互連技術的分類、裝置與技術趨勢。2.1. 業界存在兩大類光互連技術光互連技術是透過應用光電轉換與融合技術,取代電訊號在傳統資料傳輸場景中的主導角色,甚至直接取代晶片上的電IO功能,最終實現訊號在傳輸過程中遠距離、低功耗、高密度的目標。其中,實現光電轉換的光引擎(Optical Engine,OE)是光互連技術的核心。根據應用場景、光引擎與xPU晶片的距離以及封裝整合程度的差異,業界衍生出許多技術範疇,我們將其主要分為兩大類:設備級光互連和晶片級光互連。如下圖所示,在未來十萬卡級以上的智算中心群集設計中,設備級光互連主要有兩大技術,一是以光交換技術為主,主要應用於交換設備間網路連線中,提供超高連接埠密度、極高速率(無頻寬瓶頸)、連接距離從公尺到百公里級;二是以可插拔光模組技術為主,主要應用於超節點設備間網路連接中,提供較高速率、千卡以上規模、公里級長距離連接。晶片級光互連主要以共封裝光學為主,主要應用於超節點內並進一步下探到晶片內場景,提供超高頻寬密度(可達Tbps/mm²級)、超低時延、千卡以下互連規模、公里距離之內的連接,要求高可靠性。圖2-1 十萬卡級智算中心群集光互連架構設計2.1.1. 設備級光互連:光交換器的演進與應用隨著智算群集規模持續擴展,電交換晶片逐漸顯現瓶頸。單晶片容量受制於積體電路製程的發展,使得電交換晶片在製程製程、轉送架構與快取設計等方面面臨諸多挑戰,交換晶片更新迭代速度明顯放緩,網路規模難以快速擴展;高速SerDes和複雜轉送架構導致功耗和延遲不斷上升,訊號完整性問題也需要依賴複雜DSP補償。光交換為突破電交換的限制提供了新的路徑:一是,其在光層面直接完成連接埠間的切換,無需OEO轉換,徹底繞開了過程、緩存和SerDes衰減等物理瓶頸,可支援極高傳輸速率與超大規模叢集部署。光交換天然具備速率和協議無關的特性,從400G到800G乃至1.6T均可平滑支援,在速率升級時無需更換交換設備,極大降低了系統演進的複雜度和成本。二是,光交換透過端對端光路直通,避免了複雜的包解析與快取轉發,延遲大幅降低,功耗顯著優於電交換。其大規模連接埠整合能力,使得數百乃至數千埠的互聯成為可能,從而支撐大規模GPU叢集的靈活網路需求。第三是,透過集中化的控制與軟體編排,光交換也能夠支援拓樸重構、故障繞行和網路切片,提升算力利用率與網路穩健性。在維運方面,自動化光路配置減少了人工佈線帶來的潛在錯誤,進一步增強了網路的可用性和可靠性。圖2-2 光交換器內部架構範例2.1.2. 設備級光互連:可插拔光模組的演進與應用可插拔光模組已廣泛應用在傳統資料中心、電信網路以及智算中心大規模連接中,具備靈活性高與相容性強等特徵。其將光引擎(OE, Optical Engine)整合在可插拔模組中,如下圖所示,透過PCB(PCB,Printed Circuit Board)板級走線與有獨立基板的xPU(GPU, NPU, Swtich, etc)相連。目前市場主力產品的速率已達800G,未來採用矽光技術可達1.6T水平,封裝向高密度QSFP-DD/OSFP等演進。但面向智算未來高速率1.6T/3.2T以上的互連場景下,可插拔光模組將面臨訊號完整性惡化、依賴數位訊號處理器(DSP,Digital Signal Processor)進行複雜訊號補償所導致的系統功耗高、傳輸時延高等難題。圖2-3 可插拔光模組範例為解決DSP帶來的功耗、時延等難題,2022年Macom聯合輝達推出線性直驅可插拔光模組(LPO, Linear Pluggable Optics)方案,如下圖所示,相較於傳統可插拔光模組,LPO直接去除了DSP晶片,保留發射端高線性度的驅動晶片(Driver),以及接收電阻端高程的高線性度的驅動晶片(線性度電聯機(BD先前) Amplifier),從而建構一個純粹的模擬、「線性直驅」的光訊號處理通道,實現功耗和延遲的降低。雖然去除了DSP,但是DSP的功能並未消失,而是將部分功能轉移到了xPU晶片中。這意味著xPU的SerDes必須具備更強的線性驅動能力和訊號處理能力。圖2-4 傳統可插拔光模組(上圖)與LPO(下圖)的對比2.1.3. 晶片級光互連:從近封裝到光學I/O隨著專家模型的大EP(Expert Parallelism)架構發展趨勢,更大規模、更高頻寬密度和極低時延成為智算叢集的主要需求。如下圖所示:在規模方面,目前Scale-Up單層規模以32卡或64卡為主,需要進一步提升至256卡甚至千卡,高速傳輸的距離從板級、櫃內擴展到櫃間;在頻寬密度方面,目前國內單通道頻寬以200Gbps為主,需要進一步向800Gbps 甚至1.6Tbps 邁進, 頻寬密度要求提升至百Gbps/mm 2 到TGbps/mm 2 ;在時延方面,目前卡間資料傳輸時延為微秒級,需要進一步縮短至百奈米甚至十奈秒。目前可插拔光模組的互連延遲和頻寬瓶頸已無法滿足大規模智算群集互連需求。圖2-5 大規模智算叢集的互連效能需求晶片級光互連技術透過將電訊號傳輸路徑縮短至公分到毫米級(即加速卡內部),相較於基於電互連與可插拔光模組的互連方案,可實現超高頻寬密度、超低時延及高能效的智算群集互連能力。依據應用情境、光引擎與xPU 晶片的距離及包裝整合度,可將此技術分為近封裝光學(NPO,Near Packaged Optics)、共封裝光學(CPO,Co-packaged Optics)及光學IO(OIO,Optical Input/Output)三類。近封裝光學(NPO)NPO的核心思想是將光引擎(OE)與封裝後的xPU晶片相鄰佈局於同一塊高性能PCB基板上,透過極短的高性能電氣鏈路與GPU相連,形成一個整合度較高的系統,GPU與OE的間距通常在數釐米以內,同時確保通道損耗≤13dB。相較於傳統可插拔光模組,互連密度提高了2-3倍,是光互連向高整合度發展的過渡階段技術,為進一步向CPO演進奠定基礎。因NPO將GPU與光引擎物理分離,避免了GPU在工作時的高溫熱量直接衝擊對溫度敏感的光器件,從而導致波長漂移和系統性能下降,因此散熱設計更簡單、高效,系統更加穩定。同時,由於光引擎未和GPU共同封裝,在可維護性方面具備一定優勢,如果光部分失效,只需更換光引擎模組即可,避免了大量的維護成本;因此,NPO目前是國內GPU晶片廠商選擇的主要技術路徑,但仍需要在整合度、頻寬密度、延遲和能源效率方面進一步優化。圖2-6 近封裝光學(NPO)結構共封裝光學(CPO)CPO技術透過將OE與電晶片共同封裝在同一晶片基板或中介層上,實現系統的高整合度,使電訊號只需傳輸幾毫米。圖2-7 共封裝光學(CPO)結構CPO技術大幅提升了互連頻寬密度並能夠大幅降低系統誤碼率和設備功耗,同時也能夠大幅節省設備(如交換器)面板的空間,克服面板IO密度的限制。目前作為可插拔光模組的替代技術,CPO可實現整機設備功耗降低50%左右,如下圖所示。圖2-8 交換器設備功耗分析由於光引擎和電晶片緊密共封裝,任何子模組的故障都可能導致整個封裝體的更換,對良率和可維護性方面提出了極高要求。因此,基於CPO技術的產品處於發展初期,主要應用場景是智算中心的交換設備。但憑藉其在超高頻寬、低功耗、低延遲、高密度互連等方面的巨大潛力,CPO有望進一步下探至GPU算力晶片,實現算力晶片的直接出光,建構更有效率的端對端光互連鏈路。片間光學互連(OIO)相較於NPO/CPO是突破可插拔光模組的性能限制,OIO技術目標是為了取代計算晶片上電IO方案,透過先進封裝以芯粒形式與計算晶片整合,比CPO的互連性能更優。其核心理念是徹底摒棄傳統的銅線電氣I/O,消除了板級電氣走線的瓶頸,將頻寬密度提升至1Tbps/mm²(3D封裝)並將延遲降低至納秒級,能效提升相比CPO低一個數量級。OIO技術可以在運算資源池化領域發揮更大的作用,如應對計算晶片顯存容量和頻寬擴展受限的雙重挑戰,依託其顯著傳輸性能和距離,打破單晶片顯存物理邊界,將多節點獨立顯存整合為共享顯存池,透過光域直連實現池化顯存的低時延調度與高頻寬訪問,成為未來新數據中心的新關鍵結構架構。圖2-10 非聚合資料中心(Disaggregated DC)的互連頻寬需求2.1.4. 新型光互連技術具備巨大潛力可插拔光模組、NPO、CPO和OIO四大技術在頻寬密度、時延、能耗、相容性等方面表現各異,共同構成了覆蓋資料中心內不同需求場景的光互連技術體系(見下表),其中晶片級光互連聚焦出更能精準匹配智算群集未來演進需求的潛力技術,後續聚焦此類將聚焦。表2-1 傳統電交換與光交換(OCS)比較分析表2-2 光互連技術比較分析2.2. 晶片級光互連三大技術路線場景互補2.2.1. 晶片級光互連技術的組成原理從元件構成上來看,相較於採用分離式元件的傳統可插拔光模組,主流晶片級光互連技術由於矽光的引入,除雷射外,大部分已實現了多種光電元件的矽基整合。其技術方案構成主要分為三大關鍵組件:雷射(外部或與光引擎耦合)、光引擎、光纖及連接器。無論與電晶片的距離與整合度如何,實現高效光電轉換的光引擎和雷射都是晶片級光互連方案的主要研究對象。圖2-11 晶片級光互連的組件構成(以基於矽光技術的CPO設備為例)如下圖所示,光引擎由光積體電路(PIC, Photonic IntegratedCircuit)和電積體電路(EIC, Electronic Integrated Circuit)組成。其中PIC主要包含調製器(MOD, Modulator)和探測器(PD, Photo-detector),基於矽光子或III-V族化合物材料實現光訊號的調製、探測、解調和濾波等功能。其中,調製器負責將光訊號調製為與電氣介面相符的頻寬能力,多採用矽光調變器,包括馬赫-曾德爾調變器(MZM, Mach-Zehnder Modulator)、微環調變器(MRM, Micro Ring Modulator)等方案。偵測器負責在收端將光訊號轉換成電訊號;傳統可插拔光模組中常採用分立的PIN或雪崩光電偵測器,在晶片級光互連中,整合於矽光晶片上的鍺矽探測器(Ge-Si, Germanium-Silicon)成主流方案。EIC 主要由驅動電路( DRV, Driver ) 、 跨阻放大器( TIA, Transimpedance Amplifier)等組成,提供光調製器的驅動與控制,接收端訊號的放大、均衡以及功耗管理等功能。圖2-12 光引擎光電轉換的原理雷射(Laser)負責提供連續的、高品質的光源,而調製器則將電訊號編碼到光訊號上。與傳統光模組將雷射和調製器封裝在同一個發射光組件(TOSA, Transmitter Optical Subassembly)內不同,該方案通常將調製器整合到矽光晶片上,而將雷射器作為獨立的外接光源(ELS, External Laser Source)。這種架構通常以可插拔模組的形式存在,如下圖所示,可減少散熱影響,增強系統穩定性。外接雷射方案與光引擎的耦合帶了新的挑戰,業界也有基於直接調製光源的技術方案,可解決光源與調製器分離帶來的光效率問題,但也面臨傳輸距離以及速率性能受限等難題。圖2-13 左圖:博通自訂的ELS模組;右圖:符合OIF ELSFP規格ELS模組與傳統設備內部無光纖佈線設計不同,基於晶片級光互連技術的設備內部引入了額外的光纖及光纖連接器。如下圖所示,以基於矽光技術的CPO交換設備為例,光引擎緊密地圍繞ASIC晶片放置,設備內部的光互連路徑包含兩條:從ELS到光引擎,以及光引擎到機殼前方面板。其中後者為業界主要研究方向,其連接方法和類型會影響訊號、熱量和佈線密度的設備設計。圖2-14 基於矽光技術的CPO交換設備範例(博通CPO交換器)2.2.2. 三大技術路線並駕齊驅,矽光或成未來主流業界已提出並應用了多種晶片級光互連(如CPO)的實現方案,這些方案可按材料分類,也可按雷射器的放置位置分類,而材料與雷射器位置往往密切相關。業界目前有三大主要技術路線:其中基於矽光的整合方案通常採用外接雷射光源,屬於間接調製(即需要一個獨立的調製器來對光進行編碼);而基於垂直腔面發射雷射(VCSEL, Vertical-Cavity Surface-Emitting Laser)的方案則是由電子設備直接改變其註入電流來調製光源,無需額外的獨立調製器;Micro-LED則摒棄傳統雷射器,採用Micro-LED作為光源,採用陣列形式,單個晶片可整合數十至數百個,滿足高聚合速率需求。目前產業主線多以矽光整合為核心,採用MZM或MRM等調製方式,並配合外接雷射器實現高速信號中短距(~幾百米)傳輸;VCSEL陣列則在短距互連(~幾十米)中有成熟應用,但在高溫穩定性和更高速率下仍面臨一定挑戰;Mic ro-LED作為一種新興技術,主要聚焦於櫃內短距高速鏈路(~數米內)中的應用,展現出高響應速度、高密度陣列整合及低功耗的特性,但其在高速調製(如100Gbps以上)的穩定性以及與電晶片異質整合適配性等方面仍存在問題。外接雷射光源+矽光光引擎矽光整合方案是利用現有CMOS ( Complementary Metal OxideSemiconductor)製程進行光元件(包括調變器、偵測器、光波導等)開發與整合的技術。依調製器的不同,矽光方案可進一步分為兩類:一類採用MZM調變器,另一類則採用MRM調變器。 MZM在矽光可插拔光模組市場中應用廣泛,經過大量部署驗證了其可靠性。基於MZM的晶片級互連方案藉助此優勢,透過高度整合進一步提升了密度。MRM方案則提供了另一種可能,能夠進一步降低調變器的功耗,並提高整合密度。 MZM與MRM相比,MRM具有小尺寸及低驅動電壓的優點,而MZM則有較寬的可操作光波長範圍及較佳的熱穩定性,相關比較如圖2-13所示。圖2-15 左圖:MZM調變器右圖:MRM調變器矽光技術方案因整合度高、調變速率高,光源外接穩定性高,可涵蓋其他短距方案等特性,成為CPO的主流方案。隨著研究的深入,矽光技術有望成為OIO中最核心的光學解決方案。採用MRM的矽光整合方案實現OIO的第一步,可利用多個波長攜帶訊號,提高頻寬密度。目前此路線面臨光鏈路效率與系統協同性上的挑戰。一是外接雷射耦合損耗與對準難題,易因偏移導致功率衰減,雷射需提升輸出功率增加整體耗電量;二是單一光源故障可能影響多通道工作;第三是光源參數與矽光引擎的驅動需求適配依賴客製化調試,缺乏統一標準導致整合成本高。未來產業可透過採用晶圓級光學技術整合微透鏡陣列,並結合先進封裝方案,將系統損耗降低;光源側可採用量子點光頻梳雷射器,減少光纖用量並降低功耗並透過標準化統一光源電氣與機械參數,進一步優化能效與互通性。基於VCSEL的光引擎方案VCSEL方案依託垂直出光結構所帶來的光路設計彈性,以及高密度陣列支援多聲道並行傳輸的能力,可滿足智算群集櫃內/間的短距傳輸需求。憑藉成本優勢與低功耗特性,在光模組領域已應用多年。但基於VCSEL的晶片級互連方案目前仍處研發階段,核心瓶頸在於砷化鎵材料與矽基製程存在晶格失配,異質整合良率低,難以實現與電晶片的深度共封裝,更適合應用於NPO互連方案。圖2-16 基於VCSEL的光引擎範例基於VCSEL的晶片級互連方案研究趨勢主要聚焦於性能瓶頸突破,如推動單模化以解決頻寬限制,業界透過光子晶體結構設計、氧化限制層精度優化,結合PAM4高階調變技術,已實現單通道200Gbps速率高電導率電能提升訊號耗耗;透過低損耗訊號與電波進一步提升方案電能化電能與動力提升的關係電能提升距離電能動能與功率提升方案相增動能。基於Micro-LED的光引擎方案在光互連領域中,Micro-LED作為新型光源陣列逐漸受到關注。與矽光和VCSEL相比,Micro-LED的突出特點在於其天然適合建構二維高密度陣列,能夠實現多通道並行和空分複用,在有限封裝岸線上實現超過Tbps/mm 2的頻寬密度。在功耗方面,研究顯示其連結能源效率可望達到亞pJ/bit量級,適用於機櫃內的10公尺級短距連接。在製程路徑上,Micro-LED通常基於氮化鎵(GaN, Gallium Nitride)外延,在藍寶石或GaN基板上製備微米級發光單元,並透過異質整合與CMOS電路鍵合,為短距互連帶來一種能效與密度兼具的潛力方案。圖2-17 AVICENA MicroLED的光引擎方案範例基於Micro-LED的光互連方案技術趨勢著重於優化驅動電路、改進量子阱材料結構、延長雷射光源使用壽命以適應大規模叢集的高可靠性需求。整體來看,矽光方案因其性能優、CMOS製程整合高等特性已形成較成熟的產業和標準牽引,VCSEL陣列依託既有的短距應用在NPO方案中仍具競爭力,Micro-LED陣列提供了能效和並行密度上的新路徑。三者將在智算互連不同場景中形成互補,共同推動短距至中短距光互連技術的迭代升級。 (AI雲原生智慧算力架構)