#PCIe
輝達“誤傷”一顆晶片
近日,輝達與英特爾兩大晶片巨頭的聯姻引爆了市場。這場旨在融合AI加速計算與x86生態優勢的戰略聯盟,其核心支點直指NVIDIA NVLink技術的架構互聯能力——這一曾與PCIe分庭抗禮的高速互連方案,如今借由英特爾的入局獲得了前所未有的權重與影響力。相較於英特爾主導超二十年的PCIe標準,NVLink以數倍的頻寬躍升與延遲突破等性能優勢,在AI訓練、超大規模計算等場景中展現出碾壓性競爭力,正讓PCIe技術路線面臨前所未有的挑戰。更耐人尋味的是,作為PCIe標準的奠基者,英特爾此次選擇擁抱NVLink的舉動更具象徵意義。這種技術路線的“自我革新”,如果真的能按照計畫推進,不僅意味著CPU與GPU的互連範式將迎來重構,更可能會對讓長期依賴PCIe高速訊號補償需求的Retimer晶片產生影響。(備註:我們所做的假設前提是雙方計畫真正實施,至於影響幅度大小,我們沒有具體分析,但希望能夠就技術的變動帶來新的觀察,僅供參考。)在這場由NVLink掀起的技術路線重構與替代浪潮中,正應了那句“有人歡喜有人愁”——輝達借合作打通了AI基礎設施的x86生態通路,英特爾則憑定製化產品拓展了在高端計算領域的邊界,雙方無疑是“歡喜”的陣營;反觀曾依託PCIe高速訊號補償需求站穩產業鏈的PCIe Retimer晶片,卻恰恰淪為了“愁”的一方,成為這場產業迭代裡最先直面衝擊的角色。PCIe Retimer的“立身之本”要想瞭解Retimer晶片,我們需要先瞭解PCIe匯流排。眾所周知,匯流排是為電腦/伺服器主機板上不同的硬體進行互相資料通訊的“道路”,單位時間內資料傳輸量被稱為頻寬,即每秒傳輸的位元數。匯流排對硬體間資料傳輸速度起決定性作用,在伺服器對計算速度和時延等要求不斷提高背景下,電腦匯流排標準也在不斷迭代。目前最主流的匯流排為PCIe協議(PCI-Express),由Intel在2001年提出,以替代舊的PCI、PCI-X和AGP等匯流排標準。PCIe協議近年來發展迅速,傳輸速率基本上實現了每3-4年翻倍增長,並保持良好的向後相容特性。尤其是在人工智慧算力需求爆發式增長的今天,資料中心內部的高速資料傳輸正面臨前所未有的壓力。這推動了PCIe協議快速發展,從 PCIe 3.0、4.0,一路躍升至5.0、6.0時代,傳輸速率從 8GT/s、16GT/s 不斷翻倍至 32GT/s、64GT/s。然而,隨著通訊速率逐代提升,訊號衰減問題愈發嚴重。在PCIe標準迭代中,一方面隨著應用不斷發展推動著PCIe標準迭代更新,速度不斷翻倍;另一方面由於伺服器的物理尺寸受限於工業標準並沒有很大的變化,導致整個鏈路的插損從PCIe3.0時代的22dB增加到了PCIe4.0時代的28dB,並進一步增長到了PCIe5.0時代的36dB。如何解決PCIe訊號鏈路的插損問題,提高PCIe訊號傳輸距離是業介面臨的重要問題。Retimer的出現是PCIe發展到一定階段的必然產物。在PCIe 4.0及更早版本之前,資料傳輸速率相對較低,對訊號完整性的要求不高。但到了PCIe 5.0、PCIe 6.0時代,資料傳輸速率提高到32GT/s、64GT/s,訊號衰減和抖動問題開始愈發突出,插入損耗也隨之增加。PCIe規範有精確的插入損耗預算,例如,PCIe 6.0版本的插入損耗預算為32dB,意思就是在設計時必須確保訊號在傳輸過程中的總損失不超過32dB,以保持訊號質量。對此,PCIe Retimer晶片成為解決訊號衰減問題的主流方案。Retimer晶片是一種混合訊號模擬/數字晶片,其原理是使用內部的時鐘恢復電路,重新定時輸入訊號以消除時鐘偏移和抖動,並校正訊號的相位和時間偏差(jitter)。它可以延長介面的傳輸距離並提高訊號質量,PCIe Retimer晶片主要解決資料中心、伺服器通過PCIe協議在資料高速、遠距離傳輸時,訊號時序不齊、損耗大、完整性差等問題。Retimer晶片內部構成(圖源:PCI-SIG官網)相比於市場其他技術解決方案,現階段Retimer晶片的解決方案在性能、標準化和生態系統支援等方面具有一定的比較優勢。值得一提的是,Retimer晶片可以靈活地切換PCIe或CXL模式,更符合未來CXL互連趨勢。這種功能特性,使其通用伺服器與AI伺服器市場天然具備高價值。在通用伺服器領域,隨著雲端運算、巨量資料中心的擴張,PCIe 5.0及以上版本伺服器滲透率的快速提升,每台伺服器需搭載2-4顆Retimer晶片(用於CPU與PCIe插槽、高速儲存的連接),疊加邊緣計算伺服器的增長,其市場需求呈指數級上升。此外,隨著AI浪潮的興起,AI伺服器成為Retimer晶片主要增量應用場景之一。據瞭解,AI伺服器裡 PCIe Retimer晶片的數量,與伺服器配置的 GPU數量直接相關。這是因為GPU的通道數(lane)直接決定了PCIe鏈路的配比。AI伺服器中通常需要多塊GPU協同運算,單台AI伺服器常搭載4-8塊甚至更多GPU,GPU與CPU、GPU之間的PCIe鏈路不僅長,還需同時傳輸海量訓練資料——Retimer晶片正是破解“多GPU互連訊號瓶頸”的關鍵,能讓AI算力叢集的協同效率大幅提升。目前一台典型的配8塊GPU的主流AI伺服器需要8顆甚至16顆PCIe 5.0 Retimer晶片。可見,Retimer晶片在AI時代與伺服器領域擁有廣闊的市場空間。雙寡頭引領與多強競逐“黃金賽道”在PCIe高速互連的黃金時代,Retimer晶片市場形成了“雙寡頭引領、多強競逐”的格局。當前全球市場主要由伺服器數模晶片廠商與傳統模擬巨頭共同分割,其中AsteraLabs與瀾起科技的競爭尤為矚目——前者憑藉PCIe 5.0的先發優勢佔據全球主要份額,後者則以國產替代之勢快速崛起,二者共同主導高端市場;譜瑞(Pericom)、IDT(被瑞薩收購)憑藉技術積累佔據傳統陣地,而TI、Microchip等巨頭則以通用型產品覆蓋中低端領域,構成多層次競爭生態。追溯發展歷程,不同廠商的技術路徑呈現鮮明差異。作為市場早期入局者,譜瑞憑藉 PCIe 3.0/4.0 時代的先發優勢,其產品率先通過 Intel、AMD 等主流平台認證,成為伺服器廠商的核心供應商,目前已形成覆蓋PCIe 3.0-5.0的完整產品線,相關晶片的傳輸速率和低延遲特性站穩高端市場。IDT則依託在定時晶片領域的技術積累,早期在多代PCIe協議相容上佔據優勢,被瑞薩收購後其Retimer技術與瑞薩的模擬晶片能力深度整合,持續向PCIe 5.0/6.0領域延伸。美國廠商AsteraLabs憑藉“Smart Retimer”概念打破傳統,其PCIe 4.0產品2024年實現量產,PCIe 5.0產品通過管腳相容設計降低客戶升級成本,並聯合雲服務廠商建立Cloud-Scale Interop Lab生態,快速佔領AI伺服器市場,成為當前4.0/5.0時代的份額主導者。國內龍頭瀾起科技則展現出強勁的替代能力,從記憶體介面晶片領域跨界切入後,其PCIe 4.0 Retimer已穩定量產,PCIe 5.0產品自2024年起連續兩個季度出貨翻倍,在手訂單飽滿,更於2025年初率先推出PCIe 6.x/CXL 3.x Retimer 並送樣,傳輸速率達 64GT/s,技術壁壘持續強化。傳統模擬巨頭則以差異化策略分食市場。TI憑藉廣泛的工業客戶基礎,提供適配多場景的通用型Retimer晶片,雖未專注高端AI領域,但在中低速PCIe鏈路中仍具競爭力;Microchip早在2020年便發佈支援PCIe 5.0與CXL 2.0的Retimer系列,其產品已成為英特爾平台參考設計的常用選擇,在傳統伺服器市場佔據一席之地。在國產替代與技術升級的雙重紅利下,這場圍繞高速互連的競逐正迎來機遇期。有行業資料預測顯示,2025年全球PCIe Retimer晶片市場規模將達到18億美元。在此市場潛力下,Retimer晶片一度被視為“PCIe高速化浪潮下的必選元件”,是半導體產業鏈中與AI算力、伺服器擴張深度繫結的“黃金賽道”。nvtel聯盟,帶來微妙變化然而,這場由輝達與英特爾聯手掀起的技術革命,或可能給PCIe Retimer市場帶來微妙的變化。當輝達以50億美元戰略入股英特爾,並開放NVLink技術生態,這位PCIe標準的長期挑戰者終於獲得了撬動產業格局的關鍵支點——而英特爾作為PCIe協議的奠基者選擇“倒戈”,更讓這場衝擊具備了顛覆技術陣營的深層力量。首先是技術代差的碾壓效應首當其衝。據瞭解,第五代NVLink技術已實現1.8TB/s的總頻寬,是PCIe Gen5的14倍以上,且憑藉晶片級整合設計將訊號傳輸損耗降至最低。這種優勢直接消解了PCIe Retimer的價值。例如,在輝達GB200 NVL72機架系統中,576個GPU通過NVLink形成超1PB/s的全域頻寬,無需任何訊號補償晶片即可實現穩定互連;而傳統方案中,8GPU AI伺服器需配置8-16顆PCIe 5.0 Retimer才能避免訊號失真。NVLink為x86架構提供了比傳統PCIe更高頻寬、更低延遲的互聯能力,這可能會改變資料中心內部的計算和資料流動模式。當黃仁勳在發佈會上強調“要把最好的CPU和最好的GPU通過NVLink結合”時,實際已宣告了高速互連領域“補償時代”的終結。更致命的是,輝達GPU在AI時代具有絕對的統治力,在獨立顯示卡市場佔據92%份額,PC用GPU份額也提升至24%,而AI訓練場景幾乎完全依賴其晶片。在資料中心領域,定製化NVLink x86 CPU將替代通用PCIe介面方案;個人計算領域,英特爾整合RTX GPU芯粒的SoC將減少對獨立PCIe顯示卡的依賴。另一方面,Retimer晶片的主要作用就是 “訊號放大”。當PCIe訊號在長距離傳輸中衰減時Retimer會接收、重構並重新傳送訊號,確保資料完整性。當伺服器採用模組化設計,CPU和GPU分散在不同板卡上時,長距離的訊號傳輸就必須依賴Retimer。如果CPU和GPU在同一塊大型主機板上,訊號鏈路較短,則Retimer的用量就會減少。總之,當開發者圍繞NVLink最佳化軟體棧,當雲服務商批次部署NVLink叢集時,PCIe Retimer的生存空間將被系統性擠壓。此外,生態遷移的連鎖反應更具破壞性。英特爾將為輝達定製x86 CPU,這些晶片將直接整合NVLink介面進入AI基礎設施平台——這意味著一部分PCIe伺服器市場將轉向NVLink架構。此前,要將一個私有協議推向行業標準,對抗開放的PCIe聯盟,單靠輝達一家雖頗有成效,但終歸獨木難支。而在這盤大棋中,Intel正是那個最關鍵、也最微妙的“棋子”。一旦Intel的伺服器CPU開始支援NVLink,整個伺服器生態系統將被迫跟進,這將極大加速NVLink的普及,形成事實上的行業標準。如果這套方案真正跑通了,不難想像,未來的AI伺服器設計、主機板佈局、晶片介面都將圍繞NVLink展開,任何想要接入這個高性能計算生態的晶片(無論是CPU還是其他AI晶片),都必須相容NVLink Fusion協議。這將形成一種強大的捆綁效應,將整個產業鏈從主機板製造商、伺服器廠商到終端使用者,都牢牢鎖定在輝達的生態圈內。而一旦掌握了協議主導權,輝達便可以通過授權、認證等方式,從每一個接入其生態的硬體中獲利,成為資料中心時代的“高通”。乍看之下,“輝達入股Intel”的動作似乎是GPU霸主向CPU巨頭的示好或滲透,意圖補全其在通用計算領域的版圖。但這不僅是一次投資,更是一場意圖重塑未來資料中心底層協議、建構輝達除了CUDA之外的第二道“護城河”的深遠佈局,對NVLink互聯協議的超前佈局。這場衝擊的本質,是產業標準從“通用相容”向“垂直整合”的範式轉移——當CPU與GPU的領導廠商直接定義互連協議,第三方Retimer晶片的價值自然大幅縮水,市場格局的重構或已露端倪。換個角度思考,輝達與英特爾的合作在戰略協同層面也具備優勢: 面對共同的挑戰(如ARM架構在伺服器市場的侵蝕、AMD在CPU和GPU領域的攻城略地),Intel與輝達可以形成“CPU+GPU/互聯”的nvtel聯盟,共同定義下一代計算平台的架構。寫在最後綜合來看,當輝達攜NVLink技術入股英特爾,以“協議定義護城河”的戰略升維撬動高性能計算的架構格局時,PCIe Retimer市場確實告別了過去“高速增長無虞”的黃金時代——這場由兩大晶片巨頭聯手掀起的互連革命,可能會短暫影響依託PCIe鏈路站穩腳跟的Retimer晶片。但這僅僅是一種初步見解,因為在很多分析人士看來,PCIe Retimer的市場空間,仍紮根在諸多無法被NVLink完全覆蓋的場景裡——在長距離傳輸與複雜拓撲中,GPU伺服器的機頭與機尾、GPU與交換機的銅纜連接,仍需它以自適應均衡能力抵消訊號衰減;在非GPU裝置互聯領域,SSD、網路卡與CPU的高速鏈路,尤其是複雜布線場景下,Retimer仍是保障資料“零丟包”的關鍵;更不用說採用OAM架構的伺服器,其通用基板(UBBP)設計天然依賴Retimer晶片維持訊號完整性。這種不可替代性,也讓PCIe Retimer市場底色尚存,依然是AI時代算力網路中“不可或缺的拼圖”。 (半導體行業觀察)
互聯技術扛起大旗,中國國產化閉環近了?
2025年9月24日,中國資訊通訊研究院華東分院與行業領先的AI網路全端式互聯產品及解決方案提供商——奇異摩爾聯合舉辦的“聚力向芯 算湧無界 Networking for AI”生態沙龍活動在上海浦東成功舉辦。活動圍繞“國產AI算力產業鏈實現閉環”這一主題,邀請AI算力產業鏈上下游企業及技術專家,包括中國移動、財躍星辰、騰訊雲、沐曦、新華三、中科創星、無問芯穹、後摩智能、中昊芯英等行業頭部及明星企業。內容覆蓋從算力晶片到演算法模型再到算力服務的全鏈條環節,展現了國產AI從技術突破到生態建構的整體進展,也標誌著中國在科技自主化道路上的堅實腳步。“聚力向芯 算湧無界 Networking for AI” 生態沙龍活動在開場致詞環節,中國信通院華東分院總工程師陳俊琰表示,“在國家戰略指引和地方政策推動下,上海智能算力產業已形成‘基礎夯實、創新活躍、場景豐富’的良好態勢。面向上海要實現智能算力產業高品質發展,他提出了三點建議:一是強化技術創新協同,突破核心瓶頸。二是完善算力調度體系,提升配置效率。三是深化場景融合應用,賦能實體經濟。中國信通院華東分院將繼續發揮‘國家高端專業智庫、產業創新發展平台’的作用,在算力領域的政策研究、標準制定、測試認證、生態建設等方面提供更有力的支撐。”奇異摩爾聯合創始人、產品解決方案副總裁祝俊東表示,“當前智算中心的建設模式已經從過去單純的硬體採購發展為更深入的生態適配與共建。這一轉型高度依賴於產業鏈各環節的互聯互通與開放合作。作為產業鏈的一環,奇異摩爾具備橫跨AI產業鏈系統級、晶片級與芯粒級的全端互聯產品解決方案及服務能力。依託我們在計算+網路雙重維度的深厚技術積累,期待與產業夥伴協同創新,共同突破國產算力瓶頸,建構開放、開放原始碼的國產算力新生態”。互聯技術迎來價值躍遷當前人工智慧正引領全球邁入全新發展階段。在AI Scaling Law的新範式驅動下,大模型技術從基座模型突破到推理模型躍遷的變革中迎來基礎設施全面升級的新一輪轉型期,算力已成為當下國力角逐的重要維度。超大規模智算叢集技術突破和工程落地、智能算力統籌規劃,以及資料、算力、電力、網路等多種資源的協同配合,已被國家提升至戰略層面。國務院印發《關於深入實施“人工智慧+”行動的意見》,明確提出要強化8項基礎支撐能力,包括提升模型基礎能力、加強資料供給創新、強化智能算力統籌、最佳化應用發展環境、促進開源生態繁榮等。工信部也聯合多部門發文,強調以新一代通訊技術為驅動,建構覆蓋感知、傳輸、儲存與計算的基礎設施體系,併合理佈局區域樞紐節點,逐步提高智能算力佔比。隨著AI推理的落地、算力叢集建設提速,互聯技術作為建構AI基礎設施的關鍵環節正發揮越來越關鍵的作用。高頻寬、低時延的互聯能力,已成為提升模型性能、降低成本、實現普惠AI的重要路徑。在Scale-up網路側,超節點正在發揮算力叢集“神經中樞”的核心價值,通過將成百上千張GPU互聯,幫助建構內部高速、低延遲的通訊網路,提升系統的效率與計算上限,支撐大規模模型的訓練和平行推理。互聯技術及相關業務,已經成為輝達的戰略支柱。輝達專為GPU間通訊,設計了點對點的高速互聯技術NVLink,最新的NVLink 5.0為每個Blackwell GPU提供高達1.8TB/s的雙向頻寬。同時,為實現多GPU的全互聯,輝達引入了NVSwitch晶片,在GB200 NVL72系統中,通過18顆NVLink 5 Switch晶片,建構了總頻寬高達130TB/s的72 GPU NVLink域。奇異摩爾作為國內AI網路互聯領域極少數可提供全端式互聯產品架構及解決方案的供應商,公司市場定位與方案優勢,在算力叢集互聯發展正當其時的趨勢之下,同樣值得關注。依託於高性能RDMA和芯粒技術,建構了一整套覆蓋面向北向Scale-out網間互聯、面向南向Scale-up超節點GPU片間互聯,以及Scale-inside晶片內互聯的產品解決方案,為AI高性能計算提供了堅實的支撐。針對建構千卡規模超節點HBD域,奇異摩爾的Kiwi G2G IO Die超節點互聯芯粒,是業內少有的基於開源系統的超節點片間互聯方案,具有高頻寬、低延時的特性,可以實現TB等級的頻寬。G2G IOD在支援消息語義的同時,進一步支援記憶體語義,通過與GPU廠商、雲廠商及交換機廠商持續協作適配,全面賦能國產算力的開源閉環。在Scale-out網路側,奇異摩爾打造的Kiwi SNIC AI原生超級網路卡,性能可對標主流國際高性能ASIC產品,支援高達800Gbps的傳輸頻寬,提供低至μs級的資料傳輸延時,能夠滿足當前智算中心對網路傳輸的升級需求,實現Tb等級萬卡叢集間的無損資料傳輸。奇異摩爾首席網路技術專家葉棟在活動演講中表示,“奇異摩爾的超節點互聯芯粒及AI原生超級網路卡均基於Kiwi NDSA統一技術平台,採用HPDE高性能可程式設計架構設計,該架構下產品具有優秀性能的同時還兼顧靈活性。相比輝達等互聯技術,能更好地支援市面上不同算力服務商的最新技術標準和網路環境,實現高性能,可靠性與靈活性的融合。”奇異摩爾首席網路技術專家葉棟在提升行業單晶片算力技術方面,奇異摩爾的片內互聯方案,基於UCIe的D2D IP及Central IO Die及3D Base Die系列,可賦能AI晶片/高性能晶片的算力提升,進一步提升AI網路的單卡算力。以先進互聯技術助推產業共建,打造中國自主創新閉環DeepSeek的出現為AI行業帶來演算法變革,激發海量且多樣化的算力需求。為解決叢集運行效率,超節點等互聯技術的發展已經勢在必行。而這些技術的產業化落地,亟需依託覆蓋全方案、全產業鏈的互聯技術標準架構作為牽引,縱向支撐智算叢集性能擴展。在此背景下,中國移動、新華三、沐曦等行業頭部企業,正在發揮各自產業優勢,推動叢集算力與互聯技術實現規模化系統級部署。今年8月,中國移動聯合國內數十家營運商、網際網路企業、晶片廠商、伺服器製造商及科研院所,共同啟動智算開放互聯OISA生態共建戰略合作,並行布OISA 2.0協議。OISA 2.0進一步將支援的AI晶片數量提升至1024 張,頻寬突破TB/s等級,AI晶片互聯時延縮短至數百納秒,為大模型訓練、推理及高性能計算等資料密集型AI應用提供有力支撐。“OISA致力於打破傳統Scale-up協議在頻寬與延遲上的固有瓶頸,其核心價值顯著且深遠,不僅為業界拓展了下一代計算與網路一體化的技術路線選擇,更明確了OISA IP、OISA IO芯粒等互聯承載物的關鍵設計方向,為建構開放協同的產業生態、築牢未來智算中心的發展根基,提供了極具指導意義的關鍵藍圖。”中國移動研究院技術經理李鍇在演講中特別強調,“作為OISA體系的積極踐行者,奇異摩爾深度投身生態建設,在協議及IO芯粒的標準制定與產品研發中全力推進生態適配,為《OISA全向智感互聯IO芯粒技術白皮書》的編撰貢獻了關鍵力量。”OISA生態共建戰略合作啟動儀式沐曦作為國產AI算力晶片的頭部企業,已形成以旗艦產品曦雲C500為代表的完整產品線,涵蓋晶片、板卡、伺服器及多形態超節點乃至千卡叢集,具備從底層硬體到資料中心部署的全鏈路解決方案。同時,沐曦還創新多種超節點形態,包括光互連超節點、耀龍3D Mesh超節點、Shanghai Cube國產高密度液冷整機櫃等,將為建構安全可控、場景適配的國產算力體系提供有生力量。沐曦股份研究院院長李兆石在活動上表示,“超節點互聯協議設計需要算網融合。當前超節點使用的互聯協議雖然能滿足基本需求,但還有很大的性能提升空間。國內智算產業需要上下游協同,才能做出媲美國際先進水平的產品。”新華三發佈的全新H3C UniPoD系列超節點基於多元算力生態,開放相容乙太網路和PCIe協議雙技術路線,實現高性能Scale-up互聯。該系列支援整機櫃液冷整合交付與節點機櫃解耦交付,並通過軟硬協同最佳化實現快速業務建構與全端能力交付。UniPoD能夠實現單機櫃最高64卡GPU間的高速互聯互通,可為兆級參數大模型訓練及推理提供更強勁、更智能、更綠色的算力供給。中科創星董事總經理盧小保表示:“算力、存力、互聯是AI底層硬體的核心。AI算力需求趨勢是由單體智能往群體智能發展,Scaling Law下,互聯的作用越來越凸顯,片內互聯、片間互聯、卡間互聯、超級點內互聯,到叢集互聯,在不同技術層面上,互聯成了延續摩爾定律、不斷提升算力密度的核心解決路徑。在國內先進工藝受限的情況下,互聯更是具備特殊價值,讓國內算力產業可以以規模和成本換性能,實現算力自立。”此外,本次AI生態沙龍還得到了來自階躍星辰合資企業財躍星辰、騰訊雲、中昊芯英、無問芯穹、後摩智能等行業頭部企業技術專家的大力支援。業內投資專家曾指出:“未來三年,誰能把國產算力高效‘連’起來,誰就能贏得AI基礎設施的賽點。”互聯,這個曾經被忽視的技術角落,正成為國產AI算力能否真正實現閉環的關鍵一戰。 (半導體行業觀察)