#NVLink | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#NVLink

英英聯合，藍廠CEO宣佈正開發 AI 定製 Xeon 至強處理器，深度整合 NVLink 技術

IN-DIA處理器要來了英特爾 CEO 陳立武昨日在 Q4 財報電話會議中證實，英特爾正與輝達合作開發一款面向企業級和資料中心應用、深度整合 NVLink 技術的至強（Xeon）處理器，目標直指新一代 AI 主機節點。我們正在持續與輝達緊密合作，打造一款完全整合其 NVLink 技術的定製 Xeon 處理器，以為 AI 主機節點帶來業界領先的 x86 性能。除此之外，陳立武還提到了至強產品線的其他進展，稱該部門正高度聚焦於推動 16 通道的“Diamond Rapids” Xeon 處理器加快上市處理程序。不過，目前我們尚無法判斷這款與輝達聯合開發的定製 Xeon 處理器將基於第六代還是第七代 Xeon 技術。定位更靠後的“Coral Rapids” Xeon 系列，預計將為資料中心工作負載重新引入超線程（Hyper-Threading）技術。陳立武同時還提到，加快“Coral Rapids”系列至強處理器的上市進度，也是公司目前的另一項重要目標。時間回溯至去年 9 月中旬，英特爾與輝達宣佈達成合作。雙方暗示未來將在英特爾 x86 處理器中引入採用輝達 GeForce GPU 的核顯。不過，自去年秋季以來，該面向主流市場的項目鮮有進一步披露。與此同時，英特爾則集中資源推進下一代“Panther Lake-H”移動處理器，而該系列將採用英特爾自研的 Arc Xe3圖形架構。此前報導，輝達和英特爾的合作主要在產品層面展開，在資料中心領域由英特爾向輝達供應內建 NVLink IP 的定製 CPU，而在消費級領域則是輝達向英特爾供應 GPU 芯粒。(AMP實驗室)

一樁收購，成就4兆輝達

對於當前炙手可熱的輝達，大家公認有兩條護城河，分別是CUDA和NVLink，但從最近一個季度的業績看來，如果沒有當年70億美元的收購，也許後續就不會有市值4兆的晶片巨頭。在今年二季度的財報發佈之後，整個注意力主要集中在這家晶片製造商的收入能否繼續證明其市值飛速增長的合理性。但其實在各種頭條新聞的背後，有一個業務類股卻格外引人注目，那就是網路業務。在分析人士看來，這將成為推動該公司轉型為市值4兆美元巨頭的低調引擎。相關資料顯示，這項標記為“網路”的業務對輝達整體收入的貢獻可能遠高於16.1%。收入環比飆升46%，同比幾乎翻了一番，僅第二季度就達到了72.5億美元。換句話說，僅在上個季度，通過收購Mellanox而建立的研發中心為輝達創造的收入就超過了收購成本。這使得該部門的年營運額達到250億至300億美元，對於曾經被視為輝達旗艦圖形處理器配角的部門來說，這是一個非同尋常的數字。達成這個成績背後，當年他們耗資69億美元收購的Mellanox功不可沒。01 輝達成功的幕後英雄過去幾年，談到挑戰輝達，除了從計算上面入手以後，軟體和網路是經常被提到兩個方面。例如近年來的UAlink，就是為了攻破輝達壁壘而組建的一個組織聯盟。背後的原因就是單晶片或單機架難以滿足劇增的AI算力需求，Scale Up和Scale Out迫不及待。輝達表示，受能源供應和晶片密度等物理限制的制約，如今的資料中心已經接近單一設施所能提供的極限。新平台 Spectrum-XGS 解決了諸如長延遲等障礙，這些問題迄今為止一直阻礙著獨立的設施作為統一的系統運行。輝達首席執行官黃仁勳在此前的財報電話會議上也強調：“我們擁有Spectrum-XGS，它擁有千兆級規模，可以將多個資料中心、多個AI工廠連接成一個超級工廠，一個龐大的系統。這正是輝達在網路領域投入如此多精力的原因。正如我們之前提到的，Spectrum-X現在已經是一個相當可觀的業務，而且它成立只有大約1.5年。因此，Spectrum-X是一個本壘打。”更早之前，輝達收購Mellanox而加碼打造的以色列分公司的一項技術突破將使地理位置相距遙遠的資料中心能夠像在一個地方一樣運行，從而有效地大規模建立“人工智慧工廠”，並顯著提高該行業可用的最大計算能力。該公司在一份新聞稿中表示：“憑藉先進的自動調整距離擁塞控制、精確的延遲管理和端到端遙測技術，Spectrum-XGS 乙太網路幾乎使 NVIDIA 集體通訊庫 (CCL) 的性能提高了一倍，加速了多 GPU 和多節點通訊，從而在地理分佈的 AI 叢集中提供可預測的性能。因此，多個資料中心可以像一個 AI 超級工廠一樣運行，並針對長距離連接進行了全面最佳化。”正如黃仁勳所說：“這正是輝達5.5年前收購Mellanox的原因。”Mellanox 由Eyal Waldman成立於 1999 年，是 InfiniBand 互連技術的先驅。在被輝達收購的時候，該技術及其高速乙太網路產品目前已應用於全球超過一半最快的超級電腦以及許多領先的超大規模資料中心。Mellanox 於 2007 年上市，並於 2018 年首次突破 10 億美元年銷售額。2018 年，該公司的 GAAP 淨收入為 1.343 億美元，也創下了歷史新高，在收購發生之前的13 年中，該有 10 年實現盈利，同時自 2005 年以來一直保持自由現金流為正。在Mellanox 和 NVIDIA之間，也有著悠久的合作與聯合創新歷史。NVIDIA 也早於 2016 年在以色列開設了一家設計中心，並於 2018 年開設了一家人工智慧研究中心。該公司此前承諾“將繼續投資以色列的本地卓越人才，以色列是全球最重要的技術中心之一”。Eyal Waldman此前在一個播客中表示：“我相信，處理器（大腦）與網路連線之間的協同作用，將輝達從一家市值 930 億美元的公司，發展成為如今市值 4 兆美元的巨頭。” 他進一步指出，如果沒有 Mellanox 的 InfiniBand，就不會有 ChatGPT：“OpenAI 一直從我們這裡購買最先進的產品。如果沒有這種連接，他們就無法達到人工智慧所需的資料處理速度。”Eyal Waldman說道。“這是業界有史以來最重要的併購案，”Eyal Waldman強調。02 網路連線空前重要Nvidia網路高級副總裁Gilad Shainer此前在接受HPCwire的採訪中回憶道， Mellanox在當時建構的並不是網路元件。公司主要建構的是端到端的完整基礎設施，並且專注於 InfiniBand，它配備了網路卡和交換機，以及它們之間的連接，以及所有基於其上的軟體，所以它是一個完整的平台。“它是一款完整的基礎設施，InfiniBand 專為分散式運算應用而設計。因此，它在 HPC 和科學計算領域得到了廣泛的應用。所有大規模叢集模擬都使用 InfiniBand，因為它專為分解式計算而設計，並且具有極低的延遲。InfiniBand 確保所有節點都擁有有效頻寬。抖動是每個人都希望最小化的一個因素。”Gilad Shainer接著說。如他所說，對於 HPC 來說，這是一項偉大的技術，而當AI 開始出現時，它又是分散式運算的另一個案例。例如，你可以認為延遲的敏感度更高或更低，因為人工智慧工作負載和科學計算工作負載之間存在一些差異。科學計算工作負載對延遲的敏感度可能比人工智慧訓練初期更高；而當時的敏感度略低。“納秒級的延遲對於訓練來說並不那麼重要，但仍然需要較大的有效頻寬。”Gilad Shainer指出。他表示，現在我們將推理視為人工智慧的主要元素。推理依賴於延遲，因為你需要低延遲。因此，人工智慧和高性能計算（HPC）本質上具有相同的要求。而這正是基礎設施變得更加重要的地方。Gilad Shainer說，將高性能計算 (HPC) 與人工智慧 (AI) 進行比較時，一個有趣的現像是，在高性能計算 (HPC) 中，計算能力一代一代地提升。然而，資料中心的規模卻保持不變。通常情況下，資料中心有幾千個節點，你可以從每個節點獲取遙測資料，但規模保持不變。來到人工智慧方面，要求就更高了。這不僅僅是每台伺服器的計算能力提升，而是每個新 GPU 的計算能力提升，基礎設施的規模已大幅增長。幾年前，人們討論的是 16000 個 GPU，甚至 30000 個 GPU。這就像與高性能計算 (HPC) 進行比較一樣，都是龐大的基礎設施。如今， 16000個GPU的方案都已經被束之高閣。大型基礎設施通常包含數十萬個 GPU，現在 GPU 數量已達 20 萬個，而云廠商們正在討論幾年後遷移到百萬級 GPU。這不僅僅是電腦的問題，也是基礎設施的規模問題。而要實現這種規模，需要合適的擴展網路和可擴展的基礎設施。資料中心現在已經成為衡量計算能力的標準。它不僅僅是一個盒子，而是一個完整的資料中心。“資料中心就是網路。網路將定義GPU如何作為一個整體的計算元素工作，否則它將只是一個GPU伺服器叢集，這就是NVIDIA收購Mellanox的原因。而這正是基礎設施變得越來越重要的地方。”Gilad Shainer說。有見及此，輝達正處於每年推出新資料中心的節奏中：每年都會有新的 GPU、新的計算引擎、新的交換機、新的基礎設施。每年都會有新的資料中心投入使用，為人工智慧應用提供更強大的功能，無論是訓練還是大量的推理。這些新系統正在世界各地催生出大量的人工智慧框架和應用。03 CPO是大勢所趨如大家所說，現在，基礎架構由資料中心所需的多個域組成。除了scale-out （連接伺服器）之外，還需要建構或擴展 GPU，即組合 GPU 並形成更大的虛擬 GPU。為了實現這個更大的虛擬 GPU，需要在各個 GPU 之間提供巨大的頻寬。如果你想讓它看起來像一個整體，這就是NVlink能發揮作用的地方。這項功能是系統網路的scale-up領域。NVlink 需要支援海量頻寬——是scale-out的 9 倍甚至10 倍。它需要非常低的延遲。因此Mellanox的團隊將可擴展分層聚合和縮減協議 (SHARP) 引入 NVlink，這樣就可以進行縮減，使機架成為一個單元，並且我們嘗試在該機架中安裝越來越多的 GPU。未來，輝達計畫在一個機架中部署 576 個 GPU。這是一個巨大的計算量，需要擴展該機架中的基礎設施。公司也正努力將其控制在機架內，以最大限度地利用銅纜布線。在輝達看來，一旦擁有了在各個元件之間傳輸所需的巨大頻寬，您就需要以最具成本效益的方式建構它，而銅纜是連接通訊的最有效方式。但你不能止步於此，因為現在你需要把這些機架連接在一起，你指的是讓數十萬個GPU作為一個單元工作，或者讓20萬個GPU作為一個單元工作。有些客戶可能想要50萬個甚至100萬個GPU。現在，由於距離較遠，我們需要建構一個基於光纖的橫向擴展基礎設施，但它必須具備與 OFED 層相同的特性，包括有效頻寬和確定性。在輝達看來，InfiniBand 仍然被認為是橫向擴展基礎設施的黃金標準。所有你打算建構的、並非 InfiniBand 的東西，你都可以將其與 InfiniBand 進行比較，因為 InfiniBand 是性能的黃金標準。在Gilad Shainer看來，擴展系統是人工智慧的一個方面。每年，資料中心的規模都在大幅增長。這意味著機架之間的頻寬更大，也意味著線路中的計算量更大。因此，線路中的頻寬也更大。Gilad Shaine同時指出，現在我們需要部署更多的光纖連接，而這部分突然就出現了功耗預算。“在人工智慧資料中心，限制因素不是空間或預算，而是能夠引入多少功耗。”他表示。如Gilad Shaine所說，機架之間的光纖連接耗電很高。這會導致機架中可容納的 GPU 數量減少。因此，光纖網路開始消耗接近 10%的計算能力，這是一個很大的數字。所以，在這種情況下，我們需要考慮的一個因素是，有沒有辦法降低光纖網路的功耗？這不僅僅是因為隨著資料中心規模的擴大，需要建構的元件也越來越多——我需要安裝GPU，安裝網路卡，然後連接線纜，安裝收發器和交換機，並進行所有必要的配置，而其中，增長最快的元件是光收發器的數量。因為每個 GPU 大約有 6 個光收發器。如果我有 10 萬個 GPU，就需要 60 萬個收發器。正如您所知，這些收發器對灰塵很敏感，發生故障時可能需要管理員更換。這種情況可能會導致資料中心中這些元件的更換量增加，因為現在的元件數量更多了。因此，輝達認為，資料中心基礎設施的下一個重大舉措是改進或將光纖連接提升到一個新的水平。這需要將目前作為收發器外部獨立部件的光纖連接整合到交換機中，從而將其提升到一個新的水平。如果我把它們放在一個封裝裡，就不需要通過交換機傳輸電訊號了。這意味著我可以降低功耗，用更少的功率驅動光訊號通過交換機。在這種情況下，我可以將功耗降低近四倍。現在，在同樣的網路中，我實際上可以容納三倍多的GPU。於是，輝達正在推動將矽光子引擎或光學引擎整合到交換機上，我就不再需要使用那些外部收發器了。正如Gilad Shaine所說，共封裝光模組（CPO）並非新概念。市場上曾有人嘗試這樣做。現在到處都能看到一些裝置，也有一些交換機系統嘗試採用CPO，但它們都無法實現全面量產並達到良好的良率，從而實現規模化成本效益。這背後的原因有很多。其中一個原因是這項技術未經驗證，所以良率很低。之前製造的光學引擎採用的是製造大型光學引擎的技術。如果我有一個大型基數交換機，由於尺寸問題，我無法將所有這些光學引擎都裝在同一個交換機上。這時候，就需要新的封裝技術甚至新的雷射技術。而達成的上述種種成就，也和輝達當年收購Mellanox密不可分。04 寫在最後Eyal Waldman在播客採訪中將Mellanox出售談判描述為英特爾、輝達和其他公司之間的一場“大戰”。“最終，與黃仁勳（輝達首席執行官）的聯絡是水到渠成的。“從一開始，我們就知道這是方向。2019年，英特爾的市值遠超輝達，而僅僅一年後，輝達就超越了它。從那時起，由於對人工智慧的正確押注，它的股價一路飆升。”Eyal Waldman強調。籍著收購Mellanox之後，輝達在以色列建立起僅次於美國的研發團隊。據資料顯示，這家晶片巨頭在以色列的七個研發中心擁有超過 5000 名員工。該公司也在當地開發資料中心的中央處理器（CPU）、機器人和汽車的片上系統（SoC）以及自動駕駛汽車的演算法。由此看來，對輝達來說，這是一個前所未有重要的交易。 (EDA365電子論壇)

瑞銀詳解AI基建繁榮前景：輝達握有兆美元收入機會，資料中心收入有望再翻一番？

瑞銀分析師Timothy Arcuri表示，輝達手握"數十千兆瓦"AI基礎設施項目，按保守估算價值超過1兆美元。如果這一預測成真，輝達資料中心收入有望在2-3年內達到每年4000億美元，幾乎是當前市場預期的兩倍。輝達不僅交出數份超預期財報，其後續的增長前景可能超出市場想像。周二，瑞銀分析師Timothy Arcuri在一份客戶報告中表示，輝達手握"數十千兆瓦"AI基礎設施項目，按保守估算價值超過1兆美元。如果這一預測成真，輝達資料中心收入有望在2-3年內達到每年4000億美元，幾乎是當前市場預期的兩倍。上周，瑞銀分析師Steven Fisher、Amit Mehrotra等人指出，人工智慧資料中心的建設熱潮預計要到2026年第二季度才會在實體經濟中顯現出來或提供結構性順風。分析認為，這一觀點表明，AI基建繁榮已經超越了周期概念，轉向指數級基礎設施擴張模式。數字時代的人工智慧資料中心建設可以被視為的20世紀30年代“羅斯福新政”，只不過，它建設的不是高速公路和水壩，而是GPU和兆瓦電力。它正在重塑美國的基礎設施，但主導者是大型科技公司。此外，瑞銀還分析表示，電話會中GB200出貨量更多是向投資者保證機架問題已經解決，同時NVLink推動網路業務爆發式增長，並預計Blackwell盈利能力改善和成本下降將推動毛利率在2026財年末回到75%左右。兆美元潛在項目：被忽視的增長引擎根據瑞銀分析，輝達在最新財報電話會議中提及的“數十千兆瓦”潛在人工智慧基礎設施項目，按20千兆瓦的保守估算和公司每千兆瓦400-500億美元的定價區間，總收入機會至少達到1兆美元。更關鍵的是時間表。瑞銀認為這些項目將在2-3年內推出，意味著輝達每年可獲得約4000億美元的“可見性“資料中心收入——這一數字是瑞銀對其2026財年資料中心收入預期（2330億美元）的近兩倍。瑞銀分析師Timothy Arcuri指出：這顯然令人興奮僅Crusoe一家數字基礎設施開發商就擁有約20GW的項目管道，而這只是眾多開發商中的一家。這一發現應該能夠緩解投資者對增長可持續性的擔憂。GB200出貨量資料背後的真相輝達在財報會議上提供的GB200機架資料引發了投資者困惑。公司表示，主要超大規模客戶平均每周部署近1000個NVL72機架，相當於72000個Blackwell GPU，並有望在本季度進一步提升產能。按字面理解，這意味著每個超大規模客戶的GPU運行率接近每季度100萬個——遠超大多數共識預期。但瑞銀認為，輝達並非在傳達收入“運行率”，而是試圖向投資者保證GB200機架問題已經解決，大量機架正從ODM和OEM廠商流向客戶。瑞銀表示，“我們不會對這些數字做過多解讀，因為我們認為公司更多是想說明情況而非提供量化資料。”NVLink推動網路業務爆發式增長輝達網路收入在第一財季增長至約50億美元，環比增長64%，其中10億美元來自NVLink收入的大幅增長。瑞銀認為這幾乎完全與GB200 NVL72機架規模系統出貨量增長有關，每個系統包含72個GPU的NVLink域，相比HGX系統最多8個GPU的配置有顯著提升。由於輝達對NVL72系統單獨確認NVLink收入，預計網路收入將更緊密地跟蹤NVL72機架出貨量，儘管可能存在輕微滯後。遊戲業務復甦：管道補庫存而非AI挪用第一財季遊戲收入大幅改善（環比增長近50%，遠超預期）引發投資者質疑，50系列RTX顯示卡被轉用於其他市場。瑞銀認為任何此類轉用都極其有限，原因包括：基於Blackwell的RTX GPU在遊戲管道的供應仍然過於有限；RTX 50系列GPU基於PCIe且不支援擴展用的NVLink；輝達在初期為優先保障資料中心應用而在某種程度上限制了遊戲管道的Blackwell供應，第一財季增長主要由嚴重供應短缺後的管道補貨推動。毛利率復甦路徑清晰Blackwell盈利能力的普遍改善和成本下降仍是推動毛利率在2026財年末回到75%左右的主要驅動力。瑞銀認為GB300將發揮重要作用，輝達可能在第二財季確認少量收入，真正放量將在第三財季。長期來看，基於價值定價仍是輝達毛利率的關鍵函數，這涉及硬體和軟體疊加，在GTC大會上發佈的Dynamo就是典型例子，可將輝達硬體上的推理速度提升30倍以上。綜合來看，輝達的財報以及瑞銀對多年AI基礎設施繁榮的擴展可見性表明，這場繁榮更多關乎指數級基礎設施擴展，而非產品周期。瑞銀分析師Steven Fisher、Amit Mehrotra等人上周指出，AI資料中心的建設熱潮預計要到2026年第二季度才會在實體經濟中顯現並提供結構性推動力。 (invest wallstreet)

一文看懂輝達的NVLink技術

前段時間介紹超節點的時候，有很多讀者追問NVLINK的細節。今天乾脆單獨開一篇，講講NVLink。█NVLink的誕生背景上世紀80-90年代，電腦技術高速發展，逐漸形成了英特爾和微軟為代表的“Wintel”軟硬體體系。在硬體上，基本上都是圍繞英特爾的x86 CPU進行建構。為了能讓電腦內部能夠更好地傳輸資料，英特爾牽頭設計了PCIe匯流排。懂電腦的同學，應該對PCIe非常熟悉。我們的顯示卡，還有早期的網路卡和音效卡等，都是插在電腦主機板PCIe插槽上工作的。後來，隨著時間的推移，電腦CPU、記憶體、顯示卡的性能越來越強大，相互之間傳輸的資料量也越來越多，PCIe的能力開始出現瓶頸（儘管這個技術也在迭代），傳輸速率和時延逐漸無法滿足需求。表現最突出的，是顯示卡（GPU）的通訊需求。本世紀初，遊戲產業發展迅速，顯示卡的升級迭代也很快。當時，為了讓遊戲體驗更加流暢，甚至出現了同時安裝2塊顯示卡的情況。AMD（2006年收購了ATI）那邊，把這種多顯示卡技術叫做Crossfire（交火）。而輝達這邊，則叫做SLI（Scalable Link Interface，可升級連接介面，也叫“速力”，2007年推出）。除了個人消費領域之外，科研領域對顯示卡性能的需求也不斷增加。科學家們使用顯示卡，不是為了玩遊戲，而是為了3D建模，以及執行一些超算任務。輝達在不斷提升顯示卡性能的同時，發現PCIe協議嚴重限制了顯示卡的對外資料傳輸。於是，他們開始考慮自創一套體系，用於取代PCIe協議。2014年，輝達基於SLI技術，推出了用於GPU高速互連的新協議——NVLink（Nvidia Link）。輝達NVLink技術的早期合作對象，是IBM。為什麼不是英特爾或AMD呢？因為PCIe是英特爾牽頭搞的，不太想搞NVLink。AMD算是輝達競爭對手，也不合適。當時，IBM是超算領域的巨頭，而且在技術參數上和輝達非常匹配，所以雙方進行了合作。輝達在發佈NVLink時指出：GPU視訊記憶體的速度快但容量小，CPU記憶體的速度慢但容量大。因為記憶體系統的差異，加速的計算應用一般先把資料從網路或磁碟移至CPU記憶體，然後再複製到GPU視訊記憶體，資料才可以被GPU處理。在NVLink技術出現之前，GPU需要通過PCIe介面連接至CPU，但PCIe介面太落後，限制了GPU存取CPU系統記憶體的能力，對比CPU記憶體系統要慢4-5倍。有了NVLink之後，NVLink介面可以和一般CPU記憶體系統的頻寬相匹配，讓GPU以全頻寬的速度存取CPU記憶體，解決了CPU和GPU之間的互聯頻寬問題，從而大幅提升系統性能。IBM POWER CPU的頻寬高於x86 CPU，PCIe瓶頸效應更為明顯，所以，他們才非常積極想要和輝達合作。在GTC2014上，輝達CEO黃仁勳對NVLink讚不絕口。他表示：“NVLink讓 GPU與CPU之間共享資料的速度快了5-12倍。這不僅是全球首例高速GPU互聯技術，也為百億億次級計算鋪平了道路。”GTC20142014年年底，美國能源部宣佈將由IBM和輝達共同建造兩台新的旗艦超級電腦，分別是橡樹嶺國家實驗室的Summit系統和勞倫斯利弗莫爾國家實驗室的Sierra系統，引發行業的高度關注。而NVLink，就是其中的關鍵技術，用於IBM POWER9 CPU與輝達GPGPU（基於Volta架構）的連接。根據官方資料，建成的超級電腦算力高達100Pflops。除了超算之外，在智算領域，NVLink也迎來了機遇。2012年，AI大佬傑弗裡·辛頓帶著兩個徒弟搞出了深度摺積神經網路AlexNet，贏得ImageNet圖像識別大賽，徹底點爆了用GPU進行AI計算這個路線，從而打開了新世界的大門。在超算和智算雙重浪潮的助推下，輝達的GPU、NVLink、CUDA等技術，開始走向了全面爆發。█NVLink的技術演進NVLink能夠實現更高的速率、更低的時延，各方面性能都明顯強於PCle。接下來，我們看看它到底是個什麼樣的連接方式。輝達GTC2014發佈的是NVLink的首個版本——NVLink 1.0。在2016年（GTC2016）發佈的P100晶片上，就搭載了NVLink 1.0技術。NVLink是一種基於高速差分訊號線的序列通訊技術。每塊P100 GPU整合了4條NVLink 1.0鏈路。每條NVLink 1.0鏈路由8對差分線（8個通道）組成。NVLink鏈路和差分線每對差分線（每個通道）的雙向頻寬是5GB/s。所以，每條NVLink 1.0鏈路的雙向頻寬是40GB/s。因此，每塊P100 GPU的總雙向頻寬可達160GB/s，是PCIe3 x16（總頻寬大約32GB/s）的五倍。NVLink還支援記憶體一致性和直接記憶體訪問（DMA），進一步提高了資料傳輸效率和計算性能。迄今為止，輝達陸續推出了NVLink 1.0~5.0，參數我就不一一介紹了，可以看下面的表格：NVLink1-4代際（圖片來自輝達官網）再來看看拓撲結構。最簡單的兩張卡直接互連，就是槓鈴拓撲（barbell topology）。雙PCIe GPU之間，可以通過NVLink Bridge裝置實現。槓鈴拓撲NVLink Bridge四張GPU卡的話，可以使用十字交叉方形拓撲（crisscrossed square topology）。這是一種Full Mesh的網狀交叉互聯結構。十字交叉方形拓撲8張GPU卡，就稍微有點複雜了。在HGX-1系統中實現了一種 “hybrid cube mesh” 8 GPU互聯結構。如下圖所示：每一塊GPU都巧妙利用了其6條NVLink，與其他4塊GPU相連。8塊GPU以有限的NVLink數量，實現了整體系統的最佳性能。這個圖看上去有點奇怪。實際上，如果把它以立體的方式呈現，就很清晰了：就是串聯的架構。當時輝達發佈的超級電腦DGX-1，就是採用了上面這個架構。2016年，輝達CEO黃仁勳給剛剛成立的OpenAI公司贈送了世界上第一台DGX-1超級電腦，價值129000美元。這台DGX-1擁有2顆Xeon處理器和8顆Tesla P100 GPU，整機擁有170TFLOPs的半精度（FP16）峰值性能，還配備了512GB系統記憶體和128GB GPU記憶體。這台機器給OpenAI的早期起步提供了極大幫助，大幅縮短了他們的大模型訓練周期。Hybrid Cube Mesh架構實現了單機內的8卡互連，但也存在一些不足：它屬於一種序列連接，8塊GPU之間並非兩兩互聯，每一塊GPU只與其他4塊GPU相連，且存在頻寬不對等的情況。於是，2018年，為了實現8顆GPU之間的all-to-all互連，輝達發佈了NVSwitch 1.0。NVSwitch，說白了就是“交換晶片”。它擁有18個連接埠，每個連接埠的頻寬是50GB/s，雙向總頻寬900GB/s。用6個NVSWitch，可以實現8顆V100的all-to-all連接。引入NVSwitch的DGX-2，相比此前的DGX-1，提升了2.4倍的性能。到NVLink 4.0的時候，DGX的內部拓撲結構增加了NVSwitch對所有GPU的全向直連，DGX內部的互聯結構得到簡化。2022年，輝達將原本位於電腦內部的NVSwitch晶片獨立出來，變成了NVLink交換機。這意味著，一個計算節點已經不再僅限於1台伺服器，而是可以由多台伺服器和網路裝置共同組成。目前，NVLink Switch已經發展到4.0版本。2022年，NVLink 4.0發佈時，輝達把既有的NVLink定義為NVLink-network，然後又專門推出了NVLink-C2C（Chip to Chip，晶片到晶片之間的連接）。NVLink-C2C是板級互連技術。它能夠在單個封裝中，將兩個處理器連接在一起，變成一塊超級晶片（Superchip）。例如，輝達的GH200，就是基於NVLink-C2C，將Grace CPU和Hopper GPU連接成Grace Hopper超級晶片。Grace Hopper平台的架構目前最新的NVLink代際，是NVLink 5.0，由輝達在2024年與Blackwell架構一同推出。單GPU可支援多達18個NVLink連結接，總頻寬達到1800GB/s，是NVLink 4.0的2倍，是PCIe 5頻寬的14倍以上。具體參數前面表格有，小棗君就不多說了。█NVL72的整體架構接下來，我們重點看看基於NVLink 5.0打造的DGX GB200 NVL72超節點。這個超節點的架構非常有代表性。DGX GB200 NVL72，包含了18個GB200 Compute Tray（計算托架），以及9個NVLink-network Switch Tray（網路交換托架）。如下圖所示：NVL72機櫃每個Compute Tray包括2顆GB200超級晶片。每顆GB200超級晶片包括1個Grace CPU、2個B200 GPU，基於NVLink-C2C技術。所以，整個機架就包括了36個Grace CPU（18×2），72個B200 GPU（18×2×2）。8個DGX GB200 NVL72，又可以組成一個576個GPU的SuperPod超節點，總頻寬超過1PB/s，高速記憶體高達240TB。NVL72機架的9個Switch Tray（網路交換托架），就是9台NVLink Switch交換機。每台NVLink Switch交換機包括2顆NVLink Switch4晶片，交換頻寬為28.8Tb/s × 2。NVLink SwitchNVL72採用高速銅連接架構設計。在機架的背框中，有4組NVLink卡盒（NVLink Cartridge），也就是安費諾Paladin HD 224G連接器（每個連接器有72個差分對），負責計算托架、網路托架之間的資料傳輸。在這些連接器中，容納了5000多根節能同軸銅纜（NVLink Cables，帶有內建訊號放大器），可以提供130TB/s的全對全總頻寬和260TB/s的集合通訊（AllReduce）頻寬。功耗方面，B200單顆晶片的功耗1000W，1顆Grace CPU和2顆B200組成的超級晶片GB200，功耗達到了2700W。整個DGX GB200 NVL72機架，功耗大約是120kW（重量大約是1.3噸）。為了確保穩定的供電，NVL72採用了新的增強型大容量母線排設計。升級後的母線排寬度與現有Open Rack Version 3（ORV3）標準相同，但深度更大，顯著提高了其電流承載能力。新設計支援高達1400安培的電流流動，是現行標準的2倍。NVL72是液冷機架式系統，採用了增強型免工具安裝（盲配）液冷分配管（歧管）設計，以及新型可自動對準的免工具安裝（浮動盲配）托盤連接。不僅可以提供120kW冷卻能力，還極大地簡化了安裝和維運。對外連接方面，NVL72配置了CX7或CX8網路卡，通過400G或800G的IB網路與外部進行Scale Out互聯，對應每台compute tray（計算托架）擁有2個OSFP 800G或1.6T連接埠。值得一提的是，NVL72還包括BlueField-3資料處理單元（DPU），可以實現雲網路加速、可組合儲存、零信任安全和GPU計算彈性。總而言之，GB200 NVL72確實是一個性能猛獸，也是打造萬卡、十萬卡GPU叢集的利器。憑藉自身強大的算力，NVL72在推出市場後，很快引發了搶購熱潮。微軟、Meta等科技巨頭，都進行了瘋狂採購。據悉，GB200 NVL72伺服器的平均單價約為300萬美元（約合2139萬元人民幣），較NVL36機櫃的平均售價高出66%。輝達又又又賺得盆滿缽滿了。█結語好啦，以上就是關於輝達NVLink的介紹。目前，AI算力建設浪潮仍在持續。除了輝達之外，包括AMD、華為、騰訊、阿里等在內的很多公司都在研究和推進自己的節點內部互連（Scale Up）技術標準，也在打造更大規模的GPU叢集。 (鮮棗課堂)

【Computex】談談NV在ComputeX

老黃開始花了大量的時間闡述AI Factory以及從CHIP->System->DC->Infra的演進..1. NVLink Fusion可能最受關注的還是NVLink Fusion... 在AI Factory內支援定製化的ASIC?參與的廠家有好幾個, 聯發科本來就有合作做了GB10, 而Fujitsu則是A64FX超算的下一代CPU有需求. Qualcomm本來就是要回歸伺服器CPU市場. Alchip(世芯)/Marvell則是有一些ASIC定製的業務..而AsteraLabs則是PCIe/CXL/UAL/NVLink,反正能搞的都搞....其實, 仔細想想似乎這事還挺難弄的. 定製化的ASIC要接入CUDA生態, 然後Blackwell這些卡軟體/記憶體訪問上要和ASIC互通... 咋搞? 而CPU接入似乎會更加麻煩...另一個問題是, 有什麼業務場景需要NV的GPU混合接一堆ASIC, CUDA生態上如何建構一些DSL, 互動的記憶體介面/軟體生態是什麼樣的?如果退而求其次, 採用NVLink建構非NV GPU/CPU的互聯系統, 那麼相當於賣一個NVL72的交換機框, 對比DGX-B200這類的8卡平台, NVL72的定價增益如何? 或者說這些基於NVL72的交換機框本質上是用來攤銷GB200-NVL72成本用的? 然後再進一步, 其它的ASIC是否真的需要這樣的互聯? 所以互動上一定是一個記憶體介面, 該怎麼設計呢? 反正我有答案就是不說... 就簡單的想吃一下瓜看看 NV和BRCM在這個市場競爭一下...其實, 我腦子裡想到的是Cisco大概也在網際網路泡沫的頂峰, 在核心路由器產品線(GSR)和一些交換機產品線(6500)上也是搞同樣的事情. 當時Cisco也有很大頻寬的交換網路, 類似於NVL72這樣的機櫃, 可以有多個插槽插各種Linecard.. 當時也衍生出了一堆各種各樣的Service Blade, 例如ACE/SAMI/Roddick這一堆東西...如下圖是一個做Wireless的SAMI卡(Service and Application Module)...裡面堆了一堆處理器...個人感覺最大的可能性還是掛一些記憶體上去, 例如Samsung/Micron這些廠商來做一些記憶體擴展是可行的.. 然後另一個場景是NV自己或者Asterlabs搞一些NVLINK-PCIe/CXL的橋接晶片啥的慢慢去蠶食PCIe的一些生態...舉個例子吧, 如果我在國外的大廠, 大機率會把下圖這事實現了..趁著NV自己部門牆邊界的約束下...但是在國內, 由於中美關係的不確定性, 很大程度上不會去考慮NVLink這樣的方案. 特別是國內的GPU廠商來看...2. NV的企業網佈局當AI Factory的故事過度依賴於CSP時, 作為一個做過Marketing的人, 賣基礎設施裝置的廠商總歸會盯著企業私有雲的生意去做, 而這次老黃談到的內容都涉及到這幾個方面, 一個統一的架構覆蓋各個價格段的場景.雖然老黃在極力的推薦DGX Spark(GB10)的小盒子, 但是我個人並不太看好這個生意. 而更多的關注於DGX Station的場景. Spark不是說不好, 只是在那個價格段, 有什麼場景需要桌面放一個小盒子. 而云上可以按需使用租到算力更好的平台了. 而DGX Station則是一個比較適合雲上租賃模式的產品, 提供足夠的彈性部署的能力.談到企業網部署, 這次詳細展示的RTX Pro Server倒是一個很不錯的選擇. 單個機框8張RTX 6000Pro然後比較巧妙的用了4個CX8構成的主機板, 提供3.2Tbps(8x400GE)的ScaleOut頻寬.RTX 6000Pro的規格如下, 比5090強10%以上整體的性能看上去也比H100強了不少, 不過老黃這圖的資料好像有點問題, ISL=128K/OSL 4K, 實際上遠超了實際的workload....按照DeepSeek ISL=4K,OSL=1K模擬的結果如下, 大概每卡可以做到3000 Tokens/s, 並沒有圖上H100 4倍的性能差異.當然還有一個不得不提的問題, DeepEP在這樣的部署下, 如何搞呢? CX8 RoCE的部署下, 沒有了NVLink就沒有了PXN, 多平面/多軌道的部署要怎麼處理呢? 所以我一直堅持的一個觀點是, 在網路這個領域, 除非是完全沒有其它辦法解決了, 千萬不要動拓撲... 一時的收益可能帶來後續很多麻煩... 所以面對什麼Hash衝突擁塞控制多路徑負載平衡的問題,還是要乾乾淨淨的去直接面對問題...不過總體來看, 老黃有一個故事挺打動人的, 就是下面這個圖. 突然覺得有點像帶AI的Oracle Exdata那樣的櫃子了...其實在這個圖上已經顯示出了存算分離的架構, 感覺這個機型就非常適合CSP部署提供租賃和彈性分時多工的邏輯了...3. NV的營運商佈局似乎老黃還在很賣力的推銷6G AI-RAN的場景... 5G很多營運商投資回報率都還偏低的情況下, 6G要多久才能成熟呢?(梓豪談芯)

【Computex】首次鬆口，輝達NVLink Fusion將支援第三方晶片！

在本屆Computex 2025上，黃仁勳再次語出驚人：宣稱新發佈的NVLink Fusion技術中的單一“主幹”（spine）每秒傳輸資料量“超過整個網際網路”。雖然這類噱頭大家見得多了，但NVLink Fusion的背後確實有不容忽視的硬核技術。頻寬達130TB/s，號稱能超越“整個網際網路”在現場演示中，黃仁勳親自展示了NVLink Fusion系統中的核心元件——NVLink主幹（spine）。這個模組像一座由電纜和控製器組成的“資料塔”，用於連接多達72個GPU，實現高速資料共享與互動。黃仁勳表示，這一單一主幹的資料傳輸速率可達130TB/s（字節/秒），而當前全球網際網路總資料吞吐量為900 Tb/s（位/秒），換算後約為112.5 TB/s，意味著NVLink Fusion的主幹理論上快了16%左右。雖然該對比受到部分質疑（有人說網際網路峰值可達1200 Tb/s以上），但無論如何，130 TB/s 的頻寬已遠超當前多數高性能系統的通訊能力，展現了NVLink技術在AI超算領域的優勢地位。和以往不同，NVLink Fusion支援第三方晶片廠商除了驚人的傳輸性能，NVLink Fusion的另一大亮點是其相容性突破。黃仁勳強調，該技術不再侷限於輝達自家晶片平台，未來將支援來自高通、富士通，甚至可能包括AMD和Intel的“半定製”處理器。這為異構計算架構提供了前所未有的靈活性。開放高端互聯技術來推動更廣泛的合作和 AI計算生態建設。一般個人使用者就洗洗睡吧，PCIe仍將主導桌面平台儘管NVLink Fusion引發了廣泛關注，但黃仁勳也坦言，這項技術不會出現在消費級PC中。當前桌面平台仍以PCIe介面為主流CPU-GPU互聯標準，而NVLink Fusion更適用於AI資料中心、科研計算與大型模型訓練叢集。 (科技巴圖魯)

【Computex】輝達computeX 大會--NVLink Fusion

今天，老黃在Computex 2025大會上，發表了一場長達兩小時的主題演講。一開始老黃回顧了Nvidia 的發展歷程，從專注於GPU，到2006年推出CUDA，再到AI基礎設施巨頭，其實這場演講中提到的很多產品之前就推出了，只是在這場演講中又提到了一些細節。GB300計畫在Q3推出，該晶片推理性能提升 1.5 倍、HBM記憶體提升 1.5 倍、網路頻寬提升 2 倍，並與上一代保持物理相容性，實現100%液冷。CES上提及的Project DIGITS的個人AI電腦DGX Spark已全面投產，老黃表示每個人都可以在聖誕節擁有一台。RTX Pro 企業 AI 伺服器，支援傳統x86、Hypervisor、Windows 等 IT 工作負載----筆者對這個產品一直都沒太關注過。面向機器人領域的Isaac Groot 1.5平台。在這次的演講中，最吸引我的還是NVLink Fusion。這篇文章就分析一下這個技術。進入正文之前，先扯點別的。老黃確實非常會演講，當聽到上面這段話的時候，真心佩服老黃。把輝達帶到了這樣一個高度。可以說如果沒有輝達，AI的發展處理程序不會有這麼快。但也不知為什麼，耳邊還是會經常響起Linus的那句：Fuck Nvidia.言歸正傳，我們來聊一聊NVLink Fusion。能刷到這篇文章的朋友，相信大家肯定都知道NVLink，在輝達的伺服器中，負責連接各個GPU。NVLink Fusion將 NVLink 帶到第三方 CPU 和加速器，而不僅僅是在輝達自家產品上使用。作為 Computex 主題演講重點，NVIDIA 推出 NVLink Fusion，這是其互連技術套件新成員，旨在向第三方 CPU 和加速器開放 NVLink 生態系統，通過發佈 IP 和硬體推動第三方設計與自家晶片互操作，雖系統仍需包含部分 NVIDIA 晶片，但目標是讓合作夥伴建構融合輝達晶片與定製晶片的半定製機架系統。NVLink 自 2016 年隨 Pascal 架構推出作為 PCI-Express 替代方案，後經多年發展提升頻寬並通過交換機擴展應用範圍，如今是 NVIDIA 重要技術，助力實現 72 GPU 機架等大規模系統搭建，而 NVLink Fusion 則是其向半定製設計開放、滿足客戶靈活性需求的下一步舉措。NVLink Fusion 包含兩種技術，一是半定製 CPU，允許非 NVIDIA CPU 通過 NVLink C2C 連接至 NVIDIA GPU，該技術並非全新，2022 年 GTC 已開放 NVLink C2C 用於定製晶片整合，此次是進一步推動，硬體廠商可授權該技術整合到晶片中替代 Grace CPU，改變此前只能用 PCIe 顯示卡配對的方式；二是更具創新性的部分，即通過開發 NVLink 5 Chiplet 整合到半定製加速器中，使第三方加速器借助 NVIDIA 的 Chiplet 獲得 NVLink 5 功能，不過 NVLink 5 未向第三方完整授權，目前 Chiplet 的硬體規格及與加速器連接技術等細節尚未公佈，但為高性能加速器接入 NVLink 網路提供了可能。NVIDIA 明確 NVLink Fusion 為 “二選一” 技術，可整合半定製 CPU 或 GPU 但不可同時使用兩者，節點必須包含 NVIDIA 晶片，這是許可限制而非技術限制，因 NVLink 5 功能主要由 GPU 或含 Chiplet 的加速器承擔，CPU 不關鍵，但 NVIDIA 從銷售晶片的商業角度出發需保障自身在系統中的存在，即便允許第三方加速器替代自家 GPU 較大膽，不過也反映出合作夥伴對機架設計靈活性的強烈需求，Grace Blackwell 並非萬能方案，而 NVLink 的有限開放是各方推動的結果。目前 NVLink Fusion 的合作夥伴包括 Alchip、AsteraLabs 等晶片和加速器廠商，它們正開發整合該技術的產品，富士通和高通則在研發可與 NVIDIA GPU 配對的支援該技術的新 CPU，此外 Cadence 和 Synopsys 作為技術合作夥伴提供 IP 模組和設計服務，助力相關硬體開發。NVLink Fusion 標誌著 NVIDIA 生態的有限開放，在平衡靈活性與商業利益的同時，可能加速 AI 算力基礎設施多元化，為第三方晶片切入高性能計算市場提供路徑。image-20250519222807367大家有沒有想過這樣一個問題，輝達為什麼要出NVLink Fusion？很多同學可能會認為是由於NVLink這個護城河沒有那麼穩了，像博通、Astera Labs和Marvell其實都是有各自的switch方案的，華為前段時間也推出了Cloud Matrix，可以實現384個GPU的互聯。說一下我的觀點。NVLink的優勢並未減弱，反而在AI和高性能計算領域依然顯著：超高頻寬和低延遲，第五代NVLink提供1.8 TB/s的雙向頻寬（每GPU 900 GB/s），比PCIe 5.0（128 GB/s）高出14倍，且能效高5倍。這種頻寬對於AI模型訓練和推理的規模化至關重要，尤其是處理大規模模型平行時。機架級擴展性，NVLink Switch晶片將互連從單節點擴展到機架級，支援多達72個GPU的叢集，提供130 TB/s的域頻寬。這種規模化能力是PCIe或競品互連難以匹敵的。雖然華為有Cloud Matrix 384，但這種方案確實增加了系統的複雜性，加大了偵錯難度和系統的不穩定性，而且華為也還沒有量產出貨，目前還不能說對NVLink造成挑戰。生態系統整合，NVLink與Nvidia的SHARP協議（支援網路內歸約運算）和Mission Control軟體結合，最佳化了AI工作負載的吞吐量和延遲。每增加2倍NVLink頻寬，可帶來1.3-1.4倍的機架級AI性能提升。NVLink Fusion的推出是Nvidia在維持技術優勢的同時，適應市場對靈活性和定製化的需求。AI基礎設施的複雜性要求異構計算，而Nvidia通過NVLink Fusion確保其GPU和生態系統仍是核心，防止客戶完全轉向競爭對手的解決方案。此外，Nvidia可能意識到完全封閉NVLink會限制市場擴張，尤其是在雲服務商和主權AI項目中。通過“半開放”策略（要求至少包含Nvidia GPU或Grace CPU），Nvidia既擴大了生態，又避免了完全開放互連標準的風險。 (傅里葉的貓)

最新曝光！NVIDIA GB300 NVLink液冷交換機的設計思路和圖片資料

NVIDIA GB300 NVLink液冷交換機今年GTC大會輝達發佈最新的GB300AI晶片及AI伺服器，但是對於GB300的液冷交換機少有完整曝光，以下是零氪海外合作方STH傳回的GB300 NVLink液冷交換機圖片資料。NVIDIA GB300 NVLink 液冷交換機托盤在 NVIDIA GTC 2025 上展示的 NVIDIA GB300 NVLink 交換機托盤。這是位於 GB300 計算刀片之間的液冷交換機托盤。與當今的許多交換機不同，這些交換機採用液冷設計，適合 NVL72 機架。這是 GB300 NVLink 交換機托盤。可以看到前面的手把，然後是後面的液體冷卻噴嘴、母線電源和四個 NVLink 電纜盒的連接器。NVIDIA GB300 NVLink 交換機托盤 1該設計非常巧妙的一點是，NVLink 交換機晶片採用液冷，但並不是唯一的液冷組件。NVIDIA GB300 NVLink 交換機托盤 2這是 NVLink Switch 部分的冷板。實際的 NVLink Switch PCB 與底盤的深度相比相對較短。NVIDIA GB300 NVLink 交換機托盤 4這裡可以看到功率分佈。NVIDIA GB300 NVLink 交換機托盤 5在當今主流的液冷伺服器中，有很多橡膠軟管。在這種設計中，主要是金屬管。這是一個小特點，但卻是設計的一個區別。NVIDIA GB300 NVLink 交換機托盤 3在底部，我們看到一些控制元件，其中包括 M.2 SSD。NVIDIA GB300 NVLink 交換機托盤 6NVIDIA 通常將其 GTC 2025 展示模型上的許多其他徽標塗黑，但我們可以看到兩顆 Marvell 88E1514 和 Lattice LCMXO3D-9400HC。總結這只是 NVLink Switch 托盤的簡單介紹，這些托盤將安裝在較新的 GB300 NVL72 機架上，今年晚些時候我們將看到更多此類機架。目前，大多數市場仍在生產和消費 GB200 NVL72 機架。不過，NVIDIA 對液體冷卻的承諾是這一代產品的標誌，隨著我們進入 Rubin 時代，這一承諾只會加速。 (零氪1+1)