#黃氏法則
【GTC大會】輝達超級Rubin細節曝光,黃氏法則再升級!最高1024GB視訊記憶體,免費H100無人要
【新智元導讀】老黃在GTC 2025大會上,再次亮出了輝達未來GPU路線圖。隨著推理token的暴增,AI計算需要全新的範式,下一代BlackWell Ultra、Vera Rubin就是最強的回應。黃氏計演算法則,幾乎每年一更。今年GTC 2025大會上,黃仁勳兩個多小時演講中,又向世界帶來了最新的計演算法則——現在,GPU數量按照每個「封裝」內的GPU晶片數量來計算,而不是以「封裝」數量計算。這種全新的計演算法則,將從輝達下一代GPU Rubin系列開始應用。在SemiAnalysis獨家報導中,就輝達GPU和系統路線圖、最新Blackwell Ultra 300、26年Vera Rubin、從晶片到系統再到軟體的全新推理最佳化等方面進行了詳細分析。高級分析師指出,過去6個月裡,模型的進化超過了之前六個月的總和。而且,這種趨勢仍將持續,因為三個Scaling Law正在疊加並協同作用:預訓練Scaling、後訓練Scaling、推理時Scaling。恰恰,今年GTC大會全面聚焦的是全新Scaling範式。推理Token爆發增長一直以來,Claude模型以其強大的程式設計能力,得到開發者青睞,尤其是Claude 3.7在軟體工程方面展現出驚人的性能。另一方面,Deepseek V3出世表明,上一代模型的能力成本正暴跌,促進了更廣泛的應用。OpenAI最新實驗模型o1、o3用時證明,更長的推理時間和搜尋能帶來更好的答案。就像預訓練Scaling的早期階段一樣,為這些模型增加更多後訓練計算能力似乎沒有上限。面對這一系列新事物,老黃給出最有力的回答。他表示,「從GPT開始,到如今的推理AI,它不再是僅僅預測下一個token,而是生成100多倍的token」。為了支援更多模型訓練部署,輝達推出了「AI工廠的作業系統」Dynamo,使得Blackwell推理性能相較Hopper暴漲40倍。不僅如此,他們正致力於將推理成本效率提升35倍,以支援更多模型的訓練和部署。老黃的口頭禪也從以往「買越多,省越多」,變成了「省越多,買越多」。(the more you save, the more you buy.)輝達在硬體和軟體方面的發展路線圖,著實帶來了顯著的推理效率提升。這為LLM經濟高效部署,以及其他變革性企業應用開啟了全新機遇——這正是傑文斯悖論(Jevons’ paradox)的典型案例。用老黃的話來說,「買越多,賺越多」。(the more you buy, the more you make)。不過,市場對此卻表示擔憂。他們的關注點在於類DeepSeek這樣的軟體最佳化技術和輝達推動的硬體性能提升,正帶來過度的成本節省,這可能導致AI硬體需求下降,市場將出現token供過於求的現象。誠然,價格會影響需求,但隨著智能成本的降低,智能能力的邊界不斷突破,需求也隨之增長。目前的AI能力,仍受限於推理成本。而且,AI對我們生活的實際影響尚處於萌芽階段。有趣的是,隨著成本下降,總體使用量反而會出現悖論性增長。人們對token通縮的擔憂,就像當年討論光纖泡沫時期只關注每個封包的網際網路連接成本下降,卻忽視了網站和網際網路應用最終將如何改變我們的生活、社會和經濟。這裡有個關鍵區別:頻寬需求是有限的,而智能需求則會隨著能力的顯著提升和成本的下降,無限增長。輝達提供的資料印證了Jevons’ paradox。當前的模型已經需要超100兆個token,而推理模型更需要20倍的token用量和150倍的計算資源。測試階段的計算每次查詢需要數十萬個token,且每月查詢量高達數億次。在後訓練scaling階段,每個模型需要處理數兆個token,同時存在數十萬個接受後訓練的模型。更重要的是,Agentic AI的出現意味著多個模型將協同合作,共同攻克越來越具有挑戰性的問題。黃氏計演算法則,每年一更每年,老黃都會向業界引入全新的計演算法則。黃氏計演算法則一直以其獨特性聞名,而今年情況更加特別,SemiAnalysis觀察到了第三條新的計演算法則。第一條黃氏計演算法則涉及浮點運算性能(FLOPs)的標稱方式。輝達採用2:4稀疏計算方式(這種方式在實際應用中幾乎未被採用)而非實際使用的密集計算來標示性能。比如,H100的FP16實際計算能力為989.4 TFLOPs,但官方資料卻標示為 1979.81 TFLOPs。第二條計演算法則關於頻寬的計算方式。NVLink5的頻寬被標示為1.8TB/s,這是將900GB/s的傳送頻寬和900GB/s的接收頻寬相加得出的結果。雖然產品規格表採用這種計算方式,但網路行業的通行做法是僅標示單向頻寬。最新出現的第三條計演算法則與GPU數量有關。正如開篇所言,GPU數量現在按照每個封裝內的GPU晶片數量來計數,而不是按照封裝數量。這種新的命名方式將從Rubin產品開始實施。比如,第一代Vera Rubin機架將被命名為NVL144,儘管它在系統架構上與使用相同Oberon機架和72個GPU封裝的GB200 NVL72十分相似。這種全新的計數方式無疑會給業界帶來理解上的困擾,需要不斷解釋說明,但這就是我們必須適應的「黃氏世界」。接下來,一起看看輝達的產品路線圖。Blackwell Ultra B300Blackwell Ultra 300(簡稱B300)的預覽版已經發佈,與SemiAnalysis在去年12月分享的詳情保持一致。主要規格如下:GB300不會以獨立顯示卡形式銷售,而是將作為配備Grace CPU的可插拔SXM模組中的B300 GPU推出,同時還提供可插拔BGA封裝版本。性能方面,B300的FP4浮點運算密度,較B200同等產品提升超過50%。記憶體容量提升至每個封裝288GB(採用8堆疊12層HBM3E高頻寬視訊記憶體),頻寬維持在8TB/s。這一性能提升是通過減少部分(而非全部)FP64 ALU,並取代為FP4和FP6運算單元實現的。雙精度運算主要用於HPC和超級計算領域,而非AI工作負載。儘管這讓HPC界感到失望,但從商業角度看,輝達更注重發展規模更大的AI市場。B300 HGX版本現已更名為B300 NVL16。該產品將採用此前稱為「B300A」的Blackwell單GPU版本,現已更名為B300。這相當於雙晶片B300的一半組態,由於標準版B300在單個封裝中缺少連接兩個GPU晶片的高速D2D介面,可能會帶來額外的通訊開銷。B300 NVL16將取代現有的B200 HGX架構,在主機板上組態16個封裝和GPU晶片。具體實現方式是,在每個SXM模組上安裝2個單晶片封裝(總共8個這樣的模組)。輝達選擇這種方案而非繼續使用8個雙晶片B300的原因尚不明確;高級分析師推測,採用更小尺寸的CoWoS封裝模組和基板所帶來的良率提升可能是主要考慮因素。值得注意的是,封裝技術將採用CoWoS-L而非CoWoS-S,這一決策意義重大。此前選擇單晶片B300A是出於CoWoS-S的成熟度和產能考慮。此次轉向CoWoS-L表明該技術已經從最初的不穩定狀態快速發展為成熟可靠的解決方案,良率也已達到穩定水平。這16個GPU將通過NVLink協議進行通訊,與B200 HGX的設計類似,兩組SXM模組之間將組態兩個NVSwitch 5.0專用晶片(ASIC)。另有一個新的變化是,不同於先前幾代HGX產品,B300 NVL16將不再使用Astera Labs的訊號重定時器。不過,部分超大規模雲端運算服務商可能會選擇改用PCIe交換機。B300的另一個重要特性是,將搭載全新的CX-8 NIC,該介面卡提供4條200Gbps通道,使InfiniBand總吞吐量達到800Gbps,較當前Blackwell採用的CX-7網路介面卡的網路速度翻了一番。Vera Rubin:3nm製程,首個全自研CPURubin將在台積電3nm工藝上,採用兩個掩模尺寸的計算晶片。這些計算晶片兩側將各配備一個I/O(輸入/輸出)晶片,整合所有NVLink、PCIe和NVLink C2C IP的SerDes,這樣可以為主計算晶片釋放更多空間用於核心計算功能。Rubin將提供驚人的50 PFLOPs的密集FP4計算能力,相比B300提升了超過3倍。輝達通過以下幾個關鍵方向實現了這一突破:首先,如前所述,獨立的I/O晶片設計釋放了大約20-30%的晶片面積,這些空間可用於增加流式多處理器和張量核心的數量。其次,Rubin將採用3nm製程工藝,可選用定製的輝達3NP或標準N3P工藝。從Blackwell世代的4NP工藝升級到3NP,邏輯密度獲得顯著提升,但SRAM的尺寸幾乎保持不變。第三,Rubin的熱設計功耗(TDP)將提升至約1800瓦,這可能支援更高的運行頻率。最後是架構層面的scaling。輝達在每代產品中都採用更大規模的張量核心脈動陣列。據分析,這一規模從Hopper架構的32×32,增加到了Blackwell的64×64,在Rubin中可能會進一步擴大到128×128。更大的脈動陣列能夠提供更好的資料復用效率和更低的控制複雜度,在面積利用率和功耗效率方面都具有優勢。雖然程式設計難度隨之增加,這也是輝達沒有像GoogleTPU那樣採用256×256規模的原因之一。同時,這種設計對製造良率也會產生影響。值得注意的是,輝達的掩模尺寸單片晶片具有很高的參數良率,這得益於其架構中內建的冗餘設計和可修復機制,包含眾多小型計算單元。當發現缺陷的計算單元時,可以將其停用,從而保證產品良率。這與GoogleTPU採用的設計策略不同,後者使用數量較少但規模更大的張量核心,因此無法像輝達的設計那樣靈活處理邏輯單元缺陷。Rubin將延續GB200/300 NVL72改採用的Oberon機架架構。它將搭配Vera CPU,採用3nm製程的Grace 繼任者。值得注意的是,Vera將採用輝達完全自主設計的處理器核心,這與主要依賴Arm公司Neoverse CSS核心的Grace處理器有所不同。此外,輝達還開發了獨特的互聯架構,使單個CPU核心能夠根據需要訪問更大的記憶體頻寬,這一點是AMD和英特爾CPU目前面臨的重大技術挑戰。這就引出了新的命名方式。儘管新機架實際只配備72個GPU封裝,包含144個計算晶片,即72個封裝×每封裝2個計算晶片,但將被命名為VR200 NVL144。不得不說,輝達是如此富有創新精神,連GPU的計數方式都在改變!在記憶體方面,輝達HBM容量將維持在288GB,但升級到了HBM4技術:採用8堆12層設計,保持每層24GB的密度。升級到HBM4帶來了顯著的頻寬提升,總頻寬達到13TB/s,這主要得益於匯流排寬度翻倍至2048位,以及達到當前JEDEC標準上限的6.5Gbps引腳速度。互聯技術方面,新產品將採用第六代NVLink,通過翻倍通道數實現速度翻倍,達到3.6TB/s(雙向)。輝達將繼續使用 224G 串並轉換器(SerDes)技術。關於Oberon機架,它將繼續使用銅質背板,但分析師預計隨著每個GPU通道數的翻倍,連接電纜的數量也會相應翻倍。在交換技術方面,NVSwitch專用晶片的總頻寬也將實現翻倍,同樣是通過增加通道數來實現的。Rubin Ultra性能驚人,HBM達1024GBRubin Ultra將帶來革命性的性能提升。輝達在這款產品中將單個封裝HBM堆疊數量直接從8個提升至16個。其架構採用4個掩模尺寸的GPU晶片呈線性排列,兩端各配備一個I/O晶片。得益於計算面積的翻倍,密集FP4浮點運算性能提升至100 PFLOPs。HBM容量達到驚人的1024GB,超過標準版Rubin的3.5倍。這不僅體現在堆疊數量的翻倍,還包括密度和層數的提升。為實現單封裝1TB記憶體容量,產品將採用16個HBM4E堆疊,每個堆疊包含16層、每層32Gb的DRAM核心晶片。根據SemiAnalysis分析,這種封裝設計將在基板上採用雙中介層方案,以避免使用單個超大尺寸中介層(接近8個掩模尺寸)。中間的兩個GPU晶片將通過D2D介面的超薄I/O晶片實現通訊,訊號傳輸通過基板完成。這種設計需要使用超大型ABF基板,其尺寸將突破當前JEDEC封裝標準的限制(長寬均為120毫米)。在記憶體系統方面,整體配備365TB快速記憶體/二級LPDDR記憶體。其中,每個Vera CPU配備1.2TB LPDDR,72個CPU總計提供86TB容量,剩餘容量由每個GPU封裝配備的2TB LPDDR來實現。這體現了自主研發的HBM基礎晶片功能:通過在基礎晶片上整合LPDDR記憶體控製器來支援額外的二級記憶體,這些記憶體以LPCAMM模組形式佈置在電路板上的封裝周邊。這是對Vera CPU自帶二級記憶體的重要補充。同時,這也標誌著創新的Kyber機架架構的首次亮相。全新Kyber機架:4個機櫃,144塊GPUKyber機架架構是此次發佈的重要創新之一。輝達通過創新性地將機架旋轉90度來提升部署密度。考慮到NVL576組態(144個GPU封裝),這一設計在大規模叢集部署方面實現了顯著的密度提升。接下來,詳細對比Oberon和Kyber兩種機架架構的主要區別。1. 計算單元設計:計算托盤採用90度旋轉設計,以卡匣形式安裝,顯著提升機架密度。2. 機架結構:每個機架配備4個機櫃,每個機櫃包含兩層共18個計算卡匣。3. NVL576組態:每個計算卡匣裝配一個R300 GPU 和一個Vera CPU每個機櫃總計36個R300 GPU和36個Vera CPU整體NVLink網路規模達到144個GPU(合計576個計算晶片)4. 互聯方案:採用PCB板背板替代傳統的銅纜背板,用於實現機架內GPU與NVSwitch間的互聯。這一改變主要是為瞭解決在更緊湊空間內布線的挑戰。有趣的是,供應鏈情報顯示,可能存在VR300 NVL 152版本(配備288個GPU封裝)的Kyber機架變體。這一數字可以從GTC主題演講中展示的晶圓圖片得到證實,其中標紅顯示了288個GPU封裝。SemiAnalysis推測這可能是一款正在開發中的產品型號,旨在將機架密度NVLink網路規模從GTC 2025展示的NVL576(144個GPU封裝)提升一倍,達到NVL 1152(288個封裝)的規模。另一個重要進展是第七代NVSwitch的推出。這是NVSwitch首次在平台周期中期進行升級。新款交換晶片提供更高的聚合頻寬和連接埠數,支援單個網路域內擴展至576個GPU晶片(144個封裝)。不過,網路拓撲可能不再採用全連接無阻塞的單層多平面最佳化架構,而是改用具有一定超額認購比的多平面最佳化雙層網路拓撲,甚至可能採用非Clos架構的創新拓撲設計。Blackwell Ultra重疊計算,降低延遲各種注意力機制變體(包括flash-attention、MLA、MQA和GQA)都需要進行矩陣乘法(matmuls)和 softmax函數計算(包括行方向歸約和逐元素指數函數)。其中矩陣乘法又稱為GEMM,或通用矩陣乘法,專門用於處理神經網路計算中的矩陣乘法運算。在GPU架構中,GEMM運算由張量核心執行。雖然張量核心的性能在每代產品中都有顯著提升,但負責逐元素指數計算(如softmax)的多功能單元(MUFU)的性能提升相對較小。在採用bf16(bfloat16)格式的Hopper架構中,注意力層的softmax計算需要消耗GEMM運算50%的計算周期。這迫使核心工程師必須通過重疊計算來「掩蓋」softmax 的延遲,這大大增加了核心程式設計的難度。在採用FP8格式的Hopper架構中,注意力層的softmax計算與GEMM運算消耗相同的計算周期。這意味著,如果不進行任何重疊計算,注意力層的計算時間將翻倍:需要1536個周期用於矩陣乘法計算,再需要1536個周期進行softmax計算。這就是重疊計算發揮作用的地方。由於softmax和GEMM運算需要相同的周期數,核心工程師需要最佳化實現完美的重疊計算。然而,完美的重疊在實際中是不可能實現的,根據Amdahl定律,這將導致硬體性能損失。以上描述的挑戰主要存在於Hopper GPU架構中,並且這個問題在第一代Blackwell中仍然存在。輝達通過推出Blackwell Ultra來解決這個問題,他們重新設計了SM並增加了新的指令集來改進性能。在Blackwell Ultra中,用於計算注意力機制softmax部分的MUFU單元性能較標準Blackwell提升了2.5 倍。這大大降低了對完美重疊softma和 GEMM計算的要求。借助MUFU的2.5倍性能提升,CUDA開發人員在實現重疊計算時有了更大的靈活性,同時不會影響注意力核心的性能。在這種情況下,輝達全新的推理棧和Dynamo最佳化引擎就能派上用場。推理棧與Dynamo最佳化引擎在2023 GTC大會上,輝達展示了GB200 NVL72憑藉其72個GPU的大規模scaling能力,在FP8精度下實現了比H200高15倍的推理吞吐量。而今年,輝達的創新步伐不減。他們正通過硬體和軟體雙重突破,在多個維度推動推理性能的提升。新推出的Blackwell Ultra GB300 NVL72較GB200 NVL72在FP4密集計算方面提供了50%的性能提升,同時HBM容量也提升了50%。這兩項提升都將直接促進推理吞吐量的增長。此外,產品路線圖中還包括Rubin世代多項網路速度的升級,這些改進也將為推理吞吐量帶來實質性提升。在硬體層面,下一個重大突破將來自scaling網路規模的提升:從Rubin的144個GPU晶片scaling到Rubin Ultra的576個GPU晶片。但這僅是硬體創新的一部分。在軟體方面,輝達發佈了Nvidia Dynamo——這是一個致力於簡化推理部署和擴展的開放式AI引擎技術堆疊。它有望超越現有的VLLM和SGLang解決方案,不僅提供了VLLM所不具備的多項功能,還實現了更高的性能。結合硬體層面的創新,Dynamo將進一步推動吞吐量與互動性能力的提升,尤其在高互動性應用場景中可以實現更高的吞吐量。Dynamo為現有推理加速技術堆疊引入了以下幾項關鍵創新功能:1. 智能路由(Smart Router)2. GPU任務規劃器(GPU Planner)3. 增強型NCCL集合通訊框架(Improved NCCL Collective)4. NIXL(NVIDIA Inference Transfer Engine)5. NVMe KV-Cach智能解除安裝系統智能路由智能路由管理系統在多GPU推理部署環境中,可以智能地將輸入序列中的每個token精確分配至負責預填充和解碼任務的GPU。在預填充階段,系統確保輸入token均勻分佈到執行預填充任務的各個 GPU,從而避免在專家模組上出現性能瓶頸。同樣,在解碼階段,系統著重確保序列長度和請求在執行解碼的各個GPU之間實現最優分配和負載平衡。對於那些訪問頻率較高的專家模組,GPU任務規劃器還可以建立額外的副本以維持整體負載平衡。此外,該路由系統還能在服務於同一模型的多個副本之間實現負載平衡,這是當前主流推理引擎(如vLLM等)所不具備的重要特性。GPU任務規劃器GPU任務規劃器是一個智能化的資源調度系統,可以自動管理預填充和解碼節點的動態擴縮。該系統能夠根據全天負載的自然波動情況,靈活調整計算節點數量。在MoE中,規劃器可以在預填充和解碼兩類節點上實現多個專家模組之間的負載平衡。當某些專家模組負載較高時,規劃器會自動組態額外的GPU資源提供計算支援。此外,系統還能根據即時需求在預填充和解碼節點之間進行動態資源重分配,從而最大化資源利用效率。該系統的一個重要特性是支援動態調整解碼和預填充任務的GPU分配比例。這項功能在深度研究等特定場景中特別有價值:由於這類應用需要處理海量上下文資訊,但實際生成的內容相對較少,因此需要分配更多資源用於預填充處理而非解碼任務。增強型NCCL集合通訊框架輝達在其集合通訊庫(NCCL)中引入了一組全新的低延遲通訊演算法。這些演算法可以將小規模消息傳輸的延遲降低至原來的1/4,從而顯著提升整體推理性能和吞吐量。在今年的GTC大會上,Sylvain的技術演講深入介紹了這些創新特性,重點闡述了新開發的one-shot和two-shot全規約演算法,這些演算法是性能提升的核心所在。值得注意的是,AMD的RCCL庫本質上是NVIDIA NCCL的一個分支複製版本。因此,Sylvain主導的NCCL架構重構不僅進一步鞏固了CUDA生態系統的技術優勢,還迫使AMD團隊不得不投入數千工程師小時來將輝達的重構更新同步到RCCL。在AMD忙於同步程式碼變更的同時,輝達則可以繼續專注於推進集合通訊軟體棧和演算法的創新發展。NIXL為了實現預填充節點和解碼節點之間的高效資料傳輸,需要採用低延遲、高頻寬的通訊傳輸庫。NIXL採用了創新的InfiniBand GPU非同步初始化(IBGDA)技術。在當前的NCCL架構中,控制流需要通過CPU代理執行緒進行處理,而資料流可以直接傳輸到NIC,無需經過CPU緩衝區。而採用IBGDA技術後,控制流和資料流都能夠繞過CPU,實現從GPU到網路介面卡的直接傳輸。此外,NIXL還通過抽象化簡化了各種儲存和記憶體裝置之間的資料傳輸複雜度,包括簡化CXL、本地NVMe 、遠端NVMe 、CPU記憶體、遠端 GPU記憶體和本地GPU記憶體。NVMe KV-Cache智能解除安裝系統KV快取智能解除安裝管理系統採用創新方式,將使用者歷史對話產生的鍵值快取保存在NVMe儲存裝置中,而不是直接廢棄,從而顯著提升了整體預填充效率。在使用者與LLM進行多輪對話時,模型需要將對話歷史中的問題和回答作為上下文輸入進行處理。在傳統實現中,推理系統會丟棄用於生成早期對話的鍵值快取,這導致系統在處理後續對話時需要重新計算這些快取內容,造成重複計算。而採用NVMe KV快取解除安裝技術後,當使用者暫時離開對話時,系統會將鍵值快取臨時保存到NVMe儲存系統中。當使用者返回並繼續對話時,系統可以快速從NVMe儲存中恢復這些快取資料,避免了重複計算的開銷。這項創新帶來兩個重要優勢:提升資源利用效率:釋放預填充節點的處理能力,支援更高的並行量,或降低所需的預填充部署規模最佳化使用者體驗:由於直接檢索快取比重新計算更快,顯著減少了首個token的生成延遲根據DeepSeek在GitHub上發佈的第六天研發記錄顯示,其磁碟KV快取的命中率達到了56.3%,這一資料表明其預填充部署效率獲得了顯著提升。實踐表明,在使用者進行多輪對話場景中,此類部署的典型KV快取命中率通常在50-60%之間。雖然部署NVMe儲存解決方案需要一定成本投入,存在一個效益平衡點:對於較短的對話,直接重新計算比重新載入更經濟高效;但在長對話場景下,該方案可以帶來巨大的性能收益。對於持續關注DeepSeek開源周的開發者來說,上述技術都不會陌生。在輝達完善Dynamo技術文件的同時,上述內容為開發者提供了快速瞭解這些技術的絕佳管道。這些創新功能的整合帶來了全方位的推理性能提升。輝達還特別介紹了Dynamo在現有H100節點上部署後帶來的性能改進。從本質上說,Dynamo實現了對DeepSeek創新技術的民主化,讓整個開發社區都能夠共享開源模型技術的最新成果。這意味著不僅是那些擁有強大推理部署工程團隊的頂級AI實驗室,所有開發者都能夠部署高效的推理系統。最後,由於Dynamo在分佈式推理和專家平行計算方面具有廣泛的適用性,它在獨立複製和高互動性部署場景中表現尤為出色。當然,要充分發揮Dynamo的性能優勢並實現顯著改進,必須具備多節點的硬體基礎設施。AI總擁有成本暴降99.97%在結束Blackwell介紹後,老黃通過一個引人注目的說法強調了技術創新的影響力——這些創新使他成為了「降價推動者」。具體而言,Blackwell相較於上一代Hopper架構,實現了高達68倍的性能提升,使總成本降低了87%。而下一代Rubin架構的性能預計將比Hopper提升900倍,預計可使成本降低99.97%。顯然,輝達正在保持高速的技術創新步伐。正如老黃所說,「一旦Blackwell開始規模化出貨,Hopper即使免費提供也將無人問津」。長期以來,SemiAnalysis持續建議生態系統合作夥伴優先考慮部署B200和GB200 NVL72等新一代系統,而非採購H100或H200。事實上,H100租賃價格預測模型正是基於老黃所闡述的這一原理。高級分析師綜合考慮了未來市場裝機量預測、叢集總擁有成本以及下一代晶片性能等因素,建構了完整的價格預測曲線。該預測框架迄今表現出色:他們於2024年4月首次向客戶發佈的H100租賃價格預測模型,從2024年初至今的預測準確率高達98%。首個光學封裝CPO,功耗節省12%在主題演講中,輝達發佈了其首個用於擴展型交換機的同封裝光學解決方案。這項技術將傳統的光學收發器取代為外部雷射源(ELS),並將光學引擎(OE)直接整合在晶片矽片旁邊,實現資料通訊。在新架構中,光纖電纜不再連接傳統收發器連接埠,而是直接插入交換機上與光學引擎相連的專用連接埠。CPO技術帶來的主要優勢是顯著降低功耗,這源於多個方面:交換機本身不再需要數字訊號處理器(DSP)可以使用更低功率的雷射光源雖然使用線性可插拔光學(LPO)收發器也能實現部分節能,但CPO獨特的優勢在於支援更大的交換機基數,使網路層級從三層簡化為兩層減少網路層級不僅消除了一整層交換裝置,還帶來了可觀的成本和能耗節省根據SemiAnalysis分析,在部署400,000個GB200 NVL72裝置的場景中,從傳統的基於DSP收發器的三層網路遷移到基於CPO的兩層網路,可以實現高達12%的叢集總功耗節省,將收發器功耗佔比從計算資源的10%降低到僅1%。輝達本次發佈了多款採用CPO技術的交換機產品:Quantum X-800 3400 CPO版本(原型於2024年GTC發佈)144個800 Gbps連接埠總吞吐量:115Tbps組態:144個MPO連接埠 + 18個ELS預計2025年下半年推出Spectrum-X乙太網路CPO交換機512個800 Gbps連接埠支援高速大基數組態,實現快速扁平化網路拓撲預計2026年下半年推出雖然此次發佈已經展現出突破性的技術創新,但高級分析師認為這僅是輝達在CPO領域的起步。從長遠來看,CPO 技術在擴展網路中可能帶來更大的價值:它有潛力大幅提升GPU的網路基數和總頻寬,實現更高效的扁平化擴展網路架構,突破當前576個GPU的規模限制。輝達穩坐王座,正重塑計算成本格局The Information一篇文章稱,亞馬遜將Trainium晶片的價格定在H100的25%。與此同時,老黃會上表示「當 Blackwell大規模量產後,就算免費送H100也沒人要」。高級分析師認為,後一種說法極具深意。技術繼續驅動著總擁有成本,在我們所見的各個領域(可能除了TPU),都能看到競爭對手在複製輝達的技術路線圖。與此同時,老黃正在推動技術發展的邊界。新架構、機架結構、演算法改進和CPO技術,每一項都體現了輝達與競爭對手的技術差異。輝達目前在幾乎所有領域都處於領先地位,當競爭對手追趕上來時,他們就會在另一個進步方向上推進。隨著輝達保持年度更新節奏,SemiAnalysis預計這種趨勢將會持續。雖然有人說ASIC是計算的未來,但從CPU時代就看到,一個快速改進的通用平台是很難被超越的。輝達正在用GPU重新創造這個平台,高級分析師預計他們將繼續引領行業發展。想要追趕這位「營收終結者」可不容易。 (新智元)