【GTC大會】黃仁勳:未來的算力規模要再成長100倍

未來的算力規模要再成長100倍,這是黃仁勳在GTC 2025上給出的預測數字。相信在現今這個時代,沒有人會比他更相信算力「永不眠」的傳說。在這次的GTC大會上,黃仁勳拿出了全新的Blackwell Ultra GPU和下一代的Rubin架構,試圖證明算力的需求還在持續的激增。只是,不知道這些算力能否被充分合理地消耗掉。

不管怎麼說,我們先來看看這次GTC 2025,老黃又都說了什麼。首先要介紹的是Blackwell全家桶。去年輝達發佈了Blackwell架構,並且推出了GB 200晶片。今年正式將名稱改為Blackwell Ultra。從硬體構成來看,它是由兩顆採用了台積電N4P,也就是5奈米製程的Blackwell架構晶片,與Grace CPU封裝在一起的。

同時搭配了更為先進的12層堆疊的HBM 3E記憶體,將視訊記憶體直接提升到了288 GB,相比之前有了大幅的增長。

而且它也支援第五代的Nvlink片間互聯,頻寬可以達到每秒1.8 TB,而第一代的頻寬只有每秒160 GB。

憑藉著儲存的升級,Blackwell GPU在FP4精度算力上能夠達到15 petaflops,再基於attention加速機制,它的推理速度比Hopper架構的晶片提升了2.5倍,為AI推理和訓練等等應用場景,提供了更強大的支援。基於Blackwell Ultra GPU,輝達也推出了AI推理專用機櫃Blackwell Ultra NVL 72。

這個機櫃由18個運算托盤組成,每個運算托盤裡都配備了4顆Blackware Ultra GPU和兩個Grace CPU。

算下來整個機櫃包含了72顆Blackware Ultra GPU和36顆Grace CPU。

這樣的運算核心組態,使得機櫃的視訊記憶體達到了20TB,總頻寬也高達每秒576TB。此外機櫃還配備了9個Nvlink交換器托盤,也就是18顆Nvlink交換器晶片,節點間的Nvlink頻寬能夠達到每秒130TB。

不僅如此,它還內建了72張CX 8網路卡,提供了每秒14.4TB的頻寬,並且搭配了Quantum X800 Infiniband和Spectrum X800G乙太網路卡,大幅降低了網路延遲和抖動,可以有效地支援大規模AI叢集的運作。同時機架整合了18張Bluefield 3 DPU,用來增強多租戶網路安全性和資料加速。與前一代的產品GB200 NVL 72相比,新一代的AI效能提升了1.5倍。和Hopper架構的DJX機櫃相比,新的NVL 72能夠為資料中心帶來50倍增收的機會。

就拿6,710億參數的deepseek R1的推理任務來說,基於H100,每秒只能實現100個TOKEN,而採用Blackwell Ultra NVL 72方案,每秒可以達到1,000 TOKEN。

於是完成同樣的推理任務,H100需要1.5分鐘,而新的NVL 72隻需要15秒。按照計畫,Backwell NVL 72的相關產品,會在2025年下半年上市,客戶涵蓋了伺服器廠商、雲端廠商、算力租賃服務商等等多個領域,比如說Cisco、Dell、AWS、Google cloud以及Coreweave、lambda、yotta等等。在這次大會上,輝達,也提前預告了未來的核彈級GPU——Rubin晶片。依照輝達的路線圖規劃,2026年即將上市以Rubin架構為基礎的下一代GPU,以及更強的機櫃vera Rubin NVL 144。

配備了72顆vera CPU和144顆Rubin GPU,採用288 GB視訊記憶體的HB M 4晶片,記憶體頻寬達到了每秒13 TB,也搭配了第六代NV link和CX 9網路卡。在性能方面,它的FP 4精度推理算力達到了3.6 exa Flops,FP 8精度訓練算力也達到了1.2 ex a Flops,性能是Blackwell Ultra NVL 72的3.3倍。而到了2027年,還有更加強悍的Rubin Ultra NVL 576機櫃,它的FP 4精度的推理和FP 8精度的訓練算力,分別是15X Flops和5X Flops,是Blackwell Ultra NV L72的14倍。說它是一隻性能怪獸一點也不為過。對於那些對於算力有較高需求,但又不需要搭建超大規模AI叢集的客戶,輝達這次也推出了基於Blackwell Ultra的dgx Superpod超算工廠。這是一個即插即用的AI超算工廠,主要面向生成式AI、AI agent和物理模擬等等AI的場景,能夠滿足從預訓練、後訓練,到生產環境的全流程算力擴展需求。基於Blackwell Ultra定製的DGX Super POD,有兩個版本。一個是內建DGX GB300,也就是一個Grace CPU加上兩個Blackwell Ultra GPU的版本。

這個版本,總計288顆Grace CPU加576顆Blackwell Ultra GPU,能夠提供300 tb的快速記憶體,在FP 4精度下算力為11.5X Flops。另一個版本是內建DGX B300的,這個版本不含Grace CPU,晶片採用風冷系統,具有進一步的擴展空間,主要適用於普通的企業級資料中心。

除了上面這些產品之外,輝達在今年1月的CES上,展示了概念性的AIPC產品project DIGITS。在GTC 2025大會上,也有了正式的名稱,那就是DGX Spark。它搭載了GB 10晶片,在FP4精度下算力可以達到1 Peta Flops,內建128 GB的LPDDR5 x記憶體,組態cx 7網路卡和4 TB的nvme儲存,運行基於LinUX定製的DGX os作業系統,支援拍套紙等等框架,並且預裝了輝達提供的一些基礎AI2、00億整機的尺寸和Mac mini相近,兩台DGX Spark互聯,還可以運行超過4,000億參數的模型。雖然它被歸類為AIPC,但這本質上應該屬於超算的範疇,因此被放在了DGX產品系列中。不過也有人對這款產品提出了質疑,認為它FP4的宣傳性能可用性比較低,換算到FP16精度下,性能只能跟RTX 5070,甚至是售價250美元的Ark B580對標,性價比不高。同時輝達也推出了一款基於Blackwell Ultra的AI工作站-DGX station。

這個工作站呢,內建了一顆Grace CPU和一顆Blackwell Ultra GPU,搭配了784GB的統一記憶體、cx 8網路卡,理論上能夠提供20 petaflops的AI算力。

另外考慮到許多人在AI推理中會使用RTX 4090這類產品,所以輝達在這次GTC大會上,進一步加強了black well和RTX系列的整合,推出了一系列內建GDDR7記憶體的AIPC。相關GPU產品涵蓋桌面、筆記本以及資料中心等多個場景。在桌上型GPU方面,有RTX Pro 6,000 Blackwell工作站版、RTX Pro 6,000 Blackwell Max q工作站版、RTX Pro 5,000、4,000、3,000、2,000、1,000、500 Blackwell。

資料中心方面,則有RTX Pro 6,000 Blackwell伺服器版。如此豐富的產品SKU,體現了輝達在AI硬體市場的全面佈局和強大的競爭力。 在此之前,業界一直對輝達的CPU、網路交換器產品充滿了期待,但是它卻遲遲的沒有上線。在本次的GTC大會上,黃勳對此做出瞭解釋。

原來,在資料中心中大量使用光纖的連接,光學網路的功耗相當於運算資源的10%,光連接的成本,直接影響運算節點的scale out、網路和AI效能密度的提升。不過這次輝達一次性的推出了Quantum x和Spectrum x矽光共封晶片,以及由它衍生出來的三款交換器產品,分別是Quantum 3450 LD、Spectrum SN 6810和Spectrum SN 6800。其中Quantum 3450 LD擁有144個每秒800 GB的連接埠,背板的頻寬達到了每秒115 TB,採用液冷散熱。 Spectrum SN 6810擁有128個每秒800 GB的連接埠,背板的頻寬為每秒102.4 TB,同樣是液冷。

Spectrum SN6800則具有512個每秒800 GB的連接埠,背板的頻寬高達每秒409.6 TB,也是液冷設計。這些產品,都被歸類到了輝達Photonix平台。這是一個基於CPU、合作夥伴生態共同建構的平台。

根據輝達給的數據,整合光模組的Photonics交換機,相較於傳統的交換機,效能提升了3.5倍,部署的效率也提高了1.3倍,擴充彈性更是提升了10倍以上。而在軟體生態方面,輝達如今,已經將它視為自己AI能力的一個核心了。老黃在會上,給了將近半小時的時間來介紹。首先是輝達Dynamo,它是一個開源軟體,專門為推理訓練,以及跨整個資料中心加速而設計。

在現有的Hopper架構上,它可以讓標準的Llama模型的性能翻倍,而對於deepseek這類專門的推理模型,Dynamo的智能推理優化,更是能夠將每個GPU生成TOKEN的數量,提升30倍以上。這主要,就是得益於Dynamo分散式的架構設計。

他把大語言模型的不同計算階段,也就是理解使用者查詢和產生最佳回應這兩個過程,分配到了不同的GPU上處理。這樣每個階段都可以獨立的最佳化,進而提高了系統的吞吐量,加快了反應的速度。在輸入處理階段,也就是預填階段,Demo會利用多組GPU並行,高效率的分配資源來處理使用者的輸入。

而在產生輸出TOKEN的解碼階段,Denemo則更著重於GPU的專注與連貫。透過優化GPU間的通訊和資源分配,Denemo確保了響應生成的連貫和高效。它一方面,充分利用了NVL 72架構的高頻寬通訊能力,最大化TOKEN的生成效率。

另一方面,透過smart router功能,將請求定向到了已經快取了相關kv鍵值的GPU上,避免了重複的計算,大大提高了處理的速度。由於避免了重複運算,一些GPU的資源也被釋放出來,Denemo還可以將這些空閒的資源,動態分配給新的傳入請求。憑藉這一系列的創新設計,Denemo最高可讓單一AI查詢,無縫擴展到多達1,000個GPU上,充分利用資料中心的資源。同時,使用者每秒獲得的TOKEN數量也更多了,模型的反應速度也更快了。不過雖然Denemo是完全開源的,支援從Pytorch到Tensor RT的所有主流框架,但目前,只對輝達的GPU有效果。透過Denemo,輝達顯然是想建構起反擊grok這些推理AISC晶片的防線,進一步鞏固自己在AI推理領域的地位。在訓練模型方面,輝達在這次GTC上,也推出了新的模型-Ll ama nemotron。它是由Llama系列模型衍生而來的,主打高效準確。經過輝達的特別微調,這款模型相較於Ll ama本體,在演算法上進行了修剪優化,變得更加輕量級,只有48B的參數,並且還具備了類似於O1的推理能力。

與claude 3.7和GROK3一樣,Ll ama   nemotron模型內建了推理能力的開關,使用者可以根據自己的需求,選擇是否開啟。這個系列,分為入門級的Nano、終端的super和旗艦的Ultra三個檔次,每一款都針對於不同規模的企業需求,進行了設計。為了訓練這款模型,輝達使用了自己產生的合成數據,作為微調的數據集,總數約為60B的TOKEN。不過與Deepseek V3相比,它的訓練效率仍存在著一定的差距。 Deepseek V3花了130萬個H 100小時,完成了完整的訓練,而僅有Deepseek v3 1/15參數量的Ll ama nemotron模型,只是微調的過程就用了36萬H 100小時。在推理效率上,Ll ama nemotron   super 49B模型,比上一代的模型有了顯著的提升,它的TOKEN吞吐量,能夠達到Ll ama 3 70B的5倍。在單一資料中心GPU下,它每秒,可以吞吐3,000個TOKEN以上。不過和deepseek在開源周公佈的數據相比,差距依然比較明顯。應該說輝達開發Ll ama nemotron推理模型,更多的還是為了佈局AI的下一個未來,也就是AI agent。為此輝達也啟動了一個輝達AIQ項目,他直接提供了一個以Ll ama nemotron推理模型為核心的AI agent的工作流程。

透過一套預先組態的工作流程範本,幫助開發者更容易整合輝達的技術和函式庫。在此基礎上,輝達也推出了AI資料平台,可以把AI推理模型直接接到企業資料的系統上,形成一個針對企業資料的deep Reasearch。另外AIQ也非常強調可觀察性和透明度的機制,讓開發團隊能夠即時的監控agent的活動,並且基於效能資料持續的最佳化系統。在具身智能方面,輝達這次首先公佈了Cosmos模型的升級版。 Cosmos是一個能夠透過現有的畫面,去預測未來畫面的模型。它可以從文字、圖像輸入資料,產生詳細的視訊,並且透過將當前狀態與動作結合,來預測場景的演變。因為這需要理解世界的物理因果規律,輝達也稱Cosmos為世界基礎模型WFM。這次升級之後的模型包含了三個部分的能力。第一部分是Cosmos transfer,可以將結構化的視訊文字輸入,轉換為可控的真實感視訊輸出,憑空用文字產生大規模的合成資料,這就解決了當前巨神智能最大的瓶頸,也就是資料不足的問題。第二部分的Cosmos predict,能夠從多模態輸入,產生虛擬世界的狀態,支援多幀生成和動作軌跡預測。

這意味著給定起始和結束的狀態,模型可以產生合理的中間過程,也就是對核心物理世界的認知和建構能力。第三部分,是Cosmos reason,它是一個開放且可完全客制化的模型,具有時空感知能力,能夠透過思維鏈推理,來理解影片的資料,並且預測互動結果,從而提高規劃行為和預測行為結果的能力。有了這三部分能力的疊加,Cosmos如今可以做到從影像到文字輸入,再到機器人動作輸出的完整連結。推出僅僅兩個月,1x agility Robotics、FIG AI,這三家頭部公司就都開始在使用了。那基於Cosmos,輝達也訓練了Isaac GROOT N1人形機器人技術模式。它採用雙系統架構,有快速反應的系統一和深度推理的系統。由於經過了全面的微調,所以這個模型能夠處理抓取、移動、雙臂操作等等通用的任務,可以根據特定的機器人進行完全的客制化。機器人開發者可以用真實或合成的資料,來進行後訓練。比如說輝達與GoogleDeepmind和迪士尼合作開發的Newton實體引擎,就使用Isaac GROOT N1作為底座,驅動了一個非常少見的迪士尼BDX機器人。在具身智能的算力知識方面,輝達如今已經建構了三位一體的算力體系。從去年開始,老黃就在GTC上,強調了一個三台電腦的概念。一台是DGX,就是大型GPU的伺服器,它用來訓練AI,包括具身智慧。

另一台,AGX是輝達為邊緣運算和自主系統設計的嵌入式運算平台,它用來具體在端側部署AI。而第三台,就是資料生成電腦omniverse加Cosmos。如今,這套體系在這次的GTC中,又被老黃重新的提起,而且特別提到靠著這套算力系統,能夠誕生10億級的機器人。

靠著這套體系,英達實現了從算力、訓練到部署的完整閉環。回顧這次的GTC 2025大會,總的來說,Blackwell UItra有些擠牙膏的味道,但Rubin架構還是值得期待的。對比硬體層面上的畫餅充饑,這兩年輝達在軟體層面上可以說是瘋狂的跑馬圈地,已經完成了從模型最佳化、模型封裝到應用建構的全站解決方案。

如果再加上這次新增的agent和AI INFO,恐怕是想吃掉除了基礎大模型以外的所有機會。可見老黃的胃口之大。而在機器人市場,輝達更是想要將模型、資料、算力三個要素都抓在手裡,壟斷巨神智能的上下游環節。

其中的每一個,都可能是一個千億美元的市場。如果在硬體以外,輝達再能夠通吃軟體,或是機器人市場裡的任何一個,恐怕就真的沒有人能夠撼動他的壟斷地位了。不過這場豪賭,也是輝達和黃仁勳從來沒有經歷過的。

目前,勝負依然難料,我們也只能是靜觀其變 (AI光子社)