自上周日起,聖何塞這座被譽為“矽谷之心”的城市便沉浸在了輝達的綠色海洋中。輝達的標誌性綠色橫幅隨處可見,綠色小車穿梭於街道之間,為這座城市披上了一層流動的綠色外衣。
這一切都是為了迎接一年一度的科技盛會——輝達GTC2025。當地時間3月18日,輝達創始人兼CEO黃仁勳在SAP中心發表了演講,現場座無虛席。他幽默地將今年的GTC稱為“Super Bowl of AI”,AI界的超級碗。
黃仁勳一如既往地身著黑色皮衣,宛如搖滾明星般吸引了全球科技界的目光。全球科技人士紛紛前來,追蹤這位AI領域的“代言人”,試圖一窺AI的未來。今年的關鍵詞無疑是“推理”和“token”,明顯可以看出,AI的敘事重心正從訓練階段轉向推理階段。
在演講的開場部分,黃仁勳再次詳細闡述了三個scaling定律,並表達了對它們的持續看好。他指出,關於AI scaling放緩的討論幾乎“全世界都搞錯了”。他認為,得益於新的scaling技術,AI的進化速度比以往任何時候都要快。
面對推理市場,輝達採取了雙線作戰的策略。在硬體方面,推出了Blackwell Ultra GPU、下一代架構Rubin、CPO交換機以及“AI PC”桌面端超級電腦;在軟體方面,則推出了推理框架Dynamo、Llama Nemotron系列推理模型以及人形機器人基礎模型GROOT N1等。
Forrester副總裁兼首席分析師戴鯤在接受21世紀經濟報導記者採訪時表示:“本次大會有三個方向值得關注:一是面向後訓練和推理的加速計算;二是面向企業級智能代理開發的Agentic AI;三是Physical AI,即AI在物理世界中的應用,如何賦能機器人和自動駕駛,是很有潛力的領域。”
黃仁勳強調,生成式人工智慧改變了計算的方式,人工智慧的推理能力可能成為下一個重大突破,而token可用性的提高是其中重要的一部分。人工智慧正在經歷一個轉折點,它變得更加智能,應用更加廣泛。
正如市場預期,輝達在本次GTC大會上發佈了Blackwell Ultra系列晶片及下一代GPU架構Rubin。
下一代平台Vera Rubin NLV144計畫於2026年下半年上線,Rubin Ultra NVL576則將在2027年下半年面世。去年,黃仁勳已經預告了Rubin和Blackwell Ultra GPU以及最新的Vera CPU的發佈。按照輝達的AI發展藍圖,輝達正在加速前行,以往通常是每兩年更新一代。
此次發佈會的重點更多聚焦在Blackwell的產品矩陣上。黃仁勳表示,Grace Blackwell目前已全面投入生產,各大OEM廠商均使用該公司的硬體製造和銷售產品。與此同時,新平台特別強化了推理能力。輝達稱,Blackwell Ultra在訓練和測試時間縮放推理(Test-Time Scaling Inference)方面實現了突破,並將其稱為“AI工廠平台”,將開啟AI推理新時代。
具體來看,Blackwell Ultra(GB300)包含GB300 NVL72機架級解決方案和HGX B300 NVL16系統。其中,GB300 NVL72將72顆Blackwell Ultra GPU與36顆基於Arm Neoverse架構的Grace CPU互聯,形成一個超大規模的AI計算單元。
與GB200 NVL72相比,GB300 NVL72的AI性能提升了1.5倍,並使AI工廠的收益機會相比Hopper平台提高了50倍。輝達表示,GB300 NVL72預計將整合至DGX Cloud,DGX SuperPOD(企業級AI基礎設施)也將採用GB300 NVL72機架架構,提供開箱即用的AI工廠解決方案。
據悉,DGX SuperPOD可擴展至數萬顆Grace Blackwell Ultra超級晶片,通過NVLink、 Quantum-X800 InfiniBand 和Spectrum-X乙太網路實現超高速互聯,以提供強大的AI訓練與推理計算能力。
再看HGX B300 NVL16,輝達給出的資料顯示,相較Hopper代際產品,在大語言模型推理方面,推理速度提高11倍、計算能力提升7倍、記憶體容量擴大4倍。這些突破使其能夠高效運行最複雜的AI 任務,特別適用於AI 推理計算、深度推理及超大規模推理工作負載。
整體而言,這款面向AI推理時代的旗艦級GPU平台,不僅是輝達Blackwell架構的又一力作,也標誌著AI計算,從大模型預訓練向深度推理與複雜推理的轉變,將為資料中心、企業AI工廠及自動駕駛、機器人等領域提供強勁的計算能力。
“AI已經邁出了巨大的飛躍,推理AI和代理AI對計算性能的需求呈指數級增長,”黃仁勳表示,“我們正是為這個關鍵時刻設計了Blackwell Ultra——這是一款全能AI平台,能夠高效執行預訓練、後訓練和推理等任務。”
去年,Blackwell架構剛剛發佈,GB200系列在上個季度為輝達帶來110億美元的營收。接下來,最新的 Blackwell Ultra能夠接棒GB200再創新高?
瑞銀(UBS)在3月17日的報告中指出,Blackwell系列的需求依然非常強勁,GB200機架的殘存的瓶頸現已完全解決,輝達正加快B300/GB300(Blackwell Ultra)的推出時間,預計將在第一季度提前量產,並在2025年第三季度實現大規模出貨。
輝達表示,基於Blackwell Ultra的產品預計將於2025年下半年開始由合作夥伴陸續推出。思科、戴爾、惠普、聯想和超微將率先推出基於Blackwell Ultra的伺服器。浪潮旗下Aivres、華擎機架、華碩、富士康、技嘉、英業達、和碩、廣達、緯創和緯穎等硬體製造商也將提供Blackwell Ultra伺服器解決方案。
值得一提的是,在發佈會現場,黃仁勳還放出了一張全球資料中心資本支出的統計圖,與輝達資料中心業績進行了對比。預計到2028年,資料中心的投資將超過一兆美元,暗示輝達仍有巨大的增長空間。
隨著AI計算的迅猛發展,資料中心的網路連線基礎設施面臨著更高的要求。在3月18日的GTC2025發佈會上,輝達推出了全新的NVIDIA Photonics矽光子技術。
據介紹,這項技術通過共封裝光學(CPO)取代傳統的可插拔光學收發器,使光纖直接連接到交換機,大幅減少資料中心的功耗。據輝達測算,該技術可降低40MW的功耗,並提高AI計算叢集的網路傳輸效率,為未來超大規模AI資料中心奠定基礎。
基於此,輝達推出Spectrum-X與Quantum-X矽光子網路交換機,通過將電子電路與光通訊技術深度融合,助力AI工廠連接跨地域的數百萬GPU叢集,從而降低能耗與營運成本。
其中Spectrum-X乙太網路平台是專為多租戶超大規模AI工廠設計,頻寬密度達傳統乙太網路的1.6倍,支援全球最大規模超級電腦。Quantum-X光子InfiniBand平台是基於200Gb/s SerDes技術提供144個800Gb/s連接埠,採用液冷設計高效冷卻矽光模組,AI計算架構速度較前代提升2倍,可擴展性增強5倍。
隨著AI工廠規模空前擴張,網路技術亟需同步革新。輝達表示,其光子交換機整合光通訊創新技術,較傳統方式減少75%雷射器使用,能效提升3.5倍,訊號完整性增強63倍,網路韌性提高10倍,部署速度加快1.3倍。
黃仁勳表示:“AI工廠是超大規模資料中心的新範式,網路基礎設施需徹底重構。通過將矽光子技術直接整合至交換機,輝達突破了傳統超大規模與企業網路的限制,為百萬GPU級AI工廠鋪平道路。”
輝達矽光子技術生態涵蓋了台積電、Browave、Coherent、康寧、Fabrinet、富士康、Lumentum、SENKO、SPIL、住友電工及TFC Communication等企業。
摩根大通此前在報告中指出,採用CPO對於進一步提升頻寬、降低延遲至關重要,同時還能降低功耗,“我們認為,短期內基於CPO的交換機的實際應用規模可能仍然較小。CPO應用的關鍵轉折點要等到CPO應用於GPU時才會出現。最早可能要到2027年的Rubin Ultra才會實現。”
報告還指出,將CPO應用於人工智慧GPU仍面臨多項技術挑戰,包括熱管理、可靠性,以及由於所需尺寸過大導致的IC基板翹曲問題。隨著CPO應用的增加,對於基板供應商來說是重大利多,因為使用CPO的交換機基板尺寸將增加20%~30%。對於應用於GPU中介層的CPO,基板設計尺寸可能達到當前GPU的2~3倍。
黃仁勳強調:“人工智慧將無處不在。”輝達重點關注領域包括機器人、自動駕駛、邊緣計算、6G、企業IT、雲服務、GPU雲等。
今年,AI Agent的興起和AI硬體的火熱,都表明AI應用正在加速爆發。尤其是隨著DeepSeek等技術的推出,成本逐漸降低,進一步推動了生成式AI滾滾向前。
而生成式AI正改變計算的方式,在黃仁勳看來,電腦已經成為token的生成器,而不是檔案的檢索器,資料中心也演變成了AI工廠,只負責生成token,並將其轉化為音樂、文字、研究等。
在發佈會現場,黃仁勳用DeepSeek和其他大模型進行了對比演示。在回答同一個問題時,與傳統的大語言模型相比,DeepSeek的推理模型需要多20倍的token和150倍的計算資源,但得出了更準確的答案。黃仁勳指出,隨著下一代模型可能包含數兆個參數,對輝達Blackwell NV72等系統的需求也將大幅增加。同時,在強化推理過程中,軟體起到了很關鍵的作用。
輝達新推出了AI推理服務軟體Dynamo,黃仁勳指出:“這本質上是人工智慧工廠的作業系統。”在Dynamo的支援下,Blackwell在推理性能上實現了巨大飛躍,其推理性能可達上一代Hopper的40倍。因此,黃仁勳再次強調:“買得越多,省得越多。”
IDC助理研究總監崔凱表示,黃仁勳重點強化了“token經濟學”(token=收入),將複雜系統簡化為可量化、易傳播的商業故事。類似於5G建網時強調的“單位元成本大幅下降”的邏輯,效率提升價值,規模攤薄成本,延續“buy more and save more”的價值主張。
Dynamo能夠最大化AI工廠在推理AI模型中的token收益。它通過協調並加速數千顆GPU之間的推理通訊,採用分離式推理架構(Disaggregated Serving),使大語言模型的輸入處理(Processing Phase)和推理生成(Generation Phase)分別在不同GPU上運行。這種設計使每個階段能夠根據自身需求進行獨立最佳化,確保GPU資源的最大化利用,從而實現更高效的AI推理計算。
此外,輝達還通過一系列NIM服務支援企業和開發者建構AI Agent。例如,輝達推出了Llama Nemotron系列推理模型,包括Nano、Super和Ultra三個版本,能夠執行更複雜的推理任務,並具備可調節的推理模式。這些模型基於Meta的Llama架構,並經過輝達的獨特最佳化,在數學推理、指令跟隨及複雜任務處理方面表現出色,適用於自動化客服、商業分析、科學研究等領域。
為了幫助企業更高效地建構AI代理系統,輝達還發佈了AI-Q(NVIDIA IQ Blueprint),這是一種開放式的AI代理架構,支援查詢多模態資料(文字、圖像、視訊等)並連接外部工具,如Web搜尋和資料庫。AI-Q能夠提升AI代理的推理能力,使其具備更強的邏輯推理和問題解決能力,減少企業在AI應用中的開發成本和部署難度。
輝達的核心護城河——CUDA,也是一套強大的軟硬體體系。黃仁勳在發佈會上詳細介紹了CUDA庫的廣泛應用,如今輝達已經擁有從量子化學到基因測序等各個領域的AI工具。黃仁勳表示:“我們已經達到了計算的臨界點,CUDA使之成為可能。”
此外,頗受關注的領域還包括AI PC類產品和physical AI,Physical AI主要是指機器人和自動駕駛。
在端側AI產品方面,輝達推出基於NVIDIA Grace Blackwell平台的全新DGX個人AI超級電腦系列。其中一款是DGX Spark,其前身是黃仁勳在CES上發佈的Project DIGITS項目。這款被輝達定義為“AI PC”的裝置,是全球最小的桌面級AI超級電腦,適用於AI研究人員和開發者。通過接入這台DGX Spark,個人使用者就可以更方便地使用大模型。
這款PC主機核心為專為桌面設計的GB10 Grace Blackwell超級晶片,配備支援第五代張量核心與FP4精度的Blackwell GPU,AI算力高達每秒1千兆次操作,可高效微調並運行Cosmos Reason世界基礎模型、GR00T N1機器人基礎模型等前沿AI推理模型。
另一款產品是DGX Station,這是Ultra平台的高性能桌面超級電腦,主要是面向企業和科研機構的高性能AI計算站,提供20 PetaFLOPS AI計算能力,並配備784GB統一記憶體,助力企業建構私有AI推理系統。
此次,輝達繼續在桌面端掀起算力革命。據介紹,DGX Spark與DGX Station首次將原本僅限資料中心使用的Grace Blackwell架構性能引入桌面環境,製造商合作夥伴包括華碩、戴爾、惠普和聯想等。
這些裝置將助力AI開發者、研究者、資料科學家及學生在桌面上完成大模型的快速原型設計、微調與推理任務。使用者既可本地運行模型,亦可無縫部署至DGX Cloud或其他支援加速的雲平台及資料中心基礎設施。
除了PC產品,可愛的機器人再次在發佈會上壓軸出場,並與黃仁勳進行了互動。在黃仁勳看來,通用機器人時代已經到來,世界勞動力嚴重短缺5000萬人,去年他就曾多次表示機器人時代漸近。
此次,在機器人領域,輝達正式發佈了Isaac Groot(GROOT N1),這是全球首款開放原始碼的、可定製的通用人形機器人基礎模型。
GROOT N1採用雙系統架構,靈感來源於人類認知原理。其中,“系統1” 是一個快速思考的行動模型,類似於人類的直覺和反射;“系統2” 則是一個慢速思考模型,用於深思熟慮的決策制定。
GR00T N1可輕鬆適配多種常見任務,例如抓取、雙臂搬運、單臂與雙臂協作,以及多步複雜操作,適用於物料搬運、包裝和檢測等場景。
該模型已經被多家機器人製造商採用,包括Fourier GR-01、Agility Robotics、Boston Dynamics等,助力類人機器人進入更廣泛的商業應用場景。
此外,輝達還推出了一系列模擬框架和方案,包括 NVIDIA Isaac GR00T 方案,用於生成合成資料,以及Newton——一款開源物理引擎,該引擎由輝達與Google DeepMind和迪士尼研究院 共同開發,專門用於機器人研發。
對比來看,去年GTC大會上,輝達就發佈了人形機器人通用基礎模型Project GROOT,以及基於NVIDIA Thor系統級晶片(SoC)的新型人形機器人電腦Jetson Thor。今年,輝達在機器人基礎模型和體系化的解決方案上再次升級。
摩根大通表示,輝達已經宣佈其全球AI基礎模型平台Cosmos以及其人形機器人開發平台Groot,未來在Physical AI方面預計會有更多突破。隨著多模態AI的進步以及機器人和數字孿生等新舉措的推出,全球模型Physical AI模型開發方面可能會有更多進展。
回顧過去的一個季度,AI領域可謂波瀾起伏,風向和敘事悄然生變。尤其是自DeepSeek爆火以來,關於推理、算力、成本和效率的討論從未停止。再加上美國政策的變化,為全球AI產業的發展增添了新的變數。
今年的GTC大會上,“what’s next in AI starts here”的標語高高懸掛。大家都在期待,面對日新月異的AI技術和擂台挑戰,黃仁勳將如何描繪AI的未來。
整體來看,輝達在GTC2025大會上帶來了規模龐大的技術發佈,涵蓋了AI推理計算、AI Agent、物理AI(機器人與自動駕駛)、資料中心基礎設施以及數字孿生等多個領域。
然而,發佈會結束後,截至記者發稿時,輝達股價下跌了3.43%。事實上,黃仁勳在發佈會上還提到了股價問題,開玩笑地表示股價低時是投資的好時機。
摩根大通近日的報告指出,總體來看,由於對2025年資料中心AI支出峰值的擔憂、GPU與ASIC競爭以及近期CoWoS訂單削減的憂慮,整體AI市場情緒仍顯偏空。我們認為,GTC大會有望提振部分對AI股票的正面情緒,同時改善下游供應鏈中Blackwell系統的供應狀況。
報告還表示,儘管對2026年AI資料中心資本支出增長的擔憂可能需要更長時間才能解除,但在Deepseek之後對AI資本支出下降的擔憂並未真正顯現。我們預計2026年將在美國CSP資本支出持續增長、中國CSP的增量資本支出回升以及企業AI採用增加的共同作用下,繼續保持健康增長。
對於DeepSeek的影響,黃仁勳此前表示,DeepSeek的崛起實際上將對輝達帶來整體上的積極影響,因為這將加速人工智慧技術的廣泛應用。他還指出,像OpenAI的o1這樣高能耗的推理模型的增長,是輝達下一座需要攀登的高峰。
本屆GTC是輝達近年來最重要的技術發佈之一,其核心主題圍繞AI推理時代展開,從計算架構(Blackwell GPU、Rubin、Dynamo)、企業AI應用(Llama Nemotron、AIQ),再到資料中心(Photonics、交換機)、機器人和自動駕駛(Isaac Groot、NVIDIA Drive),輝達正在建構一個完整的AI生態體系。
在AI的推動下,企業和個人的生產力將迎來新一輪的變革,而輝達作為這一變革的核心推動者,也在不斷加速技術創新。 (21世紀經濟報導)