#輝達GTC
【GTC】不止AI,而是人類文明施工圖!輝達凌晨炸場!從6G、量子計算、核聚變到機器人...老黃在下一盤什麼棋?
01. AI正在從“演算法革命”進入“能源革命”算力正成為新的電力,GPU是發電機,智算中心是電廠——這是一場人類經濟底座的重構;02. 輝達的發佈會,其實是人類文明的施工圖黃仁勳在描繪未來十年的基礎設施:從晶片到6G,從量子到AI工廠,從虛擬到現實;03. AI投資的下半場,屬於“供電的人”最值得關注的不再是模型概念,而是能持續供給算力、連線到網路、落地產業的公司。美東時間10月28日,輝達CEO黃仁勳在華盛頓登台,開啟了今年第二場GTC大會。這次,他沒有專注講某一代GPU,而是展開了一場更像“AI文明宣言”的演講。從6G、量子計算、核聚變、機器人到自動駕駛,黃仁勳幾乎描繪出AI產業的全景——一張從算力到通訊、從網路到產業應用的基礎設施地圖。如果說ChatGPT開啟了AI時代的“應用元年”,那麼輝達這次GTC,則宣告了AI進入基礎設施時代。他明確反駁“AI泡沫論”——“客戶在為AI服務付費,這證明昂貴的計算基礎設施是有商業價值的。”這句話的含義其實遠超業績表態。黃仁勳在定義一個新範式:AI正在成為一種能源系統。算力是燃料,GPU是引擎,演算法是管道,產業是終端。輝達要做的,不是晶片公司,而是AI文明的供電公司。輝達究竟在下怎樣一盤大棋?(1)能源層:算力成為新的“電力”黃仁勳表示,輝達的Blackwell GPU已在美國亞利桑那實現量產。未來五個季度,公司預計出貨2000萬塊晶片,訂單金額高達5000億美元。這意味著,算力的生產規模正在接近能源產業的體量。更具象徵意義的是,美國能源部已將輝達納入其AI超算體系——計畫建造Solstice和Equinox兩台AI超級電腦,總計配置超過11萬塊GPU,總算力2200 ExaFlops。這不僅是科研項目,更是能源體系的重構。也意味著,AI不再是消費電子,而是戰略能源。未來,算力會像電一樣被度量、調度和交易。對中國投資者而言,這代表AI硬體周期的延長。AI伺服器、散熱系統、光模組、功率半導體、液冷裝置等環節,將繼續受益於“算力工業化”的趨勢。AI的第一層機會,不在概念,而在基建。(2)網路層:AI的通訊革命與量子融合如果說算力是AI的能源,那麼通訊網路就是它的血管系統。在GTC大會上,輝達宣佈與諾基亞達成10億美元合作,推出面向6G時代的AI-RAN平台Aerial RAN Computer(ARC)。這意味著未來的無線網路將不再是“訊號通路”,而是“AI通路”。AI原生網路的出現,讓移動通訊、邊緣計算和算力中心的邊界被打通。AI不再僅僅“算得快”,而是“連得上”。與此同時,輝達推出的NVQLink,讓GPU與量子電腦實現高速互聯。17家量子廠商、9個美國國家實驗室已經宣佈接入這套系統。這是一種新的“混合算力形態”:GPU承擔大規模平行任務,量子計算處理高複雜度演算法,AI的“能效比”因此被重新定義。對於資本市場,這一層的投資主線是“算網融合”。光通訊、GPU互聯裝置、邊緣AI計算節點、網路安全體系,將成為AI網路化時代的關鍵環節。(3)應用層:AI工廠、機器人與產業落地黃仁勳提出了一個新概念——AI工廠。它不是比喻,而是一個真實存在的基礎設施。BlueField-4處理器支援800Gb/s吞吐量,可為AI工廠提供作業系統級算力支撐。在這個體系裡,AI模型被看作生產線,資料是原材料,GPU是機器裝置。輝達與Palantir合作,將GPU計算力嵌入企業資料平台,建構“決策智能系統”;與禮來合作,在製藥業部署上千塊Blackwell Ultra GPU,打造生物研究的AI超級計算平台——縮短藥物研發周期、擴大實驗規模。輝達還牽手Uber、Stellantis和奔馳,計畫到2027年部署10萬輛Robotaxi。這是一張完整的落地路徑圖——從科學研究到工業決策,從藥物研發到城市交通,AI正在被“產業化量產”。對投資者來說,這意味著AI不再是網際網路的“附屬故事”,而是製造業、醫療、能源的新引擎。AI製藥、AI製造、AI安全、自動駕駛,將是接下來幾年最具確定性的落地方向。我們的投資機會在那裡?黃仁勳這次GTC大會,把AI從“軟體創新”拉回了“能源革命”的軌道上。他的底層邏輯其實非常樸素——AI不是消費產品,而是新工業體系。當算力成為能源,AI的競爭將不再是演算法速度,而是能源供給能力。中國的“AI文明基建”正在同步展開。從“東數西算”到各地智算中心、從AI晶片到AI工廠,中國正建構一條屬於自己的算力產業鏈。如果說輝達展示的是全球範本,那麼中國市場對應的投資機會,可以分為三條主線:(1)算力硬體:AI的能源底座這一條最確定。輝達定義的“AI工廠”,在中國正以“智算中心”形式快速複製。每一座智算中心都是一個AI時代的“發電站”。重點方向:GPU與AI伺服器:浪潮資訊(000977)、中科曙光(603019)、寒武紀(688256)AI算力配套裝置(電源、散熱、液冷):英維克(002837)、同飛股份(300990)、奧特維(688516)、立新能源(603906)高速互聯與光模組:中際旭創(300308)、天孚通訊(300394)、新易盛(300502)、光迅科技(002281)這些企業的邏輯一致:AI算力需求越多,硬體端的資本開支周期越長。在算力成為“基礎設施”後,這一層的成長性將遠高於傳統IT裝置。(2)算網融合:通訊與計算的邊界消失輝達與諾基亞的6G合作,實質上在啟發一個新的投資方向——通訊裝置、資料中心和算力網路的融合。AI原生網路(AI-RAN)未來在中國也將有本土版本,推動“算力即網路”的趨勢。潛在受益類股:光通訊與傳輸裝置:華工科技(000988)、中際旭創(300308)、劍橋科技(603083)邊緣計算與資料中心互聯:寶信軟體(600845)、紫光股份(000938)、鵬博士(600804)6G概念鏈:中國聯通(600050)、中貝通訊(603220)這一方向的邏輯是:AI模型越重,邊緣側越智能,通訊裝置就越“算力化”。未來的通訊基礎設施,將是“計算+傳輸”一體化的形態。(3)AI落地:從演算法到產業產能GTC演講後半部分的關鍵詞是“AI工廠”。BlueField-4、Palantir、禮來、Uber、Stellantis——這些合作說明AI已經從實驗室走向產業現場。中國的機會正出現在這一“落地帶”:AI製藥與科研算力:藥明康德(603259)、晶泰科技(688595)自動駕駛與智能座艙:地平線、舜宇光學(2382.HK)、中科創達(300496)AI安全與企業決策智能:奇安信(688561)、科大訊飛(002230)、海康威視(002415)AI工業與數字孿生:中控技術(688777)、東方國信(300166)、寶信軟體(600845)這些領域的共通點是——AI開始創造真實現金流。製藥、製造、能源、城市治理等場景的智能化改造,將是AI紅利的第二曲線。結語:從輝達到中國,AI的競爭正從“模型領先”轉向“能源領先”。投資者需要從炒概念,轉向看產業鏈現金流、資本開支與政策共振。過去十年,網際網路紅利建立在“流量”之上;未來十年,AI紅利將建立在“算力”之上。 (財經三句半)
【GTC】一文讀懂輝達秋季GTC:入股諾基亞、抱團Uber,讓美國AI再次偉大?
2025年10月29日凌晨,輝達創始人兼CEO黃仁勳在華盛頓舉行的GTC華盛頓特區技術峰會上發表重磅演講。黃仁勳開場便直指核心衝突:在“摩爾定律”失效、計算性能增長陷入停滯的當下,輝達正是那個拯救未來計算的“救世主”。他們用平行計算和GPU加速,將“算力”這條生命線,從傳統的CPU桎梏中徹底解放出來。01. 計算架構範式轉移從CPU主宰到GPU加速時代黃仁勳在演講中回顧了計算產業的歷史性轉折。數十年來,CPU性能始終遵循著可預測的規模增長軌跡,然而隨著登納德縮放定律(Dennard scaling)走向終結——該定律認為通過不斷縮小電晶體尺寸來維持功率密度,可以降低功耗並提升性能,傳統發展路徑已難以為繼。面對這些挑戰,輝達給出的答案是:平行計算、GPU和加速計算架構。黃仁勳宣稱:“這一轉折點已經到來,輝達已做好準備。我們認識到,通過引入能夠充分利用指數級增長電晶體的處理器,運用平行計算技術,再與順序處理的CPU協同工作,就能將計算能力推向一個全新維度——這個時代確實已經來臨。”加速計算的實現,離不開輝達精心建構的軟體基石——CUDA-X全端加速庫:覆蓋了從深度學習領域的cuDNN與TensorRT-LLM,資料科學平台RAPIDS (cuDF/cuML),到決策最佳化工具cuOpt、計算光刻解決方案cuLitho,以及量子與混合計算框架CUDA-Q與cuQuantum等關鍵領域。黃仁勳將這個完整的軟體生態系統譽為“公司最珍貴的寶藏”,它構成了輝達加速計算戰略的技術核心,為各行業的計算變革提供著底層動力。02. 10億美元入股諾基亞,打造AI原生6G技術堆疊黃仁勳在演講中將目光投向了國家安全和經濟命脈。他強調,電信技術是經濟和國家安全的生命線,但目前全球無線技術部署大多依賴於其他國家的技術體系。黃仁勳表示:“這種核心通訊技術受制於人的局面必須終結,而現在我們迎來了扭轉局面的歷史性機遇”。為實現這一戰略目標,輝達推出了顛覆性的NVIDIA ARC——AI原生6G無線技術堆疊。該平台基於輝達Aerial平台建構,融合了Grace CPU、Blackwell GPU及先進網路元件,通過加速計算實現性能突破。據黃仁勳透露,輝達已經與通訊裝置巨頭諾基亞達成深度戰略合作。諾基亞將在其未來基站系統中整合NVIDIA ARC解決方案,該平台將賦能機器人精準操控與高精度氣象預測等關鍵應用。另據輝達官方博文顯示,該公司計畫將其商用級AI-RAN產品整合至諾基亞領先的無線接入網(RAN)組合中,使通訊服務商能夠在輝達平台上部署AI原生的5G-Advanced和6G網路。作為合作的一部分,輝達將以每股6.01歐元的價格認購1.664億股諾基亞新股,投資總額達10億美元。03. NVQLink:黃仁勳推著量子計算“往前跑”在探討計算科學前沿時,黃仁勳回顧了量子物理學家理查德·費曼四十年前的設想:創造能夠直接模擬自然規律的量子電腦。“如今我們已能夠製備穩定、相干且具備糾錯能力的邏輯量子位元,”黃仁勳指出,“但這些量子位元極其脆弱,需要強大的技術支援量子糾錯和狀態解讀。”為實現量子計算與GPU計算的無縫融合,輝達推出了量子-GPU互聯技術NVQLink。這項創新使量子處理單元能夠即時呼叫CUDA-Q計算框架,將通訊延遲降至約4微秒的極致水平。在現場演示環節,黃仁勳身後的大螢幕展示了包括17家量子計算領先企業和多個美國能源部實驗室的協同創新網路。“幾乎所有的美國能源部下屬實驗室都在與我們的量子計算生態系統夥伴緊密合作,共同將量子計算融入未來的科學發展藍圖。”04. 規劃新建7座AI超算叢集黃仁勳宣佈,美國國家實驗室正迎來由AI基礎設施驅動的全新科研時代。輝達與美國能源部(DOE)達成戰略合作,將共同建設七台新一代超級電腦,為未來科學研究提供強大算力支撐。在具體佈局上,輝達聯合美國能源部及甲骨文公司,將在阿貢國家實驗室打造能源部體系內規模最大的AI超級電腦叢集。這一超級計算網路包含Solstice和Equinox兩大核心系統:Solstice系統將部署10萬顆輝達Blackwell GPU,建成後將成為全球規模最大、面向公共研究領域的智能體科學平台;Equinox系統配備1萬顆Blackwell GPU,提供高達2,200 EFLOPS的AI算力,專門服務於前沿科學計算、模擬模擬與開放研究。另外,輝達還宣佈與HPE合作,為洛斯阿拉莫斯國家實驗室打造兩台基於Vera Rubin平台的全新超級電腦,用於國家安全和科學研究這也是Vera Rubin平台首次將在具體場景中落地,該平台包含Nvidia的下一代Vera CPU和Rubin GPU。這些機器將使用NVLink Gen6技術進行擴展,並採用QuantumX 800 Infiniband網路進行擴展。05. 本土製造戰略:Blackwell晶片實現美國量產在產業佈局方面,黃仁勳透露重要進展:Blackwell GPU已在美國亞利桑那州實現規模化生產,基於該晶片的整機系統也將在美國完成組裝。這一舉措,標誌著輝達成功將旗艦產品的製造環節從完全依賴台積電代工,轉向美國本土供應鏈體系。值得注意的是,本次大會的諸多公告都具有明確政策導向。輝達通過展示其在美國科技生態中的核心地位,向政策制定者傳遞關鍵資訊:對晶片出口的限制將直接損害美國利益。在市場表現方面,黃仁勳透露GPU需求持續旺盛:過去四個季度輝達已出貨600萬顆Blackwell GPU,預計Blackwell與下一代Rubin晶片的總銷售額將達到5000億美元規模。06. AI工廠革命:從工具到生產力主體的範式轉移“AI不是工具,而是生產力主體。”黃仁勳在演講中提出了這一顛覆性觀點,“這是歷史上首次,技術具備了執行勞動任務的能力,成為人類生產力的延伸。”這種從“工具”到“AI勞動者”的根本性轉變,正在催生全新的計算範式,並隨之孕育出前所未有的職業形態與產業格局。在黃仁勳的構想中,現代“AI工廠”已遠非傳統資料中心所能概括,而是專門為海量token的生成、傳輸與服務建構的全新綜合計算平台。這種平台級架構旨在實現前所未有的計算密度與能效比。面對指數級增長的AI算力需求,黃仁勳詳解了輝達的解決方案:“我們首先重新定義電腦的形態,首次實現單個計算系統擴展至整個機櫃規模;繼而通過創新的AI乙太網路技術Spectrum-X,實現多個系統間的無損橫向擴展。”隨著AI工廠的興起,機器人工程、量子科學等新興領域正在創造大量前所未有的就業機會。“創新飛輪已經啟動,”黃仁勳強調,“接下來的關鍵是將營運成本大幅降低,既最佳化使用者體驗,又通過成本控制維持這一創新循環的持續運轉。”實現這一願景的關鍵在於“極致協同設計”(Extreme Codesign),即同步設計新的底層計算架構,包括晶片、系統平台、軟體棧、AI模型與終端應用。為展示這一理念的實體化成果,黃仁勳在舞台上展示了新一代NVIDIA BlueField-4 DPU。這款整合64核Grace CPU與ConnectX-9網路晶片的資料處理器,計算性能達到前代產品的6倍,將成為未來AI工廠的“作業系統核心”。這款革命性的DPU專門用於加速伺服器的網路、儲存與安全任務,計畫於2026年率先部署於輝達Vera Rubin機架級AI平台,隨後向更廣泛的伺服器生態開放。07. Omniverse DSX:AI工廠的終極藍圖為應對超大規模AI部署的挑戰,黃仁勳正式發佈了Omniverse DSX——一套完整覆蓋100兆瓦至數千兆瓦級AI工廠設計與營運的綜合解決方案。該藍圖已在弗吉尼亞州AI工廠研究中心完成全面驗證。為了讓DSX參考設計更適應不同的資料中心,輝達提供了兩個配置框架:DSX Boost(內部能效最佳化):通過智能電力管理與工作負載動態分配,在同等算力輸出下降低約30%能耗,或同等電力預算下提升30%GPU密度,實現token生成吞吐量的質的飛躍。DSX Flex(外部能源整合):將資料中心深度接入區域電網體系,通過智能調度可再生能源與平衡供需關係,有效啟動美國電網中約100吉瓦的閒置容量。Omniverse DSX致力於讓新入局者能夠快速建構AI工廠。該方案確保輝達及合作夥伴的硬體在處理器、網路與冷卻系統層面實現開箱即用的相容性,即使缺乏專業經驗也能按藍圖部署,最大限度減少定製化需求。值得關注的是,該架構不僅完美支援當前Blackwell平台,還預留了對下一代Vera Rubin等未來產品的相容能力,為投資者提供長期技術保障。08. 開放生態與產業融合:輝達的AI落地戰略黃仁勳在演講中著重強調了開放生態的核心價值:“開源模型與開放協作是全球創新的基石,為初創企業、科研機構與產業公司提供了持續發展的動力。”據悉,輝達本年度已向開發者社區貢獻了數百個高品質開放模型與資料集。輝達已經建構了覆蓋關鍵領域的開放模型體系:Nemotron:專注智能體推理與決策AICosmos:突破合成資料生成與物理AI邊界Isaac GR00T:實現機器人技能學習與跨場景泛化Clara:重塑生物醫學研究與臨床工作流這些模型家族將共同賦能下一代智能體系統、機器人技術與科學發現。黃仁勳對此強調:“我們持續投入開放生態,因為這是科學研究、創業創新與產業升級的共同需求。”現場演示的合作夥伴成果展現了輝達技術的廣泛應用場景,涵蓋Google雲、微軟Azure、甲骨文等雲端運算巨頭,ServiceNow、SAP等企業服務商,以及Synopsys、Cadence等專業領域領導者。黃仁勳還宣佈了兩項戰略合作:與CrowdStrike共建新一代網路安全體系,通過Nemotron模型與NeMo工具鏈,實現從雲端到邊緣的“光速級”威脅檢測與響應;同Palantir達成深度技術整合,將加速計算架構、CUDA-X庫與開源模型融入Ontology資料平台,實現超大規模資料處理的性能突破。09. 物理智能:數字孿生驅動產業變革“物理智能(Physical AI)” 正在推動美國再工業化處理程序,即通過機器人與智能系統重塑製造、物流及基礎設施。黃仁勳在視訊中展示了多家合作夥伴如何將這一技術應用於現實生產。富士康運用Omniverse平台全流程模擬其休斯敦新工廠,該工廠將專門生產輝達AI基礎設施系統;卡特彼勒將數字孿生深度整合於智能製造流程;Figure AI在三年半內實現40億美元估值,其家用與工業級人形機器人正快速演進;強生公司通過AI最佳化全球生產網路與研發管線;迪士尼利用Omniverse訓練新一代互動式機器人,提升使用者體驗;10. 自動駕駛新紀元:Uber攜手輝達佈局十萬輛級Robotaxi網路在自動駕駛領域,黃仁勳宣佈了一項里程碑式合作:輝達與Uber正共同建構面向未來的自動駕駛出行平台,計畫自2027年起規模化部署約10萬輛自動駕駛車輛。這一雄心勃勃的項目將依託輝達最新一代DRIVE AGX Hyperion 10平台。這是輝達新的L4級自動駕駛平台,配備兩顆Thor處理器(每顆約2000 FP4 TFLOPS),感測器套件包含14個攝影機、9個雷達、1個雷射雷達和12個超聲波感測器,具備安全可靠、彈性擴展和軟體定義三大特性。黃仁勳描繪了這一願景的實現場景:"未來,使用者只需通過手機應用召喚,Hyperion自動駕駛計程車就將如約而至,這套系統將在全球範圍內實現人類駕駛員與機器人駕駛員的協同營運。"除Uber外,Hyperion已獲得多家國際汽車製造巨頭的採用。Lucid Motors、梅賽德斯-奔馳以及Stellantis集團,都在利用輝達的平台推進L4級自動駕駛技術落地。 (騰訊科技)
中國國內首次!8.9毫秒推理速度破紀錄,1元打穿百萬token
【新智元導讀】當所有人還在為參數內卷時,智能體真正的決勝點已經轉向了速度與成本。浪潮資訊用兩款AI伺服器直接給出了答案:一個將token生成速度幹到10毫秒以內,一個把每百萬token成本打到1元時代。Agentic AI時代,已經到來!輝達GTC大會上,老黃公開表示,當AI具備了感知和推理能力時,智能體AI就誕生了。「它如同數字世界的「機器人」,本質是理解-思考-行動」。當前,AI智能體革命已至臨界點。國內外科技巨頭紛紛加速佈局,全力爭奪這一賽道主導權。據Gartner預測,到2028年,AI智能體將參與人類約15%的日常工作決策。Georgian報告也顯示,如今,91%的企業研究主管正計畫在內部鋪開Agentic AI的落地應用。然而大規模部署之前,「互動速度」與「成本控制」仍是橫亙在許多企業面前的兩大關鍵挑戰。這裡有簡單的一個案例,就足以說明一些問題。國外一支開發團隊基於Azure的OpenAI服務,建構了一個智能體。然而,隨著時間的推移,響應變得越來越慢,一次簡單查詢耗費10秒以上。當他們用OpenAI API測試完全相同的提示詞後發現:OpenAI響應時間為1-2秒,Azure則需要5-10秒。同一款模型,同一個提示詞,卻有五倍差異。要知道,智能體的互動速度,直接決定了使用者體驗的質量。如今,人們對AI響應速度的期待,已從「秒級」進化到「毫秒級」。不僅如此,成本又直接決定了智能體產業化的可行性。多智能體的協作,對低延遲和token消耗又提出了更高的要求。分毫必爭的響應速度,決定了人們是否願意買單;而真金白銀的投入,則決定了企業能否持續推動AI智能體落地。那麼,如何才能既要又要呢?在2025人工智慧計算大會上,浪潮資訊重磅發佈了兩大破局創新系統:元腦SD200超節點AI伺服器,以及元腦HC1000超擴展AI伺服器。在元腦SD200上,DeepSeek R1大模型的Token生成速度飆升至8.9毫秒,創下國內LLM推理的最快紀錄,首次將智能體即時互動帶入「10毫秒」時代。在元腦HC1000上,LLM的推理成本被前所未有地壓縮至「1元/百萬Token」,徹底擊穿規模化部署的成本天花板。Scaling Law下一站:AI智能體爆發2025年,大模型的Scaling並未放緩,而是進入了一個全新的階段。Scaling Law的焦點,早已從「預訓練」轉向了「推理」。從o3、Gemini 2.5,到Grok 4、GPT-5,全球頂尖AI不斷迭代,每一次發佈都刷新了以往SOTA。這一演進的節奏仍在加速。爆料稱,GoogleGemini 3.0、OpenAI Sora 2都將於十月初面世。反觀國內,DeepSeek R1/V3.1-Terminus、Qwen家族等開源模型,月更、周更已成為常態。在能力邊界上,LLM正從純文字,走向了融合視覺、聽覺的多模態模型,並逐步演變為一個底層「作業系統」。可以預見,AI能力將依舊會指數級增長——LLM性能越來越強,所處理的任務長度和複雜度,也在不斷提升。我們看到,Scaling Law推動的模型參數量,從百億千億向兆、甚至百兆邁進。與此同時,在後訓練階段增加算力投入,可顯著提升LLM推理能力。為何這一轉變如此重要?因為「推理」是建構Agentic AI的基礎。眾所周知,2025年,是「智能體元年」。作為LLM的核心應用形態,智能體落地進入了爆發期。在這一賽道上,Google、OpenAI、Anthropic等巨頭競相佈局。比如,OpenAI的「編碼智能體」GPT-5-Codex深受開發者歡迎;另外,還有正在內測的「GPT-Alpha」,具備高級推理、全模態,可以呼叫工具。然而,AI智能體的產業化落地並非易事。能力、速度和成本,成為了當前AI智能體產業化決勝的「鐵三角」。AI不再侷限於技術演示、實驗,而要深入場景,成為創造可衡量價值的核心生產力。這意味著,商業成功的核心已從單純追求模型能力,轉向對能力、速度、成本三者的綜合平衡。互動速度:決定智能體的商業價值在智能體時代,速度不再是錦上添花,而是生存底線。token的吞吐速度,已成為AI應用建構的「隱形計時器」。在人機互動時代,我們對AI延遲感知不強,只要響應速度跟上人類閱讀思維即可。一般來說,只要滿足20 token/s輸出速率,就能實現流暢的閱讀體驗。而現在,AI的遊戲規則徹底改變。互動主體不再是「人-機」對話,而是「智能體-智能體」的高頻博弈。延遲那怕是幾毫秒,也可能導致決策失效。而且,在規模化商業部署中,這種差異會被無限放大,形成「以快殺慢」的絕對碾壓。智能體間互動,多為「小封包」高頻通訊。這好比修了16條車道高速公路,AI只跑兩公里,巨大的頻寬對於小包傳輸如同虛設。而傳統通訊協議「上下高速」的過程,反而成了主要耗時。延遲是會層層累加的。當前智能體僅是初露鋒芒,未來網際網路將由它們主導協作。每一個互動環節的微小延遲,都會在複雜的協同網路中呈指數級放大,最終導致整個應用響應慢到無法接受。如果延遲無法降低,那就失去了商業化的可能性。舉個栗子,在欺詐防控場景中,對智能體響應速率提出了極限要求——約10毫秒。當前,DeepSeek響應速度基本在10-20毫秒左右,其他的普遍高於30毫秒。這遠不足以支援AI的高頻互動。token成本:規模化的生死線此外,token成本,是智能體能否實現規模化擴張,並且盈利的關鍵。即便模型能力卓越,若token成本無法控制在合理範圍內,高頻、並行的實際應用,將難以持續。一方面,LLM存在著「token膨脹」效應:推理前思考過程已產生上千萬token。一個複雜任務,直接讓token成本指數級暴漲。那麼,是什麼原因導致token思考數暴增?首先必須承認的是,模型本身演算法能力差異是影響因素之一。不同LLM在設計和訓練過程中,演算法架構和最佳化策略各有優劣,而最佳化程度更高的LLM可通過更高效推理路徑,在較少token消耗下完成相同的任務。其次,底層計算架構選擇路徑等,也會進而影響token成本。因為LLM運行有依賴於底層的計算架構,包括硬體加速器、分散式運算框架等等。若是計算架構無法高效支撐LLM推理需求,比如在分佈式系統中存在通訊瓶頸或計算資源分配不均,LLM可能需要生成更多token「繞路」完成任務。當前,在做AI Coding的程式設計師,每月消耗token數比一年前平均增長約50倍,達到1000萬-5億token。企業每部署一個智能體,平均token成本大概1000-5000美元。未來五年,token消耗預計增長100萬倍。可見,不論是速度,還是成本,都成為AI智能體商業化落地的最大挑戰。面對這個難題,我們該如何解?兩大核心方案,拿下速度成本難題浪潮資訊,同一時間給出了兩大解決方案——元腦SD200超節點AI伺服器元腦HC1000超擴展AI伺服器元腦SD200若要實現更低延遲token生成能力,就需要在底層基礎設施,比如架構、互聯協議、軟體框架等關鍵點上,實現協同創新。浪潮資訊新的突破,在於元腦SD200超節點AI伺服器。如前所述,DeepSeek R1在元腦SD200上token生成速度實現了8.9毫秒。目前,最接近的競爭對手,最好的資料是15毫秒。這是國內首次將智能體即時互動,帶入到10毫秒時代。為何元腦SD200能夠取得如此大的速度突破?這背後離不開團隊,融合了智能體應用和超節點開發的技術成果。 首創多主機3D Mesh系統架構它可以實現單機64路本土AI晶片縱向擴展(Scale Up),提供4TB視訊記憶體和6TB記憶體,建構超大KV Cache分級儲存空間。而且,單節點即可跑4兆參數LLM,或同時部署多個協作的智能體。此外,在硬體設計上還支援了「開放加速模組」(OAM),相容多款本土AI晶片。 跨主機域全域統一實體位址空間團隊還通過遠端GPU虛擬對應技術,突破了跨主機域統一編址的難題,讓視訊記憶體統一地址空間擴展8倍。它還支援拓撲動態伸縮,可按需擴展128、256、512、1024卡的規模。通過Smart Fabric Manager,元腦SD200實現了單節點64卡全域最優路由,保障了晶片間通訊路徑最短,進一步縮短了通訊延遲。最重要的是,互連協議的設計,是元腦SD200實現極低延遲的關鍵。首先,團隊採用了基建的協議棧,只有物理層、資料鏈路層、事務層三層協議,原生支援Load/Store等「記憶體語義」,GPU可直接訪問遠端節點的視訊記憶體或主存。並且,基礎通訊延遲達到了「百納秒級」。其次,浪潮資訊Open Fabric原生支援由硬體邏輯實現的鏈路層重傳,延遲低至微秒級。不依賴OS、軟體棧,它就能匹配更低延遲、更高吞吐的AI推理場景。元腦SD200還採用了,分佈式、預防式流控機制,無需丟包或ECN來感知擁塞。得益於以上高效、可靠的協議設計,元腦SD200實現了業界最低0.69微秒通訊延遲。當然了,超節點的大規模商業化應用,還必須依靠整機的高可靠的設計。為此,浪潮資訊從系統硬體層、基礎軟體層、業務軟體層,建構了多層次、可靠的保障機制。系統硬體層:全銅纜電互連,短距離緊耦合傳輸,每十億小時故障率低於「光模組互聯」方案100倍基礎軟體層:創新GPU故障資訊轉儲、跨域故障關聯定位等技術,實現全方位可觀測、全端維運自動化業務軟體層:基於Profiling性能資料啟動故障預隔離和任務自動遷移,保證業務故障預測與自癒,實現推理響應不中斷在元腦SD200上,團隊還非常強悍地實現了推理性能超線性擴展。這意味著,性能的提升幅度超過了資源投入的增加幅度。以DeepSeek R1-671B為例,從16卡擴展到64卡,實現了16.3倍超線性的擴展率!具體來看,元腦SD200將這件事做到了極致的完美:通過PD分離策略、動態負載平衡等技術,充分發揮出了超節點的架構優勢,讓系統內部的處理流程變得極其高效,資源競爭和擁堵被降到最低。最終,將通訊耗時控制在了10%以內。可以設想,在實際高並行場景下,當請求量急劇攀升時,系統能夠高效地將負載均勻分佈至各個計算單元,避免了個別節點的「擁堵」拖累整個系統的響應時間。這意味著,無論是第1個請求,還是第100萬個請求,都能獲得同樣穩定且低水平的延遲。既能「跑得快」又能「跑得多」,保證絕對極致的低時延,這就是實現規模化的生命線!基於軟體生態FlagOS,元腦SD200還能繼續相容更大的生態,主流程式碼即可直接編譯運行。當前,元腦SD200已實現對Pytorch算子的全覆蓋,AI4S的典型應用可以一鍵遷移。如下所示,64個AlphaFold 3蛋白質結構預測,即可在一台元腦SD200超節點AI伺服器同時運行。速度挑戰解決之後,token成本又該怎麼打下來?元腦HC1000為此,浪潮資訊給出的答案是——元腦HC1000超擴展AI伺服器。它基於全對稱DirectCom極速架構打造,能夠聚合海量的本土AI晶片,支援極大的推理吞吐。對於一個企業來說,在起步探索、POC階段,平台通用性更加重要,可以快速驗證想法,搶佔市場先機。這對其創新、迭代的速度,至關重要。但當它進入大規模部署階段,即應用被市場驗證,token呼叫數呈指數級增長是時,核心目標又轉變為——高效、低成本營運。而元腦HC1000,就能把推理成本打到最低1元/百萬token。 全對稱DirectCom極速架構DirectCom極速架構,每計算模組配置16顆AIPU,採用了直達通訊的設計,解決了傳統的伺服器架構下,協議轉換和頻寬增強問題,實現了超低延遲。計算通訊1:1均衡配比,實現了全域的無阻塞的通訊。傳統意義上,計算與通訊是互斥關係,計算時不會傳輸,計算完成後再傳。當前,有很多將計算和通訊結合的策略,主要是把原來在傳過程,針對GPU等待時間做最佳化。除此之外,還包含了許多細粒度的任務,比如不同模型架構,不同並行情況,通訊資料區塊大小和通訊策略都要最佳化,才能提升效率。HC1000還採用全對稱的系統拓撲設計,可支援靈活PD分離、AF分離,按需配置算力,最大化資源利用率。它還支援多元算力,讓不同的晶片協同工作。 超大規模無損擴展同時,HC1000支援超大規模無損擴展,實現從1024卡到52萬卡不同規模的系統建構。計算側支援DirectCom和智能保序機制,網路側支援包噴灑動態路由,實現了深度算網協同,相較傳統RoCE方法提升1.75倍。它還支援自適應路由和智能擁塞控制演算法,將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍。總結來看,元腦HC1000是通過「全面最佳化降本」和「軟硬協同增效」,實現了高效token生產力。它不僅創新了16卡計算模組,單卡成本暴降60%+,每卡分攤系統均攤成本降低50%。而且,它採用了大規模工業標準設計,降低了系統複雜度的同時,還提高了系統可靠性,無故障執行階段間大幅延長。系統採用的DirectCom架構保障了計算和通訊的均衡,讓算網協同、全域無損技術,實現了推理性能1.75倍飆升。通過對LLM的計算流程的細分和模型結構的解耦,實現了計算負載的靈活的按需配比。單卡MFU計算效率,最高可以提升5.7倍。元腦SD200+元腦HC1000,成為浪潮資訊兩大「殺手鐧」,分別攻克了AI智能體應用速度和成本難題。那麼,下一步又該走向何方?「專用計算架構」是未來近期,OpenAI在算力佈局上,動作頻頻:先是和甲骨文簽下3000億美元大單,隨後又獲得輝達100億美元的投資。緊接著,他們又官宣了「星際之門」五大超算全新選址計畫。這一系列舉措,無不指向一個核心事實——對於LLM訓練和部署而言,算力需求始終是一個「無底洞」。當前,AI算力的可持續發展正面臨三大關鍵挑戰:工程極限:系統規模的擴展已逼近工程能力的上限。能源壓力:算力的大幅增長給電力基礎設施帶來了巨大負擔。效能失衡:算力投入和產出失衡,商業兌現處理程序緩慢。目前,市面上的「AI晶片」仍以通用晶片為主。GPU,是增加了CUDA核心和矩陣運算Tensor核心的傳統圖形計算晶片;ASIC,則是最佳化了矩陣計算和張量處理的通用矩陣計算晶片。但正如前文所述,這些基於通用計算架構的方案,正逐漸在能效比和成本效益上觸及瓶頸。僅是單純依靠堆疊更多計算單元,或是提升製程工藝的傳統路徑,難以沿著scaling Law在算力規模、能耗、成本之間取得平衡。其原因在於,通用架構雖然適用性強、易於產業化推廣,但效率低下。相比而言,應用面較窄的專用架構,則有著更高的效率。對此,浪潮資訊AI首席戰略官劉軍認為,未來的關鍵便是在於「發展AI專用計算架構」:我們必須推動發展路徑的轉變,要從一味地追求規模擴展,轉向注重提升計算效率。並以此為基礎,重新構思和設計AI計算系統,大力發展真正面向AI應用的「專用計算架構」。具體而言,就是從硬體層面來最佳化算子與演算法,定製出大模型專用晶片,進而實現軟硬體層面的深度協同最佳化,即「演算法硬體化」。只有這樣才能讓性能的Scaling,追上token的高速增長。這不僅是突破算力瓶頸的必經之路,更是推動AI產業邁向下一階段的基石。面對大模型時代,浪潮資訊的前瞻性思考為業界指明了一條方向:通過創新計算架構,讓AI更好地走向落地。 (新智元)
一文讀懂輝達GTC:有關Blackwell全家桶、矽光晶片和黃仁勳的“新故事”
黃仁勳在GTC演講中稱推理讓算力需求暴增100倍作為AI時代的“賣鏟人”,黃仁勳和他的輝達,始終堅信算力永不眠。今天的GTC大會上,黃仁勳拿出了全新的Blackwell Ultra GPU,以及在此基礎上衍生的應用於推理、Agent的伺服器SKU,也包括基於Blackwell架構的RTX全家桶,這一切都與算力有關,但接下來更重要的是,如何將源源不斷算力,合理有效地消耗掉。在黃仁勳眼裡,通往AGI需要算力,具身智能機器人需要算力,建構Omniverse與世界模型更需要源源不斷的算力,至於最終人類建構一個虛擬的“平行宇宙”,需要多少算力,輝達給了一個答案——過去的100倍。為了支撐自己的觀點,黃仁勳在GTC現場曬了一組資料——2024年美國前四雲廠總計採購130萬顆Hopper架構晶片,到了2025年,這一資料飆升至360萬顆Blackwell GPU。以下是騰訊科技整理的輝達GTC 2025大會的一些核心要點:Blackwell全家桶上線1)年度“核彈”Blackwell Ultra在擠牙膏輝達去年GTC發佈Blackwell架構,並推出GB200晶片,今年的正式名稱做了微調,不叫之前傳言的GB300,直接就稱之為Blakwell Ultra。但從硬體來看,就是在去年基礎上更換了新的HBM記憶體。一句話理解就是,Blackwell Ultra= Blackwell大記憶體版本。Blackwell Ultra由兩顆台積電N4P(5nm)工藝,Blackwell 架構晶片+Grace CPU封裝而來,並且搭配了更先進的12層堆疊的HBM3e記憶體,視訊記憶體提升至為288GB,和上一代一樣支援第五代NVLink,可實現1.8TB/s的片間互聯頻寬。NVLink歷代性能參數基於儲存的升級,Blackwell GPU的FP4精度算力可以達到15PetaFLOPS,基於Attention Acceleration機制的推理速度,比Hopper架構晶片提升2.5倍。2)Blackwell Ultra NVL72:AI推理專用機櫃Blackwell Ultra NVL72官方圖和GB200 NVL72一樣,輝達今年也推出了類似的產品Blackwell Ultra NVL72機櫃,一共由18個計算托盤構成,每個計算托盤包含4顆Blackwell Ultra GPU+2顆Grace CPU,總計也就是72顆Blackwell Ultra GPU+36顆Grace CPU,視訊記憶體達到20TB,總頻寬576TB/s,外加9個NVLink交換機托盤(18顆NVLink 交換機晶片),節點間NVLink頻寬130TB/s。機櫃內建72張CX-8網路卡,提供14.4TB/s頻寬,Quantum-X800 InfiniBand和Spectrum-X 800G乙太網路卡則可以降低延遲和抖動,支援大規模AI叢集。此外,機架還整合了18張用於增強多租戶網路、安全性和資料加速BlueField-3 DPU。輝達說這款產品是“為AI推理時代”專門定製,應用場景包括推理型AI、Agent以及物理AI(用於機器人、智駕訓練用的資料模擬合成),相比前一代產品GB200 NVL72的AI性能提升了1.5倍,而相比Hopper架構同定位的DGX機櫃產品,可以為資料中心提供50倍增收的機會。根據官方提供的資訊,6710億參數DeepSeek-R1的推理,基於H100產品可實現每秒100tokens,而採用Blackwell Ultra NVL72方案,可以達到每秒1000 tokens。換算成時間,同樣的推理任務,H100需要跑1.5分鐘,而Blackwell Ultra NVL72 15秒即可跑完。Blackwell Ultra NVL72和GB200 NVL72硬體參數根據輝達提供的資訊,Blackwell NVL72相關產品預計在2025年下半年上市,客戶包括伺服器廠商、雲廠、算力租賃服務商幾大類:伺服器廠商Cisco/Dell/HPE/Lenovo/超微等15家製造商雲廠AWS/Google Cloud/Azure/Oracle雲等主流平台算力租賃服務商CoreWeave/Lambda/Yotta等3)提前預告真“核彈”GPU Rubin晶片按照輝達的路線圖,GTC2025的主場就是Blackwell Ultra。不過,黃仁勳也借這個場子預告了2026年上市的基於Rubin架構的下一代GPU以及更強的機櫃Vera Rubin NVL144——72顆Vera CPU+144顆 Rubin GPU,採用288GB視訊記憶體的HBM4晶片,視訊記憶體頻寬13TB/s,搭配第六代NVLink和CX9網路卡。這個產品有多強呢?FP4精度的推理算力達到了3.6ExaFLOPS,FP8精度的訓練算力也達到了1.2ExaFlOPS,性能是Blackwell Ultra NVL72的3.3倍。如果你覺得還不夠,沒關係,2027年還有更強的 Rubin Ultra NVL576機櫃,FP4精度的推理和FP8精度的訓練算力分別是15ExaFLOPS和5ExaFLOPS,14倍於Blackwell Ultra NVL72。輝達官方提供的Rubin Ultra NVL144和Rubin Ultra NVL576參數4)Blackwell Ultra版DGX Super POD“超算工廠“對於那些現階段Blackwell Ultra NVL72都不能滿足需求,又不需要搭建超大規模AI叢集的客戶,輝達的解決方案是基於Blackwell Ultra、即插即用的DGX Super POD AI超算工廠。作為一個即插即用的AI超算工廠,DGX Super POD主要面向專為生成式AI、AI Agent和物理模擬等AI場景,覆蓋從預訓練、後訓練到生產環境的全流程算力擴展需求,Equinix作為首個服務商,提供液冷/風冷基礎架構支援。由Blackwell Ultra建構的DGX SuperPod基於Blackwell Ultra定製的DGX Super POD分兩個版本:內建DGX GB300(Grace CPU ×1+Blackwell Ultra GPU ×2) 的DGX SuperPOD,總計288顆Grace CPU+576顆 Blackwell Ultra GPU,提供300TB的快速記憶體,FP4精度下算力為11.5ExaFLOPS內建DGX B300的DGX SuperPOD,這個版本不含Grace CPU晶片,具備進一步的擴展空間,且採用的是風冷系統,主要應用場景為普通的企業級資料中心5)DGX Spark與DGX Station今年1月份,輝達在CES上曬了一款售價3000美元的概念性的AI PC產品——Project DIGITS,現在它有了正式名稱DGX Spark。產品參數方面,搭載GB10晶片,FP4精度下算力可以達到1PetaFlops,內建128GB LPDDR5X 記憶體,CX-7網路卡,4TB NVMe儲存,運行基於Linux定製的DGX OS作業系統,支援Pytorch等框架,且預裝了輝達提供的一些基礎AI軟體開發工具,可以運行2000億參數模型。整機的尺寸和Mac mini的大小接近,兩台DGX Spark互聯,還可以運行超過4000億參數的模型。雖然我們說它是AI PC,但本質上仍然屬於超算範疇,所以被放在了DGX產品系列當中,而不是RTX這樣的消費級產品裡面。不過也有人吐槽這款產品,FP4的宣傳性能可用性低,換算到FP16精度下只能跟RTX 5070,甚至是250美元的Arc B580對標,因此性價比極低。DGX Spark電腦與DGX Station工作站除了擁有正式名稱的DGX Spark,輝達還推出了一款基於Blackwell Ultra的AI工作站,這個工作站內建一顆Grace CPU和一顆Blackwell Ultra GPU,搭配784GB的統一記憶體、CX-8網路卡,提供20PetaFlops的AI算力(官方未標記,理論上也是FP4精度)。6)RTX橫掃AI PC,還要擠進資料中心前面介紹的都是基於Grace CPU和Blackwell Ultra GPU的產品SKU,且都是企業級產品,考慮到很多人對RTX 4090這類產品在AI推理上的妙用,輝達本次GTC也進一步強化了Blackwell和RTX系列的整合,推出了一大波內建GDDR7記憶體的AI PC相關GPU,覆蓋筆記本、桌面甚至是資料中心等場景。桌面GPU:,包括RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max-Q工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及RTX PRO 4000 Blackwell筆記本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell資料中心 GPU:NVIDIA RTX PRO 6000 Blackwell伺服器版輝達針對企業級計算打造的AI“全家桶”以上還只是部分基於Blackwell Ultra晶片針對不同場景定製的SKU,小到工作站,大到資料中心叢集,輝達自己將其稱之為“Blackwell Family”(Blackwell家族),中文翻譯過來“Blackwell全家桶”再合適不過。輝達Photonics站在隊友肩膀上的CPO系統光電共封模組(CPO)的概念,簡單來說就是將交換機晶片和光學模組共同封裝,可實現光訊號轉化為電訊號,充分利用光訊號的傳輸性能。在此之前,業界就一直在討論輝達的CPO網路交換機產品,但一直遲遲未上線,黃仁勳在現場也給瞭解釋——由於在資料中心中大量使用光纖連接,光學網路的功耗相當於計算資源的10%,光連接的成本直接影響著計算節點的Scale-Out網路和AI性能密度提升。GTC上展示的兩款矽光共封晶片Quantum-X、Spectrum-X參數今年的GTC輝達一次性推出了Quantum-X矽光共封晶片、Spectrum-X矽光共封晶片以及衍生出來的三款交換機產品:Quantum 3450-LD、Spectrum SN6810和Spectrum SN6800。Quantum 3450-LD:144個800GB/s連接埠,背板頻寬115TB/s,液冷Spectrum SN6810:128個800GB/s連接埠,背板頻寬102.4TB/s,液冷Spectrum SN6800:512個800GB/s連接埠,背板頻寬409.6TB/s,液冷上述產品統一歸類到“NVIDIA Photonics”,輝達說這是一個基於CPO合作夥伴生態共創研發的平台,例如其搭載的微環調製器(MRM)是基於台積電的光引擎最佳化而來,支援高功率、高能效雷射調製,並且採用可拆卸光纖連接器。比較有意思的是,根據之前業內的資料,台積電的微環調製器(MRM)是其與博通基於3nm工藝以及CoWoS等先進封裝技術打造而來。按照輝達給的資料,整合光模組的Photonics交換機相比傳統交換機,性能提升3.5倍,部署效率也可以提升1.3倍,以及10倍以上的擴展彈性。模型效率PK DeepSeek軟體生態發力AI Agent黃仁勳在現場描繪AI infra的“大餅”因為本次長達2個小時的GTC上,黃仁勳總共只講大概半個小時軟體和具身智能。因此很多細節都是通過官方文件進行補充的,而非完全來自現場。1)Nvidia Dynamo,輝達在推理領域建構的新CUDANvidia Dynamo絕對是本場發佈的軟體王炸。它是一個專為推理、訓練和跨整個資料中心加速而建構的開放原始碼軟體。Dynamo的性能資料相當震撼:在現有Hopper架構上,Dynamo可讓標準Llama模型性能翻倍。而對於DeepSeek等專門的推理模型,NVIDIA Dynamo的智能推理最佳化還能將每個GPU生成的token數量提升30倍以上。黃仁勳演示加了Dynamo的Blackwell能超過25倍的HopperDynamo的這些改進主要得益於分佈化。它將LLM的不同計算階段(理解使用者查詢和生成最佳響應)分配到不同GPU,使每個階段都能獨立最佳化,提高吞吐量並加快響應速度。Dynamo的系統架構比如在輸入處理階段,也就是預填充階段,Dynamo能夠高效地分配GPU資源來處理使用者輸入。系統會利用多組GPU平行處理使用者查詢,希望GPU處理的更分散、更快。Dynamo用FP4模式呼叫多個GPU同時平行“閱讀”和“理解”使用者的問題,其中一組GPU處理“第二次世界大戰”的背景知識、另一組處理“起因“相關的歷史資料、第三組處理“經過“的時間線和事件,這一階段像是多個研究助理同時查閱大量資料。而在生成輸出tokens,也就是解碼階段,則需要讓GPU更專注和連貫。比起GPU數量,這個階段更需要更大的頻寬去吸取前一階段的思考資訊,因此也需要更多的快取讀取。Dynamo最佳化了GPU間通訊和資源分配,確保連貫且高效的響應生成。它一方面充分利用了NVL72架構的高頻寬NVLink通訊能力,最大化令牌生成效率。另一方面通過“Smart Router”將請求定向到已快取相關KV(鍵值)的GPU上,這可以避免重複計算,極大地提高了處理速度。由於避免了重複計算,一些GPU資源被釋放出來Dynamo可以將這些空閒資源動態分配給新的傳入請求。這一套架構和Kimi的Mooncake架構非常類似,但在底層infra上輝達做了更多支援。Mooncake大概可以提升5倍左右,但Dynamo在推理上提升的更明顯。比如Dynamo的幾項重要創新中,“GPU Planner”能夠根據負載動態調整GPU分配,“低延遲通訊庫”最佳化了GPU間資料傳輸,而“記憶體管理器”則智能地將推理資料在不同成本等級的儲存裝置間移動,進一步降低營運成本。而智能路由器,LLM感知型路由系統,將請求定向到最合適的GPU,減少重複計算。這一系列能力都使得GPU的負載達到最佳化。利用這一套軟體推理系統能夠高效擴展到大型GPU叢集,最高可以使單個AI查詢無縫擴展到多達1000個GPU,以充分利用資料中心資源。而對於GPU營運商來講,這個改進使得每百萬令牌成本顯著下降,而產能大幅提升。同時單使用者每秒獲得更多token,響應更快,使用者體驗改善。用Dynamo,讓伺服器達到吞吐量和應答速度間的黃金收益線與CUDA作為GPU程式設計的底層基礎不同,Dynamo是一個更高層次的系統,專注於大規模推理負載的智能分配和管理。它負責推理最佳化的分佈式調度層,位於應用程式和底層計算基礎設施之間。但就像CUDA十多年前徹底改變了GPU計算格局,Dynamo也可能成功開創推理軟硬體效率的新範式。Dynamo完全開源,支援從PyTorch到Tensor RT的所有主流框架。開源了也照樣是護城河。和CUDA一樣,它只對輝達的GPU有效果,是NVIDIA AI推理軟體堆疊的一部分。用這個軟體升級,NVIDIA構築了自己反擊Groq等專用推理AISC晶片的城防。必須軟硬搭配,才能主導推理基礎設施。2)Llama Nemotron新模型秀高效,但還是打不過DeepSeek雖然在伺服器利用方面,Dynamo 確實相當驚豔,但在訓練模型方面輝達還和真內行有點差距。輝達在這次GTC上用一款新模型Llama Nemotron,主打高效、精準。它是由Llama系列模型衍生而來。經過輝達特別微調,相較於Llama本體,這款模型經過演算法修剪最佳化,更加輕量級,僅有48B。它還具有了類似o1的推理能力。與Claude 3.7和Grok 3一樣,Llama Nemotron模型內建了推理能力開關,使用者可選擇是否開啟。這個系列分為三檔:入門級的Nano、中端的Super和旗艦Ultra,每一款都針對不同規模的企業需求。Llama Nemotron的具體資料說到高效,這一模型的微調資料集完全輝達自己生成的合成資料組成,總數約60B token。相比DeepSeek V3用130萬H100小時完整訓練,這個僅有DeepSeek V3 1/15參數量的模型只是微調就用了36萬H100小時。訓練效率比DeepSeek差一個等級。在推理上效率上,Llama Nemotron Super 49B模型確實比上一代模型表現要好得多,其token吞吐量能達到Llama 3 70B 的5倍,在單個資料中心GPU下它可以每秒吞吐3000 token以上。但在DeepSeek 開源日最後一天公佈的資料中,每個H800 節點在預填充期間平均吞吐量約為73.7k tokens/s 輸入(包括快取命中)或在解碼期間約為14.8k tokens/s 輸出。兩者差距還是很明顯的。從性能上看,49B的Llama Nemotron Super 在各項指標中都超過了70B的經DeepSeek R1蒸餾過的Llama 70B模型。不過考慮到最近Qwen QwQ 32B模型之類的小參數高能模型頻繁發佈,Llama Nemotron Super 估計在這些能和R1本體掰手腕的模型裡難以出彩。最要命的是,這個模型,等於實錘了DeepSeek也許比輝達更懂在訓練過程中調教GPU。3)新模型只是輝達AI Agent生態的前菜,NVIDA AIQ才是正餐輝達為什麼要開發一個推理模型呢?這主要是為了老黃看中的AI下一個爆點——AI Agent做準備。自從OpenAI、Claude等大廠逐步通過DeepReasearch、MCP建立起了Agent的基礎後,輝達明顯也認為Agent時代到來了。NVIDA AIQ項目就是輝達的嘗試。它直接提供了一個以Llama Nemotron推理模型為核心的規劃者的AI Agent現成工作流。這一項目歸屬於輝達的Blueprint(藍圖)層級,它是指一套預組態的參考工作流、是一個個範本範本,幫助開發者更容易地整合NVIDIA的技術和庫。而AIQ就是輝達提供的Agent範本。NVIDA AIQ的架構和Manus一樣,它整合網路搜尋引擎及其他專業AI代理等外部工具,這讓這個Agent本身可以既能搜尋,又能使用各種工具。通過Llama Nemotron推理模型的規劃,反思和最佳化處理方案,去完成使用者的任務。除此之外,它還支援多Agent的工作流架構搭建。基於這套範本做的servicenow系統比Manus更進一步的是,它具有一個複雜的針對企業檔案的RAG系統。這一系統包括提取、嵌入、向量儲存、重排到最終通過LLM處理的一系列步驟,能保證企業資料為Agent所用。在此之上,輝達還推出了AI資料平台,把AI推理模型接到企業資料的系統上,形成一個針對企業資料的DeepReasearch。使得儲存技術的重大演進,使得儲存系統不再僅是資料的倉庫,而是擁有主動推理和分析能力的智能平台。AI Data Platform的構成另外,AIQ非常強調可觀察性和透明度機制。這對於安全和後續改進來講非常重要。開發團隊能夠即時監控Agent的活動,並基於性能資料持續最佳化系統。整體來講NVIDA AIQ是個標準的Agent工作流範本,提供了各種Agent能力。算是進化到推理時代的,更傻瓜的Dify類Agent構築軟體。人形機器人基礎模型發佈輝達要做具身生態全閉環1)Cosmos,讓具身智能理解世界如果說專注Agent還是投注現在,那輝達在具身智能上的佈局完全算得上是整合未來了。模型、資料、算力這模型三要素輝達都給安排齊了。先從模型開始說,本次GTC放出了今年1月公佈的具身智能基礎模型Cosmos的升級版。Cosmos是一個能通過現在畫面,去預測未來畫面的模型。它可以從文字/圖像輸入資料,生成詳細的視訊,並通過將其的當前狀態(圖像/視訊)與動作(提示/控制訊號)相結合來預測場景的演變。因為這需要對世界的物理因果規律有理解,所以輝達稱Cosmos是世界基礎模型(WFM)。Cosmos的基本架構而對於具身智能而言,預測機器的行為會給外部世界帶來什麼影響是最核心的能力。只有這樣,模型才能去根據預測規劃行為,所以世界模型就成了具身智能的基礎模型。有了這個基礎的行為/時間-物理世界改變的世界預測模型,通過具體的如自動駕駛、機器人任務的資料集微調,這個模型就可以滿足各種具有物理形態的具身智能的實際落地需要了。整個模型包含三部分能力,第一部分Cosmos Transfer 將結構化的視訊文字輸入轉換為可控的真實感視訊輸出,憑空用文字產生大規模合成資料。這解決了當前具身智能最大的瓶頸——資料不足問題。而且這種生成是一種“可控”生成,這意味著使用者可以指定特定參數(如天氣條件、物體屬性等),模型會相應調整生成結果,使資料生成過程更加可控和有針對性。整個流程還可以由Ominiverse和Cosmos結合。Cosmos建立在Ominiverse上的現實模擬第二部分Cosmos Predict 能夠從多模態輸入生成虛擬世界狀態,支援多幀生成和動作軌跡預測。這意味著,給定起始和結束狀態,模型可以生成合理的中間過程。這是核心物理世界認知和建構能力。第三部分是Cosmos Reason,它是個開放且可完全定製的模型,具有時空感知能力,通過思維鏈推理理解視訊資料並預測互動結果。這是規劃行為和預測行為結果的提升能力。有了這三部分能力逐步疊加,Cosmos就可以做到從現實圖像token+文字命令提示token輸入到機器動作token輸出的完整行為鏈路。這一基礎模型應該確實效果不俗。推出僅兩個月,1X、Agility Robotics、Figure AI這三家頭部公司都開始用起來了。大語言模型沒領先,但具身智能輝達確實在第一梯隊裡。2)Isaac GR00T N1,世界第一個人形機器人基礎模型有了Cosmos,輝達自然而然用這套框架微調訓練了專用於人型機器人的基礎模型Isaac GR00T N1。Isaac GR00T N1的雙系統架構它採用雙系統架構,有快速反應的“系統1“和深度推理的“系統2“。它的全面微調,使得其能處理抓取、移動、雙臂操作等通用任務。而且可以根據具體機器人進行完全定製,機器人開發者可用真實或合成資料進行後訓練。這使得這一模型實際上可以被部署在各種各樣形狀各異的機器人中。比如說輝達與Google DeepMind和迪士尼合作開發Newton物理引擎,就用了Isaac GR00T N1作為底座驅動了一個非常不常見的小迪士尼BDX機器人。可見其通用性之強。Newton作為物理引擎非常細膩,因此足夠建立物理獎勵系統,以在虛擬環境中訓練具身智能。黃仁勳與BDX機器人台上“激情”互動4)資料生成,雙管齊下輝達結合NVIDIA Omniverse和上面提到的NVIDIA Cosmos Transfer世界基礎模型,做出了Isaac GR00T Blueprint。它能從少量人類演示中生成大量合成動作資料,用於機器人操作訓練。NVIDIA使用Blueprint的首批元件,在僅11小時內生成了78萬個合成軌跡,相當於6,500小時(約9個月)的人類演示資料。Isaac GR00T N1的相當一部分資料就來自於此,這些資料使得GR00T N1的性能比僅使用真實資料提高了40%。孿生模擬系統針對每個模型,靠著Omniverse這套純虛擬系統,以及Cosmos Transfer這套真實世界圖像生成系統,輝達都能提供大量的高品質資料。這模型的第二個方面,輝達也覆蓋了。3)三位一體算力體系,打造從訓練到端的機器人計算帝國從去年開始,老黃就在GTC上強調一個「三台電腦」的概念:一台是DGX,就是大型GPU的伺服器,它用來訓練AI,包括具身智能。另一台AGX,是NVIDIA為邊緣計算和自主系統設計的嵌入式計算平台,它用來具體在端側部署AI,比如作為自動駕駛或機器人的核心晶片。第三台就是資料生成電腦Omniverse+Cosmos。具身智能的三大計算體系這套體系在本次GTC中又被老黃重提,且特別提到靠著這套算力系統,能誕生十億級的機器人。從訓練到部署,算力都用輝達。這一部分也閉環了。結語如果單純對比上一代Blackwell晶片,Blackwell Ultra在硬體上確實匹配不上之前的“核彈”、“王炸”這些形容詞,甚至有些擠牙膏的味道。但如果從路線圖規劃的角度來看,這些又都在黃仁勳的佈局之中,明年、後年的Rubin架構,從晶片工藝,到電晶體,再到機架的整合度,GPU互聯和機櫃互聯等規格都會有大幅度提升,用中國人習慣說的叫“好戲還在後頭”。對比硬體層面上的畫餅充饑,這兩年輝達在軟體層面上可以說是狂飆突進。縱觀輝達的整個軟體生態,Meno、Nim、Blueprint三個層級的服務把模型最佳化、模型封裝到應用建構的全端解決方案都包括進去了。雲服務公司的生態位輝達AI全部重合。加上這次新增的Agent,AI infra這塊餅,輝達是除了基礎模型這一塊之外,所有部分都要吃進去。軟體這部分,老黃的胃口,和輝達的股價一樣大。而在機器人市場,輝達的野心更大。模型,資料,算力三要素都抓在手裡。沒趕上基礎語言模型的頭把交椅,基礎具身智能補齊。影影綽綽,一個具身智能版的壟斷巨頭已經在地平線上露頭了。這裡面,每個環節,每個產品都對應著一個潛在的千億級市場。早年孤注一擲的好運賭王黃仁勳,靠著GPU壟斷得來的錢,開始做一場更大的賭局。如果這場賭局裡,軟體或者機器人市場任意一方面通吃,那輝達就是AI時代的Google,食物鏈上的頂級壟斷者。不過看看輝達GPU的利潤率,我們還是期待這樣的未來別來了。還好,這對於老黃這輩子來講,也是他從沒操盤過的大賭局,勝負難料。 (騰訊科技)