【GTC 2026】黃仁勳的Token經濟學
黃仁勳的這場演講值得仔細看的地方不在於兆美元這個數字本身,而在於他用兩個小時講了一套新的商業邏輯:資料中心正在從訓練模型的地方,變成生產Token的工廠。
素有AI行業年度風向標之稱的輝達GTC大會,今年3月16日至19日在美國加利福尼亞州聖何塞舉行。
當地時間3月16日上午11點,也就是台北時間3月17日凌晨2點,輝達CEO黃仁勳在聖何塞SAP中心發表了超過兩小時的主題演講。
黃仁勳在演講中預測,到2027年全球AI基礎設施相關需求將達到1兆美元。他還說,實際需求可能會比1兆美元高得多,輝達的產品甚至會供不應求。
這個數字發佈後,輝達美股股價瞬時跳漲超過4%。但幾個小時後A股開盤,算力產業鏈股票集體下跌,天孚通訊(300394.SZ)收盤跌幅超10%,長光華芯(688048.SH)收盤跌幅亦達9.72%,多數龍頭股回吐了近5日漲幅。
一邊是兆美元預期,一邊是產業鏈股票大跌,落差來自時間尺度。
黃仁勳講的是未來的需求預期,而他預告的下一代Feynman晶片架構要到2028年才上市。另外,萬聯證券在3月16日發佈的研報中指出,A股電子類股截至3月15日的平均市盈率約為82倍,市場或在擔心“高處不勝寒”。
但黃仁勳的這場演講值得仔細看的地方不在於兆美元這個數字本身,而在於他用兩個小時講了一套新的商業邏輯:資料中心正在從訓練模型的地方,變成生產Token的工廠。
01 Token工廠
Token是大語言模型處理資訊的基本單位,可以粗略理解為AI處理或生成的文字片段,一個漢字大約對應一到兩個Token。
過去兩年,Token的消耗量發生了幾次量級上的跳躍。
黃仁勳在演講中把這件事追溯到了三個節點:2022年底ChatGPT上線,AI學會了生成內容,開始大量消耗Token;ChatGPT o1模型出現後,AI學會了推理和反思,為了思考,它要在內部生成大量Token給自己看;Claude Code(Anthropic公司開發的AI程式設計工具)發佈後,AI能讀取檔案、編寫程式碼、編譯測試,每完成一個任務消耗的Token比簡單對話多出好幾個數量級。
黃仁勳提到,輝達所有的軟體工程師都在用AI輔助程式設計。
AI的工作分兩個階段:訓練是讓模型變聰明的過程,需要花一次大錢把模型練出來;推理是模型幹活的過程,每天都在發生,需求也越來越大。過去全球買GPU(圖形處理器,目前AI計算的核心硬體)主要是為了訓練,現在重心已經在向推理轉移。
黃仁勳說,推理服務商的業務規模過去一年增長了100倍。IDC中國分析師杜昀龍也告訴經濟觀察報記者,目前國內推理伺服器不論增速還是佔比均已超過訓練,從伺服器出貨金額來看,推理佔比已接近60%。
推理的需求在爆發,但Token還沒有形成市場定價體系。
黃仁勳在演講中給出了他認為未來會出現的五檔價格:免費層,Token產出量大但響應速度慢;中等層,每百萬Token約3美元;高級層,每百萬Token約6美元;高速層,每百萬Token約45美元;頂級層,每百萬Token約150美元。模型越大、上下文越長、響應速度越快,Token就越貴。
他以頂級層舉了個例子:一個研究團隊每天用5000萬Token,按每百萬Token150美元來算也就只有7500美元,對企業來說不算什麼。上下文窗口從32K個Token拉到400K個Token之後,AI能一次性讀完一整份合同或一整個程式碼庫,價格對應的是此前做不了的事情。
有了分層定價,資料中心的經濟模型就變了。
黃仁勳說,每一座資料中心都受電力限制,一座1GW(吉瓦,一種電力計量單位)的資料中心永遠不會變成2GW,這是電力和土地決定的。在固定功率下,誰消耗每瓦電力能產出的Token最多,誰的生產成本就最低。也就是說,同樣耗一度電,誰能生產更多Token,誰就能賺得更多。
他在演講時展示了一組數字:同一個1GW資料中心,假設把算力分配給不同價格層級,使用輝達當前的Blackwell架構年營收約300億美元,換成新一代Vera Rubin約1500億美元,再加上Groq LPU推理加速器約3000億美元。同一座資料中心,換一套裝置,營收可以相差10倍。
輝達2026財年全年營收2159億美元,資料中心業務貢獻了其中的1937億美元。
按黃仁勳的邏輯,客戶現有的資料中心還沒有被充分利用,換上新一代裝置,同樣的電力條件下收入可以翻好幾倍。兆美元預期就是這麼來的,不是晶片漲價,是同樣的電力能生產出更多、更貴的Token。
黃仁勳說,未來每一位CEO都會盯著自己Token工廠的效能,因為那直接就是收入。
他還描述了一個正在矽谷出現的變化:現在越來越多工程師日常用AI寫程式碼、做研究、處理文件,這些操作都要消耗Token,企業需要為員工使用AI的開銷買單。
黃仁勳預測這筆開銷會大到需要單獨列預算,就像企業給員工配電腦和軟體一樣。
他還說,未來每個工程師入職時都會拿到一份年度Token預算,金額大約相當於基礎薪資的一半。
02 兩種晶片
黃仁勳的這套Token經濟學對應的硬體,是GTC上正式發佈的Vera Rubin平台。
黃仁勳在演講中說,過去談Hopper架構的時候他會舉起一塊晶片,但Vera Rubin不是一塊晶片的事,它是一整個系統。這套系統做到了百分之百的液冷,安裝時間從過去的兩天壓縮到了兩個小時。
Vera Rubin由七款晶片組成。核心機架NVL72整合72顆Rubin GPU和36顆Vera CPU,通過NVLink 6(輝達自研的晶片間高速互連技術)相連。與上一代Blackwell相比,每瓦推理吞吐量最高提升10倍,單Token成本降至十分之一。
輝達同時發佈了全新88核Vera CPU,為AI智能體場景下的工具呼叫和資料處理做了專門最佳化。
黃仁勳在演講中稱,微軟CEO納德拉已向他確認,首批Vera Rubin機架已在Azure(微軟的雲端運算平台)上運行。
但Vera Rubin有一個短板,黃仁勳在演講時說,當每個使用者每秒需要生成超過400個Token時,NVL72的頻寬就不夠用了。補上這個缺口的,是Groq這家成立於2016年的美國AI加速晶片公司。輝達此前收購了Groq的技術授權和核心團隊。
Groq的LPU(語言處理單元)和GPU是完全不同的兩種晶片。GPU記憶體大、算力強,單顆Rubin GPU有288GB記憶體,適合處理複雜計算。LPU記憶體小但讀寫速度極快,單顆只有500MB儲存,裝不下大模型的完整參數,但生成Token的速度和延遲遠優於GPU。
輝達通過一套叫Dynamo的推理調度軟體,把推理過程拆成了兩步:需要大量算力和記憶體的上下文理解交給Vera Rubin處理,對延遲敏感的Token生成交給Groq LPU。兩者通過乙太網路高速連接協同工作,延遲減少約一半。
黃仁勳管這種方式叫解耦推理(即把推理過程拆分給不同晶片處理),核心想法是承認高吞吐和低延遲天然矛盾,不如讓兩種晶片各幹各擅長的事。
他說,這套組合在45美元和150美元的高價格層級實現了相比上一代35倍的性能提升。
從更長的時間維度看,同一個1GW的資料中心,兩年時間,Token生成速率可以從每秒2200萬提升到7億。
黃仁勳給客戶的建議是,如果工作以高吞吐的批次推理為主,就完全用Vera Rubin;如果有大量程式設計、即時互動等需求,可以拿出25%的資料中心算力配Groq LPU。
黃仁勳表示,Groq 3 LPU由三星代工,已在量產,預計今年三季度出貨。
軟體方面,輝達發佈了企業級智能體平台NemoClaw,支援近期火爆的開放原始碼專案OpenClaw。OpenClaw在幾周之內成為GitHub(全球最大的開放原始碼託管平台)上增長最快的開放原始碼專案,黃仁勳把它的地位抬到和Linux同一等級,說它是智能體電腦的作業系統。
但企業環境下直接用開放原始碼的OpenClaw有安全風險,因為智能體可以訪問公司的敏感資料、執行程式碼和外部通訊。NemoClaw就是輝達給OpenClaw加上的企業安全層。Adobe、Salesforce、SAP等17家企業軟體公司已宣佈採用輝達的Agent Toolkit(智能體開發工具包)。
路線圖方面,輝達預告了2028年上市的下一代Feynman架構,首次同時支援銅纜和CPO(將光通訊元件直接整合到晶片上的技術)兩種互連方式。
今年也是CUDA(輝達開發的GPU通用計算平台,被視為輝達軟體生態的基石)誕生20周年。據黃仁勳在演講中介紹,輝達目前60%的業務來自全球前五大雲服務商,另外40%分佈在主權AI、企業、工業、機器人等各個領域。
在本次GTC大會上,輝達還宣佈了與Uber、比亞迪、吉利、現代、日產、五十鈴在自動駕駛領域的合作。受此消息推動,港股汽車類股17日集體走強,吉利汽車(00175.HK)盤中一度漲超5%,最終收漲4.55%。 (經濟觀察報)