【GTC 2026】黃仁勳的Token經濟學

2026/03/18

•

黃仁勳的這場演講值得仔細看的地方不在於兆美元這個數字本身，而在於他用兩個小時講了一套新的商業邏輯：資料中心正在從訓練模型的地方，變成生產Token的工廠。

素有AI行業年度風向標之稱的輝達GTC大會，今年3月16日至19日在美國加利福尼亞州聖何塞舉行。

當地時間3月16日上午11點，也就是台北時間3月17日凌晨2點，輝達CEO黃仁勳在聖何塞SAP中心發表了超過兩小時的主題演講。

黃仁勳在演講中預測，到2027年全球AI基礎設施相關需求將達到1兆美元。他還說，實際需求可能會比1兆美元高得多，輝達的產品甚至會供不應求。

這個數字發佈後，輝達美股股價瞬時跳漲超過4%。但幾個小時後A股開盤，算力產業鏈股票集體下跌，天孚通訊（300394.SZ）收盤跌幅超10%，長光華芯（688048.SH）收盤跌幅亦達9.72%，多數龍頭股回吐了近5日漲幅。

一邊是兆美元預期，一邊是產業鏈股票大跌，落差來自時間尺度。

黃仁勳講的是未來的需求預期，而他預告的下一代Feynman晶片架構要到2028年才上市。另外，萬聯證券在3月16日發佈的研報中指出，A股電子類股截至3月15日的平均市盈率約為82倍，市場或在擔心“高處不勝寒”。

但黃仁勳的這場演講值得仔細看的地方不在於兆美元這個數字本身，而在於他用兩個小時講了一套新的商業邏輯：資料中心正在從訓練模型的地方，變成生產Token的工廠。

01 Token工廠

Token是大語言模型處理資訊的基本單位，可以粗略理解為AI處理或生成的文字片段，一個漢字大約對應一到兩個Token。

過去兩年，Token的消耗量發生了幾次量級上的跳躍。

黃仁勳在演講中把這件事追溯到了三個節點：2022年底ChatGPT上線，AI學會了生成內容，開始大量消耗Token；ChatGPT o1模型出現後，AI學會了推理和反思，為了思考，它要在內部生成大量Token給自己看；Claude Code（Anthropic公司開發的AI程式設計工具）發佈後，AI能讀取檔案、編寫程式碼、編譯測試，每完成一個任務消耗的Token比簡單對話多出好幾個數量級。

黃仁勳提到，輝達所有的軟體工程師都在用AI輔助程式設計。

AI的工作分兩個階段：訓練是讓模型變聰明的過程，需要花一次大錢把模型練出來；推理是模型幹活的過程，每天都在發生，需求也越來越大。過去全球買GPU（圖形處理器，目前AI計算的核心硬體）主要是為了訓練，現在重心已經在向推理轉移。

黃仁勳說，推理服務商的業務規模過去一年增長了100倍。IDC中國分析師杜昀龍也告訴經濟觀察報記者，目前國內推理伺服器不論增速還是佔比均已超過訓練，從伺服器出貨金額來看，推理佔比已接近60%。

推理的需求在爆發，但Token還沒有形成市場定價體系。

黃仁勳在演講中給出了他認為未來會出現的五檔價格：免費層，Token產出量大但響應速度慢；中等層，每百萬Token約3美元；高級層，每百萬Token約6美元；高速層，每百萬Token約45美元；頂級層，每百萬Token約150美元。模型越大、上下文越長、響應速度越快，Token就越貴。

他以頂級層舉了個例子：一個研究團隊每天用5000萬Token，按每百萬Token150美元來算也就只有7500美元，對企業來說不算什麼。上下文窗口從32K個Token拉到400K個Token之後，AI能一次性讀完一整份合同或一整個程式碼庫，價格對應的是此前做不了的事情。

有了分層定價，資料中心的經濟模型就變了。

黃仁勳說，每一座資料中心都受電力限制，一座1GW（吉瓦，一種電力計量單位）的資料中心永遠不會變成2GW，這是電力和土地決定的。在固定功率下，誰消耗每瓦電力能產出的Token最多，誰的生產成本就最低。也就是說，同樣耗一度電，誰能生產更多Token，誰就能賺得更多。

他在演講時展示了一組數字：同一個1GW資料中心，假設把算力分配給不同價格層級，使用輝達當前的Blackwell架構年營收約300億美元，換成新一代Vera Rubin約1500億美元，再加上Groq LPU推理加速器約3000億美元。同一座資料中心，換一套裝置，營收可以相差10倍。

輝達2026財年全年營收2159億美元，資料中心業務貢獻了其中的1937億美元。

按黃仁勳的邏輯，客戶現有的資料中心還沒有被充分利用，換上新一代裝置，同樣的電力條件下收入可以翻好幾倍。兆美元預期就是這麼來的，不是晶片漲價，是同樣的電力能生產出更多、更貴的Token。

黃仁勳說，未來每一位CEO都會盯著自己Token工廠的效能，因為那直接就是收入。

他還描述了一個正在矽谷出現的變化：現在越來越多工程師日常用AI寫程式碼、做研究、處理文件，這些操作都要消耗Token，企業需要為員工使用AI的開銷買單。

黃仁勳預測這筆開銷會大到需要單獨列預算，就像企業給員工配電腦和軟體一樣。

他還說，未來每個工程師入職時都會拿到一份年度Token預算，金額大約相當於基礎薪資的一半。

02 兩種晶片

黃仁勳的這套Token經濟學對應的硬體，是GTC上正式發佈的Vera Rubin平台。

黃仁勳在演講中說，過去談Hopper架構的時候他會舉起一塊晶片，但Vera Rubin不是一塊晶片的事，它是一整個系統。這套系統做到了百分之百的液冷，安裝時間從過去的兩天壓縮到了兩個小時。

Vera Rubin由七款晶片組成。核心機架NVL72整合72顆Rubin GPU和36顆Vera CPU，通過NVLink 6（輝達自研的晶片間高速互連技術）相連。與上一代Blackwell相比，每瓦推理吞吐量最高提升10倍，單Token成本降至十分之一。

輝達同時發佈了全新88核Vera CPU，為AI智能體場景下的工具呼叫和資料處理做了專門最佳化。

黃仁勳在演講中稱，微軟CEO納德拉已向他確認，首批Vera Rubin機架已在Azure（微軟的雲端運算平台）上運行。

但Vera Rubin有一個短板，黃仁勳在演講時說，當每個使用者每秒需要生成超過400個Token時，NVL72的頻寬就不夠用了。補上這個缺口的，是Groq這家成立於2016年的美國AI加速晶片公司。輝達此前收購了Groq的技術授權和核心團隊。

Groq的LPU（語言處理單元）和GPU是完全不同的兩種晶片。GPU記憶體大、算力強，單顆Rubin GPU有288GB記憶體，適合處理複雜計算。LPU記憶體小但讀寫速度極快，單顆只有500MB儲存，裝不下大模型的完整參數，但生成Token的速度和延遲遠優於GPU。

輝達通過一套叫Dynamo的推理調度軟體，把推理過程拆成了兩步：需要大量算力和記憶體的上下文理解交給Vera Rubin處理，對延遲敏感的Token生成交給Groq LPU。兩者通過乙太網路高速連接協同工作，延遲減少約一半。

黃仁勳管這種方式叫解耦推理（即把推理過程拆分給不同晶片處理），核心想法是承認高吞吐和低延遲天然矛盾，不如讓兩種晶片各幹各擅長的事。

他說，這套組合在45美元和150美元的高價格層級實現了相比上一代35倍的性能提升。

從更長的時間維度看，同一個1GW的資料中心，兩年時間，Token生成速率可以從每秒2200萬提升到7億。

黃仁勳給客戶的建議是，如果工作以高吞吐的批次推理為主，就完全用Vera Rubin；如果有大量程式設計、即時互動等需求，可以拿出25%的資料中心算力配Groq LPU。

黃仁勳表示，Groq 3 LPU由三星代工，已在量產，預計今年三季度出貨。

軟體方面，輝達發佈了企業級智能體平台NemoClaw，支援近期火爆的開放原始碼專案OpenClaw。OpenClaw在幾周之內成為GitHub（全球最大的開放原始碼託管平台）上增長最快的開放原始碼專案，黃仁勳把它的地位抬到和Linux同一等級，說它是智能體電腦的作業系統。

但企業環境下直接用開放原始碼的OpenClaw有安全風險，因為智能體可以訪問公司的敏感資料、執行程式碼和外部通訊。NemoClaw就是輝達給OpenClaw加上的企業安全層。Adobe、Salesforce、SAP等17家企業軟體公司已宣佈採用輝達的Agent Toolkit（智能體開發工具包）。

路線圖方面，輝達預告了2028年上市的下一代Feynman架構，首次同時支援銅纜和CPO（將光通訊元件直接整合到晶片上的技術）兩種互連方式。

今年也是CUDA（輝達開發的GPU通用計算平台，被視為輝達軟體生態的基石）誕生20周年。據黃仁勳在演講中介紹，輝達目前60%的業務來自全球前五大雲服務商，另外40%分佈在主權AI、企業、工業、機器人等各個領域。

在本次GTC大會上，輝達還宣佈了與Uber、比亞迪、吉利、現代、日產、五十鈴在自動駕駛領域的合作。受此消息推動，港股汽車類股17日集體走強，吉利汽車（00175.HK）盤中一度漲超5%，最終收漲4.55%。 (經濟觀察報)