黃仁勳喊出“推理拐點”,邊緣推理的機會窗口打開了嗎

上周,紐約時報報導了矽谷一個新風氣叫 tokenmaxxing,Meta 和 OpenAI 的工程師在內部搞 token 消耗量排行榜,比誰燒得多。黃仁勳在 GTC 2026 上更激進,提議企業給工程師發 token 預算,作為工資之外的第二份薪酬。

OpenAI 的資料則顯示,過去一年企業客戶的推理 token 消耗量暴漲了約 320 倍。

需求側在爆炸。供給側呢?

黃仁勳在同一場 keynote 上搬出了 Tokenomics 這個概念,把它從加密貨幣的語境裡拎出來,重新定義為 AI 推理的經濟學。核心指標叫 Tokens per Watt,衡量每瓦特電力能產出多少 token。他說推理拐點已經到了,NVIDIA 預計 Blackwell 和 Vera Rubin 晶片訂單量到 2027 年將達到 1 兆美元。

國內大模型廠商一直在講類似的事情,只是換了說法叫“推理成本”或者“token 單價”。不管那種說法,指向的問題是一樣的,當 token 變成 AI 時代的水電煤,誰來建發電廠和電網?

過去三年,行業給出的答案是,建更大的資料中心,塞更多的 GPU。這在訓練時代完全成立。但推理和訓練的邏輯不同。訓練一個模型是一次性工程,推理要做幾十億次,而且對延遲極度敏感。當推理請求像洪水一樣湧來,把所有 GPU 集中在幾個超巨量資料中心裡,可能恰恰成了瓶頸。

瓶頸不在算力,在物理。具體來說,在光速。

推理時代撞上“光速牆”

在今年 GTC 上,有一家公司對這個問題給出了非常系統的回答。

Akamai,國內讀者可能不太熟悉這個名字,但在海外,它是 CDN 概念的開創者,也是目前全球最大的分散式運算平台,擁有業內最龐大的邊緣節點網路。1998 年成立,全球前十的視訊串流媒體平台、遊戲公司、銀行基本都是它的客戶。全球擁有超過 4400 個邊緣入網點,覆蓋 130 多個國家,承載全球近三分之一的網際網路流量。

這家公司在近三十年裡經歷了三次轉型,從 CDN 到安全,再到雲端運算和 AI。今年 GTC 上,它帶來了兩個 session,核心主題只有一個,為什麼 AI 推理必須走向分佈式。

Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一個“個人 AI 導播”的場景,非常有畫面感。一場 F1 比賽有 20 多個 4K 機位同時在拍,傳統做法是導播間一個人切鏡頭,幾百萬觀眾看到的畫面一模一樣。但如果每個觀眾都能看到根據自己偏好定製的直播流,喜歡的車手、偏愛的鏡頭角度,那就需要在邊緣即時合成個性化的視訊。幾百萬路不同的 4K 視訊流,不可能從一個資料中心統一往外推。

類似的邏輯出現在越來越多的即時場景裡。

遊戲 NPC 需要在 50 毫秒內響應,超過這個閾值玩家體感明顯示卡頓。Akamai 產品管理 VP Shawn Michels 在另一個 session 舉了即時廣告插入的例子,從掃描視訊、識別廣告位、競價、生成個性化廣告到拼回視訊流,整條鏈路的預算只有 100 毫秒。這恰恰是 Akamai 的先天優勢所在,它在全球已有超過 4400 個邊緣節點,這種“就近處理”的能力不是純雲廠商從零搭建能輕易追上的。

同樣的延遲壓力還存在於 AI 語音助手、電商推薦引擎、智能試衣間、自動駕駛感測器處理和工業產線質檢等場景中。AI 一旦嵌入即時應用,就必須繼承那個應用原本的延遲要求。

物理定律不會因為 GPU 更快就網開一面。光在光纖中每秒約跑 20 萬公里,從倫敦到美東資料中心單程延遲約 28 毫秒,往返就是 56 毫秒。從東京出發更遠,往返約 134 毫秒。這還沒算任何計算時間。

回頭看上面那些場景的延遲要求,不難理解為什麼把推理全部扔到少數幾個集中式資料中心裡是行不通的。

延遲之外還有頻寬。Andy 在 session 裡算了一筆帳,同樣 1GW 的算力,如果集中在一個資料中心用 Blackwell 做視訊推理,出口頻寬需求是 75 Tbit/s。分佈到 20 個區域節點,每個只需 3.75 Tbit/s。集中式的出口流量是分佈式的 20 倍,背後的網路成本差距不言而喻。

如果換成下一代 Vera Rubin,集中式的出口頻寬更是飆到 135 Tbit/s。晶片越快,集中式架構的出口瓶頸反而越嚴重。

在同一個 session 上,Comcast負責 AI 與邊緣計算方向的嘉賓從等候理論的角度做了更嚴謹的分析。在相同 GPU、相同模型的條件下,集中式和分佈式部署之間僅僅 14 毫秒的往返延遲差異,就導致了約 30% 的 GPU 利用率差距。

他的原話是,“這是物理定律層面的優勢,沒法靠 batching 或者提高 tokens/s 來彌補。”

一個近三十年的伏筆

Andy 在 session 上做了一個很有意思的類比,把 AI 的發展時間線和網際網路做對齊來看。網際網路的普及率已經超過 95%,AI 目前大約只有 7%。他的判斷是,AI 現在大概處於網際網路的 MySpace 時代。

想想 MySpace 之後又誕生了多少公司、多少市值、多少技術突破。AI 的好戲才剛剛開始。

這個類比其實點出了 Akamai 做分佈式推理的底層邏輯。近三十年前這家公司解決的問題和今天面對的問題,結構上是一樣的,把集中的東西變成分佈的。當年分發的是網頁和視訊,現在分發的是 AI 推理。方法論一脈相承。

他在 session 結尾說了兩句話,頗能概括這種邏輯,“AI 工廠創造智能,AI Grid 分發智能”,以及“沒有分佈式推理的 AI,就像沒有 CDN 的網際網路”。

GTC 期間,NVIDIA 官方將 Akamai Cloud 和 AWS 一起列為首批提供 RTX PRO Blackwell Server Edition 實例的雲服務商。黃仁勳 keynote 展示的合作夥伴 logo 牆上,Akamai 赫然在列。NVIDIA 電信業務全球副總裁 Chris Penrose 評價說,Akamai 通過營運 AI Grid,正在為生成式 AI、AI Agent 和物理 AI 建構連接組織,將智能直接推送到資料所在的地方。

Akamai 也在 GTC 上正式發佈了業界首個全球規模落地 NVIDIA AI Grid 參考架構的方案,將 NVIDIA AI 基礎設施深度整合到自身的分佈式網路中。這不是一個鬆散的合作。Akamai 是首家將 AI Grid 從概念推到營運等級的廠商,底層跑的是 NVIDIA AI Enterprise 軟體棧、Blackwell 架構 GPU 和 BlueField DPU 加速網路的完整技術堆疊。

推理基礎設施的幾個現實問題

回到地面,對於正在考慮推理部署的 AI 團隊,有幾個繞不開的現實問題。

不是所有推理都需要 H100。 這個認知正在被越來越多團隊接受。H100 為訓練和大規模推理而生,但如果跑的是 8B 參數的模型、做的是語音互動或者視訊分析,用 H100 就像開卡車送外賣。

Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一個值得關注的選項。直接看 Token 經濟,$2.50/小時全包價,每美元 Token 產出是同類方案的 2.1 倍。

性能層面,這張卡配了 96GB GDDR7 視訊記憶體和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,對比上一代 RTX 4000 Ada 提升達 19 倍。另一個容易被忽略的差異是視訊處理能力,RTX PRO 6000 原生支援 112 到 132 路視訊編解碼,如果做的是視覺 AI 相關的產品,這個能力是定位於訓練和超算的 H100 不具備的。

再加上風冷設計,在邊緣機房有限的空間和功耗條件下部署門檻低得多。Shawn Michels 在 GTC session 裡的觀點說的是未來的推理基礎設施一定是混合架構,不同 GPU 匹配不同的工作負載,沒有萬能卡。

Egress 費用是隱性殺手。 很多團隊做預算時只看 GPU 租用價格,忽略了資料出站費。AI 產品服務全球使用者,視訊和模型響應產生的出站流量成本可能比 GPU 本身還貴。

邊緣部署的經濟邏輯之一正在於此,推理結果在本地生成、本地交付,不用跨大半個地球回傳。Akamai 的 egress 價格是 $0.005/GB,和三大雲廠商的差距非常明顯。

調度比算力更難。 GPU 散到全球各地只是第一步,更難的是讓每個請求找到最合適的那台機器。Akamai 在 GTC 上展示了他們的 AI 編排器(Orchestrator),這不是傳統的根據延遲和負載來分配流量的負載平衡。

它會考慮模型親和性(那台機器已經載入了需要的模型)、GPU 視訊記憶體佔用、KV Cache 狀態等 AI 場景特有的因素來做即時路由決策。現場 demo 中,推理請求從巴黎節點即時切換到加州節點,使用者側完全無感知。這背後是 Akamai 做了近三十年流量調度的老本行,在 AI 場景上的自然延續。

目前 Akamai 的 Blackwell GPU 節點已覆蓋歐洲、亞太和美洲共 19 個節點,配合 4400 多個邊緣入網點協同工作。對於出海的 AI 團隊來說,東京、新加坡、孟買、雅加達這些亞太節點尤其值得留意。

出海 AI 創業者的第三種選擇

Akamai 從 CDN 到安全,再到雲端運算和 AI 推理的轉型路徑,本身就是網際網路基礎設施演進的一個切面。它在這條賽道上的差異化在於,不是從零建資料中心,而是把已經運行了近三十年的全球分佈式網路變成了 AI 推理的底座。

這步棋能走多遠,取決於它能不能跟上 AI 硬體更新的速度,也取決於邊緣推理的市場需求能否如預期般爆發。

但對中國出海 AI 創業者來說,一件事正在變得越來越清楚,全球化部署推理能力正在從“以後再說”變成“現在就得解決”。

合規(資料主權、不出境)、延遲(使用者體驗的硬門檻)、成本(egress 和 GPU 租用的真實帳單),這是出海時最現實的三座山。Akamai 的邊緣推理平台提供了一種此前不太存在的選擇,不必自建全球基礎設施,也不必把雞蛋全放在幾家超大規模雲上,而是可以借助一張已經覆蓋 130 多個國家的分佈式網路,把推理跑到離使用者最近的地方去。 (矽星人Pro)