輝達仍是王者!GB200貴一倍卻暴省15倍,AMD輸得徹底

AI推理遊戲規則,正悄然改變。一份最新報告揭示了關鍵轉折:如今決定勝負的,不再是單純的晶片性能或GPU數量,而是 「每一美元能輸出多少智能」。

AI推理,現已不只看算力硬指標了!

Signal65一份最新報告中,輝達GB200 NVL72是AMD MI350X吞吐量28倍。

而且,在高互動場景在,DeepSeek R1每Token成本還能低到15倍。

GB200每小時單價大概是貴一倍左右,但這根本不重要。因為機櫃級NVLink互聯+軟體調度能力,徹底改變了成本結構。

頂級投資人Ben Pouladian稱,「目前的關鍵不再是算力或GPU數量,而是每一美元能買到多少智能輸出」。

如今,輝達仍是王者。其他競爭對手根本做不到這種互動水平,這就是護城河。

最關鍵的是,這還沒有整合200億刀買入Groq的推理能力。

這裡,再mark下老黃至理名言——The more you buy, the more you save!

AI推理重心:一美元輸出多少智能?

這篇萬字報告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背後的一些本質現象。

傳統的「稠密模型」架構要求:在生成每個Token時都啟動模型裡的全部參數。

這就意味著:模型越大,運行越慢、成本越高,同時還會帶來相應的記憶體需求增長等問題。

MoE架構,正是為了釋放更高水平的智能而生——在每個Token上只啟動最相關的「專家」。

摟一眼Artificial Analysis排行榜即可發現,全球TOP 10開源LLM,全部都是MoE推理模型。

它們會在推理階段額外「加算力」來提高精準性:

LLM不會立刻吐出答案,而是先生成中間的推理Token,再輸出,相當於先把請求和解法「想一遍」。

前16名裡有12個是MoE模型

這些推理Token往往遠多於最終回覆,而且可能完全不會展示出來。能否既快又便宜地生成Token,對推理部署來說就變得至關重要。

那麼,MoE方法的主要約束在那裡?

一個核心限制在於「通訊瓶頸」。

當不同專家分佈在多塊GPU上時,任何GPU之間通訊的延遲,都會讓GPU空閒等待資料。

OpenRouter一份近期報告,超50%的Token會被路由到推理模型上

這些「空轉時間」(idle time)代表著被浪費的、低效的算力,並且會直接體現在服務提供商的成本底線上。

當評估AI基礎設施的「經濟性」時,一般會聚焦在三個方面:

  • 性能(吞吐量與互動性)
  • 能效(在既定功耗預算下,可生成的Token數)
  • 總體擁有成本(通常以Token/每百萬的成本衡量)

基於公開可用的基準測試資料,Signal65對不同LLM架構下AI基礎設施方案進行了對比分析。

分析中,團隊採用第三方基準測試所提供的性能資料,來估算相對的Token經濟性。

具體來說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結果,用以對比它們在不同模型場景下的真實性能表現及相應的TCO估算。

結果顯示,在稠密架構以及較小規模的MoE中,B200性能優於AMD MI355X。

當模型擴展到像DeepSeek-R1這樣需跨越單節點的前沿級規模時,GB200 NVL72性能最高可達到MI355X的28倍。

在高互動性的推理工作負載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。

儘管GB200 NVL72的單GPU小時價格幾乎是這些競爭平台的2倍,但其機架級能力——從NVLink高速互連,到覆蓋72塊GPU的軟體編排——共同推動了這種顯著更優的單位經濟性。

價值評估的重心,正在從單純的原始FLOPs,轉向「每一美元所獲得的總體智能」。

這一結論非常明確:

隨著MoE模型和推理工作負載帶來的複雜性與規模持續上升,行業已無法僅依賴晶片層面的性能提升。

能夠在系統層面實現峰值性能的端到端平台設計,已經成為實現低成本、高響應AI服務的關鍵槓桿。

「稠密模型」推理,輝達領先

Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準,結果如下所示:

帕累托曲線清晰顯示出,HGX B200-TRT方案在整個吞吐量與互動性區間內,都具備持續的性能優勢。

具體到基線互動性水平,B200的性能大約是MI355X的1.8倍,這為互動式應用部署,以及更高的單GPU並行密度提供了顯著余量。

再來看,當互動性提升至110 tokens/sec/user時,這一優勢進一步被放大:B200吞吐量超過MI355X的6倍。

整體上,在Llama 3.3 70B測試中,AMD MI355X在單位成本性能方面確實具備一定吸引力。

但這種優勢並不能代表更現代的推理技術堆疊,尤其是以MoE架構和高強度推理工作負載建構的系統。


MoE推理,輝達領先

那麼,在MoE架構上,輝達和AMD表現又如何?

中等規模推理:gpt-oss-120B

Signal65認為,OpenAI gpt-oss-120B是理解MoE部署特性的一個理想「橋樑案例」。

它足夠大,可以把MoE的複雜性暴露出來;

但規模又沒有大到離譜,仍然是很多團隊能現實部署並調優的範圍。

它處在一個很有用的中間地帶:介於稠密的70B級模型,與市場正在快速轉向的、更前沿的推理型MoE架構之間。

在10月下旬資料裡,當目標是100 tokens/sec/user時,B200大約比MI355X快1.4倍;

但當目標提高到250 tokens/sec/user時,差距會擴大到約3.5倍,說明越追求「更快的互動」,平台差異越容易被放大。

不過,12月上旬的資料則呈現出不同局面。

得益於軟體最佳化,兩邊平台的絕對性能都明顯提升:輝達單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。


前沿推理:DeepSeek-R1

在DeepSeek-R1推理上,測試結果正如開篇所介紹那樣,輝達GB200 NVL72大幅領先。

更多資料如下圖所示:

基準測試資料展示了一個被重塑的格局:

GB200 NVL72讓「超過8塊GPU的張量平行配置」也能進入帕累托前沿,達到單節點平台根本無法匹敵的性能。

在25 tokens/sec/user互動性目標下,GB200 NVL72單GPU性能大約是H200的10倍,並且超過MI325X單GPU性能的16倍。

這類性能差距,正是能為AI服務提供商帶來「斷崖式」TCO改善的那種差距。

當互動性目標提高到60 tokens/sec/user時,GB200 NVL72相比H200帶來了超24倍的代際提升,同時也接近MI355X的11.5倍性能。

在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;

而到60 tokens/sec/user時,這些優勢進一步擴大:相對單節點B200達到5.3倍、相對MI355X達到11.5倍。


GPU越貴,token成本越低

輝達從Hopper過渡到Blackwell,並推出GB200 NVL72時,不僅提升了每GPU算力、記憶體頻寬以及NVLink互連頻寬,還對底層系統架構做了重新設計。

從8-GPU風冷HGX伺服器轉向全液冷的機架級系統,並把72塊GPU連接在同一個域內,系統成本和複雜度顯然都上升了。

據CoreWeave公佈的目錄價,按單GPU口徑,GB200 NVL72價格大約比H200貴1.7倍。

不過,每一代新技術的目標之一,就是壓低「每Token成本」。

對推理而言,具體就是:實際交付的Token吞吐提升幅度,要超過底層基礎設施成本的提升幅度。

而從公開的性能資料來看,這正是GB200 NVL72相比Hopper所呈現出的結果。

Signal65把本次的tokenomics(Token經濟學)分析,錨定在前文建立的DeepSeek-R1性能差距上:

在25 tokens/sec/user時,GB200 NVL72單GPU性能大約是H200的10倍;

在更高的互動點位上,這個差距會更大(24倍)。

下表總結了成本歸一化,以及由此得到的「每美元性能」計算:

這些結果一開始可能有點反直覺:更「貴」的GPU反而更省錢——因為它帶來的性能提升遠大於價格差異,使得它能以更低成本生成Token。

與AMD相比,輝達系統在推理token成本上的一些資料對比:

按單GPU口徑,MI355X價格大約只有GB200 NVL72配置的一半;

但由於GB200 NVL72單GPU性能優勢從低端接近6倍,到高互動性時高達28倍不等,輝達仍然能提供最高15倍的每美元性能優勢。

換句話說,輝達能實現相對每Token成本僅為競爭對手的1/15。

結論

前沿AI模型的未來,會是更大、更複雜的MoE。

隨著模型更深地走向MoE與推理架構,最終效果將不再只取決於原始GPU性能或記憶體容量。

平台級設計會成為決定性因素——包括互連與通訊效率、多節點擴展特性、軟體棧成熟度、生態支援與編排能力,以及在並行與混合負載下維持高利用率的能力。

從當前趨勢看,來自OpenAI、Meta、Anthropic等前沿公司的旗艦模型,很可能會繼續沿著MoE與推理方向演進。

如果這一軌跡成立,輝達將維持關鍵的性能與經濟性優勢。

GoogleTPU這類架構也提供機架級方案,但它們對非自家模型的適用性與性能表現仍不明確。

本文記錄的性能差異,能夠直接轉化為可量化的商業結果:

在既定互動性閾值下,每部署一塊GPU能服務更多使用者,就能降低每個「有用Token」的生成成本,提高每機架的收入潛力(通過規模化交付更高價值的體驗),最終AI企業和部署AI的企業獲得更好的TCO。

一個具體例子足以說明量級:當一個平台在某個互動性目標下,能提供28倍的單GPU吞吐提升時,它可以在不需要線性擴大硬體規模的情況下,解鎖新的產品檔位以及更複雜的功能。

這就是AI推理「經濟學」,而它會更偏向那些從底層就為MoE與推理時代而設計的平台。 (新智元)