為何輝達H20推理性能超過H100?

2023年10月,美商務部更新了針對AI晶片的限制規定,對出口中國的AI算力晶片產品的算力、算力密度、頻寬等上限提出了明確要求。受此影響,輝達(NVIDIA)先前針對中國市場定制的A800、H800,以及此前未受限的眾多AI晶片都受到了限制。基於此,NVIDIA隨後又為中國市場客製了H20、L20、L2等產品。



從公佈的參數來看,H20的FP16、INT8等主要算力參數僅為A100的不足1/2,更是僅為H100的約1/7;L20的主要算力參數相較於L40、L40S分別下降約1/3、2/3。這些最新的針對中國市場定制的產品算力參數被大幅閹割,使得市場大多對其性能表現、性價比(1.2-1.4萬美元,略低於Ascend 910的約。1.66萬美元)持悲觀或懷疑態度。

在先前的《關於輝達H20砍單傳言》一文當中,NVIDIA內部人士雖然承認,然經過閹割後的NVIDIA H20單卡算力僅有H 100的20%,相比國產的910b,性能也只有其60%多。但是,其強調,H20仍有兩大優勢:

1.H20的HBM容量(96GB)與頻寬遠比910B高(也高於A100/H100的80GB HBM3),頻寬是910B兩倍。

2.NVIDIA有NVlink架構。H20可以是透過多卡使用、多卡堆疊模式,完全超越910B,甚至突破H100。

同時,該內部人士也表示,H20的中國訂單一直穩定,市場部尚未接獲大量砍單的現象。

不過,這與外界看法相悖的說法,依然是沒有消除外界的疑慮。那麼,H20在被閹割之後,究竟還有多少優勢呢?

近日,廣發電子團隊基於理論計算,研究了H20、L20等產品在大模型推理端的表現表現。推算結果顯示,H20、L20均展現出較優異的推理表現。


以下為主要內容:

1根據推算,H20推理表現超過H100,L20推理表現比肩L40S



H20推理表現優於A100、H100,僅略遜於H200。分別使用單張H20、A100、H100、H200進行推理。參考圖1,在3組推理情境下,H20的推理速度皆明顯優於A100;在前兩組推理情境下,H20的推理速度優於H100,第三組推理情境下H20與H100推理速度基本持平。取三組平均值,H20平均推理速度是A100的1.8倍,是H100的1.1倍。



L20推理表現與L40、L40S基本相同。分別使用單張L40S、L40、L20進行推理。參考圖3,在前兩組推理情境中,L40S、L40、L20的推理速度無明顯差異;僅在最後一組情境中,L40S推理速度相較於L40、L20優勢較明顯。取三組平均值,L20推理速度僅比L40S速度慢約2%。


為什麼算力被大幅閹割的H20會有如此優異的推理表現表現?在接下來的兩個章節,廣發電子分別分析了推理過程中Prefill環節、Decode環節H20的推理表現表現。


2Prefill是算力密集場景,H20受算力限製表現較弱

Prefill階段算力負載體現在對使用者所有輸入Tokens進行一次平行運算;顯存頻寬負載主要體現在參數量從HBM向算力晶片的傳輸。在大多數推理情境下(如輸入Tokens較長、或Batch Size較大),Prefill階段計算耗時高於顯存傳輸的耗時,因此該環節的耗時(也稱為First token latency)通常是由算力晶片的算力能力決定,Prefill階段屬於算力密集場景。

參考表2,由於H20的算力較弱,在Prefill環節H20耗時明顯高於其他三款晶片。這也意味著在使用H20進行推理時,使用者從完成問題輸入、到看到問題第一個文字的輸出,中間需要等待較長時間。



3Decode是顯存頻寬密集場景,H20效能表現優異

在Prefill階段結束後,大模型開始產生回答,該過程稱為Decode。由於Decode過程中,回答的Tokens必須逐一生成,且每個Token生成過程中,都需要重複一次參數從HBM向算力晶片的傳輸,且Decode階段不斷擴大的KV Cache也需要在HBM和算力晶片間往復傳輸,使得Decode階段通常顯示傳輸耗時明顯高於運算耗時;Decode階段屬於顯存頻寬密集場景,較高的顯存頻寬對加速Decode至關重要。

參考表3,由於H20具有較高的顯存頻寬,在Decode階段H20每產生1個Token所需時間低於A100、H100,這也使得H20在整個推理過程具有較高的推理速度。



4H20在多數推理情境中表現優異、性價比高,但也存在特殊情況

多數應用情境下,站在H20推理使用使用者角度,在輸入問題後,等待介面出現第一個回答文字的等待時間會較長(相較於使用A100/H100/H200進行推理),但考慮到這一時長也僅2.8s,對使用者使用體驗的負面影響是有限的。(備註:實際用戶等待時間還包括網路延遲、用戶端側延遲等)

而在回答開始後,使用H20的使用者會體驗到回答產生速度較快(相較於使用A100/H100進行推理),每秒57個Tokens的生成速度明顯高於人類閱讀速度。

站在H20持有者角度,持有者更關心一個推理系統Throughput的速度,因為對相同一套推理系統或成本相近的不同推理系統,平均Throughput(Tokens/s)越高,意味著每Token所平攤的系統硬體成本越低。從性價比角度來看,假設H20與H100售價相近,在多數情況下,H20也有望成為性價比更高的推理晶片選擇。



以上關於H20優異的推理表現的分析,是建立在較常見的推理場景(回答文字大於等於提問文字),在一些特殊推理場景下,例如輸入一段長文字並輸出長文字核心觀點(對應較長的輸入和較短的輸出),參考表5,站在使用者角度,從輸入問題到出現答案的耗時會較為漫長(超過20s);站在持有人角度,推理全程H20的推理速度會下降至明顯低於A100。


因此,廣發電子認為H20的推理性能優異、推理性價比高,適用於大部分推理場景,而非全部場景;H20實際的推理性能及性價比,需要結合實際使用場景、售價等綜合評判。(半導體材料與製程設備)