Jefferies 報告:閹割版H20 可能棄用HBM,記憶體改用GDDR6

前幾天第一時間轉載了路透社的報導,外媒:H20閹割版預計在7月推出,性能或大幅縮水。根據這篇報導,輝達計畫將在未來2個月推出H20的閹割版,網友調侃這是「丐中德羅」版。 Jefferies也第一時間為這「遊客」做解讀分析。

報告的核心觀點為:

H20 因內建HBM3 記憶體易受限,總頻寬4.0TB/s。美國或設GPU 記憶體頻寬上限1.7-1.8TB/s,若如此輝達H20 可能棄用HBM 記憶體改用GDDR6,降級版H20 效能仍可能強於使用GDDR6 的遊戲GPU,如RTX5090D

報告內容—

Jefferies在先前的研究中,就提到H20 容易受到限制,因為它內建了HBM3 內存,其總內存頻寬為4.0TB/s(高於H800)。去年12 月底,拜登政府對向中國出售獨立的HBM3 及以上產品實施了限制。

科技媒體Tom's hardware上周也披露,輝達在中國已停止接受遊戲GPU RTX5090D 的訂單,RTX5090D 內置32GB 的GDDR7 內存,總頻寬為1.79TB/s。因此,當輝達在4 月16 日宣佈對H20 的限制措施(需獲得出口許可)時,禁令並非針對某一特定產品,而是因為將推出新的限制標準。

然而,由於新的標準最終確定並寫入法規還需要時間,美國決定提前切斷H20 的供應,以防止中國囤貨。美國可能會將GPU 記憶體頻寬上限設定在1.7-1.8TB/s。由於H20 的運算能力對於大規模人工智慧訓練來說不夠高,中國對H20 的強勁需求主要用於人工智慧推理。

如果美國將總內存頻寬上限設定為1.7TB/s(H20 目前的內存頻寬為4.0TB/s),輝達可能需要完全棄用HBM 內存,並在H20 的降級版本中採用GDDR6 內存。儘管可以潛在地減少HBM3 記憶體的堆疊層數(目前是4 層,可提供96GB 記憶體),但這可能會使記憶體容量減少過多,從而對推理失去作用。

在這種情況下,由於H20 採用了晶片上系統級封裝(CoWoS)技術,即將記憶體堆疊在GPU 上方以縮短傳輸距離,因此其推理性能可能仍比使用GDDR6 記憶體的遊戲GPU 更有效。不過,中國對降級版H20 的需求是否還能像以前一樣強勁,將取決於其最終的規格和定價(H20 先前的定價約為每塊GPU 1 萬至1.2 萬美元)。

不過,用於推理的本土晶片正迅速走俏。 Jefferies在報告中說,最近對中國人工智慧領域的考察強化了其觀點,即即使對H20 實施禁令,至少在未來18 個月內,人工智慧推理晶片也不會出現短缺,因為本土晶片(如華為、寒武紀、ASIC等),甚至是較舊的GPU 型號(不僅限於輝達推理的型號)都能夠支援人工智慧。這是因為:

1)推理模型的效率不斷提高;

2)與訓練相比,推理對大規模叢集的要求有限;

3)在面向消費者(2C)的應用中,適度的延遲是可以​​接受的,在面向企業(2B)的應用中更是如此。

但如果允許輝達繼續向中國出售記憶體頻寬為1.7TB/s 的新版H20,這對中國人工智慧的前景來說仍將是一個積極的增量因素,因為這將意味著為中國提供更多的供應和選擇。 (傅立葉的貓)