HBF or HBM?高頻寬快閃記憶體(HBF)更適合AI推理!

這張圖介紹了HBF(高頻寬快閃記憶體)在 AI 推理伺服器中的應用價值:

AI工作負載的內存需求可以分為模型參數讀取和KV 快取讀寫兩類:

1. 模型參數讀取(Weight Streaming,權重流)

  • 訪問模式:大粒度順序讀取。
  • 頻寬需求:需支撐GB/s~TB/s 級頻寬,對 “高頻寬” 特性高度依賴。
  • 部署優勢:若 HBF 靠近計算核心部署,大容量特性可顯著提升權重讀取效率。

2. KV 快取讀寫(KV Cache Read/Write)

  • 訪問模式:快取級隨機訪問,對延遲極度敏感。
  • 操作特性:生成每個token時都會觸發寫操作;且 KV 快取的大小會隨上下文長度和注意力頭數量線性擴展。

HBF 為何不適用訓練場景?

訓練場景的記憶體需求與 HBF 的技術侷限存在根本衝突:

  • 訪問模式:寫密集型,伴隨持續的梯度更新、最佳化器狀態修改,且存在頻繁細粒度讀寫。
  • 介質侷限:HBF 基於快閃記憶體技術,受限於兩個核心短板 ——
  • 耐用性:快閃記憶體的擦寫次數有上限,寫密集的訓練會快速耗盡其生命周期;
  • 延遲:快閃記憶體的讀寫延遲遠高於 DRAM,無法滿足訓練對低延遲的嚴苛要求。

HBF為何適配推理場景?

可從三方面理解:

  • 特性匹配:HBF 具備大容量、低成本、高密度的優勢,完美適配推理伺服器對 “儲存規模” 和 “成本效率” 的需求。
  • 工作負載契合:推理中的 “權重流” 任務是大粒度順序讀取,與 HBF 的頻寬優勢完全匹配。
  • 場景區分:訓練是 “寫密集型” 工作負載,會突破 HBF 的耐用性和延遲上限;而推理的讀寫模式更溫和,可充分發揮 HBF 的潛力。

HBF取代HBM會發生什麼?

假設HBF完全取代了HBM作為GPU的主記憶體。

其優勢在於:

  • 每GPU多TB記憶體容量
  • 使非常大型模型能夠局部安裝在每個加速器上
  • 對於頻寬密集型權重流且預取能力強,高效高效

但也具有很明顯的侷限性:

  • KV快取作延遲不足
  • 隨機訪問性能仍不及 HBM
  • 培訓和混合工作量不切實際
  • 不支援通用GPU使用場景

因此HBF僅適用於具有固定作模式的專用推理加速器,無法作為通用GPU中HBM的替代。

HBM + HBF混合GPU記憶體最好!

HBM仍然是主要的低延遲記憶體,而HBF則作為高容量讀取最佳化層加入。

HBM→KV 快取、熱啟動、中間張量

HBF→模型參數、冷啟動

通過 HBM 維護低延遲計算流水線,減少對 HBM 的依賴和成本,還相容當前的GPU設計和軟體棧,缺點是包設計複雜度增加,且需要關注功耗與熱量問題。 (銳芯聞)