這張圖介紹了HBF(高頻寬快閃記憶體)在 AI 推理伺服器中的應用價值:
1. 模型參數讀取(Weight Streaming,權重流)
- 訪問模式:大粒度順序讀取。
- 頻寬需求:需支撐GB/s~TB/s 級頻寬,對 “高頻寬” 特性高度依賴。
- 部署優勢:若 HBF 靠近計算核心部署,大容量特性可顯著提升權重讀取效率。
2. KV 快取讀寫(KV Cache Read/Write)
- 訪問模式:快取級隨機訪問,對延遲極度敏感。
- 操作特性:生成每個token時都會觸發寫操作;且 KV 快取的大小會隨上下文長度和注意力頭數量線性擴展。
訓練場景的記憶體需求與 HBF 的技術侷限存在根本衝突:
- 訪問模式:寫密集型,伴隨持續的梯度更新、最佳化器狀態修改,且存在頻繁細粒度讀寫。
- 介質侷限:HBF 基於快閃記憶體技術,受限於兩個核心短板 ——
- 耐用性:快閃記憶體的擦寫次數有上限,寫密集的訓練會快速耗盡其生命周期;
- 延遲:快閃記憶體的讀寫延遲遠高於 DRAM,無法滿足訓練對低延遲的嚴苛要求。
可從三方面理解:
- 特性匹配:HBF 具備大容量、低成本、高密度的優勢,完美適配推理伺服器對 “儲存規模” 和 “成本效率” 的需求。
- 工作負載契合:推理中的 “權重流” 任務是大粒度順序讀取,與 HBF 的頻寬優勢完全匹配。
- 場景區分:訓練是 “寫密集型” 工作負載,會突破 HBF 的耐用性和延遲上限;而推理的讀寫模式更溫和,可充分發揮 HBF 的潛力。
假設HBF完全取代了HBM作為GPU的主記憶體。
其優勢在於:
- 每GPU多TB記憶體容量
- 使非常大型模型能夠局部安裝在每個加速器上
- 對於頻寬密集型權重流且預取能力強,高效高效
但也具有很明顯的侷限性:
- KV快取作延遲不足
- 隨機訪問性能仍不及 HBM
- 培訓和混合工作量不切實際
- 不支援通用GPU使用場景
因此HBF僅適用於具有固定作模式的專用推理加速器,無法作為通用GPU中HBM的替代。
HBM仍然是主要的低延遲記憶體,而HBF則作為高容量讀取最佳化層加入。
HBM→KV 快取、熱啟動、中間張量
HBF→模型參數、冷啟動
通過 HBM 維護低延遲計算流水線,減少對 HBM 的依賴和成本,還相容當前的GPU設計和軟體棧,缺點是包設計複雜度增加,且需要關注功耗與熱量問題。 (銳芯聞)