模型推理主要分為2個階段:Prefill和Decode,其中:
Prefill為計算密集型,算術強度高,GPU可逼近FP4/FP8理論峰值性能,GPU算力利用率可達90%-95%,視訊記憶體頻寬佔用低於30%;
Decede為視訊記憶體頻寬密集型,算術強度低,需反覆從HBM視訊記憶體讀取Key、Value至SRAM,GPU算力利用率降至20%-40%,視訊記憶體頻寬佔用提升至85%-95%。
這會導致系統瓶頸由算力轉向視訊記憶體頻寬,基於上述的不對稱性,NV在Rubin中推出Disaggregated Inference(解耦式推理),將Prefill和Decode拆分到不同硬體,Decode硬體增加視訊記憶體頻寬,Prefill硬體增加算力,通過硬體異構化實現資源再配置。