DeepSeek最新發佈!讓大模型推理速度至少提高60%

6月27日,DeepSeek團隊聯合北京大學發佈名為《DSpark》的研究論文(基於speculative decoding方向),提出一種用於加速大模型推理的新方法。

該技術在保持生成文字分佈完全無損(Lossless)的前提下,成功突破了大語言模型(LLM)在高並行生產環境中的推理性能瓶頸,實測資料顯示,其單使用者生成速度較現有主流方案最高提升 85%。

目前,該框架已被部署在DeepSeek-V4-Flash 與 DeepSeek-V4-Pro的真實線上流量中,大幅加速了大語言模型(LLM)的推理速度。

值得注意的是,DeepSeek創始人梁文鋒也位列論文作者名單之中。

大模型推理的“速度焦慮”

據瞭解,主流語言模型生成文字時,基本採用 autoregressive(自回歸)方式。每生成一個新token都需要一次完整的前向傳播,推理延遲隨輸出長度線性增長。這也造成了大模型回覆總感覺很慢的原因。

在即時對話、多輪智能體工作流等高互動場景中,生成速度直接影響使用者體驗,也會影響GPU利用率。

推測解碼技術提供了一條解決路徑:用一個輕量級草稿模型快速生成若干候選token,再由大模型批次驗證。

然而,現有方案各有缺陷。自回歸草稿模型逐token序列生成,質量雖高但生成延遲隨候選長度線性增長;平行草稿模型雖能一次產出全部候選,但token間缺少依賴關係,導致後續候選被大量拒絕,浪費計算資源。

DSpark的兩把“手術刀”

圍繞上述兩大瓶頸,DSpark提出了兩項互補機制。

一個是“半自回歸生成”架構(Semi-Autoregressive Generation)。

DSpark在平行生成主幹的基礎上引入輕量級順序模組,逐token注入前綴依賴資訊。可以理解為:前面用平行方式快速鋪開候選,後面再用一個很輕的順序模組檢查相鄰 token 的銜接關係。

該模組提供兩種實現——僅依賴前一個token的馬爾可夫頭,以及通過循環狀態累積完整前綴資訊的RNN頭。實驗表明,兩層Transformer深度的DSpark即可在所有測試領域上超過五層DFlash的接受長度。

另一個是置信度調度驗證機制。

傳統方案對整段候選無差別校驗,在高負載時大量算力被浪費在極可能被拒絕的尾部token上。

置信度調度驗證機制,可根據不同請求的成功機率與系統負載,自適應調整驗證長度,從而減少無效計算開銷。

在離線測試中,該方法顯著提升了可接受生成長度;在DeepSeek-V4線上系統中,相比基線模型,推理速度提升約60%–85%,並有效降低高並行下的吞吐損耗。

DSpark在每個候選位置輸出置信度分數,預測該token的存活機率。硬體感知前綴調度器根據即時引擎吞吐量,為每個請求動態決定最優驗證長度,優先將算力分配給預期回報最高的token。

據瞭解,論文還同時開源了模型檢查點與訓練框架DeepSpec,以推動社區進一步研究。DeepSpec是一個面向speculative decoding訓練的程式碼庫,包含Eagle3、DFlash 和 DSpark。 (TechWeb)