華爾街頂尖分析師鉅亨網開專欄【Joe’s華爾街脈動】，即日起分享會員

6月27日，DeepSeek團隊聯合北京大學發佈名為《DSpark》的研究論文（基於speculative decoding方向），提出一種用於加速大模型推理的新方法。

該技術在保持生成文字分佈完全無損（Lossless）的前提下，成功突破了大語言模型（LLM）在高並行生產環境中的推理性能瓶頸，實測資料顯示，其單使用者生成速度較現有主流方案最高提升 85%。

目前，該框架已被部署在DeepSeek-V4-Flash 與 DeepSeek-V4-Pro的真實線上流量中，大幅加速了大語言模型（LLM）的推理速度。

值得注意的是，DeepSeek創始人梁文鋒也位列論文作者名單之中。

據瞭解，主流語言模型生成文字時，基本採用 autoregressive（自回歸）方式。每生成一個新token都需要一次完整的前向傳播，推理延遲隨輸出長度線性增長。這也造成了大模型回覆總感覺很慢的原因。

在即時對話、多輪智能體工作流等高互動場景中，生成速度直接影響使用者體驗，也會影響GPU利用率。

推測解碼技術提供了一條解決路徑：用一個輕量級草稿模型快速生成若干候選token，再由大模型批次驗證。

然而，現有方案各有缺陷。自回歸草稿模型逐token序列生成，質量雖高但生成延遲隨候選長度線性增長；平行草稿模型雖能一次產出全部候選，但token間缺少依賴關係，導致後續候選被大量拒絕，浪費計算資源。

圍繞上述兩大瓶頸，DSpark提出了兩項互補機制。

一個是“半自回歸生成”架構（Semi-Autoregressive Generation）。

DSpark在平行生成主幹的基礎上引入輕量級順序模組，逐token注入前綴依賴資訊。可以理解為：前面用平行方式快速鋪開候選，後面再用一個很輕的順序模組檢查相鄰 token 的銜接關係。

該模組提供兩種實現——僅依賴前一個token的馬爾可夫頭，以及通過循環狀態累積完整前綴資訊的RNN頭。實驗表明，兩層Transformer深度的DSpark即可在所有測試領域上超過五層DFlash的接受長度。

另一個是置信度調度驗證機制。

傳統方案對整段候選無差別校驗，在高負載時大量算力被浪費在極可能被拒絕的尾部token上。

置信度調度驗證機制，可根據不同請求的成功機率與系統負載，自適應調整驗證長度，從而減少無效計算開銷。

在離線測試中，該方法顯著提升了可接受生成長度；在DeepSeek-V4線上系統中，相比基線模型，推理速度提升約60%–85%，並有效降低高並行下的吞吐損耗。

DSpark在每個候選位置輸出置信度分數，預測該token的存活機率。硬體感知前綴調度器根據即時引擎吞吐量，為每個請求動態決定最優驗證長度，優先將算力分配給預期回報最高的token。

據瞭解，論文還同時開源了模型檢查點與訓練框架DeepSpec，以推動社區進一步研究。DeepSpec是一個面向speculative decoding訓練的程式碼庫，包含Eagle3、DFlash 和 DSpark。 (TechWeb)

DeepSeek 與北京大學聯合發佈 DSpark 技術論文，透過「半自回歸生成」與「置信度調度驗證」機制，在不損害文字品質的前提下，將 LLM 推理速度提升 60%–85%。該技術已部署於 DeepSeek-V4 系列模型，並同步開源 DeepSpec 訓練框架，旨在解決 AI 生成的延遲問題並強化 GPU 利用率。

DeepSeek最新發佈！讓大模型推理速度至少提高60%