1000 token/s的「擴散LLM」憑什麼倒逼AI走出舒適區？

2025/03/12

•

ChatGPT 平地一聲雷，打亂了很多人、很多行業的軌跡和節奏。這兩年模型發佈的數量更是數不勝數，其中文字大模型就佔據了 AIGC 賽道的半壁江山。關注我的家人們永遠都是搶佔 AI 高地的衝鋒者。

所以，今天我準備用一個小調查開頭——

【當前你對大模型最不滿的點是什麼？】

（我儘可能整理的全一點兒，但也不可避免地會有遺漏，家人們可以在評論區討論～）

邏輯混亂的"幻覺式回答"
上下文理解和長對話記憶能力有限 or 過度記憶（混入了之前出現的不相關的內容）
知識庫更新滯後
生成速度影響互動流暢度
指令跟隨的精確度不夠高
在特定專業領域的回答深度不夠
缺乏創意，創造性、想像力不夠
道德護欄過嚴（拒絕合理請求）
價值觀/偏見：產生一些帶有偏見或不符合倫理道德的回答
個性化缺失（回答太“通用”，不夠貼合個人需求）
多模態輸出粗糙（圖文/視訊生成不達標）
資料隱私問題

幻覺、知識滯後是一個老生常談的話題，現在模型基本上都已經具備 RAG 聯網能力，或者通過人類反饋強化學習（RLHF）最佳化生成邏輯來緩解；為了讓模型多記住點東西，增大上下文長度也是這兩年各大廠商卷的方向，硬是被Google捲到了 2M 的天花板。

關於「在特定專業領域的回答深度不夠」，現在特別火的 Manus 雖然它想做成通用型 Agent，但我覺得也能解決一部分專業度問題，像秘塔的研究模式、Deep Research、百度的深度搜尋，有不少解決方案都在做了。

這裡我想提一下第 4 點——

「生成速度」

因為這兩天對這個感觸比較深。

先是看到群裡有小夥伴吐槽阿里千問的新推理模型 QwQ-32B 的速度，我也深有體會，等半天沒有結果，心急火燎的。所以我乾脆本地部署了一個（看上次的推文）；

然後是 Manus，雖然視訊 demo 裡面，處理速度快到飛起。但是現實總是有骨感的。

不少拿到邀請碼的朋友和我吐槽“1 小時才做一半”，速度慢到懷疑人生，一個任務動輒需要幾十分鐘。

雖然知道它是一個級聯、多模組調度的複雜系統，但是也能真實的反映當下現在 AI 的響應速度，有時候真的跟不上我們心裡的速度了。

尤其在高峰期或複雜任務中，等待時間，簡直讓人抓狂。

這種心急如焚的等待，經歷過的都懂！

正好這兩天看到 family 群裡小夥伴在討論——Mercury Coder

是一個擴散語言模型，2 月底才出來，生成速度快到要起飛，直接秒殺現在所有的大模型。

當時並沒有多少人關注它，但是怎麼逃得過我這個老技術人的嗅覺。

先感受下它的速度，這是我在官網跑的一個 case（無加速版）：

官網地址：https://chat.inceptionlabs.ai

除了 first token 之前有 3、4 秒的等待，中間幾乎是一口氣兒 print 出來的。

Mercury 最先出結果，全程只用了 6 秒，Claude 用了 28 秒生成完畢，chatgpt 則用了 36 秒。

生成速度整整快了 5-6 倍。

來自官方的一組更直觀的數字——

“在 NVIDIA H100 GPU 實現高達 1000 tokens/秒的輸出速度，在此之前只能在定製晶片能夠實現這個速度。 ”

而且，不是通過定製晶片、框架適配、加速計算庫這些硬體和工程化手段做到的，而且引入了一種全新的語言模型——

擴散語言模型，diffusion LLM，簡稱成 dLLM。

擴散模型，聽過，語言模型，也聽過。兩個都不陌生。

那擴散 + 語言模型，聽過嗎？大部分人到這裡可能還沒意識到事情的嚴重性。

這個新結合體，極有可能會終結掉現在所有的大模型。

Deepseek 封了 ChatGPT 的成神之路，diffusion LLM，未來可能封了 Transformer 的進化之路。

理解這個之前，你得先知道，現在絕大部分主流 LLM 都是基於 Transformer 架構。

AI 模型的演進史，從 ngram 到 RNN，再到 LSTM，最後到 Transformer，每一代都是以「前一代」的侷限性為靶心。

ngram → RNN：解決了上下文長度限制。

和我一樣學過宗成慶老師的《自然語言處理》的一定知道，ngram 是統計語言模型的奠基者。

RNN → LSTM：解決了梯度爆炸/消失問題。

我剛工作那會兒還在大學特學摺積神經網路和 LSTM 呢，天天研究摺積的複雜度是咋算的、輸入門、遺忘門是怎麼控制的資料的。

LSTM → Transformer：解決了平行化問題。

Transformer → ？？？

diffusion LLM 可能就是這裡的？？？。

你看這個圖——

在其他模型的輸出速度只有百等級的時候，Mercury 實測速度已突破每秒 1000 Token 大關。

而且，性能表現可以與 GPT-4o-mini 和 Claude 3.5 Haiku 這種各家兼顧效果和速度的模型相提並論。

自回歸與擴散之爭

目前為止，你們見到的大部分大語言模型，在核心建模方法上都大同小異，都是“自回歸”式的。簡單理解——

從左到右，依次預測下一個詞（token）。

就像寫作文，從第一個字開始，根據上下文逐字逐句地寫下去，就跟擠牙膏一樣。

缺點就是速度慢，因為必須一個字一個字地生成。

更重要的是，生成每個 token 都需經過一次對神經網路的正向計算（推理），帶來了巨大的計算負擔。

而大多數圖像和視訊生成 AI 都是用擴散模型，而不是自回歸模型。舉個恰當的例子：

就像雕塑，先有一塊粗糙的石頭，逐步去除多餘部分，最終呈現出精美的雕像。

優點是平行生成： 理論上可以一次性生成所有 token，速度更快。

比如 DALL-E 2、Stable Diffusion、Sora 都是擴散的代表。

所以你好不好奇，為什麼文字生成偏愛自回歸，而圖像/視訊生成偏愛擴散模型？

這背後原因很複雜，涉及到資訊和噪聲在不同領域的分佈，以及我們人類對它們的感知。

文字是離散的 token 序列，每個詞彙的選擇都強烈依賴於前面的上下文。自回歸模型（如 Transformer）天然地契合了文字的序列依賴性。
圖像和視訊是由連續的像素值組成的，擴散模型最初是為連續資料設計的。

擴散模型的核心在於模擬兩個互逆的過程完成“由混沌至有序” 的生成策略：

前向擴散，如同逐漸向清晰照片注入噪聲，使其最終變為完全隨機的噪點。
反向擴散 則相反，模型學習從純噪聲中逐步去除噪聲，最終還原出清晰圖像。反向擴散過程是擴散模型生成資料的關鍵。

擴散模型不是從左到右，而是一次性生成（這個“一次性”也是通過逐步去噪實現的）。

從純噪聲開始，逐步去除噪聲，最終形成一個 token 序列。

不是一字一字按順序生成，像隨意蹦出來的字元，最後竟然是連貫的。

這是一篇我前段時間刷到過，來自人大高瓴和螞蟻集團合作的一篇論文 LLaDA。

論文連結：https://arxiv.org/abs/2502.09992

擴散大語言模型 LLaDA 的核心在於其參數化的模型 𝑝(𝜃)(⋅|𝑥(𝑡))。這個模型接收序列輸入，並能同時預測所有被mask的 token (用 M 表示)。在訓練過程中使用交叉熵損失函數，但僅在被掩蓋的 token 上計算損失，以最佳化模型預測掩碼 token 的能力，訓練的目標函數如下圖所示：

訓練完成後，LLaDA 即可用於文字生成。

它通過模擬一個反向擴散過程來實現，這個反向過程由訓練好的掩碼預測器 𝑝(𝜃) 參數化。模型的分佈被定義為反向過程在時間步 t=0 時所誘導的邊緣分佈。這種設計使得 LLaDA 成為一種有原則的生成建模方法。

LLaDA 的架構與目前主流的自回歸大語言模型架構相似，仍是基於 Transformer 架構。然而，LLaDA 並不使用因果掩碼。這是因為 LLaDA 的設計允許模型在進行預測時看到完整的輸入序列，而無需像自回歸模型那樣只能依賴於之前的 token。

回到 Mercury 的性能——

在執行 LLM 推理函數編寫任務時，傳統自回歸模型需迭代 75 次方可完成，而 Mercury Coder 僅需 14 次迭代，速度提升幅度顯著：

在程式碼補全能力上，Mercury Coder Mini 在 Copilot Arena 基準測試中取得了卓越成績，位列第二，不僅超越了 GPT-4o Mini 和 Gemini-1.5-Flash 等模型，甚至能與更大型的 GPT-4o 模型相提並論：

Andrej Karpathy 對這個工作都表示了認可和期待。

吳恩達老師也翻牌了，稱這是一次很酷的嘗試：

團隊介紹

Mercury 的研究團隊來自一家名為 Inception Labs 的創業公司，其聯合創始人 Stefano Ermon 不僅是擴散模型技術的核心發明人之一，也是 FlashAttention 原始論文的主要作者之一。

Aditya Grover 和 Volodymyr Kuleshov 畢業於斯坦福大學，並分別執教於加州大學洛杉磯分校和康奈爾大學的電腦科學教授，也共同參與了 Inception Labs 的創立。

Mercury 以及 LLaDA 的出現，標誌著基於擴散模型的 dLLM 已經嶄露頭角。

擴散 LLM 如果要封喉 Transformer，還需要在生成速度（平行去噪）、多樣性（擺脫自回歸的單調性）和可控性（更精準的輸出）上全面勝出。

但眼下，它更像是個有潛力的“後浪”。

但是技術演進往往是融合而非完全替代，未來也有可能是兩者的融合，例如先用擴散模型生成草稿，再用自回歸模型進行潤色。

畢竟在這個資訊過載的時代，0.5 秒的載入時長就足以讓使用者流失。

當「生成速度」成為制約創造力的瓶頸，就要倒逼 AI 走出舒適區。 (夕小瑤科技說)