1000 token/s的「擴散LLM」憑什麼倒逼AI走出舒適區?

ChatGPT 平地一聲雷,打亂了很多人、很多行業的軌跡和節奏。這兩年模型發佈的數量更是數不勝數,其中文字大模型就佔據了 AIGC 賽道的半壁江山。關注我的家人們永遠都是搶佔 AI 高地的衝鋒者。

所以,今天我準備用一個小調查開頭——

當前你對大模型最不滿的點是什麼?】

(我儘可能整理的全一點兒,但也不可避免地會有遺漏,家人們可以在評論區討論 ~)

  1. 邏輯混亂的"幻覺式回答"
  2. 上下文理解和長對話記憶能力有限 or 過度記憶(混入了之前出現的不相關的內容)
  3. 知識庫更新滯後
  4. 生成速度影響互動流暢度
  5. 指令跟隨的精確度不夠高
  6. 在特定專業領域的回答深度不夠
  7. 缺乏創意,創造性、想像力不夠
  8. 道德護欄過嚴(拒絕合理請求)
  9. 價值觀/偏見:產生一些帶有偏見或不符合倫理道德的回答
  10. 個性化缺失(回答太“通用”,不夠貼合個人需求)
  11. 多模態輸出粗糙(圖文/視訊生成不達標)
  12. 資料隱私問題

幻覺、知識滯後是一個老生常談的話題,現在模型基本上都已經具備 RAG 聯網能力,或者通過人類反饋強化學習(RLHF)最佳化生成邏輯來緩解;為了讓模型多記住點東西,增大上下文長度也是這兩年各大廠商卷的方向,硬是被Google捲到了 2M 的天花板。

關於「在特定專業領域的回答深度不夠」,現在特別火的 Manus 雖然它想做成通用型 Agent,但我覺得也能解決一部分專業度問題,像秘塔的研究模式、Deep Research、百度的深度搜尋,有不少解決方案都在做了。

這裡我想提一下第 4 點——

「生成速度」

因為這兩天對這個感觸比較深。

先是看到群裡有小夥伴吐槽阿里千問的新推理模型 QwQ-32B 的速度,我也深有體會,等半天沒有結果,心急火燎的。所以我乾脆本地部署了一個(看上次的推文);

然後是 Manus,雖然視訊 demo 裡面,處理速度快到飛起。但是現實總是有骨感的。

不少拿到邀請碼的朋友和我吐槽“1 小時才做一半”,速度慢到懷疑人生,一個任務動輒需要幾十分鐘。

雖然知道它是一個級聯、多模組調度的複雜系統,但是也能真實的反映當下現在 AI 的響應速度,有時候真的跟不上我們心裡的速度了。

尤其在高峰期或複雜任務中,等待時間,簡直讓人抓狂。

這種心急如焚的等待,經歷過的都懂!

正好這兩天看到 family 群裡小夥伴在討論——Mercury Coder

是一個擴散語言模型,2 月底才出來,生成速度快到要起飛,直接秒殺現在所有的大模型。


當時並沒有多少人關注它,但是怎麼逃得過我這個老技術人的嗅覺。

先感受下它的速度,這是我在官網跑的一個 case(無加速版):

官網地址:https://chat.inceptionlabs.ai

除了 first token 之前有 3、4 秒的等待,中間幾乎是一口氣兒 print 出來的。

Mercury 最先出結果,全程只用了 6 秒,Claude 用了 28 秒生成完畢,chatgpt 則用了 36 秒。

生成速度整整快了 5-6 倍。

來自官方的一組更直觀的數字——

“在 NVIDIA H100 GPU 實現高達 1000 tokens/秒的輸出速度,在此之前只能在定製晶片能夠實現這個速度。  ”

而且,不是通過定製晶片、框架適配、加速計算庫這些硬體和工程化手段做到的,而且引入了一種全新的語言模型——

擴散語言模型,diffusion LLM,簡稱成 dLLM。

擴散模型,聽過,語言模型,也聽過。兩個都不陌生。

那擴散 + 語言模型,聽過嗎?大部分人到這裡可能還沒意識到事情的嚴重性。

這個新結合體,極有可能會終結掉現在所有的大模型。

Deepseek 封了 ChatGPT 的成神之路,diffusion LLM,未來可能封了 Transformer 的進化之路。

理解這個之前,你得先知道,現在絕大部分主流 LLM 都是基於 Transformer 架構。

AI 模型的演進史,從 ngram 到 RNN,再到 LSTM,最後到 Transformer,每一代都是以「前一代」的侷限性為靶心。

ngram → RNN:解決了上下文長度限制。

和我一樣學過宗成慶老師的《自然語言處理》的一定知道,ngram 是統計語言模型的奠基者。

RNN → LSTM:解決了梯度爆炸/消失問題。

我剛工作那會兒還在大學特學摺積神經網路和 LSTM 呢,天天研究摺積的複雜度是咋算的、輸入門、遺忘門是怎麼控制的資料的。

LSTM → Transformer:解決了平行化問題。

Transformer → ???

diffusion LLM 可能就是這裡的???。

你看這個圖——

在其他模型的輸出速度只有百等級的時候,Mercury 實測速度已突破每秒 1000 Token 大關。

而且,性能表現可以與 GPT-4o-mini 和 Claude 3.5 Haiku 這種各家兼顧效果和速度的模型相提並論。

自回歸與擴散之爭

目前為止,你們見到的大部分大語言模型,在核心建模方法上都大同小異,都是“自回歸”式的。簡單理解——

從左到右,依次預測下一個詞(token)。

就像寫作文,從第一個字開始,根據上下文逐字逐句地寫下去,就跟擠牙膏一樣。

缺點就是速度慢,因為必須一個字一個字地生成。

更重要的是,生成每個 token 都需經過一次對神經網路的正向計算(推理),帶來了巨大的計算負擔。

而大多數圖像和視訊生成 AI 都是用擴散模型,而不是自回歸模型。舉個恰當的例子:

就像雕塑,先有一塊粗糙的石頭,逐步去除多餘部分,最終呈現出精美的雕像。

優點是平行生成: 理論上可以一次性生成所有 token,速度更快。

比如 DALL-E 2、Stable Diffusion、Sora 都是擴散的代表。

所以你好不好奇,為什麼文字生成偏愛自回歸,而圖像/視訊生成偏愛擴散模型?

這背後原因很複雜,涉及到資訊和噪聲在不同領域的分佈,以及我們人類對它們的感知。

  • 文字是離散的 token 序列,每個詞彙的選擇都強烈依賴於前面的上下文。自回歸模型(如 Transformer)天然地契合了文字的序列依賴性。
  • 圖像和視訊是由連續的像素值組成的,擴散模型最初是為連續資料設計的。

擴散模型的核心在於模擬兩個互逆的過程完成“由混沌至有序” 的生成策略:

  • 前向擴散,如同逐漸向清晰照片注入噪聲,使其最終變為完全隨機的噪點。
  • 反向擴散 則相反,模型學習從純噪聲中逐步去除噪聲,最終還原出清晰圖像。  反向擴散過程是擴散模型生成資料的關鍵。

擴散模型不是從左到右,而是一次性生成(這個“一次性”也是通過逐步去噪實現的)。

從純噪聲開始,逐步去除噪聲,最終形成一個 token 序列。

不是一字一字按順序生成,像隨意蹦出來的字元,最後竟然是連貫的。

這是一篇我前段時間刷到過,來自人大高瓴和螞蟻集團合作的一篇論文 LLaDA。

論文連結:https://arxiv.org/abs/2502.09992

擴散大語言模型 LLaDA 的核心在於其參數化的模型  𝑝(𝜃)(⋅|𝑥(𝑡))。這個模型接收序列輸入,並能同時預測所有被mask的 token (用 M 表示)。  在訓練過程中使用交叉熵損失函數,但僅在被掩蓋的 token 上計算損失,以最佳化模型預測掩碼 token 的能力, 訓練的目標函數如下圖所示:

訓練完成後,LLaDA 即可用於文字生成。

它通過模擬一個反向擴散過程來實現,這個反向過程由訓練好的掩碼預測器 𝑝(𝜃) 參數化。  模型的分佈被定義為反向過程在時間步 t=0 時所誘導的邊緣分佈。  這種設計使得 LLaDA 成為一種有原則的生成建模方法

LLaDA 的架構與目前主流的自回歸大語言模型架構相似,仍是基於 Transformer 架構。  然而,LLaDA 並不使用因果掩碼。  這是因為 LLaDA 的設計允許模型在進行預測時看到完整的輸入序列,而無需像自回歸模型那樣只能依賴於之前的 token。

回到 Mercury 的性能——

在執行 LLM 推理函數編寫任務時,傳統自回歸模型需迭代 75 次方可完成,而 Mercury Coder 僅需 14 次迭代,速度提升幅度顯著:

在程式碼補全能力上,Mercury Coder Mini 在 Copilot Arena 基準測試中取得了卓越成績,位列第二,不僅超越了 GPT-4o Mini 和 Gemini-1.5-Flash 等模型,甚至能與更大型的 GPT-4o 模型相提並論:

Andrej Karpathy 對這個工作都表示了認可和期待。

吳恩達老師也翻牌了,稱這是一次很酷的嘗試:

團隊介紹

Mercury 的研究團隊來自一家名為 Inception Labs 的創業公司, 其聯合創始人 Stefano Ermon 不僅是擴散模型技術的核心發明人之一,也是 FlashAttention 原始論文的主要作者之一

Aditya Grover 和 Volodymyr Kuleshov 畢業於斯坦福大學,並分別執教於加州大學洛杉磯分校和康奈爾大學的電腦科學教授,也共同參與了 Inception Labs 的創立。

Mercury 以及 LLaDA 的出現,標誌著基於擴散模型的 dLLM 已經嶄露頭角。

擴散 LLM 如果要封喉 Transformer,還需要在生成速度(平行去噪)、多樣性(擺脫自回歸的單調性)和可控性(更精準的輸出)上全面勝出。

但眼下,它更像是個有潛力的“後浪”。

但是技術演進往往是融合而非完全替代,未來也有可能是兩者的融合,例如先用擴散模型生成草稿,再用自回歸模型進行潤色。

畢竟在這個資訊過載的時代,0.5 秒的載入時長就足以讓使用者流失。

當「生成速度」成為制約創造力的瓶頸,就要倒逼 AI 走出舒適區。 (夕小瑤科技說)