19歲少年「破解」Google新AI？每秒1479 token，擴散再戰GPT!

2025/05/24

•

年僅19歲少年，自稱破解了Google最快的語言模式Gemini Diffusion，引爆社群平台。真相撲朔迷離，但有一點毫無疑問：GoogleI/O大會的「黑馬」，比GPT快10倍的速度、媲美人類程式設計師的代碼能力，正在掀起一場NLP範式大洗牌。

沒想到擴散模型以一種另類的方式，火起來了！

來自德國的19歲的少年，Georg von Manstein聲稱自己「破解」了Google文字擴散模型的原理。

「19歲」「創業」「破解Google模型」…

乍看之下，簡直像極了「少年天才挑戰腐朽巨頭」的逆襲劇本，數以萬計的網友被他的推文吸引。

再加上擴散文字生成模型的動態演示，好像GoogleGemini Diffusion的原理真被他破解了。

但很快就有網友發現，他用的動圖，其實是來自國內的研究（Dream 7B），而後面放出來的幾篇論文也並沒有做任何解釋…

不管這位小哥是不是在「搞抽象」，但Google這次提出的Gemini Diffusion卻是一個實打實的干貨。

更重要的是，Gemini Diffusion為擴散模型「再就業」樹立了榜樣。

Gemini Diffusion每秒1479token

在剛剛過去的Google I/O大會上，Gemini 2.5 全家桶和Gemini Diffusion等一起推出。

可惜的是Gemini Diffusion被Veo 3等消息所掩蓋了。

但Gemini Diffusion是Google更大的野心：重塑語言生成，利用擴散技術，實現更快、更自由、更可控的文字創作體驗。

Gemini Diffusion最大特色就是速度快速：比Google目前最快的非擴散模型還要快，取樣速度每秒1479個token，啟動時間只要0.84秒。

反應速度之快，Google在演示中需刻意放慢速度，才能讓觀眾看清文字生成的內容。

除了生成速度快，在生成文字品質上，尤其是文字連貫性和錯誤糾正方面，Gemini Diffusion也優於傳統的自回歸模型。

Gemini Diffusion三大優點：快速反應、文字更連貫、迭代優化

在即時回應或大量文字產生場景下，Gemini Diffusion具有明顯優勢。

在任務準確度上，二者各有千秋，取決於任務類型。

Gemini Diffusion，在生成效率和局部準確度方面表現優異，但在通用智能和知識覆蓋方面尚未全面超越當前最強的自回歸模型。

不只快，程式碼和數學也很強

在外部基準上，Gemini Diffusion的效能可與更大的車型相媲美，同時速度也更快。

DeepMind將其與自家的Gemini 2.0 Flash-Lite模型進行了對比，在多個程式碼基準上幾乎旗鼓相當。

整體來看，Gemini Diffusion在垂直領域（程式設計、數學）的準確性已經可與一流模型相比，甚至略有勝出，但在通用知識和推理方面仍有明顯差距。

在外部基準測試中，Gemini Diffusion不僅快，在程式碼和數學推理任務上也表現優異：

HumanEval程式碼測試：一次性通過率達89.6%，與Gemini Flash-Lite持平；
AIME 2025數學競賽測驗：準確率23.3%，略高於Flash-Lite的20.0%；
LiveCodeBench即時編程：得分30.9%，領先Flash-Lite的28.5%。

尤其在長文字、邏輯強、結構複雜的任務中，其全域生成策略展現出對傳統架構的替代潛力。

不過，在通用知識類任務上，其表現仍不如目前最強的自回歸模型：

MMLU多任務問答：Gemini Diffusion得分為69.1%，仍低於GPT-4的86.4%。
科學推理GPQA Diamond：準確率40.4%，顯著落後於Flash-Lite的56.5%。

目前，Gemini Diffusion還是實驗性示範版本，要註冊候補名單才有機會體驗。

實測：幾秒完成聊天應用

著名的Web開發工程師Simon Willison，得到了Gemini Diffusion的試用機會。

他表示Google所言非虛：

哇，他們說它速度快可不是開玩笑的。

Simon Willison：英國程式設計師，Web框架Django的共同創作者

在下列影片中，他給Gemini Diffusion提示是“Build a simulated chat app”，它以每秒857個token的速度作出回應，並在幾秒鐘內產生了一個包含HTML和JavaScript的互動式頁面。

在此之前，唯一達到商業等級的擴散模式是今年二月Inception Labs推出的Mercury模式。

Diffusion模型再就業

ChatGPT等推出了基於自迴歸模型的「動動嘴」畫圖、PS功能。

在AI生圖領域，Diffusion模型節節敗退。

今年二月，Inception Labs推出了世界上首個擴散語言模型，在速度和成本上比當前一代LLM快多達10倍、便宜多達10倍。

在輸出速度和人工分析程式指數上，可謂「遙遙領先」！

在接受採訪時，史丹佛大學教授、Inception Labs聯合創始人Stefano Ermon表示：

過去許多嘗試將擴散模型用於文字生成都以失敗告終。 Mercury之所以成功，是因為我們在訓練和推理演算法方面做出了專有的創新。圖像可以模糊地「看個大概」再逐步優化，但語言必須嚴守語法規則，這使得迭代優化的過程更加複雜。

而IBM研究員Benjamin Hoover指出，Mercury模型證明了擴散模型正在彌合差距，也指出了趨勢的轉變：

兩三年之內，大多數人將會轉向使用擴散模型。這已經是必然了。當我看到Inception Labs的模型時，我意識到，這種轉變會比預想的更快發生。

而在「AI四巨頭」中，Google是第一家推出擴散語言生成模型的巨頭。

這對於擴散研究領域而言，無疑是個振奮人心的資訊。

GoogleDeepMind主任科學家（Principal Scientist）Jack Rae表示，Gemini Diffusion的發布感覺像是一個里程碑。

Gemini Diffusion的成功探索向業界證明，非自迴歸的擴散架構在大語言模型上切實可行。

擴散模式威逼GPT，而下一代AI正在浮現。

擴散模型再戰自回歸

傳統的自迴歸語言模型是一次產生一個字或一個token，從左到右逐字預測下一個token，依照順序逐步產生文字（見下圖左）。

由於這種生成方式是逐步進行的，因此速度較慢，也可能限制了產生結果的品質和連貫性。

與傳統的自回歸大語言模型不同，Gemini Diffusion採用了擴散模型的架構：它從隨機雜訊出發，逐步細化出完整的文欄位落（見下圖右）。

這個過程類似於影像擴散模型在影像生成中的應用——從雜亂雜訊開始，透過多次迭代逐漸產生清晰有意義的輸出。

在文字領域，這意味著Gemini Diffusion可以一次產生整個詞塊，並在生成過程中多輪調整糾錯，逐步逼近最終結果。

它在初始階段給出一段粗糙的文字草稿，然後透過迭代不斷改進內容的準確性和一致性，直到得到高品質的輸出。

這種架構上的根本差異帶來了多面向影響：

首先，並行產生整個文字區塊使其速度大幅提升（無需逐詞等待）。

其次，全域視角的生成方式有助於長文字的整體連貫性，因為模型能同時考慮文字各部分的關係，而非侷限於局部脈絡。

最後，迭代精煉允許模型在生成過程中自我檢查並修正錯誤，使輸出更一致可靠。

擴散大語言模型（Diffusion Large Language Model，dLLM）將為LLM帶來一系列全新的能力，包括：

1. 更強的智慧代理能力：dLLM的速度和效率極高，適用於需要大量規劃和長文字生成的智能體應用。

2. 更高階的推理能力：dLLM內建的糾錯機制修復幻覺內容，優化答案，同時保持在幾秒鐘內完成思考。

3. 更可控的生成過程：dLLM支援編輯生成內容，並且可以按任意順序產生token。

4. 邊緣設備上的應用：得益於其高效性，dLLM非常適合資源受限的場景，例如邊緣設備。

擴散模型：不只生圖

在Y Combinator新聞論壇，網友nvtop對Gemini Diffusion提供了一番解釋：擴散語言模型與Google的BERT模型頗有淵源，反而與影像生成領域中的擴散模型沒有太大關係。

這或許能理解為什麼Google的這次轉向。

回憶一下BERT是如何訓練的：

（1）輸入一整句完整的句子（例如：「the cat sat on the mat」）

（2）將其中15%的token替換為[MASK]（例如：「the cat [MASK] on [MASK] mat」）

（3）使用Transformer模型並行預測這些被遮蔽的位置，僅需一步推理（inference）

擴散語言模型的做法則是在這個思路上更進一步。

BERT只能恢復約15%的被遮蔽token（可視為「噪音」），但完全可以訓練模型來恢復30%、50%、90%，甚至100%被遮蔽的文字。

一旦訓練完成，就可以實現從零開始生成文字：

一開始輸入全部為[MASK]的序列，模型輸出的內容可能是胡言亂語。
然後隨機選出其中10%的token，把它們標記為「已生成」。
在下一次推理中，將剩下90%的位置繼續設為[MASK]，保留前面10%。
繼續這樣迭代，在每一輪中都「定住」一部分新的token。
大約迭代10次之後，就能產生完整的文字序列。

這正是擴散語言模式的核心概念。

當然，在實際應用上還有很多優化策略。

如果需要產生很長的文字（例如超過200個token），可以將其切割成多個區塊（chunk），先並行產生第一個區塊，再逐區塊向後產生。

這種方法稱為Block Diffusion，是一種半自迴歸式產生方式。

還可以選擇性地將那些token在某一輪中被視為「最終生成的」，以及這部分的比例：

在早期階段，模型還處於噪音狀態，可以一次保留更多token。
在後期接近完成時，則可以多迭代幾輪，每輪只保留少量新token，以提升品質。

整體來看，擴散語言模型雖然也是迭代式的，但所需步驟遠少於自迴歸模型。而且使用者可以自由選擇迭代輪數，實現速度與品質之間的權衡。

極端情況下，甚至可以讓擴散模型只預測最左邊一個被遮蔽的token，這樣它就退化為一個傳統的因果語言模型了。

文字生成範式轉向

當反應延遲不再顯著，人們可以更自然地將AI融入工作流程中，即時協作或即時創意迭代將成為可能。

Gemini Diffusion的成功探索向業界證明，非自迴歸的擴散架構在大語言模型上切實可行。

可以預見未來會出現自回歸+擴散融合的模型：利用擴散模型快速產生初稿，再用自回歸模型微調潤色，或反過來透過自回歸生成草稿、擴散模型高效優化。

這種多階段、多模型協作的框架可望結合雙方優勢，提高生成品質與速度。

這些進展預示著擴散模型正嶄露頭角，可能打破過去多年自回歸模型一統NLP天下的格局。

將高速擴散生成與深度推理結合，可能是其下一步的研發重點之一。（新智元）

科技