#擴散模型
19歲少年「破解」Google新AI?每秒1479 token,擴散再戰GPT!
年僅19歲少年,自稱破解了Google最快的語言模式Gemini Diffusion,引爆社群平台。真相撲朔迷離,但有一點毫無疑問:GoogleI/O大會的「黑馬」,比GPT快10倍的速度、媲美人類程式設計師的代碼能力,正在掀起一場NLP範式大洗牌。沒想到擴散模型以一種另類的方式,火起來了!來自德國的19歲的少年,Georg von Manstein聲稱自己「破解」了Google文字擴散模型的原理。「19歲」「創業」「破解Google模型」…乍看之下,簡直像極了「少年天才挑戰腐朽巨頭」的逆襲劇本,數以萬計的網友被他的推文吸引。再加上擴散文字生成模型的動態演示,好像GoogleGemini Diffusion的原理真被他破解了。但很快就有網友發現,他用的動圖,其實是來自國內的研究(Dream 7B),而後面放出來的幾篇論文也並沒有做任何解釋…不管這位小哥是不是在「搞抽象」,但Google這次提出的Gemini Diffusion卻是一個實打實的干貨。更重要的是,Gemini Diffusion為擴散模型「再就業」樹立了榜樣。Gemini Diffusion每秒1479token在剛剛過去的Google I/O大會上,Gemini 2.5 全家桶和Gemini Diffusion等一起推出。可惜的是Gemini Diffusion被Veo 3等消息所掩蓋了。但Gemini Diffusion是Google更大的野心:重塑語言生成,利用擴散技術,實現更快、更自由、更可控的文字創作體驗。Gemini Diffusion最大特色就是速度快速:比Google目前最快的非擴散模型還要快,取樣速度每秒1479個token,啟動時間只要0.84秒。反應速度之快,Google在演示中需刻意放慢速度,才能讓觀眾看清文字生成的內容。除了生成速度快,在生成文字品質上,尤其是文字連貫性和錯誤糾正方面,Gemini Diffusion也優於傳統的自回歸模型。Gemini Diffusion三大優點:快速反應、文字更連貫、迭代優化在即時回應或大量文字產生場景下,Gemini Diffusion具有明顯優勢。在任務準確度上,二者各有千秋,取決於任務類型。Gemini Diffusion,在生成效率和局部準確度方面表現優異,但在通用智能和知識覆蓋方面尚未全面超越當前最強的自回歸模型。不只快,程式碼和數學也很強在外部基準上,Gemini Diffusion的效能可與更大的車型相媲美,同時速度也更快。DeepMind將其與自家的Gemini 2.0 Flash-Lite模型進行了對比,在多個程式碼基準上幾乎旗鼓相當。整體來看,Gemini Diffusion在垂直領域(程式設計、數學)的準確性已經可與一流模型相比,甚至略有勝出,但在通用知識和推理方面仍有明顯差距。在外部基準測試中,Gemini Diffusion不僅快,在程式碼和數學推理任務上也表現優異:HumanEval程式碼測試:一次性通過率達89.6%,與Gemini Flash-Lite持平;AIME 2025數學競賽測驗:準確率23.3%,略高於Flash-Lite的20.0%;LiveCodeBench即時編程:得分30.9%,領先Flash-Lite的28.5%。尤其在長文字、邏輯強、結構複雜的任務中,其全域生成策略展現出對傳統架構的替代潛力。不過,在通用知識類任務上,其表現仍不如目前最強的自回歸模型:MMLU多任務問答:Gemini Diffusion得分為69.1%,仍低於GPT-4的86.4%。科學推理GPQA Diamond:準確率40.4%,顯著落後於Flash-Lite的56.5%。目前,Gemini Diffusion還是實驗性示範版本,要註冊候補名單才有機會體驗。實測:幾秒完成聊天應用著名的Web開發工程師Simon Willison,得到了Gemini Diffusion的試用機會。他表示Google所言非虛:哇,他們說它速度快可不是開玩笑的。Simon Willison:英國程式設計師,Web框架Django的共同創作者在下列影片中,他給Gemini Diffusion提示是“Build a simulated chat app”,它以每秒857個token的速度作出回應,並在幾秒鐘內產生了一個包含HTML和JavaScript的互動式頁面。在此之前,唯一達到商業等級的擴散模式是今年二月Inception Labs推出的Mercury模式。Diffusion模型再就業ChatGPT等推出了基於自迴歸模型的「動動嘴」畫圖、PS功能。在AI生圖領域,Diffusion模型節節敗退。今年二月,Inception Labs推出了世界上首個擴散語言模型,在速度和成本上比當前一代LLM快多達10倍、便宜多達10倍。在輸出速度和人工分析程式指數上,可謂「遙遙領先」!在接受採訪時,史丹佛大學教授、Inception Labs聯合創始人Stefano Ermon表示:過去許多嘗試將擴散模型用於文字生成都以失敗告終。 Mercury之所以成功,是因為我們在訓練和推理演算法方面做出了專有的創新。圖像可以模糊地「看個大概」再逐步優化,但語言必須嚴守語法規則,這使得迭代優化的過程更加複雜。Stefano Ermon而IBM研究員Benjamin Hoover指出,Mercury模型證明了擴散模型正在彌合差距,也指出了趨勢的轉變:兩三年之內,大多數人將會轉向使用擴散模型。這已經是必然了。當我看到Inception Labs的模型時,我意識到,這種轉變會比預想的更快發生。Benjamin Hoover而在「AI四巨頭」中,Google是第一家推出擴散語言生成模型的巨頭。這對於擴散研究領域而言,無疑是個振奮人心的資訊。GoogleDeepMind主任科學家(Principal Scientist)Jack Rae表示,Gemini Diffusion的發布感覺像是一個里程碑。Gemini Diffusion的成功探索向業界證明,非自迴歸的擴散架構在大語言模型上切實可行。擴散模式威逼GPT,而下一代AI正在浮現。擴散模型再戰自回歸傳統的自迴歸語言模型是一次產生一個字或一個token,從左到右逐字預測下一個token,依照順序逐步產生文字(見下圖左)。由於這種生成方式是逐步進行的,因此速度較慢,也可能限制了產生結果的品質和連貫性。與傳統的自回歸大語言模型不同,Gemini Diffusion採用了擴散模型的架構:它從隨機雜訊出發,逐步細化出完整的文欄位落(見下圖右)。這個過程類似於影像擴散模型在影像生成中的應用——從雜亂雜訊開始,透過多次迭代逐漸產生清晰有意義的輸出。在文字領域,這意味著Gemini Diffusion可以一次產生整個詞塊,並在生成過程中多輪調整糾錯,逐步逼近最終結果。它在初始階段給出一段粗糙的文字草稿,然後透過迭代不斷改進內容的準確性和一致性,直到得到高品質的輸出。這種架構上的根本差異帶來了多面向影響:首先,並行產​​生整個文字區塊使其速度大幅提升(無需逐詞等待)。其次,全域視角的生成方式有助於長文字的整體連貫性,因為模型能同時考慮文字各部分的關係,而非侷限於局部脈絡。最後,迭代精煉允許模型在生成過程中自我檢查並修正錯誤,使輸出更一致可靠。擴散大語言模型(Diffusion Large Language Model,dLLM)將為LLM帶來一系列全新的能力,包括:1. 更強的智慧代理能力:dLLM的速度和效率極高,適用於需要大量規劃和長文字生成的智能體應用。2. 更高階的推理能力:dLLM內建的糾錯機制修復幻覺內容,優化答案,同時保持在幾秒鐘內完成思考。3. 更可控的生成過程:dLLM支援編輯生成內容,並且可以按任意順序產生token。4. 邊緣設備上的應用:得益於其高效性,dLLM非常適合資源受限的場景,例如邊緣設備。擴散模型:不只生圖在Y Combinator新聞論壇,網友nvtop對Gemini Diffusion提供了一番解釋:擴散語言模型與Google的BERT模型頗有淵源,反而與影像生成領域中的擴散模型沒有太大關係。這或許能理解為什麼Google的這次轉向。論文連結:https://arxiv.org/abs/1810.04805回憶一下BERT是如何訓練的:(1)輸入一整句完整的句子(例如:「the cat sat on the mat」)(2)將其中15%的token替換為[MASK](例如:「the cat [MASK] on [MASK] mat」)(3)使用Transformer模型並行預測這些被遮蔽的位置,僅需一步推理(inference)擴散語言模型的做法則是在這個思路上更進一步。BERT只能恢復約15%的被遮蔽token(可視為「噪音」),但完全可以訓練模型來恢復30%、50%、90%,甚至100%被遮蔽的文字。一旦訓練完成,就可以實現從零開始生成文字:一開始輸入全部為[MASK]的序列,模型輸出的內容可能是胡言亂語。然後隨機選出其中10%的token,把它們標記為「已生成」。在下一次推理中,將剩下90%的位置繼續設為[MASK],保留前面10%。繼續這樣迭代,在每一輪中都「定住」一部分新的token。大約迭代10次之後,就能產生完整的文字序列。這正是擴散語言模式的核心概念。當然,在實際應用上還有很多優化策略。如果需要產生很長的文字(例如超過200個token),可以將其切割成多個區塊(chunk),先並行產生第一個區塊,再逐區塊向後產生。這種方法稱為Block Diffusion,是一種半自迴歸式產生方式。論文連結:https://arxiv.org/abs/2503.09573還可以選擇性地將那些token在某一輪中被視為「最終生成的」,以及這部分的比例:在早期階段,模型還處於噪音狀態,可以一次保留更多token。在後期接近完成時,則可以多迭代幾輪,每輪只保留少量新token,以提升品質。整體來看,擴散語言模型雖然也是迭代式的,但所需步驟遠少於自迴歸模型。而且使用者可以自由選擇迭代輪數,實現速度與品質之間的權衡。極端情況下,甚至可以讓擴散模型只預測最左邊一個被遮蔽的token,這樣它就退化為一個傳統的因果語言模型了。文字生成範式轉向當反應延遲不再顯著,人們可以更自然地將AI融入工作流程中,即時協作或即時創意迭代將成為可能。Gemini Diffusion的成功探索向業界證明,非自迴歸的擴散架構在大語言模型上切實可行。可以預見未來會出現自回歸+擴散融合的模型:利用擴散模型快速產生初稿,再用自回歸模型微調潤色,或反過來透過自回歸生成草稿、擴散模型高效優化。這種多階段、多模型協作的框架可望結合雙方優勢,提高生成品質與速度。這些進展預示著擴散模型正嶄露頭角,可能打破過去多年自回歸模型一統NLP天下的格局。將高速擴散生成與深度推理結合,可能是其下一步的研發重點之一。 (新智元)
全球首個無限時長視訊生成!新擴散模型引爆兆市場,電影級理解,全面開源
不是5秒,不是10秒,更不只是1分鐘。AI視訊生成,正式迎來無限時長的時代!來,話不多說,直接來看一部AI版《羅馬假日》:而就是這麼一部小短劇片段,它的“起點”,僅僅就是一張照片和一句Prompt:身著優雅西裝的歐美男子與一位美女漫步在羅馬街頭,分享各自的生活趣事,眼神中滿是欣賞;夕陽西下,餘暉灑在兩人臉上,彼此深情對視。△視訊生成輸入的第一幀圖像或許你會說,這不就是AI一口氣生成出來的37秒視訊嗎?非也,非也。它創作出來的方式,實則是先生成一個30秒的視訊,然後用一套“Extend(擴展)大法”繼續去延長視訊的時間。方法就是pick剛才已經生成的視訊,再來一句Prompt:兩個人擁抱到了一起。最後,在前面所有畫面人物都沒有發生變化的同時,AI根據後續的Prompt,繼續擴展了7秒鐘。通過這種方式,如果你想繼續延長視訊的情節和時長,只需反覆上述操作即可。這就是無限時長的由來了。而這個AI,正是崑崙萬維最新升級的SkyReels-V2。作為全球首個無限時長視訊生成模型,實現了電影級理解,並且全面開源。整體體驗下來,它的特點可以總結為一句話——很懂拍電影。不僅在時長方面可以做到無限,對視訊內容的連續性、鏡頭的自如切換,以及主體的一致性等等都做到了不錯的把控。那麼崑崙萬維為什麼要搞這樣的一個AI呢?這是因為全球AI視訊生成領域正面臨三大核心痛點:時長限制:主流模型僅能生成5-10秒片段,無法滿足影視級敘事需求專業度缺失:通用模型難以理解鏡頭語言、運鏡邏輯等電影語法質量妥協:提升解析度往往犧牲運動流暢性,物理合理性頻遭詬病這也正是SkyReels-V2要解決的問題。接下來,為了把這種效果體現得更加明顯一些,我們繼續一波實測走起。實測AI視訊的無限生成這一次,我們以5秒為一個單位,一點一點地把玩一下這個無限生成模式。先“喂”給SkyReels-V2這樣的一張靜態圖片:然後我們先讓這張漫畫風的圖片,按照物理規則動起來:保持漫畫風格,畫面中的樹、湖面、男孩的頭髮,隨風飄動。繼續用Prompt來擴展後續視訊內容:男孩子突然發現魚漂和魚竿開始抖動,臉上露出驚喜的表情。男孩立馬站起身來,雙手用力拽魚竿。男孩身子往後退,用力拽魚竿,沒釣到魚。就在這麼5秒、5秒的擴展之後,我們就完成了一小段動漫的場景:值得一提的是,剛才我們完整展示的2個視訊的BGM,同樣也是由崑崙萬維的音樂生成AI——Mureka來生成的哦~除此之外,官方這次也展示了幾個不錯的效果。例如女生化妝的AI視訊生成:以及水母在海洋徜徉:那麼在看完效果之後,接下來的一個問題就是:如何做到的?背後的技術也開源了在科普SkyReels-V2技術之前,我們還應當先瞭解一下當前視訊生成模型在技術上普遍存的問題。歸結來看,主要分為三點,即:通用多模態大語言模型(MLLM)難以理解專業電影語法(如鏡頭構圖、演員表情和攝影機運動);現有最佳化目標未能充分探索運動質量;擴散模型和自回歸模型各自的侷限性導致難以兼顧視覺質量與時間連貫性。對此,崑崙萬維團隊提出的SkyReels-V2,便是通過結合多模態大語言模型(MLLM)、多階段預訓練、強化學習和擴散強制框架,實現了在提示遵循度、視覺質量、運動動態和時長方面的突破性進展。首先,SkyReels-V2的首要創新是設計了一套全面的視訊結構化表示方法,將通用描述與專業鏡頭語言相結合。這個系統包括主體描述(類型、外觀、動作、表情、位置等)、鏡頭中繼資料(鏡頭類型、鏡頭角度、鏡頭位置等)、攝影機運動(例如推拉搖移等專業運動參數)。為實現上述專業維度的高精度標註,研發團隊針對性訓練了多個專家級模型。例如鏡頭標註器,它可精確識別鏡頭類型、角度與位置,在測試中分別取得 82.2%、78.7% 和 93.1% 的精準率。表情標註器則能深度解析七種基礎情緒及其強度變化,平均精度達到 85%;還有攝影機運動標註器,採用6DoF坐標參數化運動,單類型運動識別精準率89%。這些專家模型與基礎MLLM的知識被蒸餾到統一的SkyCaptioner-V1模型中,最終形成了一個平均精準率達76.3%的專業視訊標註系統,尤其在鏡頭相關欄位上表現突出(鏡頭類型識別精準率93.7%)。除此之外,SkyReels-V2還採用一個三階段漸進解析度預訓練框架:低解析度階段(256p):通過圖像-視訊聯合訓練建立基礎生成能力中解析度階段(360p):應用更複雜的資料過濾策略提升清晰度高解析度階段(540p):專注於視訊目標,採用更嚴格的質量標準訓練中採用雙軸分桶框架(時長桶×寬高比桶)和FPS歸一化技術,有效處理視訊資料的時空異質性。最佳化器使用AdamW,學習率從1e-4逐步降至2e-5,確保穩定收斂。而針對視訊生成中常見的運動質量問題(幅度不當、主體變形、物理規律違反等),團隊設計了半自動偏好資料收集管道。它包含兩種類型的資料,一個是人工標註資料,由專業人員評估運動質量,形成1200個視訊測試集;另一個是自動生成資料,通過漸進失真建立技術模擬各種運動缺陷。基於這些資料,團隊訓練了專門的獎勵模型,並應用流匹配直接偏好最佳化(Flow-DPO)技術,通過三階段訓練(每階段20k資料)顯著提升了運動質量。SkyReels-V2的核心突破是擴散強迫(Diffusion Forcing)技術,將傳統擴散模型轉化為支援無限長度生成的架構。這個技術同樣包含三個關鍵點。一是幀導向機率傳播(FoPP)時間步調度器,它通過動態程式設計計算非遞減噪聲計畫,將組合空間從O(1e48)減少到O(1e32)。二是自適應差異(AD)時間步調度器,可以支援從同步擴散(s=0)到自回歸生成(s=T)的靈活調整。最後則是上下文因果注意力,通過推理時快取歷史樣本的K、V特徵,顯著降低計算開銷。這一框架使模型能夠以前一視訊段的最後幾幀為條件,生成新的幀序列,理論上支援無限長度擴展。為防止誤差累積,團隊採用輕微噪聲標記已生成幀的穩定化技術。從崑崙萬維以及第三方測試結果來看,在SkyReels-Bench評估中,SkyReels-V2在指令遵循方面取得了顯著進展,同時在保證運動質量的同時不犧牲視訊的一致性效果。在VBench1.0自動化評估中,SkyReels-V2在總分(83.9%)和質量分(84.7%)上均優於所有對比模型,包括HunyuanVideo-13B和Wan2.1-14B。這一結果進一步驗證了SkyReels-V2在生成高保真、指令對齊的視訊內容方面的強大能力。以上便是SkyReels-V2能夠解鎖如此實力背後的關鍵技術了,並且已經全部開源。AI重塑內容生產在解讀完技術之後,我們還有個話題值得聊一聊——SkyReels-V2的問世,意味著什麼?歸結為一句話,或許就是:正在重塑、改寫創意內容產業的DNA。SkyReels-V2展現的不僅是技術能力,更是一種新型創作哲學的雛形。當AI能夠理解並執行“日落時分的海灘漫步”這樣的抽象指令,並自主處理鏡頭運動、場景過渡等專業細節時,人類的角色正在從執行者轉變為“創意導演”——專注於概念構思與審美判斷等高層次創造活動。這種人機協作模式指向了一個更為深刻的變革:藝術創作的重心從技藝展示轉向思想表達。創作者可以將更多精力投入敘事結構、情感傳遞和概念創新等真正體現人類獨特性的領域,而將技術實現交由AI處理。這或許正是文藝復興時期“藝術家作為思想家”理想在數字時代的全新詮釋。而目光聚焦於崑崙萬維本身,可以說它再一次走到了生成式AI大浪潮的前面:不僅有技術,還有產品,更是做到了全面開源。據高盛預測,到2027年AI生成視訊市場規模將突破兆美元,而崑崙萬維SkyReels-V2的橫空出世,正以“無限時長+電影級質量+精準控制”三位一體的突破性技術,率先打開這片藍海市場!至於SkyReels-V2及其後繼技術將如何繼續改寫創意產業的DNA,取決於我們如何以智慧與遠見引導這場變革。不過可以肯定的一點是,當技術最終成功隱入創作的背景,成為思維的自然延伸時,人類講故事的方式,以及通過故事理解世界的方式,都將發生我們今日難以想像的深刻轉變。最後,體驗地址放下面了,感興趣的小夥伴快去嘗鮮吧~SkyReels官網地址:https://www.skyreels.ai/homeGitHub地址:[1]https://github.com/SkyworkAI/SkyReels-V2[2]https://github.com/SkyworkAI/SkyReels-A2HuggingFace地址:[1]https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9[2]https://huggingface.co/Skywork/SkyReels-A2論文地址:[1]https://arxiv.org/abs/2504.13074[2]https://arxiv.org/pdf/2504.02436 (量子位)