美團首個視訊大模型開源!速度暴漲900%

美團認為這是其邁向世界模型的第一步。

智東西10月27日報導,10月25日,美團開源了其首款視訊生成大模型——LongCat-Video。該模型面向多工視訊生成場景,旨在以統一架構支援文生視訊、圖生視訊以及視訊續寫三種能力。

不同於以往針對單一任務訓練的模型,LongCat-Video通過多工聯合訓練機制,在同一框架內即可處理零幀、單幀及多幀條件輸入。

此外,LongCat-Video重點突破了長視訊生成難題,原生支援輸出5分鐘等級的視訊。相比常見模型在長時序生成中易出現的畫面漂移、色彩偏移等問題,該模型通過在視訊續寫任務上的原生預訓練,保持了較高的時間一致性與視覺穩定性。

在推理效率方面,LongCat-Video借鑑了近年來的高效生成方法,採用“粗到細”兩階段生成策略:先生成480p、15fps的視訊,再細化至720p、30fps,並結合塊稀疏注意力機制和模型蒸餾,顯著降低了高解析度生成的計算開銷,視訊生成的推理速度提升到原來的10.1倍,提速幅度超900%。

在後訓練階段,團隊引入多獎勵強化學習(RLHF)最佳化方案,利用組相對策略最佳化(GRPO)方法綜合多維度獎勵訊號,進一步提升模型在多樣化任務下的表現。

美團已在多項公開與內部測評中將LongCat-Video與其他視訊生成大模型進行了比較。在VBench公開基準測試中,LongCat-Video總得分僅次於Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。

目前,美團LongCat-Video已同步開放程式碼、模型權重及關鍵模組,模型技術報告也已經發佈。

項目首頁:
https://meituan-longcat.github.io/LongCat-Video/

模型地址:
https://huggingface.co/meituan-longcat/LongCat-Video

技術報告:
https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf

01. 三步走打造高品質訓練資料整體壓縮率高達4×16×16倍

美團認為,“世界模型”(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI“看見”世界運行本質的能力。

而視訊生成模型有望成為建構世界模型的關鍵路徑——通過視訊生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行

為打造LongCat-Video,美團LongCat團隊首先在資料層面建構了一套資料處理與標註體系。

首先在資料預處理階段,通過多源視訊採集、去重、鏡頭切分及黑邊裁剪,確保視訊片段質量與多樣性。

隨後在資料標註階段,為視訊加入時長、解析度、美學分數、動態資訊等多維度屬性,並建立中繼資料資料庫以支援靈活資料篩選。團隊還基於LLaVA-Video與Qwen2.5VL等模型進行視訊內容、鏡頭語言及視覺風格標註,並通過中英雙語翻譯與摘要生成實現文字增強。

最終,通過文字嵌入聚類對視訊內容進行無監督分類與均衡最佳化,為模型訓練提供高品質、多樣化的視訊資料基礎。

在模型架構層面,LongCat-Video採用了基於Diffusion Transformer(擴散Transformer)的單流三維結構,這一設計融合了擴散模型的生成能力與Transformer的長時序建模優勢。

每個Transformer模組都包含三維自注意力層、跨模態注意力層以及帶SwiGLU啟動的前饋網路,並通過RMSNorm與QKNorm保證訓練穩定性。

模型使用了3D RoPE位置編碼來捕捉時間與空間的資訊關係,同時引入AdaLN-Zero機制以提升任務間的調製能力。

在輸入資料層面,美團團隊借助WAN2.1模型的VAE將視訊像素壓縮成潛空間token,使視訊資料能以更緊湊的形式參與建模,整體壓縮率高達4×16×16倍;文字輸入則由umT5多語言編碼器處理,支援中英文雙語,進一步提升了模型的通用性。

02. 靠“統一任務框架”一次訓出三種能力稀疏注意力讓推理效率猛增超900%

LongCat-Video採用了三階段的訓練流程。模型以Flow Matching框架取代傳統擴散過程,通過預測噪聲到真實視訊潛變數的速度場提升訓練穩定性與效率。

訓練採用漸進式預訓練策略,從低解析度圖像到高解析度多工視訊逐步學習,實現“從靜態到動態”的能力積累,並結合尺寸桶機制最佳化算力利用。

隨後在監督微調階段,模型利用高品質、多樣化資料集進行精調,強化視覺美學、運動流暢度與指令理解。

最後通過基於組相對策略最佳化的強化學習引入人類偏好最佳化,進一步提升語義一致性與視訊質量。

在訓練LongCat-Video的過程中,美團LongCat團隊在任務設計上進行了創新,這也是LongCat-Video能在單一模型內統一文生視訊、圖生視訊和續寫視訊三類任務的原因。

美團LongCat團隊沒有為不同的視訊生成任務單獨設計模型,而是通過“統一任務框架”讓三種任務共用同一套網路。模型通過識別輸入中“條件幀”的數量自動判斷任務類型:當輸入為零幀時執行文字生成視訊,一幀時執行圖像生成視訊,多幀時則執行視訊續寫。

這種機制不僅大幅降低了模型複雜度,也讓不同任務之間共享特徵空間與訓練經驗,從而提升整體表現。

為進一步提高長視訊生成的效率,模型在注意力機制上設計了可快取的鍵值特徵,使條件幀的表示可以在採樣過程中重複使用,減少了冗餘計算。這種機制尤其適合長視訊生成,因為它能在保持一致性的同時顯著降低計算開銷。

強化學習部分是LongCat-Video提升生成質量的關鍵環節。美團團隊基於組相對策略最佳化方法進行了多重改進,使其適配視訊擴散任務。傳統的GRPO在視訊生成中容易出現獎勵訊號不穩定和時間歸因模糊的問題,團隊通過固定隨機時間步、引入再加權損失函數以及最大標準差歸一化機制,有效解決了這些訓練瓶頸。

▲LongCat-Video採用的GRPO方法與基線的生成效果對比

在獎勵模型設計上,LongCat-Video採用了三重獎勵體系,分別評估視訊的視覺質量、運動質量和文字一致性。視覺質量由HPSv3模型打分,衡量畫面美感與細節;運動質量通過VideoAlign模型評估,確保動作自然流暢;文字一致性則檢驗生成視訊與輸入提示語的語義契合度。

這種多維度的獎勵設計讓模型在強化學習階段能夠平衡地提升表現,避免過度最佳化單一指標而導致畫面僵化或運動失真。

在高效推理方面,LongCat-Video通過一系列工程創新顯著提升了生成速度與解析度。團隊採用“粗到細”的生成策略,先快速生成低解析度、低影格率的視訊,再由LoRA微調的精化模組進行高畫質復原,最終可輸出720p、30幀的成片。

與此同時,LongCat-Video引入塊稀疏注意力(Block Sparse Attention)機制,僅計算最相關的10%注意力塊,將計算成本降至傳統方法的十分之一,幾乎不損失生成質量。

這些最佳化使得LongCat-Video在單卡H800 GPU上幾分鐘內即可生成一分鐘長的視訊。再結合一致性模型蒸餾與分類器自由引導(CFG)蒸餾技術,採樣步數從傳統的50步縮減至16步,推理效率提升至原來的10倍。

▲LongCat-Video在不同設定上的推理速度對比

03. 多領域測評比肩Veo3常識理解能力突出

美團LongCat團隊分享了LongCat-Video的多個生成案例。

文生視訊任務中,LongCat-Video可以根據提示詞精準還原不少腦洞大開的畫面,下方視訊中的案例還顯示出其可能具備風格轉繪的能力。

前段時間最火的AI視訊類型——切水果,LongCat-Video也能製作,不過並沒有音效,缺少了一些靈魂。

LongCat-Video原生支援輸出5分鐘等級的長視訊,不過在長時序的任務上,還是能看到一些“穿幫鏡頭”。例如,下圖人物跳芭蕾的過程中,其肢體在某些大幅度動作的場景中顯得並不自然。

有趣的是,美團分享了LongCat-Video生成行車記錄儀畫面和機器人靈巧手操作畫面的兩個案例。此類畫面或許可以作為合成資料,用於自動駕駛汽車與機器人的訓練。

在內部評測體系中,美團建構了一套覆蓋文字生成視訊與圖像生成視訊兩大核心任務的基準,評估維度包括文字對齊、視覺質量、運動質量與總體表現,並在圖生視訊任務中額外增加了圖像一致性指標。

為確保評測的科學性,團隊採用人工與自動雙軌評估機制,其中人工評價分為絕對打分與相對偏好兩種方式,所有樣本均由多名標註員獨立評分,最終通過加權平均得出結果。

自動評測部分則由內部訓練的多模態“判官模型”完成,與人工結果的相關性高達0.92,保證了客觀性。

評測結果顯示,LongCat-Video在文生視訊任務的四個核心指標中,視覺質量得分幾乎與Google的Veo3持平,整體質量超越了PixVerse-V5和國內領先的開源模型Wan2.2。

在運動質量方面,LongCat-Video生成的視訊動作流暢、鏡頭移動自然,展現出較強的物理合理性。在文字對齊度上,LongCat-Video表現略差於Veo3。

在圖生視訊任務中,LongCat-Video畫面細節豐富、風格真實,但在圖像一致性和動作連貫性上仍有改進空間。技術報告認為,模型在處理高精度參考幀時對細節的保持較為謹慎,這在視覺質量上帶來加分,卻略微影響了動態平滑度。

在公開評測平台VBench 2.0上,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,總分達到62.11%,僅次於GoogleVeo 3與生數Vidu Q1等商用閉源模型。

04. 結語:美團探索世界模型或與機器人、無人車業務產生協同效應

美團稱,LongCat-Video是其開發“世界模型”(world models)的第一步,。高效的長視訊生成能解決世界模型中的渲染問題,使模型能夠通過生成的視訊內容表達其對世界的認知。

未來,美團計畫在視訊生成中更好地建模物理知識,整合多模態記憶,融入大語言模型(LLM)和多模態大模型(MLLM)的知識。在美團分享的演示視訊中,LongCat-Video能較為準確地輸出機器人操作、汽車駕駛等畫面,這或許預示著這款模型,有望與美團在機器人、自動駕駛(無人車)領域的業務佈局產生一定的協同效應。 (智東西)