#視訊大模型
美團首個視訊大模型開源!速度暴漲900%
美團認為這是其邁向世界模型的第一步。智東西10月27日報導,10月25日,美團開源了其首款視訊生成大模型——LongCat-Video。該模型面向多工視訊生成場景,旨在以統一架構支援文生視訊、圖生視訊以及視訊續寫三種能力。不同於以往針對單一任務訓練的模型,LongCat-Video通過多工聯合訓練機制,在同一框架內即可處理零幀、單幀及多幀條件輸入。此外,LongCat-Video重點突破了長視訊生成難題,原生支援輸出5分鐘等級的視訊。相比常見模型在長時序生成中易出現的畫面漂移、色彩偏移等問題,該模型通過在視訊續寫任務上的原生預訓練,保持了較高的時間一致性與視覺穩定性。在推理效率方面,LongCat-Video借鑑了近年來的高效生成方法,採用“粗到細”兩階段生成策略:先生成480p、15fps的視訊,再細化至720p、30fps,並結合塊稀疏注意力機制和模型蒸餾,顯著降低了高解析度生成的計算開銷,視訊生成的推理速度提升到原來的10.1倍,提速幅度超900%。在後訓練階段,團隊引入多獎勵強化學習(RLHF)最佳化方案,利用組相對策略最佳化(GRPO)方法綜合多維度獎勵訊號,進一步提升模型在多樣化任務下的表現。美團已在多項公開與內部測評中將LongCat-Video與其他視訊生成大模型進行了比較。在VBench公開基準測試中,LongCat-Video總得分僅次於Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。目前,美團LongCat-Video已同步開放程式碼、模型權重及關鍵模組,模型技術報告也已經發佈。項目首頁:https://meituan-longcat.github.io/LongCat-Video/模型地址:https://huggingface.co/meituan-longcat/LongCat-Video技術報告:https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf01. 三步走打造高品質訓練資料整體壓縮率高達4×16×16倍美團認為,“世界模型”(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI“看見”世界運行本質的能力。而視訊生成模型有望成為建構世界模型的關鍵路徑——通過視訊生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。為打造LongCat-Video,美團LongCat團隊首先在資料層面建構了一套資料處理與標註體系。首先在資料預處理階段,通過多源視訊採集、去重、鏡頭切分及黑邊裁剪,確保視訊片段質量與多樣性。隨後在資料標註階段,為視訊加入時長、解析度、美學分數、動態資訊等多維度屬性,並建立中繼資料資料庫以支援靈活資料篩選。團隊還基於LLaVA-Video與Qwen2.5VL等模型進行視訊內容、鏡頭語言及視覺風格標註,並通過中英雙語翻譯與摘要生成實現文字增強。最終,通過文字嵌入聚類對視訊內容進行無監督分類與均衡最佳化,為模型訓練提供高品質、多樣化的視訊資料基礎。在模型架構層面,LongCat-Video採用了基於Diffusion Transformer(擴散Transformer)的單流三維結構,這一設計融合了擴散模型的生成能力與Transformer的長時序建模優勢。每個Transformer模組都包含三維自注意力層、跨模態注意力層以及帶SwiGLU啟動的前饋網路,並通過RMSNorm與QKNorm保證訓練穩定性。模型使用了3D RoPE位置編碼來捕捉時間與空間的資訊關係,同時引入AdaLN-Zero機制以提升任務間的調製能力。在輸入資料層面,美團團隊借助WAN2.1模型的VAE將視訊像素壓縮成潛空間token,使視訊資料能以更緊湊的形式參與建模,整體壓縮率高達4×16×16倍;文字輸入則由umT5多語言編碼器處理,支援中英文雙語,進一步提升了模型的通用性。02. 靠“統一任務框架”一次訓出三種能力稀疏注意力讓推理效率猛增超900%LongCat-Video採用了三階段的訓練流程。模型以Flow Matching框架取代傳統擴散過程,通過預測噪聲到真實視訊潛變數的速度場提升訓練穩定性與效率。訓練採用漸進式預訓練策略,從低解析度圖像到高解析度多工視訊逐步學習,實現“從靜態到動態”的能力積累,並結合尺寸桶機制最佳化算力利用。隨後在監督微調階段,模型利用高品質、多樣化資料集進行精調,強化視覺美學、運動流暢度與指令理解。最後通過基於組相對策略最佳化的強化學習引入人類偏好最佳化,進一步提升語義一致性與視訊質量。在訓練LongCat-Video的過程中,美團LongCat團隊在任務設計上進行了創新,這也是LongCat-Video能在單一模型內統一文生視訊、圖生視訊和續寫視訊三類任務的原因。美團LongCat團隊沒有為不同的視訊生成任務單獨設計模型,而是通過“統一任務框架”讓三種任務共用同一套網路。模型通過識別輸入中“條件幀”的數量自動判斷任務類型:當輸入為零幀時執行文字生成視訊,一幀時執行圖像生成視訊,多幀時則執行視訊續寫。這種機制不僅大幅降低了模型複雜度,也讓不同任務之間共享特徵空間與訓練經驗,從而提升整體表現。為進一步提高長視訊生成的效率,模型在注意力機制上設計了可快取的鍵值特徵,使條件幀的表示可以在採樣過程中重複使用,減少了冗餘計算。這種機制尤其適合長視訊生成,因為它能在保持一致性的同時顯著降低計算開銷。強化學習部分是LongCat-Video提升生成質量的關鍵環節。美團團隊基於組相對策略最佳化方法進行了多重改進,使其適配視訊擴散任務。傳統的GRPO在視訊生成中容易出現獎勵訊號不穩定和時間歸因模糊的問題,團隊通過固定隨機時間步、引入再加權損失函數以及最大標準差歸一化機制,有效解決了這些訓練瓶頸。▲LongCat-Video採用的GRPO方法與基線的生成效果對比在獎勵模型設計上,LongCat-Video採用了三重獎勵體系,分別評估視訊的視覺質量、運動質量和文字一致性。視覺質量由HPSv3模型打分,衡量畫面美感與細節;運動質量通過VideoAlign模型評估,確保動作自然流暢;文字一致性則檢驗生成視訊與輸入提示語的語義契合度。這種多維度的獎勵設計讓模型在強化學習階段能夠平衡地提升表現,避免過度最佳化單一指標而導致畫面僵化或運動失真。在高效推理方面,LongCat-Video通過一系列工程創新顯著提升了生成速度與解析度。團隊採用“粗到細”的生成策略,先快速生成低解析度、低影格率的視訊,再由LoRA微調的精化模組進行高畫質復原,最終可輸出720p、30幀的成片。與此同時,LongCat-Video引入塊稀疏注意力(Block Sparse Attention)機制,僅計算最相關的10%注意力塊,將計算成本降至傳統方法的十分之一,幾乎不損失生成質量。這些最佳化使得LongCat-Video在單卡H800 GPU上幾分鐘內即可生成一分鐘長的視訊。再結合一致性模型蒸餾與分類器自由引導(CFG)蒸餾技術,採樣步數從傳統的50步縮減至16步,推理效率提升至原來的10倍。▲LongCat-Video在不同設定上的推理速度對比03. 多領域測評比肩Veo3常識理解能力突出美團LongCat團隊分享了LongCat-Video的多個生成案例。文生視訊任務中,LongCat-Video可以根據提示詞精準還原不少腦洞大開的畫面,下方視訊中的案例還顯示出其可能具備風格轉繪的能力。前段時間最火的AI視訊類型——切水果,LongCat-Video也能製作,不過並沒有音效,缺少了一些靈魂。LongCat-Video原生支援輸出5分鐘等級的長視訊,不過在長時序的任務上,還是能看到一些“穿幫鏡頭”。例如,下圖人物跳芭蕾的過程中,其肢體在某些大幅度動作的場景中顯得並不自然。有趣的是,美團分享了LongCat-Video生成行車記錄儀畫面和機器人靈巧手操作畫面的兩個案例。此類畫面或許可以作為合成資料,用於自動駕駛汽車與機器人的訓練。在內部評測體系中,美團建構了一套覆蓋文字生成視訊與圖像生成視訊兩大核心任務的基準,評估維度包括文字對齊、視覺質量、運動質量與總體表現,並在圖生視訊任務中額外增加了圖像一致性指標。為確保評測的科學性,團隊採用人工與自動雙軌評估機制,其中人工評價分為絕對打分與相對偏好兩種方式,所有樣本均由多名標註員獨立評分,最終通過加權平均得出結果。自動評測部分則由內部訓練的多模態“判官模型”完成,與人工結果的相關性高達0.92,保證了客觀性。評測結果顯示,LongCat-Video在文生視訊任務的四個核心指標中,視覺質量得分幾乎與Google的Veo3持平,整體質量超越了PixVerse-V5和國內領先的開源模型Wan2.2。在運動質量方面,LongCat-Video生成的視訊動作流暢、鏡頭移動自然,展現出較強的物理合理性。在文字對齊度上,LongCat-Video表現略差於Veo3。在圖生視訊任務中,LongCat-Video畫面細節豐富、風格真實,但在圖像一致性和動作連貫性上仍有改進空間。技術報告認為,模型在處理高精度參考幀時對細節的保持較為謹慎,這在視覺質量上帶來加分,卻略微影響了動態平滑度。在公開評測平台VBench 2.0上,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,總分達到62.11%,僅次於GoogleVeo 3與生數Vidu Q1等商用閉源模型。04. 結語:美團探索世界模型或與機器人、無人車業務產生協同效應美團稱,LongCat-Video是其開發“世界模型”(world models)的第一步,。高效的長視訊生成能解決世界模型中的渲染問題,使模型能夠通過生成的視訊內容表達其對世界的認知。未來,美團計畫在視訊生成中更好地建模物理知識,整合多模態記憶,融入大語言模型(LLM)和多模態大模型(MLLM)的知識。在美團分享的演示視訊中,LongCat-Video能較為準確地輸出機器人操作、汽車駕駛等畫面,這或許預示著這款模型,有望與美團在機器人、自動駕駛(無人車)領域的業務佈局產生一定的協同效應。 (智東西)
可靈AI升級模型降價30%,視訊大模型會捲入價格戰嗎?
9月23日,可靈AI推出視訊生成可靈2.5 Turbo模型,同時更新文生視訊、圖生視訊兩大功能。值得關注的是,這次可靈AI官方把“相比2.1模型同檔位便宜近30%,性價比方面優勢更加凸顯”放在了較為核心的賣點上。這也是可靈AI發佈了四次版本(前三次1.0,1.5,2.0)少見地重點提出了“降價”的策略。百度率先打起了國內視訊大模型的價格戰。就在一個月前,百度發佈了視訊大模型“蒸汽機”的2.0版本,Turbo、Lite、Pro及有聲版同步上線,並將定價大幅下調,刊例價相比同類產品下降至70%,並且,百度方面聲稱,百度蒸汽機可以使得“好萊塢百萬級特效成本降至百元”。彼時的溝通會上,百度副總裁、移動生態商業體系負責人陳一凡告訴作者,降價背後是百度在GPU算力架構和工程最佳化上的積累,但也需要看到,比起視訊大模型的在前期訓練與後續持續迭代的投入成本,以目前的營收表現來看,仍不能稱得上是一門划算的生意。視訊生成大模型在投入上,無論是硬體採購還是營運成本(電力、維護等)無疑處於大模型領域的第一梯隊,是資金、算力和技術密集度最高的方向之一。多模態生成任務(包括視訊)的token消耗遠高於文字,特別是高解析度視訊,推理成本極高。目前來說,行業內的共識是,視訊大模型已經似乎成為了網際網路大廠的一項基礎能力,是對整個生態,尤其是商業化生態的重要支撐,這一項意義大過於單獨計算模型的投入產出比。但成本問題依舊是市場關心的話題。在今年二季度財報發佈後的業績會上,快手方面稱,可靈AI已經在推理算力層面實現了毛利率的打正,推理算力的追加投入對集團利潤的影響依然可控。視訊大模型的訂閱費用已經遠遠高於文字,這是因為市場確實存在需求,AI視訊生成帶來了革命性的價值。以目前國內主流的視訊大模型來看,海螺AI最高等級會員月費為1399元/月,為目前國內視訊大模型定價之最。可靈AI的收費標準,黃金會員66元/月,鉑金會員266元/月,鑽石會員666元/月,黑金會員1314元/月。可靈AI訂閱模式和費用截圖來自可靈AI官網即夢AI收費整體相對較便宜,定價分為三檔,基礎會員、標準會員、高級會員的月費分別是79元、239元、649元。即夢AI訂閱模式和費用截圖來自即夢AI官網與此同時,市場上的定價策略正在分化,這背後是不同廠商基於自身優勢做出的不同選擇,一些垂直的模型公司正在嘗試走高端專業路線,瞄準專業使用者或企業客戶,通過提供更強大的模型性能來支撐高定價。而國內的網際網路大廠更多希望實現的是一種“生態賦能”路線。比如說,快手可靈AI和字節跳動的即夢AI,其核心目標不完全是靠模型本身直接盈利。它們更看重通過低門檻甚至免費的策略,吸引海量使用者,反哺其所在的短影片平台生態,通過廣告、電商等其他方式實現價值。而百度的定價更為激進,目的是為了快速搶佔市場份額,特別是企業級市場。在營收表現上,可靈AI是當前主流大模型唯一有公開披露的。在上個月快手發佈的二季度財報中,可靈AI單季度的營收超過2.5億元人民幣。快手方面稱,升級後可靈2.5 Turbo模型,在文字響應、動態效果、風格保持、美學效果等維度均有大幅提升,並且進一步提升了視訊生成的可控性、穩定性、一致性,為其應用於影視、短劇、遊戲、動畫、廣告行銷等專業創意創作場景奠定基礎,也為創作者提供優質的視訊生成解決方案。可靈AI也正積極打入傳統影視製作市場。近期,可靈AI亮相第30屆釜山國際電影節,受邀參加由電影節主辦的2025年亞洲內容與電影市場大會(ACFM),與Google、Midjourney等全球頂尖科技企業一起,探討視訊生成大模型在影視、音樂等領域的應用前景。(鈦媒體AGI)
Gemini 2.5實現視頻理解重大突破:一口氣處理6小時視頻,任意視頻秒變互動網頁
Google的Gemini 2.5 Pro在視訊理解領域又有了重磅進展,現在可以一口氣處理長達6小時影片了!首先,硬實力槓槓的! Gemini 2.5 Pro 在十幾個學術視訊基準測試中取得了新的SOTA(業界最佳)成績,而且是在零樣本或少樣本訓練的情況下,直接叫板那些經過精細調優的專業模型。例如在YouCook2密集字幕生成和QVHighlights高光時刻檢索這類高難度任務上,表現都相當驚艷Gemini 2.5首次實現了原生多模態模型能夠將音訊視訊資訊與程式碼等其他資料格式無縫結合。不是簡單地「看懂」視頻,而是能基於視頻內容進行更深層的理解和創造。Gemini 2.5不僅在傳統影片分析上表現卓越,還解鎖了許多我幾個月前想都不敢想的新玩法,下面幾個例子,感受一下Gemini 2.5的視頻理解能力直接把影片變身網頁互動應用怎麼玩? 給Gemini 2.5 Pro一個YouTube影片連結和一段文字提示(例如告訴它如何分析影片)。模型會先分析視頻,產生一個詳細的“學習應用規格說明書”,提煉視頻中的關鍵點然後呢? 這份規格說明書再餵給Gemini 2.5 Pro,它就能直接產生這個學習應用的程式碼!實例: 看影片實現「視力矯正模擬器」應用影片一鍵產生p5.js動畫想幹嘛? 想要快速產生影片的動態摘要,或是進行自動化內容創作?Gemini 2.5 Pro: 只需一個提示,就能從影片中產生動態動畫,並保持與原始影片相同的時間順序實例:輸入一段倫敦地標遊覽影片(油管連結:https://youtube.com/watch?v=hIIlJt8JERI),Gemini就能產生p5.js程式碼,輸出一個動態動畫效果精準檢索與描述影片片段痛點: 從長影片找特定片段太費力?Gemini 2.5 Pro: 利用音視覺線索,辨識精準度遠超過過去。例如,在一個10分鐘的Google Cloud Next '25開幕演講影片中,它能準確識別出16個與產品演示相關的不同片段,並給出帶有時間戳的描述強大的時序推理能力(計數):挑戰: 不僅要看懂,還要理解時間序列上的微妙關係,例如計數Gemini 2.5 Pro: 例如它成功找出了主角使用手機的17個不同場景。這對於理解影片中的行為和模式至關重要最後,還有一個重磅實用更新:低媒體解析度(low media resolution)功能正式上線!這個功能現在已經登陸Gemini API,很快也會在AI Studio和Vertex AI上線它的牛X之處在於,能在性能損失極小的情況下,將每幀影片的視覺token從258個銳減到66個!這意味著什麼?在200萬token的限制下,以前能處理2小時的視頻,現在能處理長達6小時!處理效率大幅提升,成本也下來了!注意:Gemini 2.5 Pro & Flash視訊理解都很強 (AI寒武紀)
中國國產視訊大模型,那家強?
當前,DeepSeek等大模型引發的人工智慧浪潮日漸升溫,大模型落地應用的門檻和成本持續降低。視訊大模型作為一種能夠處理和生成視訊內容的大規模深度學習模型,具有在處理複雜視覺資訊方面的獨特優勢,展現出巨大的發展潛力,逐漸在影視製作、線上教育、智能客服等領域得到應用。《政府工作報告》首次提出支援大模型廣泛應用,《政府工作報告》起草組成員、國務院研究室副主任陳昌盛在國務院新聞辦公室舉行吹風會答記者問時也提到,可靈AI從某種程度上在國際上的評價已經超過了Sora,更是為國產視訊大模型行業加速發展釋放積極訊號,中國國產視訊大模型發展前景廣闊、未來可期。AI大模型製作的圖像一、全球視訊大模型進入發展快車道視訊大模型可以接受多種模態的資訊作為輸入,例如文字、語音、圖像和視訊等,並執行包括視訊生成、編輯、理解和分析等多種任務,被認為是大模型領域極具挑戰性的前沿方向。與語言大模型相比,視訊大模型所需要的技術更加複雜,例如:需要更強大的計算能力和更複雜的模型架構,能夠處理海量且高維度的視訊資料,解決資料的時序一致性、空間理解、運動物理規律模擬、真實世界因果關係等問題;需要突破跨模態理解和生成等關鍵技術難點,有效融合不同模態的資訊,確保生成高品質、連貫的視訊內容。當前,全球科技巨頭憑藉強大的技術實力和豐富的資源儲備,在視訊大模型領域展開了激烈角逐。國外方面,OpenAI率先發佈文生視訊模型Sora,開啟了AI視訊生成的“ChatGPT時刻”;Google發佈Veo2,在理解電影攝影語言和解析度等方面表現突出。其他公司如Stability AI、Luma、Runway、Haiper等也相繼發佈了各自的視訊大模型產品。國內方面,視訊領域佼佼者以及人工智慧企業紛紛立足自身優勢推出系列產品,如快手率先上線可公開體驗的視訊大模型可靈AI,開啟視訊大模型的視訊產業化探索,隨後生數科技的Vidu、字節跳動的即夢AI、MiniMax的海螺AI、智譜的清影、通義的萬相等紛紛上線。二、國產視訊大模型價值逐步釋放、潛力巨大近一年來,國產視訊大模型在技術突破和商業拓展方面取得了顯著進展。從技術能力看,視訊大模型在生成視訊時長、解析度、畫面比例以及鏡頭運動方面性能不斷提升。視訊時長方面,單次生成已經從最初的2-4秒,普遍延長至6-10秒,甚至數十秒,另有產品支援視訊續寫功能,如可靈AI支援最長3分鐘的視訊續寫。解析度方面,生成視訊已達到1080P甚至4K水平。此外,鏡頭控制、比例切換等技術能力也不斷提升。如可靈AI在時間維度的一致性上表現優秀,且視訊中生成的運動平滑度高、對物理定律的遵循較好。資料顯示,截至2024年12月,可靈AI已有超600萬使用者,累計生成超6500萬個視訊。從價值變現看,會員制等商業化模式探索不斷加快。當前視訊大模型的收費模式包括會員制、按需收費、定製收費、API呼叫次數收費等多種收費模式,其中會員制模式較為普遍,即將視訊大模型按照性能不同分為不同等級,提供單月、年度會員等多種收費模式,如Vidu、可靈AI、PixVerse等均採用這種模式,1秒收費在0.05-0.9元之間。目前,可靈AI商業化探索較為成功,資料顯示,可靈AI單月流水超千萬,已與伊利、vivo、聯想、周大福、瑪氏箭牌、青島啤酒等多個企業進行多樣化商業探索。未來,隨著技術加速迭代以及算力成本不斷下降,視訊大模型技術應用的門檻和成本將實現“雙降”,進而催化國產視訊大模型加快規模化使用。據東方證券報告指出,未來內容生態將在現有量級基礎上進一步實現指數級提升,形成下一代內容生態,國產視訊大模型的價值有望進一步釋放。三、視訊大模型應用正引發一場視覺革命推動視訊領域生產方式智能化,大幅提升內容生產效率和質量。通過應用大模型技術深入挖掘視聽領域豐富資料,打造的視訊大模型將化身有著豐富知識和資深經驗的“行家裡手”,推動從劇本創作到特效製作等工作由高度依賴從業人員經驗轉向由AI承擔,大幅縮短了內容生產時間,提高了內容質量。如多家電視台推出AI生成短片和短劇,通過分析觀眾偏好,實現了較高的觀眾粘性和滿意度。資料顯示,河南大象融媒通過應用AIGC技術,推動短影片製作周期由一天縮短至數小時。據東吳證券資料顯示,在人機協作模式下,AI可以降低43%的影視製作成本,在全部應用視訊大模型等人工智慧技術情況下成本可降低95%。培育視訊新模式新業態,大幅提升內容體驗感和競爭力。通過應用視訊大模型,創意視訊、AI導演、虛擬主播等創新產品,並為使用者帶來新奇的觀看體驗。如湖南廣電推出AI導演愛芒,參與湖南衛視《我們仨》綜藝節目錄製,以助理導演的身份與嘉賓共同探索潮流生活新方式。可靈AI推出國內首部AIGC短劇《山海奇鏡之劈波斬浪》;與青年導演團隊“異類Outliers”上線全球首部AI單元劇集《新世界載入中》先導片,推動AI短劇製作進入2.0時代;聯合李少紅等9位知名導演打造的9部AIGC電影短片被中國電影博物館永久收藏、放映展示,電影工業開啟人工智慧序幕。四、視訊大模型未來的發展機遇與挑戰未來視訊大模型跨領域應用拓展前景可期。一是視訊大模型技術以其強大的內容生成能力開啟內容創新“萬花筒”,為視聽行業提供了全新的內容創作和呈現方式,孕育了豐富的應用場景和廣闊的創新空間。二是實現“千人千面”的智能內容和產品推薦、製作或成為可能。通過視訊大模型技術進步以及智能體等前沿技術的應用,精準挖掘使用者對內容題材、時長等的偏好,實現內容產品的量身推薦,通過智能生成等方式為使用者定製個性化內容,提高消費者滿意度和粘性。三是推動視聽領域與其他行業跨界融合拓展增長新空間。利用視訊大模型技術,促進視聽領域與文旅、教育、公益、健康等領域深度融合,形成跨界融合、良性互促的生態系統,激發各領域廣泛形成新商業模式、新產業形態和新增長空間。視訊大模型發展仍面臨諸多挑戰。技術的發展是一柄雙刃劍,視訊大模型進步在帶來產業發展、經濟增長和社會進步的同時,但也會產生一些如虛假資訊傳播、深度偽造、內容侵權等潛在風險。需平衡好發展與安全的關係,既不能因技術進步伴生的潛在風險而“因噎廢食”,也不能對出現的問題置之不理,應通過技術創新、機制完善等手段讓技術更好地服務於人。 (中國經濟週刊)