#視訊編輯
Seedream 5.0預覽版上線!字節又一新模型
新模型對標Nano Banana Pro,能免費體驗。Seedance 2.0的熱度還沒下去,字節新模型又來了!智東西2月10日報導,今日,字節圖像生成模型Seedream 5.0 Preview在視訊編輯應用剪映、剪映海外版Capcut、字節AI創作平台小雲雀均已上線,在即夢AI平台開啟灰度測試,圖片生成可限時免費體驗。▲Capcut官宣截圖(左)、小雲雀首頁模型選擇(右)Seedream 5.0 Preview的圖像支援2K和4K解析度輸出,2K為圖片生成直出,4K為AI增強後的解析度。根據Capcut官網,新模型5.0 Preview的升級點為首次支援檢索生圖,對提示詞的理解精準性增強、支援更細節、精緻紋理的圖像生成,還允許使用者精確調整圖像。Seedream 4.5於2025年12月4日上線。智東西實際體驗並對比了Seedream 5.0 Preview與Nano Banana Pro、Seedream 4.5,發現新模型可以理解“靜謐科技感”等抽象提示詞,但最後的生成效果相比Seedream 4.5很難說有跨越式提升,其聯網搜尋能力尚不穩定、生成效果升級點體現在更美觀、多樣化上。Capcut的官宣推文裡提到,Seedream 5.0 Preview可與Nano Banana Pro對標,且更便宜,目前所有使用者可免費使用20次,美國地區之後上線。有網友對比了Nano Banana Pro、ChatGPT、Seedream 5.0 Preview、Grok Imagine Image的生成效果,其提示詞為:生成一張高品質的資訊圖,解釋在特拉普修道院製作啤酒的過程,並配有豐富的插圖。▲第一排從左至右為Nano Banana Pro、ChatGPT生成,第二排從左至右為Seedream 5.0 Preview、Grok Imagine Image生成相比於其他幾個,Seedream 5.0 Preview的步驟解釋最為詳細,每步都有詳細的文字說明,但藝術設計感相比Nano Banana Pro稍弱。從社交平台X上的網友評論來看,此次Seedream 5.0預覽版的升級優先考慮的是智能水平而非美觀,可以應對複雜的知識驅動型任務。有網友認為,Seedream 5.0 Preview的智能水平、中文能力有提升,但都比不上Nano Banana Pro。還有網友調侃,新模型的進步程度僅0.09,僅相當於加了網路搜尋的Seedream 4.5。01.三大能力增強主攻實用性需求根據Capcut官網,此次Seedream 5.0 Preview的重要升級點包括精準性與智能水平增強、更快更具表現力的圖像建立、支援聯網知識整合。首先在智能水平方面,Seedream 5.0 Preview能深入理解提示詞,生成與使用者意圖相匹配、細節精準、佈局清晰、文字渲染效果更佳的圖像。第二點是增強風格化效果,其圖像到圖像功能增強了風格化效果,模型可以提供更清晰的細節、精緻的紋理和平衡的照明。該模型還新增了編輯功能,使用者可以控制筆刷精準選擇並調整相應元素。最後是智能推理能力,其官網提到,新模型的多步邏輯、空間理解及特定領域知識增強。02.相較Seedream 4.5提升小能理解抽象需求智東西體驗了Seedream 5.0 Preview的圖片生成能力。第一個提示詞是“為《靜夜思》生成古詩插圖”,可以看到生成的結果中人物“舉頭望明月”這一關鍵元素都沒有缺失,還附上了人物在月光下的影子等,但原詩中的“床前”等沒有在圖片中涉及到。為了考驗Seedream 5.0 Preview的聯網搜尋能力,智東西輸入了提示詞“最近有很多家機器人都要參加2026春晚,生成一張已官宣參加春晚的機器人海報”。Seedream 5.0 Preview生成的視覺元素精準,在大段文字生成中也未出現亂碼,表現穩定。但其並沒有理解“已官宣參加春晚的機器人”,而是僅生成了機器人上春晚的海報。還有抽象的提示詞,智東西輸入“生成一個靜謐科技感且帶有落日餘暉氛圍的鬧鐘圖片”,新模型生成的圖片中,從鬧鐘的設計到背景將落日、科技感融合在了一起。關於更為細緻的圖像輸出,提示詞為“特寫電影感肖像,一位有雀斑、深色捲髮的年輕女性,被鮮豔的野花和藤蔓環繞,頭上戴著花冠。在黃金時段拍攝,溫暖的逆光在她的頭髮和皮膚上形成光暈,淺景深,前景花朵柔焦,照片級真實感”。可以看到,輸出的圖片中的逆光效果非常到位,髮絲邊緣的光暈、皮膚的光澤以及前景花朵的柔焦虛化,都營造出了自然的氛圍感。當智東西的提示詞為“最新奧斯卡獲獎者紅毯風格”時,Seedream 5.0 Preview可以直接生成有紅毯、背景板、攝影師的完整圖像,背景板還有不少奧斯卡的小金人。根據參考圖生成圖片方面,智東西上傳了最近熱度超高的《閃靈》男主傑克,並讓Seedream 5.0 Preview“生成這個人的拜年圖片,主人公要身有年味的服裝,手拿燈籠和對聯”。生成的效果中,主人公的面部與參考圖一致,手拿燈籠、對聯的元素也都具備。智東西還比較了Seedream 5.0 Preview與Nano Banana Pro的生成效果。一個超難提示詞為“生成一個用左手寫字的人,背景有一個顯示5:25的模擬時鐘”,Seedream 5.0 Preview與Nano Banana都失敗了,要麼是拿筆的手不對,要麼是背景的鐘錶時間不對。Nano Banana Pro生成的圖片中,人物握筆的手為左手,可以從模糊的時鐘看出其時間為5:30左右。▲Nano Banana Pro生成的圖片雖然Seedream 5.0 Preview有些圖片生成的並不精準,但其一次性生成的圖片更具多樣性,從現代風、古風到卡通都有。▲Seedream 5.0 Preview生成的圖片在比較Seedream 4.5和Seedream 5.0 Preview時,智東西上傳的提示詞是“幫我生成番茄炒雞蛋的菜譜,卡通風格”。相比之下,Seedream 5.0 Preview的整體排版、架構設計會更為美觀。▲上為Seedream 4.5生成的圖片,下為Seedream 5.0 Preview生成的圖片03.結語:圖像模型正朝實用能力升級迭代當前頭部圖像模型的迭代路徑,正朝著提升理解能力、可控生成、編輯精度等實用能力升級。從Seedream 5.0 Preview的升級來看,其選擇在檢索增強、細節紋理、精準調整、4K增強上做最佳化,生成的結果並沒有顛覆性效果,這或許更貼近使用者的實際需求。但從實測與輿論反饋來看,使用者對小版本迭代的感知正在變弱,尤其在抽象語義理解、文字渲染、複雜邏輯構圖等方面仍存在技術瓶頸。 (智東西)
通義萬相VACE開源!一款模型搞定多種視訊編輯任務
此次開放原始碼的 Wan2.1-VACE-1.3B 支援 480P 解析度,Wan2.1-VACE-14B 支援 480P 和 720P 解析度。通過 VACE,使用者可一站式完成文生視訊、圖像參考生成、局部編輯與視訊擴展等多種任務,無需頻繁切換模型或工具,真正實現高效、靈活的視訊創作體驗。傳統視訊生成流程,一旦生成完成,想要調整人物姿態、動作軌跡或場景佈局非常困難。VACE 提供了強大的可控重繪能力,支援基於人體姿態、運動光流、結構保持、空間運動、著色等控制生成,同時也支援基於主體和背景參考的視訊生成。背後的核心技術是 VACE 的多模態輸入機制,不同於僅依賴文字提示的傳統模型,VACE 建構了一個集文字、圖像、視訊、Mask 和控制訊號於一體的統一輸入系統。對於圖像輸入,VACE 可支援物體參考圖或視訊幀;對於視訊輸入,使用者可以通過抹除、局部擴展等操作,使用 VACE 重新生成;對於局部區域,使用者可以通過0/1二值訊號來指定編輯區域;對於控制訊號,VACE支援深度圖、光流、佈局、灰度、線稿和姿態等。VACE 支援對視訊中指定區域進行內容替換、增加或刪除等操作。在時間維度上,VACE 可根據任意片段或首尾幀補全整個視訊時長;在空間維度上,支援對畫面邊緣或背景區域進行擴展生成,如背景替換 ——在保留主體不變的前提下,依據 Prompt 更換背景環境。得益於強大的多模態輸入模組和 Wan2.1 的生成能力,傳統專家模型能實現的功能 VACE 可以輕鬆駕馭,包括:圖像參考能力,給定參考主體和背景,可以完成元素一致性生成視訊重繪能力,包括姿態遷移、運動控制、結構控制、重新著色等局部編輯能力,包括主體重塑、主體移除、背景延展、時長延展等VACE 還支援多種單任務能力的自由組合,打破了傳統專家模型各自為戰的協作瓶頸。作為統一模型,它能夠自然融合文生視訊、姿態控制、背景替換、局部編輯等原子能力,無需為單一功能單獨訓練新模型。這種靈活的組合機制,不僅大幅簡化創作流程,也極大拓展了 AI 視訊生成的創意邊界,例如:組合圖片參考 + 主體重塑功能 → 視訊中物體替換組合運動控制 + 首幀參考功能 → 靜態圖片的姿態控制組合圖片參考 + 首幀參考 + 背景擴展 + 時長延展 → 將豎版圖拓展為橫式影片,並且在其中加入參考圖片中的元素。我們通過對四類常見任務(文生視訊、圖生視訊、視訊生視訊、局部視訊生視訊)的輸入形態進行分析和總結,提出了一個靈活統一的輸入範式:視訊條件單元 VCU。它將多模態的各類上下文輸入,總結成了文字、幀序列、mask 序列三大形態,在輸入形式上統一了 4 類視訊生成與編輯任務的統一。VCU 的幀序列和 Mask 序列在數學上可以相互疊加,為多工的自由組合創造條件。如何將多模態輸入統一編碼為擴散 Transformer 可處理的 token 序列?這是 VACE 需要解決的一大難題。首先,VACE 對 VCU 輸入中的 Frame 序列進行概念解耦,將其分為兩類:一類是需要原封不動保留的 RGB 像素(不變幀序列),另一類是需要根據提示重新生成的內容(可變幀序列)。接下來,分別對這三類輸入(可變幀、不變幀、Mask)進行隱空間編碼,其中,可變幀和不變幀通過 VAE 被編碼到與 DiT 模型噪聲維度一致的空間,通道數為 16;而 mask 序列則通過變形和採樣操作,被對應到時空維度一致、通道數為 64 的隱空間特徵。最後,將 Frame 序列和 mask 序列的隱空間特徵合一,並通過可訓練參數對應為 DiT 的 token 序列。通過本次發佈的 VACE 系列模型定量評測可以看出,相比 1.3B preview 版本,模型在多個關鍵指標上均有明顯提升。在訓練策略上,我們對比了全域微調與上下文介面卡微調兩種方案。全域微調通過訓練全部 DiT 參數,能取得更快的推理速度;而上下文適配微調方案是固定原始的基模型參數,僅選擇性地複製並訓練一些原始 Transformer 層作為額外的介面卡。實驗表明,兩者在驗證損失上差異不大,但上下文介面卡微調具有更快的收斂速度,且避免了基礎能力丟失的風險。因此,本次開源版本採用該方法進行訓練。如果想要基於 VACE 進行二次開發,可以遵循以下步驟進行使用,首先從 GitHub 下載 Wan2.1 的官方repo,再進入HuggingFace或  ModelScope下載對應的 VACE 模型,在 Wan 的主站也即將支援 VACE 的部分功能。 (通義大模型)