#EditVerse | 熱門關鍵字 | 鉅亨號

全新AI工具EditVerse將圖片和影片編輯整合到一個框架中，讓你像P圖一樣輕鬆P影片。透過統一的通用視覺語言和上下文學習能力，EditVerse解決了傳統影片編輯複雜、資料稀缺的問題，也能實現罕見的「湧現能力」。在效果上，它甚至超越了商業工具Runway，預示著一個創作新紀元的到來。你是否曾有過這樣的經驗：用Hunyuan- Image、nano-banana等各類AI軟體修圖已經得心應手，但面對影片編輯，卻需要打開有著複雜時間軸和特效面板的影片剪輯軟體（PR/FCPX），瞬間感覺「我不會了」。圖片編輯和影片編輯，彷彿是兩個次元的技能樹。但如果，有一個工具，能讓你像P圖一樣P影片呢？今天，這個顛覆性的工具來了！由香港中文大學、Adobe Research、約翰霍普金斯大學的研究員們聯合推出的EditVerse，是一個劃時代的AI模型，徹底打破了圖片和視訊創作之間的壁壘，用一個統一的框架，實現了對圖像和視訊的自由編輯與生成。論文連結：https://arxiv.org/abs/2509.20360專案首頁：http://editverse.s3-website-us-east-1.amazonaws.com/測試程式碼：https://github.com/adobe-research/EditVerse完整結果：http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html無論是生成音樂音符特效，還是為跳舞的人物加上一對閃亮的翅膀，你只需要輸入一句話，EditVerse就能幫你實現。「資料孤島」影片編輯為何如此之難？長期以來，AI影片編輯的發展遠遠落後於圖片編輯。究其原因，主要有兩大「天塹」：架構的「隔閡」：傳統的AI模型，要嘛是專為圖片設計的，要嘛是專為影片設計的。想讓一個圖片編輯模型去處理視訊，或者反之，都極其困難，需要複雜的魔改和適配。這導致了工具的碎片化。資料的「饑荒」：高品質的、「編輯指令-編輯後」配對的影片資料集極為稀少。相較於數以億計的影像編輯資料，影片領域的「養分」嚴重不足，這大大限制了AI的學習和進化。這些難題，使得過去的AI影片編輯工具要麼功能單一，要麼效果不盡人意，始終無法像圖片編輯那樣靈活和強大。EditVerse的「破壁」之道EditVerse的革命性，在於它用一套全新的「世界觀」和方法論，同時解決了架構和資料的雙重難題。核心思想一：創造一種「通用視覺語言」EditVerse交錯文字與視覺模式的範例。 EditVerse 能夠處理任意解析度、長度和順序位置的影像與視訊輸入和輸出。EditVerse做的第一件事，就是教會AI用同一種方式去「閱讀」世界上所有的視覺訊息。它創新地將文字、圖片、影片全部轉換成一種統一的、一維的「資料流」（Token序列）。這就像是發明了一種「世界語」，讓原本說著不同方言（圖片編碼vs 視訊編碼）的AI，現在可以用同一種語言進行交流和思考。核心思想二：強大的「上下文學習能力」EditVerse 模型結構。研究人員設計了一個統一的圖像和視訊編輯與生成框架，將文字與視覺輸入處理為統一的序列。圖中右側展示了位置資訊編碼設計（RoPE位置編碼）。該框架利用全自注意力機制，以促進強大的上下文學習能力，並實現跨模態的高效知識遷移。有了「通用語言」後，EditVerse採用了一個基於全自注意力機制（Full Self-attention）的強大Transformer架構。透過將所有資訊流在序列維度拼接在一起，EditVerse模型可以直接透過attention的上下文學習能力將不同圖片、影片和文字中的資訊關聯起來。你可以把它想像成一位「上下文學習大師」，它能一口氣讀完包含指令、原始畫面的整段「資料流」，並精準地理解其中每個部分之間的關聯。例如「把【影片1】左邊女人的裙子變成【圖2】中的裙子」，全注意力機制能精準地將文字指令、影片中的特定人物和圖片中的服裝關聯起來。同時，這種設計使得EditVerse能夠靈活處理任意解析度、任意時長的輸入，真正做到了「隨心所欲」。核心思想三：搭建一座「知識遷移的橋樑」這正是EditVerse最巧妙的地方。因為它使用一套統一的框架同時處理圖片和視訊，所以它能將在海量的圖片編輯資料中學到的知識（比如什麼是“火焰特效”、“水彩畫風格”），無縫遷移並應用到視訊編輯任務中。這座「知識橋樑」大大緩解了視訊資料稀少的問題，讓模型能夠舉一反三，展現出驚人的創造力和泛化能力。訓練資料與首個多解析度影片編輯評測基準光有聰明的「大腦」（模型架構）還不夠，還需要大量的「知識」（訓練資料）和公平的「考官」（評測基準）。面對影片編輯資料稀缺的困境，EditVerse團隊首先建立了一條可擴展的資料生產線。他們利用各種先進的專用AI模型，先自動產生大量的影片編輯樣本（例如物件移除、風格轉換等），然後透過一個視覺語言模型（VLM）進行評分和篩選，最終精選出23.2萬個高品質的影片編輯樣本用於訓練。這批影片編輯資料，與600萬圖像編輯樣本、390萬視訊生成樣本、190萬圖像生成樣本等海量資料混合在一起，共同訓練EditVerse，從而使模型擁有更好的知識遷移理解能力。此外，為了科學、公正地評估模型的能力，團隊也推出了業界首個針對指令式影片編輯的綜合性評測基準——EditVerseBench 。這個評測基準包含了100個不同解析度的視訊，涵蓋了多達20種不同的編輯任務，從簡單的物體加入，到複雜的風格變換，確保能全面地檢驗每個模型的真實水平。EditVerseBench範例。 EditVerseBench包含200組編輯樣本，均勻分佈在20個編輯類別中，影片涵蓋橫向和縱向兩種方向。能力展示當想像力沒有邊界EditVerse不僅統一了工作流程，其編輯效果更是達到了業界頂尖水準，在人工評估（Human Evaluation）上更是超過了商業模式Runway Aleph。為了進行大規模、客觀的自動化評測，團隊從多個角度進行了各個模型的評測影片品質(Video Quality): 使用與人類美學高度相關的PickScore進行評分。文字對齊(Text Alignment): 分別在單幀和整個影片層面，計算編輯結果與文字指令的語意匹配度。時間一致性(Temporal Consistency): 透過計算相鄰影格之間的特徵相似度，來判斷影片是否流暢、無閃爍。視覺語言模型（VLM）GPT-4o評分（VLM Evaluation）：它會從指令遵循、編輯品質、背景一致性等多個角度為產生結果評分。在EditVerseBench基準測試上，EditVerse與現有主流方法進行了對比，結果顯示其全面領先於所有開源模型。更值得注意的是，在最符合人類偏好的VLM評分上，EditVerse超越了閉源商業模式Runway Aleph 。在EditVerseBench上的定量比較。對於開源研究模型，研究人員比較了兩種無需訓練的方法（TokenFlow和STDF）、一種首幀傳播方法（Señorita-2M），以及一種基於指令的影片編輯方法（InsV2V）。最佳結果以粗體標示。也提供了一個商業模式Runway Aleph的結果。儘管由於基礎模型的差異，EditVerse在生成品質上略遜於Runway Aleph，但EditVerse在編輯忠實度上（透過基於視覺語言模型的編輯品質評估）超越了它，與人類評估結果更加一致。在編輯領域，使用者的真實偏好最有說服力。在真人評測環節中，評測者在不知道模型來源的情況下，對不同模型產生的影片進行投票。結果再次印證了EditVerse的優勢：它不僅對開源模型取得了壓倒性的勝利（例如對InsV2V的勝率高達96.9%），面對商業模型Runway Aleph，也有51.7%的使用者認為EditVerse的效果更好。人類評估結果EditVerse的「湧現能力」從何而來？在測試過程中，研究人員發現了一個令人興奮的現象：EditVerse經常能完成一些它從未在視訊資料中學過的任務。例如，指令是「把烏龜變成水晶材質」或「給天空加上縮時攝影效果」，儘管它的視訊訓練集中並沒有這類“材質變換”或“特效加入”的專項資料，但模型依然能出色地完成。這種「無師自通」的能力，就是AI領域備受關注的「湧現能力」（Emergent Ability）。這背後的秘密，正是前文提到的那座「知識遷移的橋樑」在扮演關鍵角色。想像一下，EditVerse就像學徒，閱讀了600萬本關於「靜態繪畫」的頂級教材（圖片編輯資料），卻只看了28.8萬份關於「動態影像」的簡報（影片編輯資料）。然而，他從海量繪畫教材中學到了關於光影、構圖、材質、風格的深刻原則。當他處理動態影像時，他能將這些底層藝術原理靈活運用，從而「領悟」出影片中如何表現「水晶質感」或「天氣變化」，即便簡報裡從未提過。為了驗證這個猜想，團隊進行了一個關鍵的消融實驗：他們拿走那600萬本「繪畫教材」（即移除圖片編輯資料），只用影片資料來訓練模型。結果不出所料，新模型的影片編輯能力發生了斷崖式的下降。另外，團隊也發現，如果將影片產生訓練資料移除，模型效果同樣會下降，這說明了模型是從圖片編輯+影片產生兩者各取其長，湧現出了影片編輯的能力。關於訓練資料的消融研究。訓練資料消融實驗的可視化結果。圖像資料起到了關鍵作用。這項實驗無可辯駁地證明了：正是從海量、多樣化的圖像資料中汲取的深層知識，賦予了EditVerse在視訊領域舉一反三、觸類旁通的“湧現能力”。它甚至能創造出比其訓練資料更高品質的作品，因為它不是在死記硬背，而是在真正理解和創造。將EditVerse的生成結果與真實資料進行比較。結果顯示，EditVerse能夠透過從影像和影片產生資料中提取知識，產生品質超越真實資料。一個創作新紀元的開啟EditVerse的出現，其意義遠不止於一個強大的工具，它預示著一個全新的內容創作範式的到來，從分離到統一，從繁瑣到簡潔。EditVerse正在做的，是將專業級的視覺編輯能力，真正普及給每一個有創意的人。（新智元）