#AI影片
超越Runway! Adobe發佈新神器:P影片比P圖還簡單
全新AI工具EditVerse將圖片和影片編輯整合到一個框架中,讓你像P圖一樣輕鬆P影片。透過統一的通用視覺語言和上下文學習能力,EditVerse解決了傳統影片編輯複雜、資料稀缺的問題,也能實現罕見的「湧現能力」。在效果上,它甚至超越了商業工具Runway,預示著一個創作新紀元​​的到來。你是否曾有過這樣的經驗:用Hunyuan- Image、nano-banana等各類AI軟體修圖已經得心應手,但面對影片編輯,卻需要打開有著複雜時間軸和特效面板的影片剪輯軟體(PR/FCPX),瞬間感覺「我不會了」。圖片編輯和影片編輯,彷彿是兩個次元的技能樹。但如果,有一個工具,能讓你像P圖一樣P影片呢?今天,這個顛覆性的工具來了!由香港中文大學、Adobe Research、約翰霍普金斯大學的研究員們聯合推出的EditVerse,是一個劃時代的AI模型,徹底打破了圖片和視訊創作之間的壁壘,用一個統一的框架,實現了對圖像和視訊的自由編輯與生成 。論文連結:https://arxiv.org/abs/2509.20360專案首頁:http://editverse.s3-website-us-east-1.amazonaws.com/測試程式碼:https://github.com/adobe-research/EditVerse完整結果:http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html無論是生成音樂音符特效,還是為跳舞的人物加上一對閃亮的翅膀,你只需要輸入一句話,EditVerse就能幫你實現。「資料孤島」影片編輯為何如此之難?長期以來,AI影片編輯的發展遠遠落後於圖片編輯。究其原因,主要有兩大「天塹」:架構的「隔閡」:傳統的AI模型,要嘛是專為圖片設計的,要嘛是專為影片設計的。想讓一個圖片編輯模型去處理視訊,或者反之,都極其困難,需要複雜的魔改和適配。這導致了工具的碎片化。資料的「饑荒」:高品質的、「編輯指令-編輯後」配對的影片資料集極為稀少。相較於數以億計的影像編輯資料,影片領域的「養分」嚴重不足,這大大限制了AI的學習和進化。這些難題,使得過去的AI影片編輯工具要麼功能單一,要麼效果不盡人意,始終無法像圖片編輯那樣靈活和強大。EditVerse的「破壁」之道EditVerse的革命性,在於它用一套全新的「世界觀」和方法論,同時解決了架構和資料的雙重難題。核心思想一:創造一種「通用視覺語言」EditVerse交錯文字與視覺模式的範例。 EditVerse 能夠處理任意解析度、長度和順序位置的影像與視訊輸入和輸出。EditVerse做的第一件事,就是教會AI用同一種方式去「閱讀」世界上所有的視覺訊息。它創新地將文字、圖片、影片全部轉換成一種統一的、一維的「資料流」(Token序列) 。這就像是發明了一種「世界語」,讓原本說著不同方言(圖片編碼vs 視訊編碼)的AI,現在可以用同一種語言進行交流和思考。核心思想二:強大的「上下文學習能力」EditVerse 模型結構。研究人員設計了一個統一的圖像和視訊編輯與生成框架,將文字與視覺輸入處理為統一的序列。圖中右側展示了位置資訊編碼設計(RoPE位置編碼)。該框架利用全自注意力機制,以促進強大的上下文學習能力,並實現跨模態的高效知識遷移。有了「通用語言」後,EditVerse採用了一個基於全自注意力機制(Full Self-attention)的強大Transformer架構。透過將所有資訊流在序列維度拼接在一起,EditVerse模型可以直接透過attention的上下文學習能力將不同圖片、影片和文字中的資訊關聯起來。你可以把它想像成一位「上下文學習大師」,它能一口氣讀完包含指令、原始畫面的整段「資料流」,並精準地理解其中每個部分之間的關聯。例如「把【影片1】左邊女人的裙子變成【圖2】中的裙子」 ,全注意力機制能精準地將文字指令、影片中的特定人物和圖片中的服裝關聯起來。同時,這種設計使得EditVerse能夠靈活處理任意解析度、任意時長的輸入,真正做到了「隨心所欲」 。核心思想三:搭建一座「知識遷移的橋樑」這正是EditVerse最巧妙的地方。因為它使用一套統一的框架同時處理圖片和視訊,所以它能將在海量的圖片編輯資料中學到的知識(比如什麼是“火焰特效”、“水彩畫風格”),無縫遷移並應用到視訊編輯任務中 。這座「知識橋樑」大大緩解了視訊資料稀少的問題,讓模型能夠舉一反三,展現出驚人的創造力和泛化能力。訓練資料與首個多解析度影片編輯評測基準光有聰明的「大腦」(模型架構)還不夠,還需要大量的「知識」(訓練資料)和公平的「考官」(評測基準)。面對影片編輯資料稀缺的困境,EditVerse團隊首先建立了一條可擴展的資料生產線。他們利用各種先進的專用AI模型,先自動產生大量的影片編輯樣本(例如物件移除、風格轉換等),然後透過一個視覺語言模型(VLM)進行評分和篩選,最終精選出23.2萬個高品質的影片編輯樣本用於訓練。這批影片編輯資料,與600萬圖像編輯樣本、390萬視訊生成樣本、190萬圖像生成樣本等海量資料混合在一起,共同訓練EditVerse,從而使模型擁有更好的知識遷移理解能力。此外,為了科學、公正地評估模型的能力,團隊也推出了業界首個針對指令式影片編輯的綜合性評測基準——EditVerseBench 。這個評測基準包含了100個不同解析度的視訊,涵蓋了多達20種不同的編輯任務,從簡單的物體加入,到複雜的風格變換,確保能全面地檢驗每個模型的真實水平。EditVerseBench範例。 EditVerseBench包含200組編輯樣本,均勻分佈在20個編輯類別中,影片涵蓋橫向和縱向兩種方向。能力展示當想像力沒有邊界EditVerse不僅統一了工作流程,其編輯效果更是達到了業界頂尖水準,在人工評估(Human Evaluation)上更是超過了商業模式Runway Aleph。為了進行大規模、客觀的自動化評測,團隊從多個角度進行了各個模型的評測影片品質(Video Quality): 使用與人類美學高度相關的PickScore進行評分。文字對齊(Text Alignment): 分別在單幀和整個影片層面,計算編輯結果與文字指令的語意匹配度。時間一致性(Temporal Consistency): 透過計算相鄰影格之間的特徵相似度,來判斷影片是否流暢、無閃爍。視覺語言模型(VLM)GPT-4o評分(VLM Evaluation) :它會從指令遵循、編輯品質、背景一致性等多個角度為產生結果評分。在EditVerseBench基準測試上,EditVerse與現有主流方法進行了對比,結果顯示其全面領先於所有開源模型。更值得注意的是,在最符合人類偏好的VLM評分上,EditVerse超越了閉源商業模式Runway Aleph 。在EditVerseBench上的定量比較。對於開源研究模型,研究人員比較了兩種無需訓練的方法(TokenFlow和STDF)、一種首幀傳播方法(Señorita-2M),以及一種基於指令的影片編輯方法(InsV2V)。最佳結果以粗體標示。也提供了一個商業模式Runway Aleph的結果。儘管由於基礎模型的差異,EditVerse在生成品質上略遜於Runway Aleph,但EditVerse在編輯忠實度上(透過基於視覺語言模型的編輯品質評估)超越了它,與人類評估結果更加一致。在編輯領域,使用者的真實偏好最有說服力。在真人評測環節中,評測者在不知道模型來源的情況下,對不同模型產生的影片進行投票。結果再次印證了EditVerse的優勢:它不僅對開源模型取得了壓倒性的勝利(例如對InsV2V的勝率高達96.9%),面對商業模型Runway Aleph,也有51.7%的使用者認為EditVerse的效果更好 。人類評估結果EditVerse的「湧現能力」從何而來?在測試過程中,研究人員發現了一個令人興奮的現象:EditVerse經常能完成一些它從未在視訊資料中學過的任務。例如,指令是「把烏龜變成水晶材質」或「給天空加上縮時攝影效果」,儘管它的視訊訓練集中並沒有這類“材質變換”或“特效加入”的專項資料,但模型依然能出色地完成。這種「無師自通」的能力,就是AI領域備受關注的「湧現能力」(Emergent Ability)。這背後的秘密,正是前文提到的那座「知識遷移的橋樑」在扮演關鍵角色。想像一下,EditVerse就像學徒,閱讀了600萬本關於「靜態繪畫」的頂級教材(圖片編輯資料),卻只看了28.8萬份關於「動態影像」的簡報(影片編輯資料) 。然而,他從海量繪畫教材中學到了關於光影、構圖、材質、風格的深刻原則。當他處理動態影像時,他能將這些底層藝術原理靈活運用,從而「領悟」出影片中如何表現「水晶質感」或「天氣變化」,即便簡報裡從未提過。為了驗證這個猜想,團隊進行了一個關鍵的消融實驗:他們拿走那600萬本「繪畫教材」(即移除圖片編輯資料),只用影片資料來訓練模型。結果不出所料,新模型的影片編輯能力發生了斷崖式的下降 。另外,團隊也發現,如果將影片產生訓練資料移除,模型效果同樣會下降,這說明了模型是從圖片編輯+影片產生兩者各取其長,湧現出了影片編輯的能力。關於訓練資料的消融研究。訓練資料消融實驗的可視化結果。圖像資料起到了關鍵作用。這項實驗無可辯駁地證明了:正是從海量、多樣化的圖像資料中汲取的深層知識,賦予了EditVerse在視訊領域舉一反三、觸類旁通的“湧現能力”。它甚至能創造出比其訓練資料更高品質的作品,因為它不是在死記硬背,而是在真正理解和創造。將EditVerse的生成結果與真實資料進行比較。結果顯示,EditVerse能夠透過從影像和影片產生資料中提取知識,產生品質超越真實資料。一個創作新紀元​​的開啟EditVerse的出現,其意義遠不止於一個強大的工具,它預示著一個全新的內容創作範式的到來,從分離到統一,從繁瑣到簡潔。EditVerse正在做的,是將專業級的視覺編輯能力,真正普及給每一個有創意的人。 (新智元)
字節大佬創業,40天狂攬5.2億人民幣融資!產品超1億人在玩
前字節大佬狂拿5.2億融資! AI產品使用者已超1億。智東西10月17日報導,今日,AI視訊企業愛詩科技宣佈完成1億元人民幣B+輪融資,由復星銳正、同創偉業、順禧基金等共同投資。此前9月10日,愛詩科技剛完成B輪融資,總金額超過6000萬美元(約合人民幣4.27億元)。本輪融資由阿里巴巴領投,達晨財智、深創投、北京市AI基金、湖南電廣傳媒、巨人網路和Antler跟投,創下國內視訊生成領域單次最大融資額。愛詩科技成立於2023年4月,專注於AI影片生成大模型及相關產品的研發應用,是國內首家發表DiT架構影片生成模式的新創公司。愛詩科技創辦人兼CEO王長虎,曾任字節跳動視覺技術負責人,曾從0到1參與抖音與TikTok等產品的視覺能力建構。加入字節前,他曾在微軟亞洲研究院和新加坡國立大學擔任研究職位。▲愛詩科技創辦人兼CEO王長虎的個人首頁愛詩科技官方資料顯示,公司旗下產品使用者規模已突破1億,年度經常性收入(ARR)超過4000萬美元(約2.85億元),產品MAU超過1600萬。公司自2024年11月商業化至今,不到一年時間收入成長超過10倍,是過去一年全球營收和使用者成長最快的AI平台之一。2024年1月,愛詩科技以海外市場推出首款產品PixVerse,以範本化影片生成為主要特色。 2025年6月,該公司又推出了國內使用者的「拍我AI」。截至目前,其自研影片產生大模型已完成五次重要更新,共發佈八個版本。最新版本PixVerse V5已於8月27日上線,重點最佳化了動態表現、畫面清晰度、一致性處理與指令回應能力。同時上線的還有Agent創作助手,幫助使用者簡化創作流程,無需複雜提示詞即可製作影片。▲拍我AI(PixVerse)首頁截圖地址:https://pai.video/PixVerse在9月入選了a16z 「全球Top 50生成式AI消費級行動應用」榜單第25名。根據數據機構AIGCRank資料,PixVerse9月網站造訪量成長超過26.91%。▲全球Top 50生成式AI消費行動應用(圖源:a16z)在今年兩次融資之前,愛詩科技於2023年8月完成數千萬元人民幣天使輪融資。 2024年,該公司相繼完成A2至A4輪融資,累計金額近3億元。 A2輪由螞蟻集團投資,A3與A4輪則獲得北京市人工智慧產業投資基金、國科投資、光源資本等機構支援。 (智東西)
想輕鬆把照片轉影片?找這個 AI 工具就對了!
想在這個影片主導的時代輕鬆製作動態內容?AI 技術的出現,正正協助我們輕鬆簡單製作影片。透過Vidwud AI,我們不再需要花大量時間去設計或剪片,只需提供一張照片或一句文字描述,系統就能自動生成視覺吸引人的影片內容,大幅節省時間與資源,同時提升創作效率與品質。什麼是 AI 照片轉影片工具?AI 照片轉影片工具是一種利用人工智慧技術,將靜態影像或文字輸入自動轉換為影片內容的線上工具。傳統的影片製作需要剪輯、動態設計、音樂搭配,對許多人來說門檻很高。而 AI 工具的優勢,就是自動化、快速且不需專業技能,特別適合想輕鬆完成短片的人。圖源 Vidwud AI 官網為什麼要用AI 照片轉影片功能?無論您是經營品牌、熱愛創作,還是單純想留下生活的美好片段,將照片變影片,都能在多種情境中發揮極大效用,讓內容表達更加生動、專業又有情感溫度:把靜態畫面以動態呈現:動態影片更能吸引目光與延長停留時間。透過轉場、動畫、配樂的加持,即便是平凡的照片也能瞬間變得有故事、有感覺。提升情感表達與說服力:影片比圖片更容易傳遞情緒。透過動態呈現與音效搭配,一張親人的合照可以變成感人生日祝福影片;一組產品照,也能講述一段品牌故事。更適合在多平台分享與推廣:現今的社群平台(如 Facebook、IG、YouTube Shorts等)偏好影片內容。將照片轉成影片,能提高觸及率與互動率,是內容行銷的一大關鍵。節省成本與時間:若請專人製作影片,無論是拍攝、剪輯還是配音,都是一筆不小的成本。利用AI 照片轉影片工具,只需上傳照片或輸入文字,即可快速生成影片,省時又省力。利用 AI 把照片變影像是現代較低成本且快捷的做法。如何使用 Vidwud AI 製作短片?Vidwud AI 影像轉影片工具簡單易用,甚至不需要下載,在網頁上就可以透過以下3個步驟把照片變影片:1. 上載照片或輸入文字按中間加號上傳照片,Vidwud AI 支援 JPG、PNG、WEBP 圖片格式。同時您也可以直接輸入文字描述或標題內容。2. 生成影片上傳後按「生成影片」,系統將根據輸入內容轉化為動畫,幾分鐘便能完成。閱覽影片並滿意後,並可以直接下載到您的裝置或分享到社交媒體。Vidwud AI 照片轉影片工具的特色:100% 免費使用:無需付費即可享受完整功能。直覺操作介面:無需學習成本,初次使用者也能輕鬆上手。支援多語言輸入:無論中文、英文或其他語言皆可使用。商業友好:生成影片可合法用於商業推廣、簡報、廣告等場景。支援文字轉影片:除了圖片,也能用一句話生成動態影片,應用更彈性。高品質輸出:轉場流暢、畫面色彩豐富,視覺效果佳。結論AI時代之前,影片製作是專業領域,並需要剪輯師與美術設計師花大量時間製作。但現在,AI 工具如 Vidwud AI 的出現,讓這一切變得平民化與自動化。無論您是要做行銷內容、社群影片,還是單純分享個人回憶,都能在幾分鐘內完成高質感的影片創作。別再被複雜的影片軟體綁住手腳,馬上開始使用AI幫助您製作動態影片吧!