#影片
超越Runway! Adobe發佈新神器:P影片比P圖還簡單
全新AI工具EditVerse將圖片和影片編輯整合到一個框架中,讓你像P圖一樣輕鬆P影片。透過統一的通用視覺語言和上下文學習能力,EditVerse解決了傳統影片編輯複雜、資料稀缺的問題,也能實現罕見的「湧現能力」。在效果上,它甚至超越了商業工具Runway,預示著一個創作新紀元​​的到來。你是否曾有過這樣的經驗:用Hunyuan- Image、nano-banana等各類AI軟體修圖已經得心應手,但面對影片編輯,卻需要打開有著複雜時間軸和特效面板的影片剪輯軟體(PR/FCPX),瞬間感覺「我不會了」。圖片編輯和影片編輯,彷彿是兩個次元的技能樹。但如果,有一個工具,能讓你像P圖一樣P影片呢?今天,這個顛覆性的工具來了!由香港中文大學、Adobe Research、約翰霍普金斯大學的研究員們聯合推出的EditVerse,是一個劃時代的AI模型,徹底打破了圖片和視訊創作之間的壁壘,用一個統一的框架,實現了對圖像和視訊的自由編輯與生成 。論文連結:https://arxiv.org/abs/2509.20360專案首頁:http://editverse.s3-website-us-east-1.amazonaws.com/測試程式碼:https://github.com/adobe-research/EditVerse完整結果:http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html無論是生成音樂音符特效,還是為跳舞的人物加上一對閃亮的翅膀,你只需要輸入一句話,EditVerse就能幫你實現。「資料孤島」影片編輯為何如此之難?長期以來,AI影片編輯的發展遠遠落後於圖片編輯。究其原因,主要有兩大「天塹」:架構的「隔閡」:傳統的AI模型,要嘛是專為圖片設計的,要嘛是專為影片設計的。想讓一個圖片編輯模型去處理視訊,或者反之,都極其困難,需要複雜的魔改和適配。這導致了工具的碎片化。資料的「饑荒」:高品質的、「編輯指令-編輯後」配對的影片資料集極為稀少。相較於數以億計的影像編輯資料,影片領域的「養分」嚴重不足,這大大限制了AI的學習和進化。這些難題,使得過去的AI影片編輯工具要麼功能單一,要麼效果不盡人意,始終無法像圖片編輯那樣靈活和強大。EditVerse的「破壁」之道EditVerse的革命性,在於它用一套全新的「世界觀」和方法論,同時解決了架構和資料的雙重難題。核心思想一:創造一種「通用視覺語言」EditVerse交錯文字與視覺模式的範例。 EditVerse 能夠處理任意解析度、長度和順序位置的影像與視訊輸入和輸出。EditVerse做的第一件事,就是教會AI用同一種方式去「閱讀」世界上所有的視覺訊息。它創新地將文字、圖片、影片全部轉換成一種統一的、一維的「資料流」(Token序列) 。這就像是發明了一種「世界語」,讓原本說著不同方言(圖片編碼vs 視訊編碼)的AI,現在可以用同一種語言進行交流和思考。核心思想二:強大的「上下文學習能力」EditVerse 模型結構。研究人員設計了一個統一的圖像和視訊編輯與生成框架,將文字與視覺輸入處理為統一的序列。圖中右側展示了位置資訊編碼設計(RoPE位置編碼)。該框架利用全自注意力機制,以促進強大的上下文學習能力,並實現跨模態的高效知識遷移。有了「通用語言」後,EditVerse採用了一個基於全自注意力機制(Full Self-attention)的強大Transformer架構。透過將所有資訊流在序列維度拼接在一起,EditVerse模型可以直接透過attention的上下文學習能力將不同圖片、影片和文字中的資訊關聯起來。你可以把它想像成一位「上下文學習大師」,它能一口氣讀完包含指令、原始畫面的整段「資料流」,並精準地理解其中每個部分之間的關聯。例如「把【影片1】左邊女人的裙子變成【圖2】中的裙子」 ,全注意力機制能精準地將文字指令、影片中的特定人物和圖片中的服裝關聯起來。同時,這種設計使得EditVerse能夠靈活處理任意解析度、任意時長的輸入,真正做到了「隨心所欲」 。核心思想三:搭建一座「知識遷移的橋樑」這正是EditVerse最巧妙的地方。因為它使用一套統一的框架同時處理圖片和視訊,所以它能將在海量的圖片編輯資料中學到的知識(比如什麼是“火焰特效”、“水彩畫風格”),無縫遷移並應用到視訊編輯任務中 。這座「知識橋樑」大大緩解了視訊資料稀少的問題,讓模型能夠舉一反三,展現出驚人的創造力和泛化能力。訓練資料與首個多解析度影片編輯評測基準光有聰明的「大腦」(模型架構)還不夠,還需要大量的「知識」(訓練資料)和公平的「考官」(評測基準)。面對影片編輯資料稀缺的困境,EditVerse團隊首先建立了一條可擴展的資料生產線。他們利用各種先進的專用AI模型,先自動產生大量的影片編輯樣本(例如物件移除、風格轉換等),然後透過一個視覺語言模型(VLM)進行評分和篩選,最終精選出23.2萬個高品質的影片編輯樣本用於訓練。這批影片編輯資料,與600萬圖像編輯樣本、390萬視訊生成樣本、190萬圖像生成樣本等海量資料混合在一起,共同訓練EditVerse,從而使模型擁有更好的知識遷移理解能力。此外,為了科學、公正地評估模型的能力,團隊也推出了業界首個針對指令式影片編輯的綜合性評測基準——EditVerseBench 。這個評測基準包含了100個不同解析度的視訊,涵蓋了多達20種不同的編輯任務,從簡單的物體加入,到複雜的風格變換,確保能全面地檢驗每個模型的真實水平。EditVerseBench範例。 EditVerseBench包含200組編輯樣本,均勻分佈在20個編輯類別中,影片涵蓋橫向和縱向兩種方向。能力展示當想像力沒有邊界EditVerse不僅統一了工作流程,其編輯效果更是達到了業界頂尖水準,在人工評估(Human Evaluation)上更是超過了商業模式Runway Aleph。為了進行大規模、客觀的自動化評測,團隊從多個角度進行了各個模型的評測影片品質(Video Quality): 使用與人類美學高度相關的PickScore進行評分。文字對齊(Text Alignment): 分別在單幀和整個影片層面,計算編輯結果與文字指令的語意匹配度。時間一致性(Temporal Consistency): 透過計算相鄰影格之間的特徵相似度,來判斷影片是否流暢、無閃爍。視覺語言模型(VLM)GPT-4o評分(VLM Evaluation) :它會從指令遵循、編輯品質、背景一致性等多個角度為產生結果評分。在EditVerseBench基準測試上,EditVerse與現有主流方法進行了對比,結果顯示其全面領先於所有開源模型。更值得注意的是,在最符合人類偏好的VLM評分上,EditVerse超越了閉源商業模式Runway Aleph 。在EditVerseBench上的定量比較。對於開源研究模型,研究人員比較了兩種無需訓練的方法(TokenFlow和STDF)、一種首幀傳播方法(Señorita-2M),以及一種基於指令的影片編輯方法(InsV2V)。最佳結果以粗體標示。也提供了一個商業模式Runway Aleph的結果。儘管由於基礎模型的差異,EditVerse在生成品質上略遜於Runway Aleph,但EditVerse在編輯忠實度上(透過基於視覺語言模型的編輯品質評估)超越了它,與人類評估結果更加一致。在編輯領域,使用者的真實偏好最有說服力。在真人評測環節中,評測者在不知道模型來源的情況下,對不同模型產生的影片進行投票。結果再次印證了EditVerse的優勢:它不僅對開源模型取得了壓倒性的勝利(例如對InsV2V的勝率高達96.9%),面對商業模型Runway Aleph,也有51.7%的使用者認為EditVerse的效果更好 。人類評估結果EditVerse的「湧現能力」從何而來?在測試過程中,研究人員發現了一個令人興奮的現象:EditVerse經常能完成一些它從未在視訊資料中學過的任務。例如,指令是「把烏龜變成水晶材質」或「給天空加上縮時攝影效果」,儘管它的視訊訓練集中並沒有這類“材質變換”或“特效加入”的專項資料,但模型依然能出色地完成。這種「無師自通」的能力,就是AI領域備受關注的「湧現能力」(Emergent Ability)。這背後的秘密,正是前文提到的那座「知識遷移的橋樑」在扮演關鍵角色。想像一下,EditVerse就像學徒,閱讀了600萬本關於「靜態繪畫」的頂級教材(圖片編輯資料),卻只看了28.8萬份關於「動態影像」的簡報(影片編輯資料) 。然而,他從海量繪畫教材中學到了關於光影、構圖、材質、風格的深刻原則。當他處理動態影像時,他能將這些底層藝術原理靈活運用,從而「領悟」出影片中如何表現「水晶質感」或「天氣變化」,即便簡報裡從未提過。為了驗證這個猜想,團隊進行了一個關鍵的消融實驗:他們拿走那600萬本「繪畫教材」(即移除圖片編輯資料),只用影片資料來訓練模型。結果不出所料,新模型的影片編輯能力發生了斷崖式的下降 。另外,團隊也發現,如果將影片產生訓練資料移除,模型效果同樣會下降,這說明了模型是從圖片編輯+影片產生兩者各取其長,湧現出了影片編輯的能力。關於訓練資料的消融研究。訓練資料消融實驗的可視化結果。圖像資料起到了關鍵作用。這項實驗無可辯駁地證明了:正是從海量、多樣化的圖像資料中汲取的深層知識,賦予了EditVerse在視訊領域舉一反三、觸類旁通的“湧現能力”。它甚至能創造出比其訓練資料更高品質的作品,因為它不是在死記硬背,而是在真正理解和創造。將EditVerse的生成結果與真實資料進行比較。結果顯示,EditVerse能夠透過從影像和影片產生資料中提取知識,產生品質超越真實資料。一個創作新紀元​​的開啟EditVerse的出現,其意義遠不止於一個強大的工具,它預示著一個全新的內容創作範式的到來,從分離到統一,從繁瑣到簡潔。EditVerse正在做的,是將專業級的視覺編輯能力,真正普及給每一個有創意的人。 (新智元)
字節大佬創業,40天狂攬5.2億人民幣融資!產品超1億人在玩
前字節大佬狂拿5.2億融資! AI產品使用者已超1億。智東西10月17日報導,今日,AI視訊企業愛詩科技宣佈完成1億元人民幣B+輪融資,由復星銳正、同創偉業、順禧基金等共同投資。此前9月10日,愛詩科技剛完成B輪融資,總金額超過6000萬美元(約合人民幣4.27億元)。本輪融資由阿里巴巴領投,達晨財智、深創投、北京市AI基金、湖南電廣傳媒、巨人網路和Antler跟投,創下國內視訊生成領域單次最大融資額。愛詩科技成立於2023年4月,專注於AI影片生成大模型及相關產品的研發應用,是國內首家發表DiT架構影片生成模式的新創公司。愛詩科技創辦人兼CEO王長虎,曾任字節跳動視覺技術負責人,曾從0到1參與抖音與TikTok等產品的視覺能力建構。加入字節前,他曾在微軟亞洲研究院和新加坡國立大學擔任研究職位。▲愛詩科技創辦人兼CEO王長虎的個人首頁愛詩科技官方資料顯示,公司旗下產品使用者規模已突破1億,年度經常性收入(ARR)超過4000萬美元(約2.85億元),產品MAU超過1600萬。公司自2024年11月商業化至今,不到一年時間收入成長超過10倍,是過去一年全球營收和使用者成長最快的AI平台之一。2024年1月,愛詩科技以海外市場推出首款產品PixVerse,以範本化影片生成為主要特色。 2025年6月,該公司又推出了國內使用者的「拍我AI」。截至目前,其自研影片產生大模型已完成五次重要更新,共發佈八個版本。最新版本PixVerse V5已於8月27日上線,重點最佳化了動態表現、畫面清晰度、一致性處理與指令回應能力。同時上線的還有Agent創作助手,幫助使用者簡化創作流程,無需複雜提示詞即可製作影片。▲拍我AI(PixVerse)首頁截圖地址:https://pai.video/PixVerse在9月入選了a16z 「全球Top 50生成式AI消費級行動應用」榜單第25名。根據數據機構AIGCRank資料,PixVerse9月網站造訪量成長超過26.91%。▲全球Top 50生成式AI消費行動應用(圖源:a16z)在今年兩次融資之前,愛詩科技於2023年8月完成數千萬元人民幣天使輪融資。 2024年,該公司相繼完成A2至A4輪融資,累計金額近3億元。 A2輪由螞蟻集團投資,A3與A4輪則獲得北京市人工智慧產業投資基金、國科投資、光源資本等機構支援。 (智東西)
改變了007影片風格的特工系列!終於要出第六部?導演透漏《諜影重重6》最新進展!馬特·達蒙是否回歸?
🎬《諜影重重6》來了?導演親自回應,馬特·達蒙回歸成最大懸念🎥 導演最新發聲:仍在開發中距離奧斯卡獲獎導演 愛德華·貝爾格(Edward Berger) 確認執導《諜影重重6》已近兩年。近日,他在宣傳新片《小人物之歌》時,接受《好萊塢報導》採訪,首次談到了項目進展:“我正在開發一部《伯恩》的電影,如果馬特願意演,我就會拍。”貝爾格強調,《諜影重重6》必須“帶來新東西”,不能只是簡單重複過往套路。他希望能打造一部大製作、既昂貴又有趣的商業電影,但前提是馬特·達蒙點頭回歸。🕵️ 馬特·達蒙能否回歸?自 2002 年在《諜影重重1》中首次飾演傑森·伯恩以來,馬特·達蒙幾乎與這個角色融為一體。他曾暗示過“有興趣回歸”,但目前尚無官方確認。事實證明,《諜影重重》系列在嘗試脫離達蒙時(《諜影重重4》引入傑瑞米·雷納的新角色)表現平平,也說明達蒙就是該系列的靈魂。沒有他的《諜影重重6》,很難讓影迷買帳。📚 諜影重重1-5:劇情回顧《諜影重重1》(The Bourne Identity,2002)在地中海漁船上被救起的失憶男子傑森·伯恩,身體裡藏著寫有瑞士銀行帳號的雷射裝置。他逐漸發現自己是一名 CIA 秘密計畫“Treadstone”的頂級殺手,卻完全不記得過去的任務。為了生存,他攜手瑪麗(弗蘭卡·波坦特飾)一邊逃亡,一邊尋找身份真相。影片結尾,伯恩選擇與瑪麗隱居。《諜影重重2》(The Bourne Supremacy,2004)伯恩與瑪麗在隱居,但CIA內部陰謀使他再次被追殺。一次突襲中,瑪麗遭遇槍殺,這徹底點燃了伯恩的復仇之心。他開始主動出擊,揭露陰謀,並直面對手。影片中,伯恩展現了極高的戰術能力與生存智慧,也逐漸逼近自己身世的真相。《諜影重重3》(The Bourne Ultimatum,2007)伯恩的旅程走向終點。他繼續背後的真相,逐步揭開 CIA 計畫“Treadstone”與“黑荊棘”(Blackbriar)的內幕。他意識到自己自願加入計畫,卻被洗腦與操控。影片結尾,他跳入河中,象徵著徹底擺脫 CIA 的控制,也完成了個人救贖。至此,三部曲形成完整閉環。《諜影重重4》(The Bourne Legacy,2012)這部作品嚐試脫離伯恩主線,聚焦另一位特工——亞倫·克羅斯(傑瑞米·雷納飾)。影片揭示了“Treadstone”之外,CIA 還有更多秘密基因改造計畫。雖然動作場面依舊精彩,影片質量尚可,但缺少達蒙飾演的伯恩,讓影迷感到割裂,影響了口碑。《諜影重重5》(Jason Bourne,2016)伯恩已經恢復記憶,過著隱姓埋名的生活。然而,他發現父親當年與 CIA 的淵源,以及自己被操縱加入計畫的秘密。與此同時,CIA 新一代高層試圖控制他,甚至利用網路監控與巨量資料追蹤伯恩。最終,伯恩再次化解危機,卻依舊選擇獨自離開,將故事推向新的階段。👉 整體來看,《諜影重重1-3》部構成傑森·伯恩的經典三部曲,完整講述了“失憶殺手”尋找自我與自由的過程;第4部是支線擴展嘗試;第5部則是達蒙回歸後的“續寫篇”,為未來的《諜影重重6》留下了伏筆。🌍 對間諜片的深遠影響《諜影重重》系列用 寫實、冷峻、緊張 的敘事方式,徹底改變了間諜電影的風格。相比花哨炫目的特工片,它更注重真實感和人物掙扎。這一風格甚至影響到了 007 系列:自《皇家賭場》(2006)起,詹姆斯·邦德的塑造明顯更貼近伯恩的硬朗和寫實路線。可以說,《諜影重重》開啟了現代間諜片的“硬核寫即時代”。🙌 粉絲心聲:沒有達蒙,就沒有伯恩時隔多年,《諜影重重6》的消息終於傳來,但是否能成行,仍取決於馬特·達蒙能否回歸。對於無數影迷而言,他飾演的傑森·伯恩不僅是該系列的代表,更是動作電影史上不可替代的標誌性角色。粉絲們都在等待一個答案:👉 達蒙是否會再度演繹那個在黑夜中奔跑、與世界對抗的傑森·伯恩?《諜影重重6》已經吊足了觀眾胃口,而粉絲們的心聲很統一:“沒有達蒙,就沒有真正的伯恩!”(知謎筆記)
《731》首日破億!黑龍江省委書記、省政協主席現場觀看
9月17日,重大歷史題材影片《731》全球首映活動在黑龍江省哈爾濱市舉行。黑龍江省委書記、省人大常委會主任許勤,省政協主席藍紹敏等出席。據網路平台資料,截至9月17日20時08分,影片《731》首日(9月18日)預售票房突破1億,預售場次已超23.6萬場,大盤佔比近7成,超過《復仇者聯盟4:終局之戰》,成為中國影史上映首日場次冠軍,同時也是今年春節檔後首部首日預售票房破億影片。電影《731》由黑龍江省委宣傳部、山東省委宣傳部、吉林省委宣傳部、哈爾濱市委宣傳部、青島市委宣傳部聯合製作,長春電影集團、哈爾濱市演藝影視集團等聯合出品,將於9月18日起在全球多地上映。影片通過嚴謹的史料考證與影像敘事,講述了侵華日軍第七三一部隊在哈爾濱平房區以“給水防疫”為名,大肆抓捕平民進行活體實驗,秘密進行慘無人道的細菌戰研究的歷史真相,以平民視角揭露日軍反人類的滔天罪行、還原侵華戰爭給中華民族帶來的深重苦難、展現絕境下中國人民頑強不屈的精神品質,激勵我們弘揚偉大抗戰精神,銘記歷史、珍愛和平、開創未來,為實現強國建設、民族復興偉業團結奮鬥。觀影前,許勤等省領導看望慰問了導演趙林山,總製片人張望,主演姜武、李乃文、孫茜、林子燁、李善玉等主創人員。觀影前,許勤等省領導看望慰問了影片主創人員觀影后,影片主創團隊與現場觀眾進行了交流互動。該片導演趙林山接受採訪表示,影片試圖用光影的力量讓被沉默的證據“說話”,透過塵封的歷史重新窺見個體的命運與情感。趙林山介紹,影片團隊進行了6年的跨國取證,在歷史與細節的縫隙中發現“謊言才更可怕”。電影中呈現的“健康換取自由”“天皇親善”“食物寶貴”等謊言表述,都是基於史料研究中發現的端倪。“這在人類歷史上是一個至暗時刻。”趙林山說,“我們以銘記之名回望歷史,不是為了揭開疼痛的傷疤,而是要讓和平的光照耀在人類文明的征途上。”對於為什麼選擇當下這個時間節點推齣電影《731》,以及希望通過電影傳遞什麼資訊,趙林山表示,通過電影更想凝聚社會力量,達成社會共識,“對於731的史實挖掘和史實追證僅僅是一個開端,通過揭露這樣的罪行希望團結更多熱愛和平的人士,將這段歷史能夠形成全世界、全民族、全人類的記憶”。趙林山稱:“我們以銘記之名回望歷史,不是為了揭開疼痛的傷疤,而是要讓和平的光照耀在人類文明的征途上。”部分現職省級領導同志和離退休省級老同志,中國人民抗日戰爭勝利80周年紀念章獲得者親屬代表,大國工匠、最美職工、少數民族、退役軍人、歸僑僑眷、駐省部隊官兵代表,中直單位、新聞媒體代表,企業、社會組織、高校和科研院所代表,省直及哈爾濱市機關幹部代表,影片出品方、主創團隊等參加首映活動並一同觀影。 (傳媒圈)
暴漲 600 萬粉,現在的新晉網紅,變樣了...
短影片迅速發展這幾年,已經把觀眾培養成視訊前幾秒不夠吸引人,就立馬劃走的觀看習慣了。俗稱 “ 三秒定生死 ”。也正因如此,這兩年短影片平台起號的門檻越來越高了。直接表現就是,最近刷到新晉流量博主爆火的內容,能直觀感受到沒以往多了。這兩個月,以某音短影片平台為例,表現比較突出的新晉網紅是一位叫 “混子哥邊畫邊講 ” (以下簡稱混子哥)的博主。兩個月時間,發佈 20 余條視訊內容,暴漲 600 萬粉絲。不知道你們刷到過沒?這是一位長相樸實,沒有擦邊也沒有跳舞內容的 80 後大哥。視訊裡就是固定拿著一隻馬克筆,在一塊小白板上邊畫漫畫、邊講歷史科學等知識的固定內容。因為趣味科普,迅速漲粉。不少網友在他的視訊內容下面評論:“ 讀書的時候(老師)要是這麼教,沒有學不會的。 ”甚至還有不少網友直接催更。需要補充的是,這位新晉流量博主的走紅,實際上是厚積薄髮型。看了下網上有關他的介紹,只能說混子哥本就不是普通人的大多數。混子哥本是機械專業出身,之前是汽車設計師,在他 30 歲那年辭職開始做 “ 知識漫畫化 ” ,即科普作家、漫畫創作者,比較有代表性的,就是他《半小時漫畫》系列銷量突破了 2500 萬冊。所以如果你要是對他沒印象的話,那表面上看他現在遊刃有餘的用一支筆、一塊板跟網友講五代十國、講 “ 魑魅魍魎 ” 的區別,其實人家只是把過去過年沉澱下來的內容以短影片的形式複製出來了而已。而這次混子哥的迅速漲粉,又更好的說明了短影片平台推薦機制的變化。如果你們還有印象的話,兩個月前狐妹也聊過一個相似的、更具代表性的案例➡️2 個月從 0 幹到 1700 萬粉絲!現在抖音起號這麼狂嗎?也是一位本身就有一定知名度的內容博主,憑藉過硬的電影解讀內容,迅速漲粉。而且就近幾個月總的情況來看,除了上面提到的這兩位,還有只發了一條視訊但漲粉 2300 萬粉絲的韋東奕,也是教育科研領域的名人。是不是感覺現在有點缺內容了呢?有沒有感覺似乎今年短影片平台推薦的新鮮內容,相比前兩年更單一、更侷限了。從觀眾視角來看,短影片平台的現有內容也愈發固化。背後的變化,當然也跟平台重建內容體系有關。一方面,從監管層面出發,平台的稽核機制更加完善,影響力比較大的整頓,包括上個月有短影片平台集中封禁了一批 PK 類主播;所以很多有擦邊傾向的、噱頭十足且低俗的內容大批減少,整體內容更加正向。另一方面,行業內卷後,原創內容價值門檻更高,前幾年平台推薦的流量博主以及原創內容,側重 “ 看了就笑、看完就忘 ” 的感官刺激。而這類內容隨著平台的篩選,基本陣營如今已然成型。而面向各年齡段、不同興趣群體的使用者,平台內容長期規劃,必定是多元的。尤其是經得起時間沉澱的優質內容,在賺取使用者認可的同時,也能反哺平台的影響力。更關鍵的是,內容平台的商業價值轉化,當前還有很大的潛力,這跟核心受眾直接相關,說白了,觀眾在看平台優質內容的時候,是真金白銀的投票。平台需要更多讓觀眾覺得不僅有趣,還能有用、能產生共鳴,才是多方平衡後的新流量密碼。從近幾個月破圈的幾位代表性新晉網紅博主來看,也說明優質的內容其實永遠不乏觀眾,這類讓觀眾笑著漲知識的內容,其實一直都有 “ 鈔能力 ” 。儘管當內容行業的暴利期已經過去,但與此同時,我們也迎來了深耕內容的黃金時代,相信接下來會有更多 “ 少量但精選 ” 的優秀內容出圈...... (科技狐)
AI視訊生成革命!MIT領銜豪華天團讓生成效率暴漲370%,成本直降4.4倍
【新智元導讀】刷到1分鐘AI短影片別只顧著點贊,背後的算力成本讓人驚嘆。MIT和輝達等提出的徑向注意力技術讓長視訊生成成本暴降4.4倍,速度飆升3.7倍,AI視訊的未來已來!刷到1分鐘的AI生成短影片時,你可能想像不到背後的算力成本。傳統的視訊擴散模型,處理視訊時採用密集注意力機制。這種方法雖然能保證畫質,但計算量大得嚇人,生成10秒視訊就要燒掉數千元算力費用,隨著視訊長度增加,算力需求呈指數級飆升。最近,MIT輝達等研究人員發明的「徑向注意力」技術,不僅讓長視訊生成速度提升3.7倍,還能把訓練成本砍掉4.4倍。論文連結:https://www.arxiv.org/abs/2506.19852 程式碼連結:https://github.com/mit-han-lab/radial-attention/徑向注意力在擴散模型的加持下,高品質視訊生成逐漸從科幻變成現實。但視訊的時間維度給算力增加了不少負擔,導致訓練和推理長視訊的成本飆升。生成10秒視訊就要燒掉數千元算力費用,價格之高令人望而卻步。對此,團隊從熱力學借了點靈感:「沒有任何傳播是無損的;訊號、影響、注意力都會隨著距離衰減。」他們發現視訊擴散模型裡的注意力分數同樣遵循這個規律——softmax後的權重隨著token間的空間和時間距離遞減。這種「時空能量衰減」現象與自然界訊號的物理衰減不謀而合。這會不會就是視訊生成降本增效的關鍵?為進一步證實這種猜想,團隊提出了「徑向注意力」(Radial Attention):一種計算複雜度僅為O(nlog n)的稀疏注意力機制。區別於之前SVG每次推理對空間/時間注意力進行動態選擇,徑向注意力用的是一種統一且高效的靜態掩碼。這種掩碼把空間和時間注意力合二為一,帶來了更靈活、更快的長視訊生成體驗。而且,這種簡潔的靜態注意力掩碼讓每個token只關注附近空間的鄰居。隨著時間距離的拉長,注意力窗口逐漸收縮。相比傳統的O (n²)密集注意力,徑向注意力不僅大幅提升了計算效率,還比線性注意力擁有更強的表達能力。在這項注意力機制創新的加持下,高品質視訊生成變得更快、更長。訓練和推理的資源消耗極大地降低,為視訊擴散模型打開了新的可能。效果有多驚豔?實測資料來說話研究團隊在三個主流模型上做了測試:HunyuanVideo、Wan2.1-14B和Mochi 1,覆蓋了不同參數規模的場景。Mochi 1可以生成長達5秒、480p解析度、162幀的視訊;HunyuanVideo可以生成長達5秒、720p解析度、125幀的視訊;Wan2.1-14B可以生成長達5秒、720p解析度、81幀的視訊。速度提升1.9倍到3.7倍在默認視訊長度下(如HunyuanVideo的117幀),徑向注意力能把推理速度提升1.9倍左右。當視訊長度擴展到4倍時,速度提升更明顯:從2895秒(近50分鐘)降到781秒(約13分鐘),足足快了3.7倍!以前一小時才能生成的視訊,現在喝杯咖啡的功夫就搞定了。表1展示了在HunyuanVideo和Wan2.1-14B的默認生成長度下,徑向注意力與三個強稀疏注意力基線的比較。在相同的計算預算(以TFLOPs衡量)下,徑向注意力保留了密集注意力的視訊質量,同時在相似性指標(PSNR、SSIM、LPIPS)上始終優於STA和PA,並與SVG的質量相匹配。在單個H100上,徑向注意力為HunyuanVideo和Wan 2.1分別實現了1.9倍和1.8倍的端到端加速,與理論計算預算節省(1.8倍和1.7倍TFLOPs)相匹配。儘管STA通過使用 FlashAttention-3(FA-3)產生了略高的加速,但視覺質量明顯下降。訓練費用最多節省4.4倍長視訊生成最燒錢的其實是訓練階段。用徑向注意力配合LoRA微調技術,訓練成本直接大幅下降。對於企業來說可是天大的好消息,以前做一個長視訊項目可能要投入幾十萬,現在可能只需要幾萬塊。表2提供了2倍和4倍原始長度的視訊生成結果。為了確保公平性,所有稀疏注意力基線使用相似的稀疏率。當生成長視訊時,未經進一步調優的原始模型表現出顯著的質量退化,尤其是在4倍視訊長度擴展時。雖然RIFLEx在2倍長度外推時提高了性能,但其質量在此之後惡化,表明擴展能力有限。空間和時間稀疏注意力受到有限感受野的影響;另一方面,LongLoRA和PA雖然具有全域感受野,但未能捕捉時空相關性,導致質量下降。有趣的是,PA在微調後視覺獎勵有很大提高,表明其原始稀疏模式與預訓練的注意力分佈不一致。微調允許模型適應施加的注意力稀疏性,改善對齊和質量。SANA將softmax注意力取代為線性注意力,需要大規模重新訓練,並且在基於微調的視訊長度擴展下失敗。相比之下,徑向注意力實現了與LoRA微調密集注意力模型相當的質量。甚至在默認視訊長度下,比預訓練模型略微提高了視覺獎勵。由於O(nlog n)複雜度,徑向注意力比原始密集注意力提供了顯著的推理和訓練加速,如表2和圖2所示。生成4倍長的視訊時,可以節省高達4.4倍的訓練成本,並實現高達3.7倍的推理加速。最關鍵的是,速度和成本降下來了,畫質還沒縮水。在HunyuanVideo上,徑向注意力的PSNR值達到27.3,和原始模型基本持平;視覺獎勵分數0.134,甚至比密集注意力的0.133還高一點點。不只是快:徑向注意力的「隱藏技能」很多技術升級都需要重新訓練模型,但徑向注意力不需要。它可以直接應用在預訓練好的模型上,通過簡單的 LoRA 微調就能實現加速。徑向注意力的一個關鍵優勢是與預訓練的特定任務LoRA(如藝術風格遷移)的無縫相容性,這對創作者太友好了。如圖8所示,將擴展長度LoRA與現有風格LoRA結合使用,在實現長視訊生成的同時保留了視覺質量。研究團隊還觀察到,合併LoRA生成的內容風格與原始LoRA略有不同。這種差異主要歸因於用於訓練擴展長度LoRA的相對較小的資料集,這可能引入輕微的風格偏差,與風格LoRA相互作用。在更全面的資料集上訓練長度擴展LoRA,預計將有助於緩解這個問題。以前生成1分鐘的AI視訊是很多中小團隊不敢想的,現在徑向注意力讓這事變得可行了。以後,我們可能會看到更多AI生成的長視訊內容,像短影片平台的劇情號。 (新智元)
暑期檔超60部影片引關注,台灣網友:今夏我們不能缺席!
6月6日,2025暑期檔電影片單發佈會在京舉行。“看台海”第一時間向島內推介定檔2025暑期檔超60部中外影片,引發台灣網友廣泛關注。許多台灣網友拉滿期待,在“看台海”境外平台“跟著電影遊中國——歡樂一夏”活動下留言分享觀影計畫,直呼“這個夏天我們不能缺席”。還有台青通過“看台海”向島內呼籲,“趕緊訂好暑假機票,用電影丈量大陸的美景,快來玩!”“簡直是'滿漢全席'!”台灣網友點贊暑期電影檔“大陸暑期竟然會上60部電影”,“上新速度真的驚呆”……在“看台海”境外平台大陸暑期檔精彩電影推介帖文下,台灣網友紛紛讚歎大陸新片發佈速度快、數量多。還有台灣網友直言,遺憾無法在島內看到大陸電影,有人呼籲相關電影應同步在台上線,還有人打算趁暑假“打飛的”到大陸觀影。“這簡直是影迷的‘滿漢全席’吧!”彙集了動畫、喜劇、動作、懸疑、愛情等多種類型的大陸暑期電影檔讓台青林惟綱期待不已。他瞄準了國產電影古裝喜劇《長安的荔枝》,“電影上映,我馬上去看”。台青陳冠穎表示,大陸暑期檔亮點迭出,有經典IP電影,也有原創題材佳作。她說,今年以來大陸電影口碑、票房雙豐收,大陸電影已展現出“我們的文化自信”。今年“神仙打架”的暑期檔,台青林妍柔最期待的是動畫電影《浪浪山小妖怪》。她說,過去全球觀眾看到講述中國故事的動畫電影,很多是從西方視角出發,現在則是由我們中國人講述中國故事,她相信,《浪浪山小妖怪》將呈現出更為細膩的東方情感和中國哲學。台青茆致遠則對人文歷史題材的影視作品感興趣。他認為,今年大陸的優秀電影,帶動了巨大的經濟效應,更在全球市場上展現了中華文化軟實力。“我想看”“我要去”今夏台青選擇“跟著電影游大陸”“看台海”也在“跟著電影遊中國——歡樂一夏”線上活動中,向台灣網友積極推薦“中國電影消費年”、“光影綻放中國行”全國電影周等系列活動,讓台灣網友瞭解大陸更多觀影“好康”和文旅聯動福利。台灣網友紛紛感慨,大陸的電影已不僅僅是電影,而是形成了連通文化、旅遊、消費等多維度的生態,非常想到大陸親身體驗。“電影不單單是一種娛樂項目,更是強大的‘造夢機’。”台青陳詠欽說,通過大陸電影,他看到了古都長安的厚重底蘊,生出了前往陝西西安實地感受兵馬俑、古城牆的向往。他也想去與台灣隔海相望的福建,看看真正的福建土樓,還想去祖國的邊塞打卡大美新疆。他表示,大陸創新推出的“電影+”系列活動,為觀眾打造了沉浸式旅遊新體驗,開創了電影與旅遊深度融合、雙向賦能的全新業態,成功將電影中的經典取景地轉化為承載情感共鳴的熱門旅遊目的地。今年的暑期電影檔,對於台青陳婉譯來說,是一場“圓夢”。她被《長安的荔枝》原著小說“種草”,因此想去看看同名電影,更想去陝西西安旅行,看一看如今傳統與現代交匯的“長安”。在她看來,“跟著電影游大陸”相關活動讓她從光影走到現實,感受到一個真實、可親、可愛的大陸。去年,曾參觀侵華日軍第七三一部隊罪證陳列館的台青陳冠穎,將目光投向了將於7月31日上映的電影《731》。今年適逢抗日戰爭勝利80周年,在這一莊嚴的時間節點,她希望能再去一次黑龍江哈爾濱,到那裡觀看這部電影,重走侵華日軍第七三一部隊罪證陳列館,感受歷史的重量與今日來之不易的和平。“一起組隊去大陸看電影!”“為了電影,暑假也要去大陸旅行!”在“看台海”境外平台留言區,台灣網友紛紛為大陸各類精彩紛呈的“影視+文旅”活動點贊。我們相信,台青一定能從大陸觀影之旅中,飽覽祖國大好河山,感受中華文化魅力。 (看台海)
張一鳴賭對了,TikTok Shop有望拿下巴西前五,前途一片光明
巴西電商市場格局將變。TikTok Shop進入巴西被看好不得不說,巴西電商市場的格局真是瞬息萬變,雖然美客多目前依然坐穩頭把交椅,但Shopee、亞馬遜等平台卻纏鬥不休,戰況膠著,如今,隨著TikTok Shop這一實力對手的入局,巴西電商格局又增添了更多不確定性。眾所周知,近日,TikTok Shop巴西站點正式開放營運,允許賣家通過其短影片平台銷售商品,消費者也能直接通過視訊和直播中標記的商品完成商品購物,而不需要跳轉平台。這是繼美國、西班牙、墨西哥等十多個站點後,TikTok Shop在全球化佈局中的又一次重要落棋,也標誌著TikTok對拉美電商市場的衝刺進入新階段。TikTok Shop亮相巴西電商市場 圖源:NEOFEED而自打TikTok Shop踏上巴西這片電商熱土之後,圍繞該社交電商平台的討論就沒停下過。西班牙國際銀行桑坦德(Banco Santander)日前就發佈了一份針對TikTok Shop巴西電商發展前景的預測報告,報告預計,到2028年TikTok Shop在巴西的GMV有望達到250億-390億雷亞爾,佔市場份額的5%-9%,如果預測結果成真,那麼TikTok就有望在四年時間內躋身巴西五大電商平台之列,成為該市場又一有力競爭者。TikTok Shop預測將佔據巴西高達9%的電商市場份額 圖源:terra桑坦德銀行的預測資料是有多重依據的,要知道,TikTok雖然是以短影片聞名全球,但在電商方面,該平台也手握多張底牌。與美客多、亞馬遜等傳統電商平台相比,TikTok Shop的核心競爭力在於其獨特的“發現式購物”。具體來說,TikTok Shop可以憑藉其內容視訊功能,將購物體驗無縫嵌入短影片和直播內容中,這種新鮮的購物模式尤其適合衝動消費者。TikTok巴西發言人也表示:“傳統電商的增長依賴於便利性,而TikTok Shop在此基礎上增加了娛樂性和使用者互動。”TikTok巴西創作者直播畫面 圖源:Alo Alo Bahia值得一提的是,TikTok Shop平台的主要收入雖然來自銷售佣金,但費率卻低於競爭對手,例如,傳統電商平台美妝類商品的佣金約在10%-15%之間,而TikTok Shop不僅能在前90天提供免佣金優惠,優惠期過後收取的佣金也僅為2%-8%,這有利於吸引更多中小賣家入駐。機遇和挑戰並存老實說,TikTok會選擇在巴西開展電商業務並不稀奇,作為拉美最重要的電商市場之一,巴西電商的潛力不容小覷。巴西電子商務協會(ABComm)發佈的報告就指出,2024年巴西電商銷售額達2042.7億雷亞爾(約合337億美元),同比增長10.5%。而Horizon Grand View Research的資料則指出,巴西社交電商市場在2023年創造了1250萬美元的收入,預計到2030年將進一步增長至6730萬美元,2024年至2030年的復合年增長率為27.2%。巴西社交電商市場正在加速發展 圖源:Horizon Grand View Research巴西社交電商的光明前景無疑給TikTok提供了施展拳腳的廣闊舞台,2024年,在TikTok Shop還未正式登陸巴西之前,就已有36%的巴西使用者在觀看TikTok創作者視訊後購買的產品。此外,TikTok在巴西龐大的使用者基礎也能為其電商業務的開展提供更多便利。經統計,截至2024年,巴西擁有4.98億網際網路使用者,其中TikTok使用者超過2億,這一龐大的使用者群體為TikTok的下載量增長提供了堅實的支撐。而Appreach發佈的2025年第一季度巴西下載量最高的十五款應用程式榜單中,TikTok更是憑藉2000萬次的下載量一騎絕塵,成功超越Temu、美客多等一眾對手登頂第一。TikTok位居巴西下載量榜單第一 圖源:ecommerce brasil不過,機遇和挑戰往往並肩而行,TikTok Shop想要征服巴西市場,除了物流、清關和關稅這三座橫擋在前的大山外,還需要面對激烈的競爭。說到巴西電商玩家,自然要談及美客多。作為拉美電商巨頭,美客多在巴西的市場份額常年穩定在30%以上,2025年,該平台還宣佈將在巴西投資46億美元新建11個配送中心,重點放在偏遠地區的物流建設上。除此之外,出身東南亞,十分擅長直播電商的Shopee也是一個難纏的對手。Conversion資料顯示,今年2月份,Shopee巴西站以8.8%的流量份額超越亞馬遜(6.9%),穩居巴西電商市場份額第二。Itaú BBA的研究報告則指出,2024年,Shopee在巴西的銷售額實現翻倍增長,達到約600億雷亞爾,是亞馬遜巴西市場收入的兩倍。Shopee穩居巴西電商第二把交椅 圖源:Conversion總而言之,巴西電商市場雖然在持續釋放機遇,但TikTok Shop要想真正在這裡立足,還需要面臨美客多、Shopee等平台的有力競爭。未來巴西電商市場格局究竟是否會因為TikTok Shop的加入迎來新一輪新牌,就讓我們拭目以待。 (跨境前沿)