#影片
視訊突然大量傳播,周星馳經紀人無奈發文
近日,短影片平台上AI生成周星馳經典電影片段的視訊,被大量網友製作發佈。2月9日,周星馳經紀人陳震宇發文質疑:想問一下,這些屬於侵權嗎(尤其這兩天大量傳播),相信創作者應該已經盈利,而某平台是不是都放任不管提供給使用者生成發佈?對此,不少網友認為屬於侵權。知多D2025年12月31日,國家廣播電視總局宣佈自2026年1月1日起,將在全國範圍內部署開展為期一個月的“AI魔改”視訊專項治理。專項治理重點清理基於四大名著、歷史題材、革命題材、英模人物等電視劇作品進行“AI魔改”的下列視訊:一是嚴重違背原作精神核心和角色形象,顛覆基本認知,解構普遍共識;二是內容渲染血腥暴力、獵奇低俗,宣揚錯誤價值觀,違背公序良俗;三是存在對中華文化挪用、篡改的突出問題,導致對真實歷史時空、中華文明標識產生明顯錯位認知,衝擊文化認同。專項治理同步清理將少年兒童所熟知、所喜愛的動畫形象進行改編生成的各類邪典動畫。近日,視訊大模型Seedance2.0在國內外社交平台上掀起一陣刷屏式傳播,引發熱議與思考。2月9日,“影視颶風”創始人Tim發佈視訊,對這個模型讚不絕口。同時,他也拋出了一個尖銳而現實的問題:大模型的訓練資料來源是否涉及授權爭議?Seedance2.0發佈的演示視訊。圖源:影視颶風Tim在使用中發現,僅憑自己的照片,無需聲音樣本,模型即可生成一段帶有他本人聲音的視訊,因為系統已能識別他是誰。2月9日,《黑神話:悟空》製作人也發文分享了自己測試Seedance2.0的感受:殺死比賽。不過他也提到一點:“假視訊氾濫與信任危機。這一點是真正促使我發這條微博的原因,因為逼真的假視訊將變得毫無門檻,而現有的智慧財產權與審查體系會面臨空前衝擊。”面對隱私爭議,2月9日,平台營運人員在即夢創作者社群中發佈消息稱:“Seedance2.0在內測期間收穫了遠超預期的關注,感謝大家的使用反饋。為了保障創作環境的健康可持續,我們正在針對反饋進行緊急最佳化,目前暫不支援輸入真人圖片或視訊作為主體參考”,並表示平台深知創意的邊界是尊重,產品調整後會以更完善的面貌與大家正式見面。目前在即夢web端、小雲雀等平台使用Seedance 2.0,平台會提示暫不支援真人人臉參考;在即夢app和豆包app,使用者需要錄製本人形象與聲音完成真人校驗後才可以製作數字分身,在AI視訊中出鏡。此外,臨近春節,一種別樣的“拜年方式”在社交網路上悄然走紅。熟悉的影視巨星、體壇健將、商界名人,甚至歷史人物,在螢幕裡拱手作揖,說著定製的吉祥話。不僅如此,以上這些人物還可以跟你一起包餃子、一起在春晚舞台互致祝福。在一段短影片中,小品演員馮鞏、蔡明和香港明星劉德華等人正在網友家中圍在一起包餃子,給大家拜年。《中華人民共和國民法典》對肖像權和聲音權的保護作出了明確規定。中國政法大學人工智慧法研究院院長張凌寒表示,人臉、人聲等都是具有生物識別功能的敏感個人資訊。未經授權的深度合成,侵犯了當事人的人格權益。依據民法典與深度合成管理相關規定,人臉、人聲屬敏感個人資訊,未經授權製作、傳播即侵犯肖像權、聲音權,即便非商用也需擔責。高度模擬的內容易模糊真假邊界,可能被用於造謠、詐騙,危害網路生態。技術創新應有邊界,趣味不能凌駕規則。平台應強化稽核與標識,使用者需增強版權意識,拒絕製作、轉發侵權內容。唯有守住合規底線,AI 才能真正為春節添彩,讓年味既有新意,更有秩序與溫度。 (南風窗)
中國AI人,“三年沒過好年”了
“以這個春節為分界點,AI將真正走嚮應用元年。”年味又從手機螢幕裡溢出來了,與之同步的還有AI炮火的硝煙。春節前最後一周,打工人的一天是這樣的:早上到工位,先用千問APP點一杯阿里請客的奶茶,再去元寶APP抽今天騰訊發的紅包,順手把紅包連結分享到微信群。摸魚的時候用豆包生成一段拜年小影片,順便和摸魚搭子吐槽:連結又被遮蔽了,APP又崩了。這股賽博年味之火熱,以至於微信都嫌棄病毒式傳播的紅包污染了內容生態,把自家元寶和對家千問的紅包口令全部遮蔽了。到目前為止,騰訊宣佈發紅包10億,千問30億,百度5億;未公佈獎池總金額的豆包和螞蟻阿福,也不動聲色地開始了宣推。四捨五入,大家今年都要參與不下50億的大項目。巨頭們還憋著別的大招。紅包戰中格外低調的字節,在節前最後一周推出了視訊生成新模型Seedance2.0,幾天之內驚豔全球。Seedance2.0生成的視訊阿里仍在緊鑼密鼓地推進從外賣奶茶到酒店訂票的各種業務和千問的合併,騰訊則把AI社交工具“元寶派”的開放加速提上日程。字節跳動用火山引擎和豆包深度繫結了央視春晚互動,千問就一口氣冠名了4家地方台春晚。這些動作指向一個目的:給自家AI產品拉新,在春節這個巨大的池子裡搶流量。而這麼一來,今年春節的情形也已經可以預見了——中國人的生活、社交、娛樂,大機率要被AI包圍。熱鬧之中容易被忽略的一件事是,鋪天蓋地的紅包和反覆崩壞又被修復的系統背後,是巨頭們豪擲的預算和告急的算力,薅羊毛玩得不亦樂乎的打工人背後是另一群打工人。過不好年的AI人“三年沒過好年了。”某大廠一位AI業務高管對我們感嘆。一位騰訊AI團隊的員工告訴我們,元寶產品團隊過去半年基本沒休息過,春節期間也得堅守崗位。另一位阿里員工則說,為了把外賣、酒旅、電商這些業務和千問打通,公司內部成立了多個跨部門的AI項目,性質是“一號位等級”“高度保密”。項目核心成員春節期間必須在崗,各部門工程師也需要抽調去加班,今年春節安排加班的規模數量遠超去年。有位程式設計師在Github開發者社區上發了帖子,“可不可以不要在春節前或春節期間出DeepSeek V4,打工牛馬們想過個好年。”不少人跟著附議。圖源:網路AI從業者傅易跟我們總結,今年大廠裡最沒得休息的是兩撥人。一撥是C端AI產品團隊,也就是風暴中心的元寶、千問、豆包等,為了打好流量仗,必須時刻待命,隨機應變。另一撥是後端的維運工程師。算力緊缺導致系統崩壞,是春節期間確定性最高的突發狀況之一,意味著越是閤家團圓的熱鬧時刻,這些後端人員越要緊張地值守,密切關注GPU的負載。但緊張的又何止大廠。中小AI企業同樣在尋求從流量池中分到一杯羹。一家AI創企的創始人告訴我們,公司在節前一個月就已經進入了備戰狀態。春節是個巨大的機會池。去年春節,DeepSeek火爆到因為算力緊張陷入癱瘓,一批中小規模雲服務平台緊急調度算力,各自接住了一波寶貴的流量;各行各業的公司、機構批次宣佈緊急部署DeepSeek,反應靈敏的AI服務企業們賺得盆滿缽滿。去年春節,DeepSeek橫空出世另一邊,上游的GPU公司同樣緊張。他們忙於調度算力,以及為可能到來的算力荒做應急預案。據我們瞭解,三巨頭為了迎接春節期間的巨大流量,已經提前鎖定了市場上幾乎所有算力。於是不少中小企業乃至頭部大廠,把目光轉向了中國國產算力,以及如何利用技術方案最佳化效率。中國國產GPU廠商不敢鬆懈。如果早有準備且運氣足夠好,新模型或新應用走紅後,它們能以最快的速度,為客戶提供最易於部署、最節省算力、使用體驗最好的算力基礎設施和技術方案,從中贏得訂單和口碑、流量和資本,甚至是一夜成名的機會。當然,對應的付出就是,他們也很難過個安生年了。AI應用爆發前夜對中國人而言,網際網路巨頭商戰、加班,早已不新鮮,三瓜倆棗的春節紅包也不足為談。但多年後再次回頭看,很多人可能仍會發現,自己的習慣和生活,又一次被時代微妙地改寫了。縱觀中國網際網路史,從入口網站到移動支付,再到電商、短影片,重大的技術普及幾乎都從娛樂化起步。尤其在春節這樣的“非生產性時間窗口”,AI應用的可玩性、可傳播性,會短暫地取代生產力,成為最重要的競賽維度。所以即便硝煙中不乏“海外巨頭在卷技術,中國巨頭在卷紅包”的質疑,這場春節之戰仍然必定會是中國國產AI一次頗有價值的嘗試——中國企業第一次把大模型的能力和各種成熟的C端場景大規模結合起來,利用一個全民等級的流量窗口,做一次規模巨大的商業化實驗。網友參加AI APP“請客”活動最終,不論是字節的“短影片+AI”、騰訊的“社交+AI”,還是阿里的“本地生活+AI”,任何一個實驗成功,都會成為一個歷史性的案例。以此為轉折點,AI在“把硬體重做一遍”玩到過剩之後,開始真正變革軟體市場。隨之而來的,就是以這個春節為分界點,AI將真正走嚮應用元年。技術底座和市場空間都已足夠有想像力。一方面,2025年大模型的迭代頻率已經進化到以月為單位,再往後,可能絕大部多數C端使用者很難再感受出模型能力的差別。另一方面,最近發佈的第57次《中國網際網路絡發展狀況統計報告》顯示,截至2025年底,中國生成式人工智慧使用者規模已經達到6.02億人,普及率達到了42.8%。在此基礎上,幾大巨頭在春節檔上不斷加碼的火力,標誌性意義不言自明:今年春節將會成為AI流量入口之爭的第一戰。更何況這次,還不只是藍綠對決,而是多方混戰;紅包和行銷預算的體量,也從幾千萬拉到了幾十億。場面只會更熱鬧。各自的探索一個新生事物從已經平靜多年的網際網路行業裡冒出來,迅速生長為龐然大物,機會與風險相伴而生,讓很多人手足無措。元寶和千問紅包刷屏後,分享連結先後遭到微信的遮蔽。一位騰訊人士告訴我們,這背後既有微信團隊自身的產品潔癖,也有其作為數字基礎設施的監管考量。阿里的動作更果斷。春節活動上線前兩天,馬雲現身杭州阿里總部千問春節項目組,媒體爆料圖片上,他身旁放著“千問C端事業群”的立牌。圖源:網路這個事業群成立於去年年底,打通了整個阿里產品生態,各個業務單元提煉出自身的工具能力,由千問統一呼叫。事業群成立一個多月後,千問宣佈,全面接入淘寶、支付寶、淘寶閃購、飛豬、高德等集團生態業務。整合內部的分歧很重要,探索產品的未來也是這個節點最關鍵的命題。傅易覺得,相較去過去兩年DeepSeek、Sora這些戲劇性地跑出來的爆款,今年反而是確定性較高的一年。頭部模型能力已不分伯仲,算力資源也高度集中,今年即便有爆款,大機率也是幾家大廠的計畫內產物,再出現一匹無名黑馬的機率很低。但這也意味著,非頭部的AI企業今年會面臨更大的不確定性。前述AI創企高管坦言,今年,中小公司會更被動。在流量戰中與大廠同台競爭幾乎無勝算可言,但鑑於過去三年的經驗,機會仍有可能出現,只是大家都不確定它會以何種形式出現,又該以何種姿態去承接。所以,金字塔尖之外的大部分從業者當下的狀態是,“不知道該如何準備,但也不敢不準備。”“到最後無非都是拼運氣。”他如此總結。無論如何,AI應用的黃金時代,即將從這個兵荒馬亂的春節,正式開始了。但對抗並非唯一的主基調,在這個無人區,任何一個人的努力和探索,都將成為其他人前進的踏腳石。很多企業昨天還是對手,今天就轉向合作,圍坐暢談、互通有無;資訊快速地流動,五道口的咖啡館裡坐滿了人,AI是最高頻出現的詞彙,海內外的從業者們在播客、直播間等各種平台不斷連線交流;企業之間人才不斷流動,但始終是那一批人,讓關於某家公司有何新動作的情報幾乎透明。這裡的從業者有種特徵,步履匆匆、早出晚歸,健談且樂於分享,雙眼閃亮,不知疲倦。支撐他們的,是期待與渴望。“主動願意加班的人還是挺多的,大家都想抓住這次機會。”傅易說。傅易今年28歲。和他年齡相仿的網際網路從業者們,見證了上一代移動網際網路開荒者們的職業高光:成為高管、成功創業、財富自由。他們以此為目標捲進大廠,卻又遇上技術紅利逐漸殆盡,只能在已經穩定的系統裡以“打螺絲”自嘲。他們大多心有不甘,期待著那個屬於這一代網際網路人的風口到來。這是很多AI人內心深處的動力。他們強烈地預感到,它來了。 (吳曉波頻道)
「法國政變」AI假影片超千萬人看Meta拒下架引爭議
最近刷社交平台的朋友大機率刷到過這麼一條炸裂的視訊:埃菲爾鐵塔下警燈閃爍,直升機低空盤旋,一名"記者"對著鏡頭嚴肅播報,說法國發生軍事政變,總統馬克宏已經被罷黜下台。這段看起來跟正規新聞沒差的影片,短短幾天就狂攬1300萬次觀看,不僅讓法國民眾慌了神,連非洲國家元首都專門發消息給馬克宏問"你還好嗎",堪稱年度最離譜的AI造假大事件。可更讓人匪夷所思的是,明明法國官方都連夜出面澄清"政府運作一切正常",馬克宏團隊更是第一時間找平台母公司Meta要求下架,結果Meta直接甩臉拒絕,理由是"內容沒違反平台使用條款"。這波操作直接把爭議拉滿——一邊是國家主權被虛假資訊挑釁,一邊是科技巨頭拿"規則"當擋箭牌,這場AI假新聞引發的博弈,遠比影片本身更值得細扒。01. 一則AI 謊言1300萬次瘋傳的輿論漩渦先說說這段假影片有多會"裝真"。發佈者是化名"ISLAM"的使用者,搞了個根本不存在的"Live 24"新聞頻道,找了個演員冒充記者,站在看起來像是愛麗舍宮附近的場景裡播報。畫面裡有模有樣:武裝士兵站崗警戒,圍觀民眾一臉驚慌,背景音裡還混著警笛聲和直升機轟鳴,埃菲爾鐵塔的燈光更是還原得一模一樣。更絕的是敘事技巧,它不說"據說",而是用肯定的語氣宣稱"一名未披露姓名的上校發動政變,馬克宏已被解除職務",這種逼真的場景+篤定的口吻,別說普通網友了,就算是有點辨別力的人,乍一看都容易被帶偏。更諷刺的是,這已經不是同一個發佈者第一次搞事了。早在12月初,他就發過另一段AI生成的政變視訊,謊稱是法國國際廣播電台(RFI)播報的,當時播放量也破了300萬次。而這次之所以能破1300萬次瘋傳,還恰逢法國真實的政治動盪——12月4日法國國民議會剛通過不信任動議,讓上任才三個月的巴尼耶總理下台,馬克宏剛任命新總理,政治僵局還沒有化解。這種"真實困境+假消息"的疊加,讓不少人半信半疑,也給假影片的傳播提供了絕佳溫床。02. Meta的硬剛平台立場與監管博弈的背後法國官方的反應可以說是又急又無奈。馬克宏一開始聽說這事兒還覺得有點可笑,但當看到觀看量蹭漲,還驚動了外國元首,立刻下令團隊處理。他在馬賽的公開活動上氣得直懟:"這些人是在嘲弄我們,根本不在乎公共辯論的健康,更蔑視民主國家的主權!" 可即便總統親自發聲,Meta依舊不為所動。從馬克宏團隊第一次投訴到影片最終下架,整整過了三天,這段假影片已經像病毒一樣傳遍了法語社交網路,造成的誤解和恐慌早就無法挽回。Meta為何敢這麼硬氣?這背後其實早有伏筆。今年1月,創辦人祖克柏就宣佈,旗下平台要取消大部分事實查核政策,還說"事實查核員充滿政治偏見,破壞信任"。外界都看得明白,這就是在討好即將上任的川普——畢竟川普之前一直抱怨Meta的內容審計"侵犯言論自由",甚至暗示要找平台麻煩。所以Meta乾脆砍了事實核查這道防線,改用所謂的"社區筆記"來替代,可面對AI生成的高度模擬假新聞,這種鬆散的審計機制根本就是形同虛設。這次拒絕下架,本質上就是Meta"放棄審計"邏輯的必然結果:只要內容沒觸及暴力、仇恨這些底線條款,那怕已經擾亂了他國社會秩序、引發了外交關切,也能拿"言論自由"當藉口推脫責任。直到後來可能迫於歐盟《數字服務法案》的壓力——畢竟歐盟剛在12月5日給另一個社交平台開了高額罰單,Meta才不情不願地給視訊加了個極不顯眼的標籤"內容可能經數字修改",又過了幾小時才終於下架。但在這三天裡,虛假資訊已經完成了擴散,傷害早就造成了。03. 謊言的警示 AI時代虛假資訊治理的難題這事兒最讓人細思極恐的地方,在於AI造假的低成本和高破壞力。以前造個假新聞還得P圖、寫文案,現在只要輸入指令,AI就能生成以假亂真的視訊,一個化名使用者零成本就能攪動國際輿論。更可怕的是,這種虛假資訊已經開始影響國際關係了——這次是非洲元首致電詢問,下次要是有人偽造"兩國開戰"、"領導人遇襲"的視訊,後果簡直不敢想。馬克宏說得沒錯,這已經不是簡單的造謠,而是在"把我們推向危險的境地"。而Meta的做法,本質上是把流量和政治利益看得比公共責任更重。作為擁有數十億使用者的科技巨頭,它早就不是單純的社群平台,而是能影響全球資訊傳播的關鍵力量。但當一個企業的規則能凌駕於各國公共利益之上,當AI技術的濫用得不到有效約束,所謂的"資訊自由"就變成了"混亂自由"。法國政府再強勢,面對跨國科技巨頭也顯得無力-你要求下架,人家說"不違反規則";你批評不負責任,人家背靠美國政治勢力有恃無恐,這背後其實是科技霸權對國家主權的公然挑戰。現在影片雖然下架了,但爭議遠遠沒有結束。馬克宏已經明確表態,歐洲必須加快制定針對性法規,要求平台及時清理"明顯虛假內容",還要公開核心演算法、嚴格審計帳戶。歐盟也正在通過《數字服務法案》給平台劃紅線,可真正的難題在於,AI技術的發展速度遠遠超過了監管的步伐。今天能創造出"政變"假新聞,明天就能生成更難分辨的虛假影像,當謊言變得越來越逼真,我們該怎麼守住真相的底線?更值得警惕的是,虛假資訊已經成了地緣政治博弈的工具。法國安全部門之前就報告過,有上百個網站專門傳播親俄宣傳,而這類虛假資訊往往會利用真實事件的"核心"包裝謊言——比如之前就有人利用馬克宏取消訪烏的真實消息,編造"烏克蘭暗殺計畫"的假視訊。這次的"政變"謊言,說不定也是某種勢力刻意為之,目的就是擾亂法國社會秩序、破壞其國際形象。說到底,這場1300萬次觀看的AI假新聞鬧劇,撕開的不僅是Meta的遮羞布,更是全球數字治理的漏洞。當科技巨頭放棄責任,當AI技術淪為造謠工具,沒有那個國家能獨善其身。馬克宏的憤怒,本質上是對這種"數字無政府狀態"的無奈;而我們每個人,也可能成為下一個虛假資訊的受害者。現在問題來了:是該讓平台為虛假資訊承擔更多責任,還是該靠技術進步來識別AI造假?是該通過國際法規來約束科技巨頭,還是該讓各國自行制定監管規則?這場關於真相、權力和責任的博弈,才剛剛開始。而我們能做的,或許就是在刷到那些"炸裂新聞"時多留個心眼——畢竟在AI時代,眼見不一定為實,多等一秒官方通報,可能就少一次被謊言欺騙。 (外事匯)
超越Runway! Adobe發佈新神器:P影片比P圖還簡單
全新AI工具EditVerse將圖片和影片編輯整合到一個框架中,讓你像P圖一樣輕鬆P影片。透過統一的通用視覺語言和上下文學習能力,EditVerse解決了傳統影片編輯複雜、資料稀缺的問題,也能實現罕見的「湧現能力」。在效果上,它甚至超越了商業工具Runway,預示著一個創作新紀元​​的到來。你是否曾有過這樣的經驗:用Hunyuan- Image、nano-banana等各類AI軟體修圖已經得心應手,但面對影片編輯,卻需要打開有著複雜時間軸和特效面板的影片剪輯軟體(PR/FCPX),瞬間感覺「我不會了」。圖片編輯和影片編輯,彷彿是兩個次元的技能樹。但如果,有一個工具,能讓你像P圖一樣P影片呢?今天,這個顛覆性的工具來了!由香港中文大學、Adobe Research、約翰霍普金斯大學的研究員們聯合推出的EditVerse,是一個劃時代的AI模型,徹底打破了圖片和視訊創作之間的壁壘,用一個統一的框架,實現了對圖像和視訊的自由編輯與生成 。論文連結:https://arxiv.org/abs/2509.20360專案首頁:http://editverse.s3-website-us-east-1.amazonaws.com/測試程式碼:https://github.com/adobe-research/EditVerse完整結果:http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html無論是生成音樂音符特效,還是為跳舞的人物加上一對閃亮的翅膀,你只需要輸入一句話,EditVerse就能幫你實現。「資料孤島」影片編輯為何如此之難?長期以來,AI影片編輯的發展遠遠落後於圖片編輯。究其原因,主要有兩大「天塹」:架構的「隔閡」:傳統的AI模型,要嘛是專為圖片設計的,要嘛是專為影片設計的。想讓一個圖片編輯模型去處理視訊,或者反之,都極其困難,需要複雜的魔改和適配。這導致了工具的碎片化。資料的「饑荒」:高品質的、「編輯指令-編輯後」配對的影片資料集極為稀少。相較於數以億計的影像編輯資料,影片領域的「養分」嚴重不足,這大大限制了AI的學習和進化。這些難題,使得過去的AI影片編輯工具要麼功能單一,要麼效果不盡人意,始終無法像圖片編輯那樣靈活和強大。EditVerse的「破壁」之道EditVerse的革命性,在於它用一套全新的「世界觀」和方法論,同時解決了架構和資料的雙重難題。核心思想一:創造一種「通用視覺語言」EditVerse交錯文字與視覺模式的範例。 EditVerse 能夠處理任意解析度、長度和順序位置的影像與視訊輸入和輸出。EditVerse做的第一件事,就是教會AI用同一種方式去「閱讀」世界上所有的視覺訊息。它創新地將文字、圖片、影片全部轉換成一種統一的、一維的「資料流」(Token序列) 。這就像是發明了一種「世界語」,讓原本說著不同方言(圖片編碼vs 視訊編碼)的AI,現在可以用同一種語言進行交流和思考。核心思想二:強大的「上下文學習能力」EditVerse 模型結構。研究人員設計了一個統一的圖像和視訊編輯與生成框架,將文字與視覺輸入處理為統一的序列。圖中右側展示了位置資訊編碼設計(RoPE位置編碼)。該框架利用全自注意力機制,以促進強大的上下文學習能力,並實現跨模態的高效知識遷移。有了「通用語言」後,EditVerse採用了一個基於全自注意力機制(Full Self-attention)的強大Transformer架構。透過將所有資訊流在序列維度拼接在一起,EditVerse模型可以直接透過attention的上下文學習能力將不同圖片、影片和文字中的資訊關聯起來。你可以把它想像成一位「上下文學習大師」,它能一口氣讀完包含指令、原始畫面的整段「資料流」,並精準地理解其中每個部分之間的關聯。例如「把【影片1】左邊女人的裙子變成【圖2】中的裙子」 ,全注意力機制能精準地將文字指令、影片中的特定人物和圖片中的服裝關聯起來。同時,這種設計使得EditVerse能夠靈活處理任意解析度、任意時長的輸入,真正做到了「隨心所欲」 。核心思想三:搭建一座「知識遷移的橋樑」這正是EditVerse最巧妙的地方。因為它使用一套統一的框架同時處理圖片和視訊,所以它能將在海量的圖片編輯資料中學到的知識(比如什麼是“火焰特效”、“水彩畫風格”),無縫遷移並應用到視訊編輯任務中 。這座「知識橋樑」大大緩解了視訊資料稀少的問題,讓模型能夠舉一反三,展現出驚人的創造力和泛化能力。訓練資料與首個多解析度影片編輯評測基準光有聰明的「大腦」(模型架構)還不夠,還需要大量的「知識」(訓練資料)和公平的「考官」(評測基準)。面對影片編輯資料稀缺的困境,EditVerse團隊首先建立了一條可擴展的資料生產線。他們利用各種先進的專用AI模型,先自動產生大量的影片編輯樣本(例如物件移除、風格轉換等),然後透過一個視覺語言模型(VLM)進行評分和篩選,最終精選出23.2萬個高品質的影片編輯樣本用於訓練。這批影片編輯資料,與600萬圖像編輯樣本、390萬視訊生成樣本、190萬圖像生成樣本等海量資料混合在一起,共同訓練EditVerse,從而使模型擁有更好的知識遷移理解能力。此外,為了科學、公正地評估模型的能力,團隊也推出了業界首個針對指令式影片編輯的綜合性評測基準——EditVerseBench 。這個評測基準包含了100個不同解析度的視訊,涵蓋了多達20種不同的編輯任務,從簡單的物體加入,到複雜的風格變換,確保能全面地檢驗每個模型的真實水平。EditVerseBench範例。 EditVerseBench包含200組編輯樣本,均勻分佈在20個編輯類別中,影片涵蓋橫向和縱向兩種方向。能力展示當想像力沒有邊界EditVerse不僅統一了工作流程,其編輯效果更是達到了業界頂尖水準,在人工評估(Human Evaluation)上更是超過了商業模式Runway Aleph。為了進行大規模、客觀的自動化評測,團隊從多個角度進行了各個模型的評測影片品質(Video Quality): 使用與人類美學高度相關的PickScore進行評分。文字對齊(Text Alignment): 分別在單幀和整個影片層面,計算編輯結果與文字指令的語意匹配度。時間一致性(Temporal Consistency): 透過計算相鄰影格之間的特徵相似度,來判斷影片是否流暢、無閃爍。視覺語言模型(VLM)GPT-4o評分(VLM Evaluation) :它會從指令遵循、編輯品質、背景一致性等多個角度為產生結果評分。在EditVerseBench基準測試上,EditVerse與現有主流方法進行了對比,結果顯示其全面領先於所有開源模型。更值得注意的是,在最符合人類偏好的VLM評分上,EditVerse超越了閉源商業模式Runway Aleph 。在EditVerseBench上的定量比較。對於開源研究模型,研究人員比較了兩種無需訓練的方法(TokenFlow和STDF)、一種首幀傳播方法(Señorita-2M),以及一種基於指令的影片編輯方法(InsV2V)。最佳結果以粗體標示。也提供了一個商業模式Runway Aleph的結果。儘管由於基礎模型的差異,EditVerse在生成品質上略遜於Runway Aleph,但EditVerse在編輯忠實度上(透過基於視覺語言模型的編輯品質評估)超越了它,與人類評估結果更加一致。在編輯領域,使用者的真實偏好最有說服力。在真人評測環節中,評測者在不知道模型來源的情況下,對不同模型產生的影片進行投票。結果再次印證了EditVerse的優勢:它不僅對開源模型取得了壓倒性的勝利(例如對InsV2V的勝率高達96.9%),面對商業模型Runway Aleph,也有51.7%的使用者認為EditVerse的效果更好 。人類評估結果EditVerse的「湧現能力」從何而來?在測試過程中,研究人員發現了一個令人興奮的現象:EditVerse經常能完成一些它從未在視訊資料中學過的任務。例如,指令是「把烏龜變成水晶材質」或「給天空加上縮時攝影效果」,儘管它的視訊訓練集中並沒有這類“材質變換”或“特效加入”的專項資料,但模型依然能出色地完成。這種「無師自通」的能力,就是AI領域備受關注的「湧現能力」(Emergent Ability)。這背後的秘密,正是前文提到的那座「知識遷移的橋樑」在扮演關鍵角色。想像一下,EditVerse就像學徒,閱讀了600萬本關於「靜態繪畫」的頂級教材(圖片編輯資料),卻只看了28.8萬份關於「動態影像」的簡報(影片編輯資料) 。然而,他從海量繪畫教材中學到了關於光影、構圖、材質、風格的深刻原則。當他處理動態影像時,他能將這些底層藝術原理靈活運用,從而「領悟」出影片中如何表現「水晶質感」或「天氣變化」,即便簡報裡從未提過。為了驗證這個猜想,團隊進行了一個關鍵的消融實驗:他們拿走那600萬本「繪畫教材」(即移除圖片編輯資料),只用影片資料來訓練模型。結果不出所料,新模型的影片編輯能力發生了斷崖式的下降 。另外,團隊也發現,如果將影片產生訓練資料移除,模型效果同樣會下降,這說明了模型是從圖片編輯+影片產生兩者各取其長,湧現出了影片編輯的能力。關於訓練資料的消融研究。訓練資料消融實驗的可視化結果。圖像資料起到了關鍵作用。這項實驗無可辯駁地證明了:正是從海量、多樣化的圖像資料中汲取的深層知識,賦予了EditVerse在視訊領域舉一反三、觸類旁通的“湧現能力”。它甚至能創造出比其訓練資料更高品質的作品,因為它不是在死記硬背,而是在真正理解和創造。將EditVerse的生成結果與真實資料進行比較。結果顯示,EditVerse能夠透過從影像和影片產生資料中提取知識,產生品質超越真實資料。一個創作新紀元​​的開啟EditVerse的出現,其意義遠不止於一個強大的工具,它預示著一個全新的內容創作範式的到來,從分離到統一,從繁瑣到簡潔。EditVerse正在做的,是將專業級的視覺編輯能力,真正普及給每一個有創意的人。 (新智元)
字節大佬創業,40天狂攬5.2億人民幣融資!產品超1億人在玩
前字節大佬狂拿5.2億融資! AI產品使用者已超1億。智東西10月17日報導,今日,AI視訊企業愛詩科技宣佈完成1億元人民幣B+輪融資,由復星銳正、同創偉業、順禧基金等共同投資。此前9月10日,愛詩科技剛完成B輪融資,總金額超過6000萬美元(約合人民幣4.27億元)。本輪融資由阿里巴巴領投,達晨財智、深創投、北京市AI基金、湖南電廣傳媒、巨人網路和Antler跟投,創下國內視訊生成領域單次最大融資額。愛詩科技成立於2023年4月,專注於AI影片生成大模型及相關產品的研發應用,是國內首家發表DiT架構影片生成模式的新創公司。愛詩科技創辦人兼CEO王長虎,曾任字節跳動視覺技術負責人,曾從0到1參與抖音與TikTok等產品的視覺能力建構。加入字節前,他曾在微軟亞洲研究院和新加坡國立大學擔任研究職位。▲愛詩科技創辦人兼CEO王長虎的個人首頁愛詩科技官方資料顯示,公司旗下產品使用者規模已突破1億,年度經常性收入(ARR)超過4000萬美元(約2.85億元),產品MAU超過1600萬。公司自2024年11月商業化至今,不到一年時間收入成長超過10倍,是過去一年全球營收和使用者成長最快的AI平台之一。2024年1月,愛詩科技以海外市場推出首款產品PixVerse,以範本化影片生成為主要特色。 2025年6月,該公司又推出了國內使用者的「拍我AI」。截至目前,其自研影片產生大模型已完成五次重要更新,共發佈八個版本。最新版本PixVerse V5已於8月27日上線,重點最佳化了動態表現、畫面清晰度、一致性處理與指令回應能力。同時上線的還有Agent創作助手,幫助使用者簡化創作流程,無需複雜提示詞即可製作影片。▲拍我AI(PixVerse)首頁截圖地址:https://pai.video/PixVerse在9月入選了a16z 「全球Top 50生成式AI消費級行動應用」榜單第25名。根據數據機構AIGCRank資料,PixVerse9月網站造訪量成長超過26.91%。▲全球Top 50生成式AI消費行動應用(圖源:a16z)在今年兩次融資之前,愛詩科技於2023年8月完成數千萬元人民幣天使輪融資。 2024年,該公司相繼完成A2至A4輪融資,累計金額近3億元。 A2輪由螞蟻集團投資,A3與A4輪則獲得北京市人工智慧產業投資基金、國科投資、光源資本等機構支援。 (智東西)
《731》首日破億!黑龍江省委書記、省政協主席現場觀看
9月17日,重大歷史題材影片《731》全球首映活動在黑龍江省哈爾濱市舉行。黑龍江省委書記、省人大常委會主任許勤,省政協主席藍紹敏等出席。據網路平台資料,截至9月17日20時08分,影片《731》首日(9月18日)預售票房突破1億,預售場次已超23.6萬場,大盤佔比近7成,超過《復仇者聯盟4:終局之戰》,成為中國影史上映首日場次冠軍,同時也是今年春節檔後首部首日預售票房破億影片。電影《731》由黑龍江省委宣傳部、山東省委宣傳部、吉林省委宣傳部、哈爾濱市委宣傳部、青島市委宣傳部聯合製作,長春電影集團、哈爾濱市演藝影視集團等聯合出品,將於9月18日起在全球多地上映。影片通過嚴謹的史料考證與影像敘事,講述了侵華日軍第七三一部隊在哈爾濱平房區以“給水防疫”為名,大肆抓捕平民進行活體實驗,秘密進行慘無人道的細菌戰研究的歷史真相,以平民視角揭露日軍反人類的滔天罪行、還原侵華戰爭給中華民族帶來的深重苦難、展現絕境下中國人民頑強不屈的精神品質,激勵我們弘揚偉大抗戰精神,銘記歷史、珍愛和平、開創未來,為實現強國建設、民族復興偉業團結奮鬥。觀影前,許勤等省領導看望慰問了導演趙林山,總製片人張望,主演姜武、李乃文、孫茜、林子燁、李善玉等主創人員。觀影前,許勤等省領導看望慰問了影片主創人員觀影后,影片主創團隊與現場觀眾進行了交流互動。該片導演趙林山接受採訪表示,影片試圖用光影的力量讓被沉默的證據“說話”,透過塵封的歷史重新窺見個體的命運與情感。趙林山介紹,影片團隊進行了6年的跨國取證,在歷史與細節的縫隙中發現“謊言才更可怕”。電影中呈現的“健康換取自由”“天皇親善”“食物寶貴”等謊言表述,都是基於史料研究中發現的端倪。“這在人類歷史上是一個至暗時刻。”趙林山說,“我們以銘記之名回望歷史,不是為了揭開疼痛的傷疤,而是要讓和平的光照耀在人類文明的征途上。”對於為什麼選擇當下這個時間節點推齣電影《731》,以及希望通過電影傳遞什麼資訊,趙林山表示,通過電影更想凝聚社會力量,達成社會共識,“對於731的史實挖掘和史實追證僅僅是一個開端,通過揭露這樣的罪行希望團結更多熱愛和平的人士,將這段歷史能夠形成全世界、全民族、全人類的記憶”。趙林山稱:“我們以銘記之名回望歷史,不是為了揭開疼痛的傷疤,而是要讓和平的光照耀在人類文明的征途上。”部分現職省級領導同志和離退休省級老同志,中國人民抗日戰爭勝利80周年紀念章獲得者親屬代表,大國工匠、最美職工、少數民族、退役軍人、歸僑僑眷、駐省部隊官兵代表,中直單位、新聞媒體代表,企業、社會組織、高校和科研院所代表,省直及哈爾濱市機關幹部代表,影片出品方、主創團隊等參加首映活動並一同觀影。 (傳媒圈)
暴漲 600 萬粉,現在的新晉網紅,變樣了...
短影片迅速發展這幾年,已經把觀眾培養成視訊前幾秒不夠吸引人,就立馬劃走的觀看習慣了。俗稱 “ 三秒定生死 ”。也正因如此,這兩年短影片平台起號的門檻越來越高了。直接表現就是,最近刷到新晉流量博主爆火的內容,能直觀感受到沒以往多了。這兩個月,以某音短影片平台為例,表現比較突出的新晉網紅是一位叫 “混子哥邊畫邊講 ” (以下簡稱混子哥)的博主。兩個月時間,發佈 20 余條視訊內容,暴漲 600 萬粉絲。不知道你們刷到過沒?這是一位長相樸實,沒有擦邊也沒有跳舞內容的 80 後大哥。視訊裡就是固定拿著一隻馬克筆,在一塊小白板上邊畫漫畫、邊講歷史科學等知識的固定內容。因為趣味科普,迅速漲粉。不少網友在他的視訊內容下面評論:“ 讀書的時候(老師)要是這麼教,沒有學不會的。 ”甚至還有不少網友直接催更。需要補充的是,這位新晉流量博主的走紅,實際上是厚積薄髮型。看了下網上有關他的介紹,只能說混子哥本就不是普通人的大多數。混子哥本是機械專業出身,之前是汽車設計師,在他 30 歲那年辭職開始做 “ 知識漫畫化 ” ,即科普作家、漫畫創作者,比較有代表性的,就是他《半小時漫畫》系列銷量突破了 2500 萬冊。所以如果你要是對他沒印象的話,那表面上看他現在遊刃有餘的用一支筆、一塊板跟網友講五代十國、講 “ 魑魅魍魎 ” 的區別,其實人家只是把過去過年沉澱下來的內容以短影片的形式複製出來了而已。而這次混子哥的迅速漲粉,又更好的說明了短影片平台推薦機制的變化。如果你們還有印象的話,兩個月前狐妹也聊過一個相似的、更具代表性的案例➡️2 個月從 0 幹到 1700 萬粉絲!現在抖音起號這麼狂嗎?也是一位本身就有一定知名度的內容博主,憑藉過硬的電影解讀內容,迅速漲粉。而且就近幾個月總的情況來看,除了上面提到的這兩位,還有只發了一條視訊但漲粉 2300 萬粉絲的韋東奕,也是教育科研領域的名人。是不是感覺現在有點缺內容了呢?有沒有感覺似乎今年短影片平台推薦的新鮮內容,相比前兩年更單一、更侷限了。從觀眾視角來看,短影片平台的現有內容也愈發固化。背後的變化,當然也跟平台重建內容體系有關。一方面,從監管層面出發,平台的稽核機制更加完善,影響力比較大的整頓,包括上個月有短影片平台集中封禁了一批 PK 類主播;所以很多有擦邊傾向的、噱頭十足且低俗的內容大批減少,整體內容更加正向。另一方面,行業內卷後,原創內容價值門檻更高,前幾年平台推薦的流量博主以及原創內容,側重 “ 看了就笑、看完就忘 ” 的感官刺激。而這類內容隨著平台的篩選,基本陣營如今已然成型。而面向各年齡段、不同興趣群體的使用者,平台內容長期規劃,必定是多元的。尤其是經得起時間沉澱的優質內容,在賺取使用者認可的同時,也能反哺平台的影響力。更關鍵的是,內容平台的商業價值轉化,當前還有很大的潛力,這跟核心受眾直接相關,說白了,觀眾在看平台優質內容的時候,是真金白銀的投票。平台需要更多讓觀眾覺得不僅有趣,還能有用、能產生共鳴,才是多方平衡後的新流量密碼。從近幾個月破圈的幾位代表性新晉網紅博主來看,也說明優質的內容其實永遠不乏觀眾,這類讓觀眾笑著漲知識的內容,其實一直都有 “ 鈔能力 ” 。儘管當內容行業的暴利期已經過去,但與此同時,我們也迎來了深耕內容的黃金時代,相信接下來會有更多 “ 少量但精選 ” 的優秀內容出圈...... (科技狐)
AI視訊生成革命!MIT領銜豪華天團讓生成效率暴漲370%,成本直降4.4倍
【新智元導讀】刷到1分鐘AI短影片別只顧著點贊,背後的算力成本讓人驚嘆。MIT和輝達等提出的徑向注意力技術讓長視訊生成成本暴降4.4倍,速度飆升3.7倍,AI視訊的未來已來!刷到1分鐘的AI生成短影片時,你可能想像不到背後的算力成本。傳統的視訊擴散模型,處理視訊時採用密集注意力機制。這種方法雖然能保證畫質,但計算量大得嚇人,生成10秒視訊就要燒掉數千元算力費用,隨著視訊長度增加,算力需求呈指數級飆升。最近,MIT輝達等研究人員發明的「徑向注意力」技術,不僅讓長視訊生成速度提升3.7倍,還能把訓練成本砍掉4.4倍。論文連結:https://www.arxiv.org/abs/2506.19852 程式碼連結:https://github.com/mit-han-lab/radial-attention/徑向注意力在擴散模型的加持下,高品質視訊生成逐漸從科幻變成現實。但視訊的時間維度給算力增加了不少負擔,導致訓練和推理長視訊的成本飆升。生成10秒視訊就要燒掉數千元算力費用,價格之高令人望而卻步。對此,團隊從熱力學借了點靈感:「沒有任何傳播是無損的;訊號、影響、注意力都會隨著距離衰減。」他們發現視訊擴散模型裡的注意力分數同樣遵循這個規律——softmax後的權重隨著token間的空間和時間距離遞減。這種「時空能量衰減」現象與自然界訊號的物理衰減不謀而合。這會不會就是視訊生成降本增效的關鍵?為進一步證實這種猜想,團隊提出了「徑向注意力」(Radial Attention):一種計算複雜度僅為O(nlog n)的稀疏注意力機制。區別於之前SVG每次推理對空間/時間注意力進行動態選擇,徑向注意力用的是一種統一且高效的靜態掩碼。這種掩碼把空間和時間注意力合二為一,帶來了更靈活、更快的長視訊生成體驗。而且,這種簡潔的靜態注意力掩碼讓每個token只關注附近空間的鄰居。隨著時間距離的拉長,注意力窗口逐漸收縮。相比傳統的O (n²)密集注意力,徑向注意力不僅大幅提升了計算效率,還比線性注意力擁有更強的表達能力。在這項注意力機制創新的加持下,高品質視訊生成變得更快、更長。訓練和推理的資源消耗極大地降低,為視訊擴散模型打開了新的可能。效果有多驚豔?實測資料來說話研究團隊在三個主流模型上做了測試:HunyuanVideo、Wan2.1-14B和Mochi 1,覆蓋了不同參數規模的場景。Mochi 1可以生成長達5秒、480p解析度、162幀的視訊;HunyuanVideo可以生成長達5秒、720p解析度、125幀的視訊;Wan2.1-14B可以生成長達5秒、720p解析度、81幀的視訊。速度提升1.9倍到3.7倍在默認視訊長度下(如HunyuanVideo的117幀),徑向注意力能把推理速度提升1.9倍左右。當視訊長度擴展到4倍時,速度提升更明顯:從2895秒(近50分鐘)降到781秒(約13分鐘),足足快了3.7倍!以前一小時才能生成的視訊,現在喝杯咖啡的功夫就搞定了。表1展示了在HunyuanVideo和Wan2.1-14B的默認生成長度下,徑向注意力與三個強稀疏注意力基線的比較。在相同的計算預算(以TFLOPs衡量)下,徑向注意力保留了密集注意力的視訊質量,同時在相似性指標(PSNR、SSIM、LPIPS)上始終優於STA和PA,並與SVG的質量相匹配。在單個H100上,徑向注意力為HunyuanVideo和Wan 2.1分別實現了1.9倍和1.8倍的端到端加速,與理論計算預算節省(1.8倍和1.7倍TFLOPs)相匹配。儘管STA通過使用 FlashAttention-3(FA-3)產生了略高的加速,但視覺質量明顯下降。訓練費用最多節省4.4倍長視訊生成最燒錢的其實是訓練階段。用徑向注意力配合LoRA微調技術,訓練成本直接大幅下降。對於企業來說可是天大的好消息,以前做一個長視訊項目可能要投入幾十萬,現在可能只需要幾萬塊。表2提供了2倍和4倍原始長度的視訊生成結果。為了確保公平性,所有稀疏注意力基線使用相似的稀疏率。當生成長視訊時,未經進一步調優的原始模型表現出顯著的質量退化,尤其是在4倍視訊長度擴展時。雖然RIFLEx在2倍長度外推時提高了性能,但其質量在此之後惡化,表明擴展能力有限。空間和時間稀疏注意力受到有限感受野的影響;另一方面,LongLoRA和PA雖然具有全域感受野,但未能捕捉時空相關性,導致質量下降。有趣的是,PA在微調後視覺獎勵有很大提高,表明其原始稀疏模式與預訓練的注意力分佈不一致。微調允許模型適應施加的注意力稀疏性,改善對齊和質量。SANA將softmax注意力取代為線性注意力,需要大規模重新訓練,並且在基於微調的視訊長度擴展下失敗。相比之下,徑向注意力實現了與LoRA微調密集注意力模型相當的質量。甚至在默認視訊長度下,比預訓練模型略微提高了視覺獎勵。由於O(nlog n)複雜度,徑向注意力比原始密集注意力提供了顯著的推理和訓練加速,如表2和圖2所示。生成4倍長的視訊時,可以節省高達4.4倍的訓練成本,並實現高達3.7倍的推理加速。最關鍵的是,速度和成本降下來了,畫質還沒縮水。在HunyuanVideo上,徑向注意力的PSNR值達到27.3,和原始模型基本持平;視覺獎勵分數0.134,甚至比密集注意力的0.133還高一點點。不只是快:徑向注意力的「隱藏技能」很多技術升級都需要重新訓練模型,但徑向注意力不需要。它可以直接應用在預訓練好的模型上,通過簡單的 LoRA 微調就能實現加速。徑向注意力的一個關鍵優勢是與預訓練的特定任務LoRA(如藝術風格遷移)的無縫相容性,這對創作者太友好了。如圖8所示,將擴展長度LoRA與現有風格LoRA結合使用,在實現長視訊生成的同時保留了視覺質量。研究團隊還觀察到,合併LoRA生成的內容風格與原始LoRA略有不同。這種差異主要歸因於用於訓練擴展長度LoRA的相對較小的資料集,這可能引入輕微的風格偏差,與風格LoRA相互作用。在更全面的資料集上訓練長度擴展LoRA,預計將有助於緩解這個問題。以前生成1分鐘的AI視訊是很多中小團隊不敢想的,現在徑向注意力讓這事變得可行了。以後,我們可能會看到更多AI生成的長視訊內容,像短影片平台的劇情號。 (新智元)