#視訊模型
Sora2,AI幫你賺錢的時候到了
真正改變遊戲規則的創新者,往往是在“無人區”中開闢新大陸的人。當OpenAI發佈其新一代AI視訊模型Sora2的演示視訊時,整個科技圈為之震動。視訊10秒出片,並且自帶高度逼真的物理邏輯、如電影運鏡般的多鏡頭切換……其能力已無限逼近人類專業創作者。東莞證券在隨後發佈的研報中稱“Sora2及其配套社交應用的發佈標誌著AI視訊生成與社互動動進入融合階段,有望重塑內容創作和分發生態,或迎來AI視訊生成的ChatGPT時刻。”這個比喻精準地戳中了行業的神經。因為,ChatGPT是人工智慧技術“量變”引發“質變”的代表,標誌了機器學習大模型、大訓練資料和大算力能夠到達的新高度。更令人震撼的是,Sora2不再是一個單純的視訊生成工具,而是一場徹頭徹尾的革命——與視訊緊密相連的影視劇、社交、電商等行業,也將迎來生態重構,甚至許多商業模式也被重塑。對普通人來講,一個更直接的問題是,Sora2將如何改變人們賺錢的方式?Sora App上線第四天,就拿下了蘋果美國應用程式商店App Store的免費應用榜第一名,超越了Gemini和ChatGPT,堪稱“出道即頂流”。據Appfigures估算,Sora iOS版上線僅兩天,總下載量高達16.4萬次,首發下載量達5.6萬次。圖註:App Store截圖Sora APP的爆火,一方面源自其自身提出的兩大顛覆性AIGC社交功能——客串(Cameo)和二次創作(Remix)。客串(Cameo)的核心工作原理源於OpenAI正在建構的世界模擬模型(world simulation models)。使用者只需提供一個簡單的視訊素材,就能將自己或朋友“傳送”到古羅馬鬥獸場、未來賽博朋克都市、遊戲裡的場景等等,或是任何能夠想像到的場景中,並讓他們在其中自然地活動和互動。二次創作(Remix)是Sora App的一個核心互動機制。當使用者看到一個喜歡的視訊時,可以點選Remix按鈕,在其基礎上進行二次創作。例如,看到鋼鐵人和蜘蛛俠的視訊,使用者可以輸入新的提示詞,如“把我的照片融入進去”,Sora就會生成一個全新的、與原作相關聯的視訊,展示出“我與蜘蛛俠互動”的內容。這個功能極大地降低了參與熱門趨勢和故事線的門檻,讓每個人可以輕鬆參與AIGC製作。另一方面,OpenAI首席執行官Sam Altman(山姆·奧特曼)親自下場,開放了個人肖像權,也加速了Sora的火爆。在國外的社交平台上,Sam Altman從商店偷GPU被抓包、在金字塔前熱舞、與李小龍對打、跟科比打籃球,細節逼真到以假亂真。在國內的小紅書上,一些“手快”的博主,已經讓Sam Altman參與直播帶貨,熟悉的“321,上連結!”從他嘴裡說出來也毫無違和感。圖源:小紅書基於成品視訊流暢的表現,Sora2也給更多行業帶來新的想像空間。以電商領域為例,目前,OpenAI形成以“內容平台激發需求(Sora)—支付管道保障(Stripe)—電商平台供給商品(Shopify/Etsy)”的商業模式閉環。隨著全球範圍內視訊種草、直播帶貨接受度越來越高,通過“代理商務協議”(Agentic Commerce Protocol,ACP),Sora有望開啟“端到端”的新電商模式。並且,OpenAI似乎也在逐步強化這種電商基因。幾天前,OpenAI宣佈推出全新的“Instant Checkout”即時結帳功能,允許使用者直接通過其AI聊天機器人ChatGPT內容完成商品購買,這也標誌著OpenAI與電商的融合進一步加速,ChatGPT也輕鬆實現了從“商品推薦”到“直接支付”的全鏈路閉環。未來如果由Sora一鍵生成的商品展示視訊、買家秀合集等內容也進入這一電商閉環,並與主流電商平台API打通,則有望形成一個區別於傳統電商平台的新的“人貨場”邏輯。與此同時,廣告行銷成本也大幅降低,過去,高昂的製作成本、漫長的周期與專業的門檻,是桎梏電商賣家進行大規模擴張的瓶頸,如今這不再是難題。Agent Platform廠商述信科技CEO彭聖才指出,Sora2這種工具型產品出現,會帶把一些以前不成立的商業模式變成現實、甚至直接創造一些新的模式出來。比如說一款產品出海,在以前需要找代理、找管道、做品牌行銷,一點點去鋪貨,各個環節都要考慮到。現在借助AI等新興技術,可以直接打通整個環節。目前,市面上已經出現一些新興公司,依託中國本土強大的供應鏈和生產能力,借助AI提供的行銷、投流、客服等功能,把貨帶到海外市場。這與傳統的出海模式截然不同,甚至是一些“一個人公司”也可以完成全套流程,對於這些企業來說,AI的出現就像是給業務插上了翅膀,讓以前不能做的生意好做了,讓本來打不開的市場打開了。但這種AI主導的電商模式,也對品牌提出了更高要求。彭聖才指出,以前做產品是“管道為王”,要儘可能多的去覆蓋管道,讓不同消費者能在不同管道上盡快找到我,平台扮演的角色十分重要。但是AI出來之後,消費者很可能只是用一句話來描述自己需要的產品或者服務,餘下的都靠AI來匹配,管道的價值就會衰減,而品牌的價值被放大。在這種模式下,唯一能爭取到AI帶來的消費位置的方式就是做好品牌。“以前,我們要花很多錢做市場、搞行銷、搞投放,但現在只需要把自己的商品和服務做好,然後通過MCP的方式散發給AI,AI就會根據使用者的指令精準找到這個商品,這對於整個行業幾乎是顛覆性的,但長遠來看有利於行業生態的健康發展。”彭聖才說道。(註:MCP,是Model Context Protocol的縮寫,即模型上下文協議,它是一個開源標準,用於將AI應用程式連接到外部系統。基於MCP協議,各大AI應用程式可以連接到資料來源,工具和工作流,使它們能夠訪問關鍵資訊並執行任務。)更顛覆的是,由Sora2驅動的Sora App對標TikTok的滑動操作模式,直接降低了C端使用者使用的門檻。外界一致認為,它“掀了短影片的桌子”,甚至對廣告、明星代言、影視劇、創意產業的商業模式都形成巨大威脅。今年9月,TVB上線了一部100%AI生成短劇——《在我心中,你是獨一無二》,劇中主角、群演、場景、配樂等等全部由AI生成。換句話說,在這部短劇的製作中,AI承擔了“編劇+導演+美術+剪輯+後期”的全部職責,甚至在末端的營運、投流環節中也發揮了巨大作用。從技術層面看,Sora已經可以生成時長25秒(普通使用者在App和網頁端15秒,Pro使用者網頁端可達25秒)、接近4K細節的短影片,畫面更加銳利,幀與幀之間延續性更好,甚至可以實現多語言同步翻譯。GoogleVeo2升級後,也可以提供4K電影級畫質、2分鐘以上的精美視訊。這些工具確實幫助實現了內容生產的質效飛躍。隨著AI深度參與短劇製作各關鍵環節,它成為降本增效的核心動能。在製作端,從AI生成劇本與分鏡,到虛擬製片與智能剪輯,大幅壓縮了創意到成片的時間;在營運端,AI可以智能生成海量行銷素材進行A/B測試,實現精準投放,同時通過使用者資料分析,進一步反哺創作,完成內容持續最佳化。傳統短劇製作需要2-3個月製作周期、50-200萬試錯成本,這已經是行業壓縮到極致的成本線。但是AI短劇已經進化到10-15天出片、6-15萬低成本試錯,單整合本最多可下降90%。這些都給蓬勃發展的短劇行業帶來新的想像力。另一方面,Sora的影響力還波及到社交領域。手指滑動的互動方式,讓它被稱為“AI版抖音”。使用者可通過上傳圖片結合文字提示創作,或使用客串功能,基於自己或朋友形象生成視訊,這種強互動性與親近感,使得Sora App擁有極強的社交屬性。“瀏覽-激發-創作-分享”的閉環一旦轉動,使用者便被牢牢吸附在平台內,每一次創作都在為生態貢獻新的素材和範本,形成內容自然生長的生態,即“使用者資料飛輪”。“AI+社交”可能會成為未來的主流形態。Sora2對廣告行業的影響也備受關注。但目前看,其衝擊力尚未呈現。彭聖才舉了個例子,在廣告行銷行業,文案、圖片、視訊等內容的生產其實是產業鏈的末端環節。而且這個末端通常也由一整個團隊負責,內部還分策劃、美術、編導、剪輯等等職責,Sora2可能只是對那個視訊製作者(或剪輯師)有一定影響,但是放在廣告行銷這個存在了百年的產業鏈條上,Sora2隻影響了末端的那個佔比不到1%的環節。所以他覺得“Sora2很難對整個鏈條產生那麼大的衝擊和影響”。但彭聖才也指出,Sora2的出現確實會帶來成本下降和效率提高,進而幫助一部分人吃到紅利。比如,在廣告主採購視訊廣告內容的採購價不變的前提下,AI用的好的人,可以借助Sora2等工具把視訊生產的效率提高十倍甚至百倍,售價相同但成本更低了,收益自然也會隨之擴大。“但這種紅利僅體現在短期內,因為後果是可以預見的,供給越來越多之後,大家自然而然就會開始卷,同樣的價格,有人能出10條視訊,後面就會有人敢出50條、100條視訊。所以在大部分人還沒能很熟練運用AI生成視訊的這段窗口期內,確實有些人可以賺到錢。只是這個窗口期不會太長,我預測可能也就半年左右。”彭聖才預測。Sora2更大的貢獻在於,它給整個行業提供了一種新的變現思路。過去幾年,全球頭部大模型產品以及垂直領域應用多數採用“訂閱付費”的模式進行變現,即通過按月或季度固定收費,提供一定量的API呼叫服務。而Sam Altman在部落格中公開宣佈,公司將引入“IP分成”收益機制。具體來看,這個機制包含兩步,一是賦予版權方更細粒度的控制權,IP擁有者可設定角色是否及如何被使用;二是探索收入分成模式,當使用者使用授權角色生成視訊並產生收益時,版權方可獲得相應分成。如此一來,思路一下就打開了。過去幾年,迪士尼、漫威、華納兄弟、任天堂等版權巨頭,一直在全球範圍內積極維權,努力避免自己的IP被AI工具使用者侵權。比如著名的文字生成圖片AI應用Midjourney,就在今年的6月至9月間,密集地被迪士尼、環球影業和華納兄弟三家公司送上“被告席”。而Sam Altman把雙方“敵對”的關係轉化為“共贏”,對於上述版權巨頭而言,如果自家IP能被更多垂直領域的創作者使用,無疑會進一步擴大自己的影響力,也可以順便從中獲得一定的分成;而對於活躍在網路上的內容創作者而言,能合法的使用經典IP形象,給他們提供了更豐富的創作靈感,也可以在一定程度上避免同質化的現象。參考YouTube的成功經驗來看,這種模式也有利於整個行業的健康發展。YouTube曾花費大量時間,建立了一套成熟的版權識別和收益共享系統。當博主在作品中使用了某段受版權保護的音樂或影視片段時,YouTube會自動識別並進行記錄,然後將這段視訊產生的廣告收入,按照約定的比例分配給創作者、平台以及版權所有者。多方共贏的方式,也幫助YouTube成為全球範圍內最具影響力的視訊網站之一。據預測,YouTube的全球月活躍使用者(MAU)將在2025年突破28.5億,覆蓋全球51%的網際網路使用者。而Sam Altman的設想,就是要建立一套類似的分成體系。使用者借助Sora2來製作視訊內容,平台對每一個內容進行記錄和追蹤,如果涉及到授權IP,則按照約定的比例完成收益分配。中研普華產業研究院公佈的《2025-2030年中國AI視訊行業全景調研與投資前景預測報告》顯示,2023年,全球AI視訊市場規模已達到420億美元。創作者成功、則平台成功,無論是AI生圖還是AI視訊,都已經被越來越多的創作者接受。如果Sam Altman的設想成真,Sora App將不再是簡單的工具,而是一個連接IP授權方與全球億萬創作者、直通百億美元大市場的全新數字經濟生態。但另一方面,“隔屏如隔山”,當AI生成的視訊足以“以假亂真”,當眼見不再為實成為常態,如何區分虛擬與現實將成為一個難題。一位從業者的觀點是,“不必刻意去區分真的假的,學會適應才是常態”。比如在直播電商領域,虛擬主播已經十分常見。根據市場調研機構QYResearch的統計及預測,2023年全球虛擬偶像與虛擬主播市場銷售額達到了10.83億美元,預計2030年將達到51.29億美元。“很多人已經不再去刻意區分主播是真人還是虛擬人,或者說是放棄了這個動作。畢竟我做消費決策不取決於螢幕裡的人像,而更多取決於我對他態度、語氣、氛圍的感覺,或者說取決於直播間裡產品品牌的信任程度。”該從業者表示。 (霞光社)
Sora 爆紅之後,Sam Altman 的 4 個判斷,決定 AI 的“入口之戰”
9 月 30 日,OpenAI 發佈 Sora 2,同步推出全新 App,加入肖像授權機制。上線不到一周,Cameo 表情包刷爆社交平台,Altman 的 AI 形象出現在無數群聊、朋友圈、創作者社區。Sora 迅速從技術演示變成現象級產品。但這一次,OpenAI 打響了 AI 時代的“入口之戰”。10 月 8 日,Sam Altman 現身 a16z 播客,首次全面闡釋了 OpenAI 的戰略方向: “我們不會只是發佈技術演示,而是讓社會提前體驗即將到來的事物。AI 的入口,不再是對話方塊,而是生成一整段畫面,甚至幫你先想一步。”他透露:視訊只是前奏,真正的入口革命來自 4 個判斷:視訊變介面、模型變科學家、Agent 走向“零員工公司”,到自建 AI 工廠。這 4 個判斷,正在決定 AI 入口之戰的走向。第一節|視訊,是 AI 理解世界的新眼睛你可以把 Sora 看作一個不斷渲染視訊的介面,一個新的世界建模方式。——Sam AltmanSora 火了,但它的意義並不只是生成視訊。Altman 的判斷很清楚:Sora 的價值,不在於畫面精美,而在於教會 AI 理解物理世界。過去,AI 只能讀文字、看圖片,是靜態認知;現在,視訊讓 AI 開始理解動作、空間、因果關係。這是認知方式的質變。Altman 舉了個例子:不是你打開一個網頁,問它“這段話什麼意思”;而是你在真實世界裡拍一段視訊,AI 自動看懂畫面,知道誰在動、發生了什麼,甚至能預判“接下來可能出什麼問題”。從看圖到讀動作,AI 的理解維度變了。但 OpenAI 發佈 Sora 還有更深一層考慮:讓社會提前適應即將到來的現實。很快,任何人都能用 AI 生成以假亂真的視訊。Altman 的原話是:“視訊的情緒共鳴遠超文字。文字可以騙你一次,視訊直擊人心。”當 AI 視訊無處不在時,衝擊會比想像中更大。社會必須儘早建立免疫力。而從技術層面看:Sora 不只是內容工具,更是 AI 觀察世界的新方式。這雙“眼睛”正在變成一個新入口。不是你輸入問題,而是 AI 主動觀察、理解,替你想一步。視訊,正在成為 AI 通往 AGI 的關鍵訓練場。第二節|AI 的價值不在答題,而在主動思考Sam Altman 在這次訪談裡提到一個變化:我們第一次看到 AI 開始在科學研究中提出新想法。不是總結別人的觀點,而是自己想到從沒出現過的解法。GPT-5 的某些能力,已經跨過了日常工具的邊界。它不再只是寫郵件、潤色文案,而是在數學、物理、生物研究中,給出科學家都沒想到的推導路徑。Altman 表示:“我們過去以為圖靈測試是 AI 的終極標準。結果呢?它在不知不覺中就通過了。真正大的轉折,是 AI 開始做‘我們做不到的事’。”比如:在物理研究中幫忙計算複雜公式在數學問題中找出新的證明思路在生命科學裡幫助建立假設模型(那怕它不是 100% 精準,但它敢提出)過去我們問 AI:這是什麼意思?現在它開始主動告訴我們:也許可以這麼想。Altman 對 AGI 的標準很明確:當 AI 能做出科學發現時,才算真正的通用智能。現在,它已經開始了。很多人還停留在 AI 能寫程式碼、畫圖的印象中。 但在 OpenAI 內部,GPT-5 的研究人員已經在嘗試讓它做研究助理甚至研究搭檔。它不會取代科學家,但它能成為一位每天 24 小時線上的“靈感提出者”。他認為:“AI 做科學這件事,可能是接下來幾年裡最深遠的改變。”而這背後意味著什麼?AI 的角色變了:不再只是被動回答,而是主動觀察、尋找線索、提出可能性。從“等你問”到“替你想”。而這,已經在發生。第三節|從零程式碼到零員工,Agent 重設創業起點我們現在真的在賭,什麼時候會出現第一家零員工公司。——Sam Altman在這場長達 40 分鐘的訪談中,Altman 多次提到一件事:Agent,已經能真正幹活了。不需要懂程式碼,不用組建團隊。你只要會寫一句話,AI 就能自動處理任務、生成流程、完成執行。Altman 在後台看過 OpenAI 內部的 Agent Builder 流程演示後感慨:“這些東西一年前還要花很久才能完成,現在你幾乎可以即時搞定。我感覺自己想創意的速度都跟不上了。”過去,你可能需要一個營運、一個客服、一個銷售、再加一個資料分析師。 現在,只要你能描述清楚要做什麼,AI 就能一併幫你完成:回客戶消息整理 Excel 報表尋找資料撰寫文案呼叫外部工具提交結果OpenAI 稱之為 Agent:一個真正能執行任務的 “AI 同事”。不是陪你聊天的助手,而是真正能接需求、出結果的執行層。Altman 舉了個例子:今天有人跟我說,AI 已經能完成一整天的工作任務了,太驚人了。也許現在還達不到“一周不用管”,但這個目標並不遙遠。這不再是提升效率那麼簡單。而是出現了一種全新的工作單位: 一個人加一套 AI,能撐起一個完整業務。Altman 回憶,過去他和朋友們賭什麼時候出現一個人營運的十億美元公司;現在他們的新賭局,是零員工公司什麼時候會成為現實。他親眼看到,越來越多團隊在用 AI 做流程,做營運,甚至做產品。所以他強調:“AI 帶來的改變,很多不是模型更強了,而是人做事的方式變了。”當 AI 不再只是工具,而是能持續執行任務的執行層, 組織的起點就被重設了。你不再需要“一個團隊”,而是一個想法 + 一套 AI。第四節|從模型到入口,全端自建才有主導權OpenAI 已經不是一家只做模型的公司了。過去,它被看作“模型公司”。核心能力是訓練 ChatGPT、Sora 背後的技術。但 Altman 在這次訪談中直言:為了做出真正有用的 AI,光靠模型不夠。我們得自己建基礎設施,自己控制使用者接觸 AI 的方式。這不是說說而已。OpenAI 正在建人類歷史上最大的基礎設施項目之一,包括:和 AMD 合作造 AI 晶片和微軟、NVIDIA 搭建大規模資料中心親自推進建設 AI 電廠,解決用電問題投入數十億美元,佈局從底層硬體到終端應用的全部鏈路為什麼要投入這麼多?Altman 的答案是:如果入口在別人手裡,OpenAI 最終只能依附於別人的平台。這讓他徹底改變了一個長期觀點。他說:我以前是反對一家公司從頭做到尾的,覺得太笨重、不靈活。但現在我承認我錯了。我們必須自己掌握全鏈路。邏輯很簡單:只有掌握入口,AI 才能真正落地。今天的 OpenAI,已經是三位一體:一個研究團隊:不斷突破模型邊界一個產品團隊:把突破變成使用者產品基礎設施團隊 :從電開始自己解決核心就一句話:想給人類提供真正有用的 AI,就得親手建出這套東西,而不是等別人幫忙。入口在那,主導權就在那。OpenAI 不再等別人給入口,而是選擇從底層開始重新搭建。結語|誰先想清楚,誰就掌握入口這場入口之戰,表面看是 Sora 爆紅、視訊模型進化,但 Sam Altman 真正推動的,是一套全新的互動邏輯:不是你點開 App,而是 AI 主動理解、回應、替你想一步。他的 4 個判斷,指向同一個核心:視訊 —— 讓 AI 理解物理世界科學 —— 讓 AI 主動發現問題Agent —— 讓 AI 執行完整任務基礎設施 —— 掌握從生產到交付的完整鏈路未來的 AI,不是你問一句它答一句,而是它先觀察、先推理、先給出可能性。Altman 已經開始親手搭建這個未來。而每一個使用 AI、開發產品、建構組織的人,也必須做出選擇: 下一步,是讓 AI 等你的指令,還是讓它先想清楚,你再做判斷?這才是真正的入口之變。 (AI深度研究員)
Midjourney正式推出 V1 視訊模型:美學細節無敵
Midjourney推出視訊生成模型V1,主打高性價比、易於上手的視訊生成功能,作為其實現“即時模擬世界”願景的第一步。使用者現在可以通過動畫化Midjourney圖片或自己的圖片來創作短影片,定位為有趣、易用、美觀且價格親民Midjourney一如既往,視訊模型在美學細節上下了一番功夫,這是官方放出的宣傳視訊,大家感受一下V1工作流程與主要功能核心流程:採用“圖像轉視訊” (Image-to-Video) 的工作方式。使用者先生成一張滿意的圖片,然後點選新增的 “Animate” 按鈕來使其動畫化。支援外部圖片:使用者可以上傳自己的圖片,然後通過輸入運動提示詞來生成視訊。兩種動畫模式:自動模式 (Automatic):AI 會自動為你生成“運動提示”,簡單快捷手動模式 (Manual):使用者可以自己寫提示詞,精確描述希望物體和場景如何運動兩種運動幅度設定:低運動 (Low motion):適合相機基本不動、主體緩慢運動的場景(如氛圍圖),但有時可能完全不動。高運動 (High motion):適合相機和主體都大幅度運動的場景,效果更動態,但更容易出錯視訊擴展:生成的視訊可以被“擴展”,每次延長約4秒,最多可延長四次,目前視訊解析度為480p成本與定價策略入門價格:每月10美元即可使用。可用平台:發佈初期僅限網頁版 (web-only)任務成本:一個視訊任務的成本約等於8個圖像任務每個視訊任務會生成四個5秒鐘的視訊一個視訊的成本大致相當於一次圖像放大 (upscale)的成本,即每秒視訊約等於一張圖的成本市場優勢:官方稱其價格比市場同類產品便宜超過25倍Pro 使用者福利:“Pro”及更高等級的訂閱者將可以測試視訊的“放鬆模式” (relax mode:無限量生成,速度較慢)價格調整:未來一個月會根據使用者使用情況和伺服器負載,對價格進行調整以確保業務可持續長期願景與未來計畫最終目標:實現能夠即時互動的開放世界模擬系統 (real-time open-world simulations),視訊模型是實現該願景的關鍵一步。未來將繼續獨立開發3D模型、即時渲染模型等模組,並最終將它們整合成一個統一系統 (AI寒武紀)
馬斯克酷炫變身毒液!實測通義Wan2.1首尾幀視訊模型,還能「拼接」經典梗圖
在GitHub狂攬1w+星標的通義萬相Wan2.1,又雙詠上新了!最新打開方式是醬嬸兒的:給出開始(首幀)和結束(尾幀)兩張圖片,Wan2.1便能分分鐘生成一段絲滑的5s、720p視訊。根據前後視角的不同,還能自動調整鏡頭角度,緩慢變成高空俯拍,並同時確保人物光影正確:原來這是阿里通義萬相Wan2.1最新開放原始碼的首尾幀視訊模型,基於Wan2.1文生視訊14B大模型,為創作者提供更有效率、更靈活的視訊製作方式。官方表示,這是業界首個百億參數規模的開源首尾幀視訊模型。目前一般使用者可以直接在通義萬相官網體驗,開發者可以透過GitHub、Hugging Face、魔搭社群等開源平台使用。為了評估其真實能力,我們也在第一時間手實測了一波。初步感受是,從整體來說,Wan2.1首尾幀視訊模型這次在主體一致性、前後連貫性等方面確實表現良好。我們嘗試了用它來改造經典梗圖或挑戰一些火爆一時的玩法,具體過程如下。實測Wan2.1首尾幀視訊模型打開通義萬相官網,進入視訊生成,然後選擇圖生視訊並開啟首尾幀功能:先上經典玩法——「文藝復興」表情包。我們提供的首尾幀分別如下:對於這樣兩張頗具戲劇張力的圖片,Wan2.1最終產生的視訊,雖然不能深究故事合理性,但整個轉場確實非常絲滑,而且運動過程中人物的一致性保持較好,類似頭髮、長相、服裝這樣易出錯的細節也hold住了。接下來難度升級,我們又嘗試讓兩張完全不同的表情包來個「時空跨越」。結果生成的視訊自帶「PPT轉場」效果,有種家裡長輩看熊孩子的感覺了(doge)~Okk,除了整活兒,接下來我們也從時序連貫性、創意合理性、內容一致性以及技術實現難度等維度來進行一個全方位考察。最常見的用法,當屬各類寫實。讓我們淺淺模仿一下自然頻道,讓一朵花花慢慢生長出來。Prompt:特寫鏡頭,讓牡丹花慢慢綻放。可以看到,整個生長過程相當自然,已經是肉眼無法一眼辨識為AI的情況了。而且連首幀圖片中隱藏的蛛網也捕捉到了,在花朵綻放時也被牽動起來。還有人物寫實,透過提供兩張特寫照片,我們考察一下Wan2.1對光影這類細節的把控力。Prompt:寫實風格,臉部特寫,一個金發碧眼的小男孩,鏡頭微微左移,記錄他被陰影遮住的側臉。顯然,由於兩張圖片前後差距不大,因此稍微不注意可能還以為是靜態影像。而透過細緻觀察,我們在影片靠近結尾的部分捕捉了小男孩的脖子和臉上發生了光照變化。除此之外,我們也挑戰了曾經火爆一時的創意玩法——毒液變身特效。Prompt:特效大片既視感,穿著西裝的男人突然變身成怪獸毒液。馬斯克版·毒液這就來了:能夠看出,對於這種內容跨度比較大的例子,Wan2.1使用了“遮掩大法”,直接一個閃光特效實現變身。對此,你說它變了還是沒變,還真難界定~另外我們也嘗試了其他風格,例如二次元。Prompt:動漫風格,一個打著雨傘的動漫角色站在雨中,不知道看見什麼突然傻笑起來。可以看到,開頭和結尾的表情100%還原了,而且中間還上演了“超絕變臉”,一秒鐘八百個小表情(bushi~同時下雨這個場景也真實還原了,沒有雨滴直接穿過雨傘的「超現實場景」。最後,我們也簡單對比了一下Wan2.1和可靈(可靈1.6)的首尾幀生成效果。同樣兩張圖片和提示詞下,可靈生成的馬斯克版·毒液如下:雖然老馬的面目略顯猙獰,但好歹是真變身了。所以,你更pick那一個呢?揭秘技術原理與組態從上述簡單實測來看,相比早期的一些鬼畜視訊,這次開放原始碼的Wan2.1首尾幀視訊模型在主體一致性、前後連貫性等方面已經有了相當大的進步。那麼接下來的問題是:怎麼做到的?透過阿里官方發佈的技術報告,僅從首尾幀控制來看,其得益於在基礎架構模型上,引入了額外的條件控制分支。具體而言,首幀與尾幀同若干零填充的中間幀拼接,構成控制視訊序列。此序列進一步與雜訊及掩碼(mask)進行拼接,最終作為擴散變換模型(DiT)的輸入。此外,為實現畫面穩定性控制,通義萬相首尾幀生視訊模型提取了首幀和尾幀的CLIP語義特徵,並透過交叉注意力機制(Cross-Attention Mechanism)將其注入DiT的生成過程中。憑藉這一獨特的模型架構,最終實現了流暢且精確的首尾幀變換。當然,最後大家最關注的還是組態問題。以國內的魔搭社區為例,他們目前已在DiffSynth-Studio專案中支援了Wan2.1首尾幀模型。也就是說,開發者可以基於DiffSynth-Studio (一個提供全鏈路推理和訓練最佳化的開源工具)來實現便利推理。值得注意的是,他們也透過某一參數來控制推理過程中常駐視訊記憶體的參數量。而實際推理過程所使用的視訊記憶體需求,會與這一參數、解析度、幀數有關。他們以81幀960*960解析度的影片為例:設定參數=None時(意味著無常駐參數限制),需要46G視訊記憶體;設定參數=4*10** 9時,需要24G視訊記憶體,但推理速度會下降;另外,部分網友也在第一時間分享了自己的組態狀況:我們自己測下來也發現,僅從官網直接體驗,目前生成一個視訊實際上需要幾分鐘甚至十幾分鐘時間。所以,大家卷質量的同時,能不能把時長打下來啊(doge)~直接體驗入口:https://tongyi.aliyun.com/wanxiang/videoCreationGitHub:https://github.com/Wan-Video/Wan2.1模型(魔搭社群):https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P(量子位元)
李飛飛團隊提出世界模型基準:“世界生成”能力迎來統一評測,3D/4D/視訊模型同台PK
世界模型領域最新進展,要比拚“世界生成”了。李飛飛吳佳俊團隊提出了全面評測基準WorldScore,涵蓋了三大類評估指標,動態靜態都有涉及,其資料集中包含了3000個測試樣例。並且,WorldScore將3D場景生成、4D場景生成和視訊生成三類模型的評估,統一到了一起。利用WorldScore基準,團隊對一共19款模型進行了全面評估。評估的結果揭示了當前世界生成技術面臨的相機控制能力不足、長序列世界生成困難等主要挑戰,為模型研究人員提供了重要參考。正如網友所評價,從單一場景到整體世界建構的轉變,需要這樣的基準來對研究做出指導。3D/4D/視訊生成統一評測研究團隊認為,之前的基準測試(例如 VBench)僅能評估單個場景的生成能力,遠未達到“世界”生成的層次。並且以前的基準測試僅考慮視訊模型,但世界生成模型還包括3D和4D方法,而WorldScore可以對所有這些模型進行統一評估。WorldScore將世界生成任務分解成一系列連續的下一場景生成任務,每個任務由三個關鍵組成部分定義:當前場景:包含一張場景圖像和對應的文字描述;下一場景;佈局:一系列相機矩陣定義的相機軌跡,以及描述相機如何移動的文字說明。資料集方面,WorldScore包含了3000個測試樣例,其中2000個用於評估靜態世界生成能力,1000個用於評估動態世界生成能力。靜態世界生成資料涵蓋了10個場景類別,包括5類室內場景(餐飲空間、居住空間、通道、公共空間、工作空間)和5類室外場景(城市、郊區、水域景觀、陸地景觀、綠色景觀)。動態世界資料則包含了5種不同類型的運動:關節運動、可變形運動、流體運動、剛體運動和多物體運動。每個測試樣例都有兩個版本——真實風格和藝術風格,以評估模型在不同視覺域的表現。所涉及的指標則包括了可控性、質量和動態評估(靜態場景不涉及此項)三個大類。其中可控性評估,具體又包括了三項指標:相機控制能力:通過計算生成視訊中相機運動與指定軌跡的偏差來評估,具體計算尺度不變的旋轉誤差和平移誤差,然後取其幾何平均值;物體控制能力:使用開放集物體檢測模型檢查指定物體是否出現在生成場景中,從文字提示中提取1-2個關鍵物體描述,計算檢測到這些物體的成功率;內容一致性:使用CLIPScore評估生成場景與完整文字描述的語義匹配程度。質量評估,涵蓋了四項內容:3D一致性:使用DROID-SLAM估計每幀的密集深度圖,計算連續幀之間可見像素的重投影誤差,評估場景幾何結構的穩定性;光度一致性:通過計算連續幀之間的光流來評估外觀和紋理的穩定性,使用平均端點誤差(AEPE)來量化不穩定的視覺表現;風格一致性:計算第一幀和最後一幀Gram矩陣之間的F范數差異,評估風格保持程度;主觀質量:結合CLIP-IQA+和CLIP Aesthetic兩個自動評估指標(該組合經過200人的人類研究驗證最接近人類感知)。動態評估則包含三個方面:運動精準性:比較指定運動區域內外的光流,評估運動是否出現在正確位置;運動幅度:通過估計連續幀之間的光流大小來評估生成大幅度運動的能力;運動平滑性:使用視訊幀插值模型生成平滑過渡作為參考,評估生成視訊的時間連續性。最終,所有評估指標都經過線性歸一化處理到0-100區間,並通過計算控制和質量維度各指標的算術平均值得到WorldScore-Static得分。在此基礎上,再加入動態維度的三項指標成績,就得到了WorldScore-Dynamic評分。3D模型更擅長靜態,視訊模型動態效果更好利用WorldScore,研究團隊對19款不同類型模型的世界生成能力進行了評測,包括2款閉源模型和17款開源模型。評測結果顯示,在靜態世界生成方面,3D場景生成模型展現出明顯優勢。其中WonderWorld和LucidDreamer分別以72.69分和70.40分位居榜首,遠超表現最好的視訊模型CogVideoX-I2V的62.15分。但在動態世界生成方面,則是視訊模型展現出了較強的實力,開源模型CogVideoX-I2V以59.12分的成績領先。在不同場景類型的測試中,視訊模型在室內場景表現相對較好,但在室外場景生成時與3D模型的差距明顯擴大。同時,序列長度對模型性能有顯著影響——所有模型在短序列任務上表現尚可,但視訊模型在處理長序列時性能顯著下降,而3D模型則相對穩定。此外,研究者還對比了T2V和I2V兩類視訊模型的特點。結果表明,T2V模型在控制性和動態生成能力方面較強,更容易實現大幅度的相機運動。相比之下,I2V模型傾向於保持輸入圖像的視角,雖然生成質量較高,但相機運動相對保守。作者簡介本文的兩名共同一作均來自吳佳俊團隊,分別是碩士生段皞一(Haoyi Duan)和博士生俞洪興(Hong-Xing Koven Yu)。段皞一是浙江大學2023屆優秀畢業生,還獲得了竺院榮譽學位,本科期間在周釗教授的指導下研究多模態學習。俞洪興本科和和碩士均就讀於中山大學,碩士期間導師是鄭偉詩教授(現任中山大學電腦學院副院長)。俞洪興的主要研究方向是物理場景理解、動力學模型與模擬,以及3D/4D視覺生成。目前,兩人正在進行密切合作。今年入選CVPR HighLight的單圖生成互動式3D場景模型WonderWorld,也是兩人共同一作。除了兩名共同一作和吳佳俊以及李飛飛之外,斯坦福碩士生Sirui (Ariel) Chen也參與了WorldScore的工作。 (量子位)