#AI視訊生成
OpenAI收緊Sora監管!
當地時間周一(10月20日),人工智慧(AI)研究公司OpenAI發佈聯合聲明稱,將與演員布萊恩·克蘭斯頓、美國演員工會(SAG-AFTRA)及其他表演者工會合作,防範其AI視訊生成應用Sora的深度偽造(Deepfake)內容。據美國演員工會在社交媒體平台X上發佈的資訊,在9月底Sora 2上線後,有使用者在平台上生成了未經授權、模仿克蘭斯頓聲音與形象的AI視訊,引發了這位《絕命毒師》主演的擔憂。克蘭斯頓在聲明中表示:“感謝OpenAI制定政策並完善防護機制,並希望他們以及所有從事這一領域的公司,能夠尊重我們管理個人聲音與形象複製權的職業權利。”除了美國演員工會之外,OpenAI還宣佈將與代表克蘭斯頓的聯合人才經紀公司(UTA)、經紀人協會(ATA)及創意藝術家經紀公司(CAA)展開合作,以進一步強化對未經授權AI生成內容的防護。此前,CAA和UTA曾公開批評OpenAI在Sora中使用受版權保護素材的做法,稱其對客戶及其智慧財產權構成威脅。上周,因Sora使用者生成對民權領袖馬丁·路德·金的不敬形象,OpenAI應馬丁·路德·金遺產委員會的要求,在Sora平台封禁了相關視訊。自9月30日Sora 2推出以來,OpenAI在版權與肖像使用政策方面持續調整。10月3日,OpenAI首席執行官薩姆·奧爾特曼更新了Sora的“退出(opt-out)政策”。該政策此前允許使用智慧財產權內容,除非版權方明確要求停用;新政策則賦予權利人“更精細的角色生成控制權”。在Sora推出時,平台就要求對個人聲音與肖像的使用需經授權同意(opt-in)。OpenAI隨後又進一步承諾稱,將迅速回應任何相關投訴。OpenAI還重申支援美國的《禁止偽造法案》,該法案旨在防止未經授權AI生成他人聲音或肖像。 (科創日報)
不止於Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應用
讓AI視頻生成拿來即用。AI影片的競爭焦點開始轉移——不再侷限於單一畫面效果的比拚,而是聚焦可用性與開箱即用的突破。9月底Sora 2的橫空出世便清晰傳遞出這一趨勢:其不僅以精彩紛呈的動態生成效果刷新行業認知,更通過能引入現實角色、提升物理模擬逼真度、整合創編傳播工具等的綜合性“成片智能體”,展現了向易用性、實用性發展的趨勢。這一行業趨勢逐漸明晰的當下,國產平台商湯Seko早已率先佈局,以實際行動重新定義AI視頻的應用邊界。下面的影片就直觀展示了Seko的成片能力,這一視頻從劇本、故事板、配音到後期均由Seko完成,並且精細到每一個細節都符合導演和編劇要求,畫面以及動畫效果也都拉到專業級。Seko用戶@聽白AIGC 生成了下面的視頻,將動漫形象與現實環境相結合且毫無違和感,使得整體畫面質感提升。還有下面的恐怖氛圍短片,Seko使用者@liuker、@不會畫畫的美術生生成的視頻中呈現了醫院場景,從陰森的空間佈局到冷冽的燈光風格,所有視覺元素全程線上、精準配合,成功營造出壓抑、驚悚的恐怖氛圍。作為國內首個創編一體的短片創作Agent平台,Seko使用者規模與作品數量的快速爆發增長證明了產品的價值。從工具到智能體、從畫面到成片,AI正從根本上降低內容生產的門檻、提升創作效率、拓展表達邊界。在這場由Sora2引領的變革中,國產平台商湯Seko是亦步亦趨的追隨者,還是另闢蹊徑的破局者?我們試圖拆解Sora 2與Seko,找到其在這場變革中搶佔先機的關鍵要素。01. 「成片智能體」風起:從技術炫技到應用為王回溯AI視頻產業的發展脈絡,早期產品多停留在技術驗證層面,往往會通過生成各類逼真、新奇的視頻內容來滿足用戶好奇心,如今隨著營銷、短劇、自媒體等領域的剛性需求爆發,其定位正逐漸向生產力工具轉移,而能否覆蓋從創意到成片的全流程,也成為衡量產品價值的核心標準。9月底爆火的Sora 2以及OpenAI伴隨其發布的Sora應用就清晰表明了這一趨勢。具體來看,在核心生成能力上,Sora 2實現了全維度的效能提升。物理模擬層面,其優化動力學與材質還原的可信度,能精準呈現對象體積、遮擋關係與光照互動,例如模擬液體潑灑時的流動軌跡、織物飄動的重力反饋均更貼近真實物理邏輯;音頻能力實現了音畫一體化生成,環境音、動作音效可隨性的畫面自動匹配;提示詞:吉卜力工作室動畫風格,畫面中一個男孩和他的狗跑上長滿青草的風景優美的山坡,頭頂是絕美的雲朵,遠處背景中還能眺望到一個村莊(in the style of a studio ghibli anime, a boy and his dog run up arassy scenic mount y接著是產品形態方面,OpenAI伴隨Sora 2推出的獨立Sora App社交平台,透過內置的Cameo(角色引入)功能,用戶可建立高度逼真的個人數字分身,無縫植入任意Sora 2的生成場景,還能授權好友使用自己的形象實現多人同框創作。相較於上一代產品,Sora 2正向著更符合使用者實際創作需求的工具轉型。但值得注意的是,Sora 2的生成本質上仍是「黑盒式」輸出,因為用戶輸入指令後需等待系統完整輸出,無法對中間環節進行干預調整,即便使用千字級的詳細提示詞,也可能出現與預期偏差的生成結果。因此在實際應用場景,這對追求精準表達的商業創作而言,無疑意味著不可預測的時間損耗與修改成本。反觀國內,商湯科技今年8月推出的Seko就在成片智能體的基礎上,實現了「可控式閉環」。Seko可以做到自動劇本拆解、故事板產生、角色一致性控制等,來產生高品質AI視頻,與Sora 2在成片智能體核心能力上實現對標。下面Seko使用者@豆芽AI筆記本產生的視頻中主體角色整體一致,畫面跟隨人物移動時也沒有出現偏差。與Sora 2不同的是,Seko支援即時可編輯,非一次輸入、一次輸出,甚至可對分鏡畫佈局部修改,消除、重繪、元素加入等,讓使用者透過精細化編輯實現「所見即所得」。▲Seko故事板畫佈局部修改功能儘管當下AI視頻發展距離規模化應用還有一定距離,但當下我們可以確定的是,其行業競爭正在從單一效果比拚轉向全鏈路價值競爭,也就是“成片智能體”在AI視頻工具中逐漸成為共識。02. 解碼「成片智能體」概念讓AI視頻開箱即用的關鍵以「成片智能體」應具備的能力為標準,我們看到Sora 2和Seko的部分能力設定高度趨同,都朝著讓AI視頻生成開箱即用視頻、零門檻出成片的目標進階。需要注意的是,即便二者在降低創作難度、覆蓋全流程需求等方向上高度趨同,但實現路徑呈現鮮明差異,Sora 2強調的是端到端直接輸出,Seko則看重生成過程中各環節進行可控性編輯。先來具體看下兩大平台的相似與不同之處。首先,降低使用門檻的前提是,讓AI能聽懂使用者的日常表達,減少對專業工具的依賴。Sora 2和Seko都可以理解使用者的日常用語,不需要更專業的術語即可產生相應的視頻內容,打破AI視頻創作對專業知識的依賴。在實測體驗時,當智東西輸入「小羊介紹新疆伊犁的美麗景色,一隻擬人化的小羊羔,超寫實風格」的提示詞,其就會生成策劃摘要、美術風格、角色主體、場景概念、音樂風格、故事板劇本。另外眾所周知影片的創作需要不同的工具進行音畫比配、實體模擬等,Seko將復雜技術環節全部封裝為後台自動流程,使用者無需手動調試參數,更無需借助剪輯、配音等第三方工具,就可以實現輸入想法就能得到​​視頻的體驗。Seko近日上線的新功能還支援一鍵製作多人對口型視頻,基於SekoTalk這個商湯自研的圖生視頻對口型演算法,在音樂MV、劇情視頻、廣告等領域都可以應用。在下面的影片中,它支援中英文等多種語言、多人對口型,包括輪流說話或同時說話的情況,即使是語速超快的說唱也不會出現偏差。其次是端到端直接輸出與極致的可編輯性,這也是Sora 2和Seko兩大成片智能體最核心的區別。Sora 2和Seko都可以覆蓋創作的全鏈路,其支援多模態輸入,使用者能透過文字描述建構場景、上傳參考圖定義角色外觀,可一次完成從創意拆解、理解複雜指令到成片輸出的端到端貫通。值得一提的是,這次Sora應用程式新增的Cameo與Seko的主體功能類似,都是透過產生統一的角色,保證後續生成內容的主體穩定、一致。▲Sora 2的Cameo功能(左)、Seko的主體功能(右)在此之上,Seko還進一步將生成內容進行了細化拆解,打造了「先靜後動」流程,將創作分為分鏡確認、細節修改、視頻生成幾個階段,具體來說就是,平台先根據用戶創意生成靜態分鏡序列,經用戶逐幀檢查畫面內容後,可以直接通過自然語言指令重繪角色、調整台詞或鏡頭角度,最後都可以確認鏡頭,最後都可以確認視頻。為了進一步確保成片的可控性,Seko還具備故事板靜態預覽、分鏡畫佈局部修改等功能,允許使用者在每個環節,對生成內容進行修改,如直接要求“把圖中的小羊換成牧羊犬”,系統能精準完成修改。Seko也支援一鍵修改背景,如要求「更換背景為咖啡廳」等。▲Seko局部修改功能當使用者確認了故事板的主體、影片內容、文字內容,就可以在右上方點選一鍵轉視頻。相較於Sora 2的一鍵成片,Seko的成片方式給了使用者更大的自由創作空間。最後是成片品質方面,相較於早期的工具,Sora 2、Seko在視頻生成內容的鏡頭穿幫、音畫不同步等問題上,已經基本實現了超長分鏡的穩定輸出。在此基礎上,Seko平台還更進一步,整合了商湯日日新、即夢、可靈、海螺、Veo等多款業界主流生圖模型,使用者基於該平台能精準控制多角色、多場景的複雜劇本輸出,確保角色形象、光線風格、動作邏輯全程穩定。在下面Seko使用者@不會畫畫的美術生生成的影片中,Seko將背景音樂、鏡頭轉換等諸多設定都與劇本內容相呼應。這些技術突破共同指向,AI視頻生成正朝著「成片智能體」進化,其核心是透過極簡互動、全流程貫通與高品質輸出降低創作門檻。商湯科技的Seko在此基礎上基於故事板預覽、可控式流程等關鍵能力,在視頻生成的可控性與商業可行性兩大關鍵維度上率先落地,讓「成片智能體」真正從技術概念變為觸手可及的生產力工具。03. 從不可控到可落地:Seko重構AI視頻商業化價值邏輯Sora 2和Seko的發展讓我們看到了AI視頻商業化落地的潛力,但當我們將視野放大到整個生成式AI行業會發現,想要讓AI視頻生成真正實現拿來即用,遠比圖文生成複雜得多。影片創作需同步處理畫面渲染的時序邏輯、音訊合成的情緒適配、物理模擬的真實回饋等多重難題,任何環節的斷層都會讓產生的影片出現偏差。正因為這種複雜性,Sora 2與商湯Seko在「成片智能體」的定位上,也呈現出了差異化的思路,前者聚焦從輸入到輸出的高品質端到端交付,後者則在保證成片質量的基礎上,強化了全流程創作的自主、可編輯與可控性。在下面Seko使用者@林龍生成的影片中,伴隨著鏡頭的變化將拯救公主的故事進行了完整呈現,還融入了逼真的特效。如同前面所提到的,創作可控性在AI視頻生成中至關重要,這也是Seko相比Sora 2等其他工具的顯著優勢,其核心可概括為創意可控、風格可控、成本可控。創意可控基本貫穿了前期使用者創作的全流程。使用者輸入核心創意後可進入編輯模式,對畫面細節不滿意可直接修改提示詞重繪單幀分鏡,覺得台詞生硬能逐句調整文案並同步更新配音,想優化敘事節奏可直接增減分鏡或調整鏡頭結構。這種先確認靜態效果、再產生動態視訊的設計,可以幫助使用者在早期修正創意偏差。其次是風格可控,Sora 2的模型體系相對單一,Seko採用了多模型整合和智慧匹配策略,整合了全行業主流生成模型,支援使用者自主選擇相應模型。最後是成本,Sora 2雖能產生高品質畫面,但其千卡級算力消耗帶來的隱性成本,讓中小型商家和個人創作者難以負擔。根據實際使用者回饋,Seko已將單分鐘動畫成本從傳統方式的數萬元降至千元等級,降幅超99.5%以上,讓中小企業和個人創作者也能負擔專業級製作。另外還要注意的是,Sora 2目前仍採用邀請制,並沒有免費向大眾開放,導致大量潛在使用者無法直觀體驗。再加上用戶紛紛在社群平台上傳Sora 2產生的短影片,涉及諸多熱門影視節目角色,使得其在版權方面的監管被廣泛質疑。目前,Seko已經全面向用戶開放,其上線1個月就擁有超10萬名創作者,生成視頻內容超50萬條。這些真實的使用者案例和資料,是Seko開箱即用潛力最有力的證明,其讓AI視頻創作變為可預期、可調整、可落地的過程,這也成為其區別於同類產品的核心競爭力。04. 結語:AI視頻競爭回歸實用價值Seko憑可控+普惠領跑當下AI視頻產業的發展意味著,其競爭正在回歸到價值本身,即能否以更低門檻、更可控過程和更低成本為使用者交付可用成果。Sora 2與商湯Seko共同指向的“成片智能體”,正是破解視頻生成普及難題的關鍵。商湯Seko透過創作可控性和商業普惠性,正在將這一藍圖變為觸手可及的商業現實。這條本土超越之路,或許正是AI影片普及的關鍵路徑。此外,Seko還有一大獨特優勢是集合多種大模型,未來或許也會接入Sora 2模型的能力,為使用者提供1+1>2的更優成片效果。 (智東西)
財富FORTUNE—這家新創公司的AI顛覆了電影業
1874年,首屆印象派畫展遭遇慘敗。克勞德·莫奈、皮埃爾-奧古斯特·雷諾阿和埃德加·德加等藝術家備受嘲諷,評論家們將他們的作品斥為“低劣”、“未完成之作”,並稱其為藝術史上最糟糕的事件。這場展覽在商業上一敗塗地,僅有3,500名參觀者,其中大多數人來此閒逛,只是為了對樸素的畫框和個性鮮明的繪畫技巧表達驚駭。大約十年後,喬治·修拉開始創作《大碗島的星期天下午》(A Sunday Afternoon on the Island of La Grande Jatte)。這幅高七英呎、寬十英呎的畫作《星期天》將成為印象派分支技法——點彩派——最為著名的典範。Runway首席執行官兼聯合創始人克里斯托瓦爾·巴倫蘇埃拉。圖片來源:KYLE GRILLOT/BLOOMBERG VIA GETTY IMAGES《星期天》的核心構想很簡單,這幅畫描繪了塞納河畔巴黎公園一個喧鬧午後的精細畫面。若仔細觀察,你能看到清晰分明的色點和光點,它們匯聚成遮陽傘、樂器、帽子、人物以及一隻拴著鏈子的猴子。每一幅畫面都可以被拆解,還原為獨立的點,這就是模擬時代的像素。而在修拉、印象派畫家與本月的Runway AI電影節(AIFF)獲獎影片《全像素空間》(Total Pixel Space)之間,存在著直接的聯絡。影片中柔和的旁白說道:“像素是數字圖像的基本單元,如同構成馬賽克的小瓷磚。每個像素都由代表顏色和位置的數字定義。因此,任何數字圖像都可以表示為一個數字序列……因此,所有可能被拍下的照片都以坐標點的形式存在。所有影片的每一幀都以坐標點的形式存在。每一張面孔都可以以坐標點的形式存在。否認這一點,就等於否認數字本身的存在。”《全像素空間》的創作者雅各布·阿德勒是一位科班出身的古典音樂家和作曲家,並且隨著AI技術的進步,他從一位涉獵廣泛的藝術家轉型成為電影製作人。阿德勒為這部影片花了一年多時間,期間生成了數萬張圖像,其靈感來源於豪爾赫·路易斯·博爾赫斯的短篇小說《巴別圖書館》(The Library of Babel),以及在隨機而廣袤的世界中找到意義的奇蹟。阿德勒表示:“我被生成這些圖像的過程深深吸引,它引發了一系列哲學思考。在這個龐大的語言組合空間中,絕大多數字母組合都是毫無意義的資料。那麼,將其應用於數字圖像領域:究竟可能存在多少張圖像?其中又有多少是難以理解的噪音呢?我曾嘗試用其他媒介表達這個想法,但都失敗了。最終它以一部AI短片的形式得以呈現。”估值30億美元的AI視訊初創公司Runway自2023年起主辦AIFF,旨在展示由AI製作的短片。今年的電影節(由《全像素空間》摘得桂冠)標誌著一個重大飛躍:從2023年在紐約市一座小型劇院舉行,只有300部作品參賽,發展到今年在林肯中心一票難求,共收到6,000份參賽作品,吸引了來自世界各地的觀眾。獲獎者並非由Runway選定,而是由包括導演哈莫尼·科林和加斯帕·諾埃在內的評審團決定,但《全像素空間》反映了Runway對其未來的構想:AI生成的體驗不僅僅是講故事,更是建構世界。Runway首席技術官兼聯合創始人阿納斯塔西斯·傑馬尼迪斯表示:“我們將擁有超越電影和遊戲的新媒體形式,它們存在於介於兩者之間的所有領域。其中一些可能更接近於沉浸式戲劇製作,雖有固定故事情節,但你可以在某種程度上自由移動,從不同角度體驗它。”傑馬尼迪斯補充道,想像一下,這些模型變得非常擅長生成對現實的逼真描繪,那麼你將擁有一個世界,在其中你基本上可以模擬我們在探索世界時關心的大部分事物。這將成為解決問題的關鍵一環。傑馬尼迪斯更多地將世界模擬視為一種根本原則;這一原則不僅能應用於故事創作,還能應用於生物學、機器人學和物理學。其核心顯然在於尋找既能模仿人類,又能模仿物理和生物的方法。Runway首席執行官兼聯合創始人克里斯托瓦爾·巴倫蘇埃拉表示:“我們希望能夠模擬物理世界中幾乎所有的指令。我們知道這一目標即將實現……AI實驗室一直痴迷於模擬人類思維。但我認為從長遠來看,這可能是錯誤的方向。你需要模擬的不是人類如何運作,而是世界如何運作。”我們正見證這一戰略初見成效的跡象,Runway計畫推出一款互動遊戲體驗,標誌著其進軍遊戲市場。目前的產品是文字和圖像生成,但預計隨著時間的推移將更加注重視覺效果。這一切最終如何導向世界建構應用場景尚不明朗——而這正是關鍵所在。巴倫蘇埃拉表示:“如果你有預先確定的實現路徑,那就太遲了,也太顯而易見了。“對我來說,關鍵在於(某物的)創造性……如果你不參與創造性活動,你就無法理解。大多數在工作中進行某種形式的創造性表達的人都知道,開始時他們並不確切知道目標在那裡。你讓自己處於一個非常脆弱的位置,只為探索一切可能。然後,最終你會憑經驗明白,你必須到達某個目的地。”Runway在AI視訊生成領域不乏競爭對手,包括但不限於OpenAI的Sora、Stability AI、Moonvalley和Pika Labs。Runway目前必須持續彰顯自身獨特性以維持競爭力。迄今為止,該公司已從泛大西洋投資(General Atlantic)、軟銀(SoftBank)、輝達(Nvidia)、Salesforce Ventures、Felicis和Coatue等投資者那裡融資超過5億美元。據報導,Meta曾試圖收購Runway未果,隨後於今年夏天斥資數十億美元收購了Scale AI。AI的“警鐘”從印刷機的發明到20世紀20年代“有聲電影”的出現,藝術的歷史就是一部技術顛覆的歷史。當然,工作崗位的流失是這段歷史的一部分,並且向來如此。瓦倫蘇埃拉表示:“在印刷機出現之前,只有僧侶和少數懂得如何傳播特定故事。後來,隨著印刷機的普及,更多人可以讀寫,這在當時被視作一場末世浩劫。”事實的確如此:當印刷機於1440年發明且該技術逐漸普及後,宗教當局擔心失去控制權,抄寫員行會也被取代。但如今人人都能閱讀,故事得以大規模傳播。瓦倫蘇埃拉舉了另一個有些滑稽的例子。瓦倫蘇埃拉表示:“在鬧鐘發明之前,你會雇一個人,在你需要的時間來到你家門口,朝你的窗戶扔石頭。那確實是一份工作。如果家人不在身邊,又需要按時起床,你還能怎麼辦?”在19世紀的英國和愛爾蘭,這些人被稱為“敲窗人”。他們會用長棍敲打窗戶或向窗戶射豌豆,以喚醒輪班的工人。鬧鐘一經發明,人們自然而然地就用起了鬧鐘。如今,隨著AI進入好萊塢(瓦倫蘇埃拉正直接參與這一趨勢),業界的反應充滿了憂慮,儘管人們私下裡也在使用它。獅門影業(Lionsgate)副董事長邁克爾·伯恩斯在AIFF舞台上指著瓦倫蘇埃拉說道:“這其實一直是個不為人知的秘密,因為無論是Runway還是其他公司,你知道的,他確實有一些競爭對手。我們相信,所有人都在使用這個工具,只是避而不談他們在使用它的事實。”Runway的傑馬尼迪斯表示,技術驅動的藝術發展分為三個階段:讓技術運作起來、模仿現有藝術形式,然後創造獨特的形式。他表示,我們才剛剛開始“借助生成式模型進入第三階段”。當然,這並非意味著一切都應該採用AI——雖然藝術家阿德勒利用AI從根本上拓展了自己的藝術實踐,但他非常清楚某些事物(如超現實主義圖像和哲學概念)非常適合AI,而其他內容(如複雜的人類互動)則不然。阿德勒表示:“我將[AI]視為一種工具,但我還不確定它是否構成了一種新的藝術門類。有些東西我能用相機創作而AI做不到,反之亦然——有些東西我能用AI實現而相機卻無能為力。”單純這一點就是一種令人驚嘆的現象,它體現了Runway及其AI視訊競爭對手已經在全球藝術、媒體和娛樂界掀起的興奮和恐慌。然而,對於Runway的創始人來說,如果他們能成功實現其AI願景,真正的回報將遠遠超出螢幕範圍,以一種壯觀、沉浸式甚至可能面目全非的形式存在。(財富中文網)
AI界的“超級碗周”:Veo 3破界、Claude 4稱王、OpenAI謀變
上周,美國AI巨頭接二連三密集發佈重磅產品和戰略,周末整理回顧,有種強烈的感受:年初大家的爭論和關注還在大模型還是蒸餾後的“小模型”,而短短幾個月,AI的競爭已經不僅僅侷限於模型規模和基準測試,而更在於使用者體驗和互動範式的創新,產業競爭格局也或將重新洗牌。引言:AI行業的“超級發佈周”AI領域風起雲湧,全球四大巨頭同一周內密集舉行了重要活動或發佈:Google I/O開發者大會推出革命性視訊生成模型Veo3及Flow平台,Microsoft Build大會提出建構AI代理網路生態,Anthropic的首屆“Code with Claude”會議發佈“全球最強編輯模型”Claude 4,此外,OpenAI與則聯手蘋果前設計總監Jony Ive宣佈一項被稱為OpenAI的“iPhone”時刻的神秘硬體項目。這一系列重磅發佈標誌著生成式AI已經進入2.0時代,從單一模態向多模態、從被動回應到主動代理、從純軟體向軟硬結合轉變。一、Google Veo 3:AI視訊生成的新巔峰在今年的Google I/O大會上,最引人注目的產品無疑是Veo 3視訊生成模型。這一模型相比前代產品有了質的飛躍,使我們離“以假亂真”的AI生成視訊又近了一步。1.Veo 3的核心突破Veo 3的最大亮點在於首次實現了視覺、語音和音效的完美同步生成。具體而言,它帶來了以下關鍵突破:- 音畫同步生成:不再需要後期加入音效,模型能夠原生生成與內容匹配的對白、環境音樂和背景音樂- 唇形同步:任務說話時的唇形與聲音高度同步,是目前市場上唇形同步效果最好的模型- 物理效果模擬:相比Veo 2,新模型對物理效果的理解大幅提升,物體運動、水流動態更符合自然規律- 鏡頭語言:能夠理解和執行各種電影攝影指令,如推、拉、搖、移等專業攝影動作2.Google Flow:面向專業創作者的AI電影平台與Veo 3同時發佈的還有Google Flow平台,這是一個專為電影製作者打造的工具。Flow整合了Veo 3、Imagen 4等多個AI模型,為影片創作者提供從文字到視訊、從靜態圖像到動態視訊等端到端的解決方案,不僅在於整合已有的生成式AI工具,更為專業創作者提供了接近傳統工作流程的體驗,大大降低了AI視訊創作的使用門檻。3.使用限制與產品策略儘管Veo 3的能力令人印象深刻,但Google對其實施了嚴格的使用限制,使用者需要支付250美元/月(目前促銷價125美元)的Google AI Ultra套餐才能使用,且每天僅允許生成5個視訊,系統會自動加入水印,並在中繼資料中標記AI生成內容。這種嚴格限制一方面反映了生成高品質視訊的計算資源成本仍然很高,另一方面也體現出Google對AI內容倫理和版權問題的謹慎態度。二、Anthropic Claude 4:衝擊“世界最強程式設計模型”在5月23日的首屆“Code with Claude”會議上,Anthropic推出了Claude 4系列模型,將公司戰略重點明確轉向程式設計和推理能力,試圖在特定領域超越OpenAI。1.Claude 4的核心創新Anthropic將Claude Opus 4成為“全球最強程式設計模型”,得到了多項基準測試的支援,在軟體工程基準測試中優於OpenAI的GPT-4和Google的Gemini 2.5Pro,並在支援大型程式碼庫和多檔案項目表現卓越:- 混合模型設計:同時支援快速響應(日常互動)和深度思考(複雜問題)兩種工作模式- 長時間工作能力:能夠連續工作7小時以上不衰減,適合複雜程式設計任務- 精確的程式碼理解:對程式語言的語法和語義有更深入的理解- 代理能力增強:能夠做為智能代理自主完成複雜的軟體開發任務Anthropic的雙產品現策略清晰地表明其市場定位:Sonnet瞄準大眾開發者市場,提供高性價比的AI程式設計助手;而Opus則針對企業客戶和高端研發場景,提供無與倫比的複雜問題求解能力。2.戰略轉向與定位從此次發佈來看,Anthropic正在戰略略性地避開Google Gemini和OpenAI在通用聊天機器人領域(消費級應用)的正面競爭,轉而專注於程式設計和推理這兩個高價值垂直領域。這種“差異化競爭”策略反映了AI市場的細分趨勢。“通過Claude 4,我們不再追求成為更好的聊天機器人,而是致力於成為世界上最好的程式設計和推理助手。這是Anthropic的關鍵差異化路徑。” —— 發佈會摘錄3.安全性和社會責任的爭議值得一提的是,Claude 4發佈後引起了一些爭議。Anthropic的AI對齊研究員Sam Bowman最初在社交媒體上暗示,如果Claude 4發現使用者在進行明顯不道德的活動(如製藥試驗造假),模型可能會嘗試聯絡監管機構或媒體,引發了公眾對AI過度自主權的擔憂。不過,Bowman隨後澄清這只是在特殊測試環境中才會出現的行為,普通使用者不會遇到這種情況。儘管如此,這一事件仍然引發了人們對AI代理權限邊界的深入思考。三、OpenAI與Jony Ive:醞釀AI硬體的“iPhone時刻”同一周,OpenAI宣佈以65億美元全股票交易收購前蘋果首席設計師Jony Ive的AI裝置初創公司io,並透露雙方正在合作開發一款革命性的AI硬體裝置,被外界視為可能引領下一代計算平台的重要佈局。1.合作背景與戰略意義據報導,Sam Altman與Jony Ive的合作始於兩年前,此次收購和合作的戰略意義重大:- 標誌著OpenAI從純軟體公司向軟硬結合企業的轉型- 借助Ive的設計理念,可能為AI互動創造全新範式- 暗示AI需要突破現有計算裝置的限制,創造專屬形態- Sam Altman表示,這項合作可能為OpenAI增加“1兆美元價值”2.神秘裝置的猜想雖然OpenAI和Jony Ive尚未公佈具體產品細節,但根據媒體報導和分析師推測,這款裝置可能具有以下特點:- 口袋大小:便攜設計,可能採用類似iPod Shuffle的小巧形態- 無螢幕互動:不依賴傳統螢幕幕互動,可能主要依靠語音- 環境感知:能夠感知並理解使用者周圍環境- 非眼鏡形態:明確不會是AR/VR眼睛,可能是頸戴裝置- 低干擾設計:Ive表示設計目標是創造“比iPhone社交干擾更少”的計算體驗。有分析認為,這款裝置的定位是“AI伴侶(AI Companion)”,目標使用者群體可能是希望隨時獲取AI助理支援,但又不想被智慧型手機束縛的專業人士。猜測可能是一款AI項鏈或者類似iPod Shuffle形態的可穿戴裝置,但OpenAI與Jony Ive團隊對細節守口如瓶。(預測圖,並非實物圖)3.野心與挑戰Sam Altman表示,這次合作可能為OpenAI增加“1兆美元的價值”,計畫在2026年底前發貨1億台裝置。這一宏大目標反映了OpenAI對硬體市場的巨大野心,但也面臨諸多挑戰:- 硬體經驗不足:OpenAI此前沒有硬體產品經驗- 競爭激烈:已有Rabbit R1、Humane AI Pin等類似產品- 產品定位模糊:目前尚不清楚產品具體解決什麼問題- 市場接受度不確定:消費者對純AI裝置的需求尚不明確“我們希望創造一種全新的計算範式,不再是低頭看螢幕,而是更自然地與AI交流的方式。”——Sam Altman在收購公告中表示四、Microsoft build:建構AI代理網路生態相比前幾個,Microsoft Build大會便向開發者,但其發佈的Microsoft Discovery AI科研平台和GitHub Copilot代理是程式設計助手同樣展示了重要的AI發展趨勢。1. Microsoft Discovery:AI重塑科學發現流程在Build 2025大會上,微軟推出了企業級AI科研平台Microsoft Discovery,這一平台通過結合基礎模型和專業領域知識,為科研創新提供了全新途徑。該平台最引人注目的成就是在僅200小時內發現了一種新型冷卻劑化合物,而傳統方法通常需要數月甚至數年。Microsoft Discovery通過一系列AI"博士後"代理進行運作,這些代理能夠執行文獻回顧、設計實驗、進行計算模擬等多個科學過程。在實際應用中,該平台篩選了367,000個潛在候選化合物,大大加速了材料科學的研究處理程序。這一平台的出現代表了科學研究方法學的革命,AI不再僅是輔助工具,而是成為科研過程的核心驅動力。2. GitHub Copilot Agent:程式碼自動化的新境界微軟還為旗下GitHub平台推出了全新的Copilot Agent,這一工具允許開發者將GitHub問題直接分配給AI代理,由其自動編寫和提交程式碼解決方案。Copilot Agent能夠自主建立安全的開發環境,根據任務描述或圖表自動設計和實現功能,甚至可以修復已標記的問題。更值得注意的是,微軟決定開源VS Code中的GitHub Copilot,這將加速類似Cursor等AI程式設計工具的發展。結語:行業趨勢與未來展望通過這幾家巨頭本周的最新動向,我們可以發現幾個關鍵的行業趨勢:1. 多模態生成向縱深發展以前的多模態都是輸入多模態,輸出單一模態,而現在正轉向輸入輸出都是多模態。音視訊一體化生成(如Veo 3)意味著多模態輸出走向成熟,模型開始理解鏡頭語言、音樂情緒等高層次語義,多模態生成工具開始與專業創作工作流整合(如Flow平台)等。2. 代理能力成為競爭焦點各家公司都在強調AI的主動性和代理能力,這反映了行業從"被動響應式AI"向"主動代理式AI"的轉變:Google展示了Jules非同步程式設計代理,Microsoft推出了GitHub Copilot自主開發能力,Anthropic強調Claude 4的長時間任務處理能力。代理式AI能夠自主執行複雜任務,而不只是回答問題。3. 專業化與垂直領域深耕通用AI之爭後,各家公司開始在特定領域尋求突破和差異化:- Google主攻多模態創意生成領域- Anthropic聚焦程式設計和推理能力- Microsoft重點發力企業科研和開發工具鏈- OpenAI可能通過硬體創新重新定義AI交互範式4. AI硬體與互動範式革新隨著模型能力增強,AI硬體形態創新成為新競爭點:Google展示的AR眼鏡提供即時翻譯和資訊增強,OpenAI與Jony Ive合作開發下一代AI裝置。互動正從"人適應機器"向"機器理解人"轉變。頂級AI公司不再滿足於純軟體解決方案,開始探索軟硬結合的產品形態。這一趨勢可能預示著下一代計算平台的雛形,就像智慧型手機取代PC成為主流計算平台一樣。新硬體平台可能引發新一輪生態系統競爭.5.計算資源的制約與壁壘值得關注的是,所有這些尖端AI突破都伴隨著高昂的計算成本。這一點從Google為Veo 3設定嚴格使用限制和高昂訂閱費可見一斑。計算資源正成為AI創新的主要瓶頸,也是巨頭們建立競爭壁壘的重要手段。未來幾年,隨著專用AI晶片的普及和邊緣計算的發展,這一制約可能逐步緩解,但短期內計算資源的不平等分配將持續影響行業格局。如果將當前AI行業比作個人電腦的發展歷程,2025年5月這一周堪稱AI的"1984年"時刻——正如蘋果在1984年通過Macintosh電腦展示了個人電腦的未來願景一樣,Google、Anthropic、OpenAI和Microsoft在這一周展示的技術突破和戰略願景,將深刻塑造AI的未來十年。我們看到AI正從簡單的內容生成工具向全能代理助手、從單一模態向多模態整合、從軟體演算法向軟硬結合發展。這一系列變化預示著,AI的下一個戰場將不再侷限於模型參數規模和基準測試成績,而是在使用者體驗、場景適配和互動範式上的創新。正如iPhone定義了移動網際網路時代的使用者體驗,我們或許正在見證AI行業的"iPhone時刻"——那個重新定義人機互動的拐點。 (JER學家)
AI視訊生成一夜被顛覆:Runway重磅發佈Gen-4,保真度、動態性、一致性全面升級
今天,專注於視訊生成的 Runway 公司正式推出了他們的新一代模型系列 —— Gen-4。我就說Runway 這麼長時間憋啥大招呢,模型直接上線,沒有套路,最牛的是Gen-4解決了場景一致性問題,還有視覺特效加持下面給大家第一時間劃個重點:簡單來說,Gen-4 在視訊生成的保真度、動態運動捕捉和可控性上都樹立了新的標準,相較於之前的 Gen-3 Alpha 版本,提升非常明顯它的核心優勢在於:1. 高動態與真實感:能生成運動軌跡極其逼真、充滿動態感的視訊內容2. 高度一致性:無論是視訊中的主體人物、物體,還是整體的藝術風格,Gen-4 都能保持高度連貫統一3. 精準理解與執行:對使用者輸入的提示詞(prompt)理解更深刻,執行更到位,並且擁有頂尖的“世界理解”能力,讓生成內容更符合邏輯和物理規律視覺參考+指令=精準創作Gen-4 的一大亮點在於它能利用視覺參考(比如你提供一張圖片或一段視訊)結合文字指令,來創造新的圖像和視訊。這意味著你可以指定某個角色、特定風格或場景,讓 AI 在此基礎上進行創作,確保內容的連續性和你對故事走向的掌控力實戰檢驗:短片作品展示 Gen-4 強大實力為了展示 Gen-4 的敘事潛力,Runway 團隊用它製作了一系列短片和 MV:《The Lonely Little Flame》:這部短片完全由 Gen-4 生成,展示了其端到端的創作能力《New York is a Zoo》:集中體現了 Gen-4 驚人的視覺特效(VFX)潛力。製作團隊先通過 Gen-4 的 References 功能,將真實的動物參考圖和紐約實景照片融合,再結合提示詞指定具體動作,最終效果是將超寫實的動物無縫置入了紐約的電影感場景中《The Herd》:這部短片講述了一個年輕人在夜晚被牛群追逐的故事。僅用了幾張圖片作為參考,Gen-4 就建構出了角色形象和迷霧籠罩的牛群場景,最後再結合 Act-One 工具將故事串聯起來《The Retrieval》:一部動畫風格的短片,講述探險者尋找神秘花朵的故事,同樣完全由 Gen-4 製作如何用上 Gen-4?好消息是,Gen-4 的圖像生成視訊)功能,現在已經面向所有 Runway 的付費方案使用者和企業客戶正式推送。而備受期待的 References(視覺參考)功能也將在不久後上線試用地址:https://app.runwayml.com/login更多關於 Gen-4 的技術細節和研發背景,可以訪問官方發佈頁面:http://runwayml.com/research/introducing-runway-gen-4(AI寒武紀)
中國國產視訊大模型,那家強?
當前,DeepSeek等大模型引發的人工智慧浪潮日漸升溫,大模型落地應用的門檻和成本持續降低。視訊大模型作為一種能夠處理和生成視訊內容的大規模深度學習模型,具有在處理複雜視覺資訊方面的獨特優勢,展現出巨大的發展潛力,逐漸在影視製作、線上教育、智能客服等領域得到應用。《政府工作報告》首次提出支援大模型廣泛應用,《政府工作報告》起草組成員、國務院研究室副主任陳昌盛在國務院新聞辦公室舉行吹風會答記者問時也提到,可靈AI從某種程度上在國際上的評價已經超過了Sora,更是為國產視訊大模型行業加速發展釋放積極訊號,中國國產視訊大模型發展前景廣闊、未來可期。AI大模型製作的圖像一、全球視訊大模型進入發展快車道視訊大模型可以接受多種模態的資訊作為輸入,例如文字、語音、圖像和視訊等,並執行包括視訊生成、編輯、理解和分析等多種任務,被認為是大模型領域極具挑戰性的前沿方向。與語言大模型相比,視訊大模型所需要的技術更加複雜,例如:需要更強大的計算能力和更複雜的模型架構,能夠處理海量且高維度的視訊資料,解決資料的時序一致性、空間理解、運動物理規律模擬、真實世界因果關係等問題;需要突破跨模態理解和生成等關鍵技術難點,有效融合不同模態的資訊,確保生成高品質、連貫的視訊內容。當前,全球科技巨頭憑藉強大的技術實力和豐富的資源儲備,在視訊大模型領域展開了激烈角逐。國外方面,OpenAI率先發佈文生視訊模型Sora,開啟了AI視訊生成的“ChatGPT時刻”;Google發佈Veo2,在理解電影攝影語言和解析度等方面表現突出。其他公司如Stability AI、Luma、Runway、Haiper等也相繼發佈了各自的視訊大模型產品。國內方面,視訊領域佼佼者以及人工智慧企業紛紛立足自身優勢推出系列產品,如快手率先上線可公開體驗的視訊大模型可靈AI,開啟視訊大模型的視訊產業化探索,隨後生數科技的Vidu、字節跳動的即夢AI、MiniMax的海螺AI、智譜的清影、通義的萬相等紛紛上線。二、國產視訊大模型價值逐步釋放、潛力巨大近一年來,國產視訊大模型在技術突破和商業拓展方面取得了顯著進展。從技術能力看,視訊大模型在生成視訊時長、解析度、畫面比例以及鏡頭運動方面性能不斷提升。視訊時長方面,單次生成已經從最初的2-4秒,普遍延長至6-10秒,甚至數十秒,另有產品支援視訊續寫功能,如可靈AI支援最長3分鐘的視訊續寫。解析度方面,生成視訊已達到1080P甚至4K水平。此外,鏡頭控制、比例切換等技術能力也不斷提升。如可靈AI在時間維度的一致性上表現優秀,且視訊中生成的運動平滑度高、對物理定律的遵循較好。資料顯示,截至2024年12月,可靈AI已有超600萬使用者,累計生成超6500萬個視訊。從價值變現看,會員制等商業化模式探索不斷加快。當前視訊大模型的收費模式包括會員制、按需收費、定製收費、API呼叫次數收費等多種收費模式,其中會員制模式較為普遍,即將視訊大模型按照性能不同分為不同等級,提供單月、年度會員等多種收費模式,如Vidu、可靈AI、PixVerse等均採用這種模式,1秒收費在0.05-0.9元之間。目前,可靈AI商業化探索較為成功,資料顯示,可靈AI單月流水超千萬,已與伊利、vivo、聯想、周大福、瑪氏箭牌、青島啤酒等多個企業進行多樣化商業探索。未來,隨著技術加速迭代以及算力成本不斷下降,視訊大模型技術應用的門檻和成本將實現“雙降”,進而催化國產視訊大模型加快規模化使用。據東方證券報告指出,未來內容生態將在現有量級基礎上進一步實現指數級提升,形成下一代內容生態,國產視訊大模型的價值有望進一步釋放。三、視訊大模型應用正引發一場視覺革命推動視訊領域生產方式智能化,大幅提升內容生產效率和質量。通過應用大模型技術深入挖掘視聽領域豐富資料,打造的視訊大模型將化身有著豐富知識和資深經驗的“行家裡手”,推動從劇本創作到特效製作等工作由高度依賴從業人員經驗轉向由AI承擔,大幅縮短了內容生產時間,提高了內容質量。如多家電視台推出AI生成短片和短劇,通過分析觀眾偏好,實現了較高的觀眾粘性和滿意度。資料顯示,河南大象融媒通過應用AIGC技術,推動短影片製作周期由一天縮短至數小時。據東吳證券資料顯示,在人機協作模式下,AI可以降低43%的影視製作成本,在全部應用視訊大模型等人工智慧技術情況下成本可降低95%。培育視訊新模式新業態,大幅提升內容體驗感和競爭力。通過應用視訊大模型,創意視訊、AI導演、虛擬主播等創新產品,並為使用者帶來新奇的觀看體驗。如湖南廣電推出AI導演愛芒,參與湖南衛視《我們仨》綜藝節目錄製,以助理導演的身份與嘉賓共同探索潮流生活新方式。可靈AI推出國內首部AIGC短劇《山海奇鏡之劈波斬浪》;與青年導演團隊“異類Outliers”上線全球首部AI單元劇集《新世界載入中》先導片,推動AI短劇製作進入2.0時代;聯合李少紅等9位知名導演打造的9部AIGC電影短片被中國電影博物館永久收藏、放映展示,電影工業開啟人工智慧序幕。四、視訊大模型未來的發展機遇與挑戰未來視訊大模型跨領域應用拓展前景可期。一是視訊大模型技術以其強大的內容生成能力開啟內容創新“萬花筒”,為視聽行業提供了全新的內容創作和呈現方式,孕育了豐富的應用場景和廣闊的創新空間。二是實現“千人千面”的智能內容和產品推薦、製作或成為可能。通過視訊大模型技術進步以及智能體等前沿技術的應用,精準挖掘使用者對內容題材、時長等的偏好,實現內容產品的量身推薦,通過智能生成等方式為使用者定製個性化內容,提高消費者滿意度和粘性。三是推動視聽領域與其他行業跨界融合拓展增長新空間。利用視訊大模型技術,促進視聽領域與文旅、教育、公益、健康等領域深度融合,形成跨界融合、良性互促的生態系統,激發各領域廣泛形成新商業模式、新產業形態和新增長空間。視訊大模型發展仍面臨諸多挑戰。技術的發展是一柄雙刃劍,視訊大模型進步在帶來產業發展、經濟增長和社會進步的同時,但也會產生一些如虛假資訊傳播、深度偽造、內容侵權等潛在風險。需平衡好發展與安全的關係,既不能因技術進步伴生的潛在風險而“因噎廢食”,也不能對出現的問題置之不理,應通過技術創新、機制完善等手段讓技術更好地服務於人。 (中國經濟週刊)