騰訊、清華大學、港科大聯合推出全新圖生視頻大模型“Follow-Your-Click”

2024/03/16

•

AI領域，又傳出新消息！

3月15日，騰訊和清華大學、香港科技大學聯合推出全新圖生視頻大模型“Follow-Your-Click”，基於輸入模型的圖片，只需點擊對應區域，加上少量提示詞，就可以讓圖片中原本靜態的區域動起來，一鍵轉換成影片。

據了解，影像到影片生成的技術在電影內容製作、擴增實境、遊戲製作以及廣告等多個行業的AIGC應用上有著廣泛前景，是2024年最熱門的AI技術之一。有研究機構指出，國內外大廠AI影片產生不斷突破，未來AI+趨勢勢不可擋。

那麼，哪些領域將受益呢？

圖生視頻大模型

3月15日，騰訊和清華大學、香港科技大學聯合推出全新圖生視頻模型“Follow-Your-Click”，基於輸入模型的圖片，只需點擊對應區域，加上少量提示詞，就可以讓圖片中原本靜態的區域動起來，一鍵轉換成影片。

在目前的圖生影片大模型中，一般的生成方法不僅需要使用者在提示詞中描述運動區域，還需要提供運動指令的詳細描述，過程較為複雜。另外，從產生的效果來看，現有影像產生視訊技術在移動影像的指定部分上缺乏控制，產生的影片往往需要移動整個場景，而不是影像上的某一個區域，精準度和靈活性上有所欠缺。

為了解決這些問題，騰訊混元大模型團隊、清華和港科大的聯合項目組提出了更實用和可控的圖像到視頻生成模型Follow-Your-Click，帶來更加便捷的交互，也讓圖片“一鍵點，萬物動」成為現實。

據了解，騰訊混元大模型團隊，正在持續研究探索多模態技術，擁有業界領先的影片產生能力。此前，騰訊混元大模型作為技術合作夥伴，支持《人民日報》打造原創視頻《江山如此多嬌》，生成中國大美河山的精美視頻片段，展示出了較強的內容理解、邏輯推理和畫面生成能力。

騰訊混元大模型是騰訊自研的通用大語言模型，於去年9月7日首次公開亮相，作為騰訊全鏈路自研的大模型，騰訊混元定位為“實用級”，主要聚焦業務場景和產業應用。去年5月份，騰訊董事會主席兼執行長馬化騰曾表示，大模型是百年不遇的、類似工業革命一樣的機會。對於工業革命來講，早一個月把電燈泡拿出來在長的時間跨度上來看是不那麼重要的。關鍵還是要把底層的演算法、算力和資料紮實做好，更關鍵的是場景落地。

截至2023年12月，作為實用級的通用大模型，騰訊內部已有超過300項業務和應用場景接入騰訊混元大模型內測，包括騰訊會議、騰訊文檔、企業微信、騰訊廣告和微信搜一搜等。

新技術湧現，哪些領域最受益？

值得關注的是，近期，在AI視訊生成領域，國內外都湧現不少新技術。

2月15日，OpenAI在全球AI生成影片領域丟出一枚爆炸性訊息。當日，該公司發布了一款名為Sora的「文字生成影片」模型，並向部分研究人員和創作者開放Sora的存取權。Sora除了可以根據文字描述生成視頻外，還可以根據現有的圖片生成視頻，目前可生成的視頻長度在1分鐘左右；而且，視頻可具有多個角色、特定類型的運動、精確主題和背景細節等複雜場景。Sora影片生成模型，在清晰度、連貫性、理解能力、一致性、時長方面都產生較大突破。隨後，Sora引爆網絡，資本市場上AI概念股也被連番炒作。

緊跟著Sora，2月26日，GoogleDeep Mind團隊發布了110億參數的AI基礎世界模型Genie。僅用一張圖片，便可產生一個互動式世界，生成的世界“動作可控”，用戶可以其中逐幀行動。谷歌表示，Genie開啟了「圖/文生成互動世界」的時代，也將成為實現通用AI Agent的催化劑。

平安證券表示，OpenAI、Google相繼發布多模態大模型Sora、Genie，AGI浪潮或將加速到來。

長江證券指出，Genie定義生成式AI全新範式，重塑生成式互動環境格局。

1）Genie或讓電玩領域迎來變革：Genie透過單一圖片、照片、草圖提示即可轉換為使用者可玩的遊戲，產生互動式、動作可控的環境。生成的遊戲可根據玩家的指令動態地生成遊戲的每個新幀，這種革新的互動方式為遊戲玩家帶來了新的體驗感，未來有望一鍵生成可玩的遊戲世界。

2）機器人領域的應用為培養通用智能體開闢新途徑：Genie能夠掌握一組統一的動作模式，透過學習真實的機器人手臂操縱各種家用物體的視頻，它領會了機器人手臂所做動作以及如何控制它，並且學會的動作可應用於真實世界。由於方法通用，Genie可推廣於任何類型領域從而讓未來的AI智能體在不斷擴展的新世界中進行訓練。

2月28日，阿里巴巴智慧計算研究所發表了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO只需一張人物肖像照片和音頻，就可以讓照片中的人物按照音頻內容「張嘴」唱歌、說話，且口型基本一致，面部表情和頭部姿態非常自然。EMO為多模態領域的視頻AI帶來新玩法：1）不同於文生視頻模型Sora，EMO主攻圖+音頻生成視頻的方向：輸入單張照片+任意語速的人聲音頻，EMO即可自動產生具有豐富面部表情和頭部姿勢的聲音肖像影片。2）表現優於同類產品PIKA：由於受限於產品架構，PIKA只能分段生成3秒的唇形同步視頻，且僅能實現唇部配合音頻發生運動的功能，而EMO可根據音頻時長，產生對應時長的視頻，並保持角色身份的一致性。相較之下，EMO更具靈活性，生成的影片也更自然、更富有情感。

長江證券表示，海外大廠在AI視訊生成領域掀起新浪潮，我國也不斷加速追趕步伐。AI視訊賽道湧現新玩法，未來AI+趨勢勢不可擋，建議關注AI+IP/遊戲/影視/電商/廣告商業化落地投資機會。國泰君安認為，隨著AI視訊類模型的成熟，影視製作的全流程均可望受益於AI模型迭代，影視產業望深度受益於AI發展。

平安證券指出，當前，全球範圍內大模型領域的競爭仍然白熱化，這將持續拔升大模型的整體能力水準。大模型需要大算力，大模型演算法的迭代升級將為全球和中國AI算力市場的成長提供強勁動力。在美國對華半導體出口管制升級的背景下，我國國產AI晶片產業鏈將加速成熟，相關AI晶片和伺服器廠商將深度受益。另外，在應用端，我國國產大模型能力持續升級，AIGC產業未來發展前景看好。海通證券則表示，隨著國內外數位經濟的蓬勃發展，AI、智算需求快速成長，相關化學新材料的需求也有望增加。（券商中國）