#生成模型
Google Nano Banana Pro閃亮登場!
台北時間周四深夜,AI巨頭Google麾下的Nano Banana圖像生成模型迎來重磅更新——Nano Banana Pro閃亮登場!作為背景,Google於今年8月底發佈基於Gemini 2.5 Flash模型的Nano Banana。由於該模型能夠將人物或者動漫照片變成栩栩如生的“3D列印手辦”,短時間內形成全球範圍內的破圈效應。GoogleCEO皮查伊披露,在Nano Banana的推動下,Gemini應用的月活使用者數在短短1個季度內,就從4.5億暴增至6.5億。隨著本周Google發佈新一代旗艦大模型,Google的圖像生成模型也迎來了意料之中的飛躍式升級。用Google的話來講,Nano Banana Pro能“以空前的控制力、無瑕的文字呈現和增強的世界知識,將使用者的構想變成工作室級的設計”。據Google介紹,Nano Banana Pro基於本周早些時候發佈的Gemini 3 Pro,不僅在細節表現力、圖像解析度和文字渲染精準性方面強於前一代Nano Banana,還能以不同風格、字型和語言生成本文。新一代圖像生成模型還新增了編輯功能,並加入網際網路搜尋能力。Google強調,Nano Banana Pro是在圖像中生成正確且清晰可讀文字的最佳AI模型,不論是簡短的標語還是長段落均可,支援更加豐富的紋理、字型和書法。同時借助Gemini增強的多語言推理能力,使用者可以生成多種語言的文字,或者對內容進行翻譯和本地化。(將一張照片轉化為電影分鏡,以及翻譯飲料包裝上的文字,來源:Google)同時基於網際網路知識庫,Nano Banana Pro還能將現實世界的資訊轉化為生動形象的可視化資訊,例如如何製作一杯荳蔻茶。Google透露,Nano Banana Pro也非常適合用來做PPT或者資訊圖表,同時會加入Google的辦公套件Workspace。Google Labs和Gemini副總裁Josh Woodward介紹稱:“Nano Banana Pro在資訊圖表方面非常出色,可以用來製作幻燈片。它最多可以處理14張不同的圖像,或5個不同的角色,並在某種程度上保持角色一致性。”對於創意產業的工作者而言,Nano Banana Pro也大幅升級了編輯功能,直接將創意的決策權交到使用者手中。Google介紹稱,新的編輯功能支援改變相機角度、場景光線、景深、對焦等,同時可以調整多種縱橫比,解析度也從Nano Banana的1024X1024上升到最高4K。(調整角度或圖片焦點)Google正在各項AI工具中推出Nano Banana Pro,包括免費使用者在內,都能在Gemini等應用中試用這一新功能(但會有配額限制)。Google AI Plus、Pro和Ultra訂閱使用者會獲得更高的配額。Google也表示,該功能隨後也將率先在Flow(Google的AI電影製作工具)向Ultra訂閱使用者推出。 (財聯社AI daily)
騰訊混元視訊生成工具今日開源,人物不會“變臉” 物體不會“漂移”
2025年5月9日上午,騰訊正式推出並開源全新的多模態客制化影片產生工具HunyuanCustom。模型基於混元視訊生成大模型(HunyuanVideo)打造,在主體一致性效果超過現有的開源方案。HunyuanCustom融合了文字、影像、音訊、視訊等多模態輸入生視訊的能力,是一款具備高度控制力和生成品質的智慧視訊創作工具。HunyuanCustom模型能實現單主體視訊生成、多主體視訊產生、單主體視訊配音、視訊局部編輯等能力,其產生的視訊與使用者輸入的參考主體能保持高度一致。其中,單主體生成能力已開源並在混元官網(https://hunyuan.tencent.com/)上線,使用者可以在「模型廣場-圖生視訊-參考生視訊」中體驗,其他能力將於5月內陸續對外開源。有了HunyuanCustom,使用者只需上傳一張包含目標人物或物件的圖片,並提供一句文字描述(例如「他正在遛狗」),HunyuanCustom 就能辨識出圖片中的身份訊息,並在完全不同的動作、服飾與場景中產生連貫自然的影片內容。除了單主體以外,這個能力同樣能實現多主體視訊的生成,使用者提供一張人物和一張物體的照片(比如一包薯片和一名男子的照片),並輸入文字描述(比如“一名男子正在游泳池旁邊,手裡拿著薯片進行展示”),即可能讓這兩個主體按要求出現在視訊裡。此外,HunyuanCustom 不止於圖像和文字的配合,還具備強大的擴展能力。在音訊驅動(單主體)模式下,使用者可以上傳人物影像並配上音訊語音,模型便可產生人物在任意場景中說話、唱歌或進行其他音訊和視訊同步表演的效果,廣泛適用於數位人直播、虛擬客服、教育演示等場景。在視訊驅動模式下,HunyuanCustom 支援將圖片中的人物或物體自然地替換或插入任意視訊片段中,進行創意植入或場景擴展,輕鬆實現視訊重構與內容增強。先前大部分的影片生成模型主要能實現文生影片和圖生影片。文生影片每次均根據本文提示詞重新生成,很難持續保持人物和場景的一致性。而影像生成視訊模型主要實現的是「讓圖片動起來」。例如,上傳一張人物照片,最終生成的影片通常只能在照片的原始服飾、姿態和場景下做出一些固定表情或動作,服裝、背景和姿態幾乎無法修改。但在部分場景下,創作者希望保持人物一致的情況下,改變人物所在的環境和動作。先前的視訊生成模型無法實現,多模態視訊生成模型HunyuanCustom則可以很好地滿足創作者的需求,透過引入身份增強機制和多模態融合模組,真正實現了「圖像提供身份,文字定義一切」。HunyuanCustom可以滿足影片創作者、短片部落客、電商從業人員、廣告創意人等不同使用者和場景的需求。例如,在廣告場景中,可以快速變換商品背景、模特兒可以快速換衣服;在電商和客服場景中,可以快速低成本製作出生動的數位人商品介紹視訊,或者製作特定穿著的數位人客服視訊;在影視場景中,快速製作短劇和小故事短影片。HunyuanCustom 在「可控性」和「一致性」上表現出色。 「可控性」指HunyuanCustom具有較強的控制訊號跟隨能力,包括遵循來自文字、參考主體影像和語音等多種模態訊號的控制,可較好地產生使用者需要物件、場景和動作。這主要得益於混元強大的多模態理解與文字驅動機制。透過業界領先的主體一致性建模能力,HunyuanCustom 在單人、非人物體、多主體互動等多種場景,都能保持身份特徵在視訊全程的一致性與連貫性。人物不會“變臉”,物體不會“漂移”。同時,HunyuanCustom 具備極高的影片產生品質。得益於騰訊混元影片大模型的強大能力,該模型在人物細節還原、動作流暢性、光影真實度等方面都達到業界領先水準。無論是產生虛擬數位人、打造品牌廣告視訊,或是進行創意視覺表達,HunyuanCustom都能提供高水準輸出。 (元透社)