#Flux
字節開源新生圖模型:一個模型統一所有生圖任務,多主體融合效果SOTA
利用字節團隊魔改的FLUX模型,可以直接把多個參考主體放進一張圖了。字節團隊以FLUX為基礎模型,提出了新的生圖模型UNO,統一了圖像生成任務中不同輸入條件的處理。無論是單主體進行風格變換,還是不同物體的融合,UNO都能直接搞定。字節團隊認為,UNO主要解決的是參考驅動的圖像生成中的兩個主要挑戰——資料可擴展性和主體可擴展性。傳統方法在從單主體資料集擴展到多主體資料集時面臨困難,且大多數方法僅關注單主體生成,難以應用於多主體場景。為瞭解決這一問題,團隊提出了“模型-資料共同進化”的新範式,能夠在增強模型能力的同時,不斷豐富可用的訓練資料。多主體參考生圖測試中,UNO的DINO和CLIP得分均達到了SOTA水平。網友評價說,UNO看上去是一個巨大的飛躍,如果真的能搞定多主體參考,將會大幅激發定製化AI智能體的潛力。另外,團隊還在HuggingFace上提供了線上試玩,但前提是擁有HF的GPU額度。一個模型搞定單/多主體參考如開頭所述,UNO將單純的文生圖,以及單/多主體參考這些不同的任務都整合到了一個模型當中。具體來說,除了直接的文生圖之外,它可以把多張參考圖當中的物體進行組合。當然三個物體也照樣能很好地組合,官方提供的線上Demo當中最多可以上傳四張參考圖。也可以對參考主體中的人物特徵進行保持,生成不同場景的人物圖像。同時對於人物而言,也可以在保留基本特徵的條件下進行風格轉換,包括被GPT-4o帶火的吉卜力風也能拿捏。應用場景方面,官方給出了虛擬試穿和產品設計這兩組示例。對於UNO的單主體生成能力,團隊使用了DreamBench進行了測試,使用了三個主要指標——DINO分數、CLIP-I分數(這兩個用於評估主體相似度)和CLIP-T分數(用於評估文字忠實度)。多主體生成測試則採用了一個特別設計的測試集——從DreamBench中選取了30種不同的雙主體組合,包括非生物體和生物體的組合。最終,UNO的測試成績無論在單主體還是多主體任務中都處於領先水平。研究團隊還進行了使用者研究,邀請了30位評估者(包括領域專家和非專家)對300個圖像組合進行評估。結果,UNO在所有評估維度上都獲得了較高評分,特別是在主體相似度和文字忠實度方面的表現最為突出。此外,團隊還展示了UNO和一些SOTA級模型的效果對比,可以直觀感受一下區別。模型-資料共同進化UNO採用了這一種“模型-資料共同進化”的新範式,核心思想是用較弱的模型生成訓練資料,訓練更強的模型。在模型架構方面,UNO以開源模型FLUX.1 dev為基礎,繼承了其文生圖基礎能力和多模態注意力機制,採用了通用定製化模型框架。具體來說,該框架採用漸進式跨模態對齊策略,將訓練過程分為兩個連續階段——首先使用單主體資料對預訓練的文生圖(T2I)模型進行微調,使其獲得基本的主體到圖像轉換(S2I)能力;隨後引入多主體資料繼續訓練,增強模型處理複雜場景的能力。此外研究團隊提出了通用旋轉位置嵌入(UnoPE)技術,通過為文字和圖像標記分配特定的位置索引,來調控多模態標記之間的互動。UnoPE採用從噪聲圖像標記最大維度開始的對角線位置編碼方式,並通過調整位置索引範圍來防止生成圖像過度依賴參考圖像的空間結構,有效緩解了在擴展視覺主體控制時容易出現的屬性混淆問題。資料方面,團隊利用Diffusion Transformer固有的上下文生成能力建構了資料合成框架。團隊首先建構了一個包含365個頂層類別的分類樹,這些類別來自Object365資料集。在每個類別下,還包含了更細粒度的分類,涵蓋年齡、職業和著裝風格等維度。然後利用大模型在每個類別中生成豐富多樣的主體和場景描述,這些輸出與預定義的文字範本結合,可以為文生圖模型生成數百萬個文字提示。最終,研究團隊設計了一個漸進式的合成管道,從單主體生成開始,逐步過渡到多主體上下文生成。來自字節智能創作團隊論文顯示,UNO的作者字節智能創作團隊。據介紹,該團隊是字節的AI&多媒體技術中台,研究方向包括電腦視覺、音視訊編輯、特效處理等技術。之前字節提出的用於提升圖像生成模型“美感”的VMix,也是來自智能創作團隊,並且作者與這次的UNO基本相同。本次UNO的項目負責人是Fei Ding,是Vmix的通訊作者,之前還參與過Realcustom++、Dreamtuner等項目的工作。UNO的第一作者Shaojin Wu、通訊作者黃夢琪,之前也都參與過Vmix。黃夢琪目前是中科大博士在讀,2023年起至今一直在字節實習,預計今年畢業,導師是毛震東教授。另外,字節招聘網站顯示,智能創作團隊目前正在招聘AIGC技術專家、多模態演算法專家等崗位。 (量子位)