Qwen新開源,把AI生圖裡的文字SOTA拉爆了

現在,圖像中的文字生成都進化到這種程度了,還是開源的。

通義模型家族,剛剛又雙叒開源了,這次是Qwen-Image——一個200億參數、採用MMDiT架構的圖像生成模型。

這也是通義千問系列中首個圖像生成基礎模型。

看Qwen-Image生成的畫面就知道,它主打的能力之一就是複雜文字渲染

像這張書店暢銷書架的圖片,包含複雜的圖文混合佈局,文字的精準度、契合度,甚至於隨書籍擺放角度形成的變化,都挑不出來什麼錯。

生成海報,也是不在話下。

照例,通義千問團隊把模型、詳細技術報告一口氣都放了出來,Qwen-Image的能力也第一時間上線QwenChat,現在就能在官網上手體驗。

實測Qwen-Image

Demo很優秀,實測效果又會如何?

Round 1:情境插畫

測試提示詞是:

李白站在窗前寫“床前明月光”,窗外明月當空,在屋內投下柔和的光線,書桌上有酒和書籍,整體風格古典

好傢伙,感覺可以直接給語文課本用了。

“床前明月光”這幾個字不是直愣愣P上去的,跟畫面融合得相當不錯。畫面細節方面,也很有氛圍感。

硬要挑刺,就是AI有點分不清屋內屋外了(doge)。

Round 2:生成PPT、海報

官方Demo中有直接生成PPT的示例,我們也來測試一下,提示詞是:

一張企業級高品質PPT頁面圖像,整體採用簡約現代的風格,主題顏色是藍綠色,背景用線條和粒子營造科技感,頁面頂部左側清晰展示QbitAI的標誌。主標題位於畫面中央偏上,文字內容為“量子位AI Coding線下沙龍”,字型規整簡介,突出技術感。主標題下方放兩張圖,一張是線下沙龍現場照片,另一張體現AI程式設計

生成結果是這樣的:

嚴格來看,右上角有小小的瑕疵,左下角圖中圖的文字也不是那麼準確,但整體效果確實很頂,主體文字、圖中圖都能符合提示詞的要求。

那麼如果提示詞更模糊更簡單,Qwen-Image是否還能給出高品質結果?

測試提示詞:

製作一張海報,主題是:通義千問開源Qwen-Image

文字精準,也體現了AI畫畫的元素,沒毛病。

Round 3:商品宣傳圖

最後,再來測測Qwen-Image的“賣貨”技能。

提示詞:

面包店的商品宣傳圖,畫面主體是面包和奶油蛋糕。圖中文字展現“美味”、“動物奶油”、“開啟美好一天”,字型採用花體字,整體風格輕鬆活潑。整體採用暖色調

有點驚喜的是,Qwen-Image把“動物奶油”這幾個字精準對應到了奶油蛋糕上。

需要說明的是,以上實測,均為一次出圖。

可以看到,Qwen-Image對提示詞的理解都很到位,提示詞給得越精準,執行的效果細節越豐富,其中文字渲染能力,確如官方所說,能做到高保真輸出。

你給這個效果打幾分?

性能SOTA

文字渲染能力之外,Qwen-Image還具備一致性圖像編輯能力,支援風格遷移、增刪改、細節增強、文字編輯、人物姿態調整等多種操作。

總結起來,其主要特性包括:

  • 複雜文字渲染能力: Qwen-Image在複雜文字渲染方面表現出色,支援多行佈局、段落級文字生成以及細粒度細節呈現。無論是英語還是中文,均能實現高保真輸出。
  • 一致性的圖像編輯能力:通過增強的多工訓練範式,Qwen-Image在編輯過程中能出色地保持編輯的一致性。
  • 性能SOTA:在多個公開基準測試中的評估表明,Qwen-Image在各類生成與編輯任務中均獲得SOTA。

性能表現方面,通義千問團隊在多個公開基準上對Qwen-Image進行了評估,包括用於通用圖像生成的GenEval、DPG和OneIG-Bench,以及用於圖像編輯的GEdit、ImgEdit和GSO。

在所有基準測試中,Qwen-Image都實現了SOTA。

在用於文字渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明,Qwen-Image在文字渲染方面表現尤為出色。

特別是在中文文字渲染上,大幅領先現有的最先進模型。

從技術報告透露的細節來看,為瞭解決複雜文字渲染難題,通義千問團隊在資料處理、訓練策略方面都做出了改進。

訓練方面,Qwen-Image採用漸進式訓練策略,從非文字到文字渲染,從簡單到複雜文字輸入,逐步過渡到段落級描述,這種課程學習方法大大增強了模型的原生文字渲染能力。

更多細節,可戳文末連結,查看官方技術報告。

One More Thing

官方放出的示例中,還有這麼一張有意思的PPT。

提示詞中的關鍵字是“通義千問視覺基礎模型”。

莫非是新的劇透?

這個8月真是有意思了~

ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
實測地址:chat.qwen.ai (量子位)