現在,圖像中的文字生成都進化到這種程度了,還是開源的。
通義模型家族,剛剛又雙叒開源了,這次是Qwen-Image——一個200億參數、採用MMDiT架構的圖像生成模型。
這也是通義千問系列中首個圖像生成基礎模型。
看Qwen-Image生成的畫面就知道,它主打的能力之一就是複雜文字渲染。
像這張書店暢銷書架的圖片,包含複雜的圖文混合佈局,文字的精準度、契合度,甚至於隨書籍擺放角度形成的變化,都挑不出來什麼錯。
生成海報,也是不在話下。
照例,通義千問團隊把模型、詳細技術報告一口氣都放了出來,Qwen-Image的能力也第一時間上線QwenChat,現在就能在官網上手體驗。
Demo很優秀,實測效果又會如何?
測試提示詞是:
李白站在窗前寫“床前明月光”,窗外明月當空,在屋內投下柔和的光線,書桌上有酒和書籍,整體風格古典
好傢伙,感覺可以直接給語文課本用了。
“床前明月光”這幾個字不是直愣愣P上去的,跟畫面融合得相當不錯。畫面細節方面,也很有氛圍感。
硬要挑刺,就是AI有點分不清屋內屋外了(doge)。
官方Demo中有直接生成PPT的示例,我們也來測試一下,提示詞是:
一張企業級高品質PPT頁面圖像,整體採用簡約現代的風格,主題顏色是藍綠色,背景用線條和粒子營造科技感,頁面頂部左側清晰展示QbitAI的標誌。主標題位於畫面中央偏上,文字內容為“量子位AI Coding線下沙龍”,字型規整簡介,突出技術感。主標題下方放兩張圖,一張是線下沙龍現場照片,另一張體現AI程式設計
生成結果是這樣的:
嚴格來看,右上角有小小的瑕疵,左下角圖中圖的文字也不是那麼準確,但整體效果確實很頂,主體文字、圖中圖都能符合提示詞的要求。
那麼如果提示詞更模糊更簡單,Qwen-Image是否還能給出高品質結果?
測試提示詞:
製作一張海報,主題是:通義千問開源Qwen-Image
文字精準,也體現了AI畫畫的元素,沒毛病。
最後,再來測測Qwen-Image的“賣貨”技能。
提示詞:
面包店的商品宣傳圖,畫面主體是面包和奶油蛋糕。圖中文字展現“美味”、“動物奶油”、“開啟美好一天”,字型採用花體字,整體風格輕鬆活潑。整體採用暖色調
有點驚喜的是,Qwen-Image把“動物奶油”這幾個字精準對應到了奶油蛋糕上。
需要說明的是,以上實測,均為一次出圖。
可以看到,Qwen-Image對提示詞的理解都很到位,提示詞給得越精準,執行的效果細節越豐富,其中文字渲染能力,確如官方所說,能做到高保真輸出。
你給這個效果打幾分?
文字渲染能力之外,Qwen-Image還具備一致性圖像編輯能力,支援風格遷移、增刪改、細節增強、文字編輯、人物姿態調整等多種操作。
總結起來,其主要特性包括:
性能表現方面,通義千問團隊在多個公開基準上對Qwen-Image進行了評估,包括用於通用圖像生成的GenEval、DPG和OneIG-Bench,以及用於圖像編輯的GEdit、ImgEdit和GSO。
在所有基準測試中,Qwen-Image都實現了SOTA。
在用於文字渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明,Qwen-Image在文字渲染方面表現尤為出色。
特別是在中文文字渲染上,大幅領先現有的最先進模型。
從技術報告透露的細節來看,為瞭解決複雜文字渲染難題,通義千問團隊在資料處理、訓練策略方面都做出了改進。
訓練方面,Qwen-Image採用漸進式訓練策略,從非文字到文字渲染,從簡單到複雜文字輸入,逐步過渡到段落級描述,這種課程學習方法大大增強了模型的原生文字渲染能力。
更多細節,可戳文末連結,查看官方技術報告。
官方放出的示例中,還有這麼一張有意思的PPT。
提示詞中的關鍵字是“通義千問視覺基礎模型”。
莫非是新的劇透?
這個8月真是有意思了~
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
實測地址:chat.qwen.ai (量子位)