Qwen新開源，把AI生圖裡的文字SOTA拉爆了

2025/08/05

•

現在，圖像中的文字生成都進化到這種程度了，還是開源的。

通義模型家族，剛剛又雙叒開源了，這次是Qwen-Image——一個200億參數、採用MMDiT架構的圖像生成模型。

這也是通義千問系列中首個圖像生成基礎模型。

看Qwen-Image生成的畫面就知道，它主打的能力之一就是複雜文字渲染。

像這張書店暢銷書架的圖片，包含複雜的圖文混合佈局，文字的精準度、契合度，甚至於隨書籍擺放角度形成的變化，都挑不出來什麼錯。

生成海報，也是不在話下。

照例，通義千問團隊把模型、詳細技術報告一口氣都放了出來，Qwen-Image的能力也第一時間上線QwenChat，現在就能在官網上手體驗。

實測Qwen-Image

Demo很優秀，實測效果又會如何？

Round 1：情境插畫

測試提示詞是：

李白站在窗前寫“床前明月光”，窗外明月當空，在屋內投下柔和的光線，書桌上有酒和書籍，整體風格古典

好傢伙，感覺可以直接給語文課本用了。

“床前明月光”這幾個字不是直愣愣P上去的，跟畫面融合得相當不錯。畫面細節方面，也很有氛圍感。

硬要挑刺，就是AI有點分不清屋內屋外了（doge）。

Round 2：生成PPT、海報

官方Demo中有直接生成PPT的示例，我們也來測試一下，提示詞是：

一張企業級高品質PPT頁面圖像，整體採用簡約現代的風格，主題顏色是藍綠色，背景用線條和粒子營造科技感，頁面頂部左側清晰展示QbitAI的標誌。主標題位於畫面中央偏上，文字內容為“量子位AI Coding線下沙龍”，字型規整簡介，突出技術感。主標題下方放兩張圖，一張是線下沙龍現場照片，另一張體現AI程式設計

生成結果是這樣的：

嚴格來看，右上角有小小的瑕疵，左下角圖中圖的文字也不是那麼準確，但整體效果確實很頂，主體文字、圖中圖都能符合提示詞的要求。

那麼如果提示詞更模糊更簡單，Qwen-Image是否還能給出高品質結果？

測試提示詞：

製作一張海報，主題是：通義千問開源Qwen-Image

文字精準，也體現了AI畫畫的元素，沒毛病。

Round 3：商品宣傳圖

最後，再來測測Qwen-Image的“賣貨”技能。

提示詞：

面包店的商品宣傳圖，畫面主體是面包和奶油蛋糕。圖中文字展現“美味”、“動物奶油”、“開啟美好一天”，字型採用花體字，整體風格輕鬆活潑。整體採用暖色調

有點驚喜的是，Qwen-Image把“動物奶油”這幾個字精準對應到了奶油蛋糕上。

需要說明的是，以上實測，均為一次出圖。

可以看到，Qwen-Image對提示詞的理解都很到位，提示詞給得越精準，執行的效果細節越豐富，其中文字渲染能力，確如官方所說，能做到高保真輸出。

你給這個效果打幾分？

性能SOTA

文字渲染能力之外，Qwen-Image還具備一致性圖像編輯能力，支援風格遷移、增刪改、細節增強、文字編輯、人物姿態調整等多種操作。

總結起來，其主要特性包括：

複雜文字渲染能力： Qwen-Image在複雜文字渲染方面表現出色，支援多行佈局、段落級文字生成以及細粒度細節呈現。無論是英語還是中文，均能實現高保真輸出。
一致性的圖像編輯能力：通過增強的多工訓練範式，Qwen-Image在編輯過程中能出色地保持編輯的一致性。
性能SOTA：在多個公開基準測試中的評估表明，Qwen-Image在各類生成與編輯任務中均獲得SOTA。

性能表現方面，通義千問團隊在多個公開基準上對Qwen-Image進行了評估，包括用於通用圖像生成的GenEval、DPG和OneIG-Bench，以及用於圖像編輯的GEdit、ImgEdit和GSO。

在所有基準測試中，Qwen-Image都實現了SOTA。

在用於文字渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明，Qwen-Image在文字渲染方面表現尤為出色。

特別是在中文文字渲染上，大幅領先現有的最先進模型。

從技術報告透露的細節來看，為瞭解決複雜文字渲染難題，通義千問團隊在資料處理、訓練策略方面都做出了改進。

訓練方面，Qwen-Image採用漸進式訓練策略，從非文字到文字渲染，從簡單到複雜文字輸入，逐步過渡到段落級描述，這種課程學習方法大大增強了模型的原生文字渲染能力。

更多細節，可戳文末連結，查看官方技術報告。

One More Thing

官方放出的示例中，還有這麼一張有意思的PPT。

提示詞中的關鍵字是“通義千問視覺基礎模型”。

莫非是新的劇透？

這個8月真是有意思了~

ModelScope：https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face：https://huggingface.co/Qwen/Qwen-Image
GitHub：https://github.com/QwenLM/Qwen-Image
技術報告：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
實測地址：chat.qwen.ai (量子位)