大戰Nano Banana,即夢4.0只有快不破

谷歌的Nano Banana模型自發布以來,僅用一周時間就迅速引爆全球社區,成為討論熱度最高的新銳代表。就在昨天,字節也正式推出了Seedream 4.0,高調在「即夢」平台全量上線。

一邊是國際大廠的新銳之作,另一邊是國產模型的頂尖代表,兩位「選手」幾乎前後腳站上擂台卷生卷死,氣氛瞬間拉滿。

為了更直觀地呈現兩款模型的真實水平,我們特別設計了15個考題,涵蓋文字生成、邏輯推演、圖像處理、創意表達等多個維度。

廢話不多說,讓我們透過這份詳細的答案紙來一探究竟。


實測部分

01

嘿!你的悟空掉了!

Prompt:手機上坐著一個黑神話悟空

這波題考的是這兩個模型,能不能認出遊戲圈頂流「悟空」?還得有想像力,讓他合理地「坐」在手機上。

參考圖如下:


先看即夢4.0,如果你仔細放大看,能看出來即夢4.0生成的悟空坐著的姿勢很真實,能準確捕捉《黑神話:悟空》的美術風格和角色神韻。


相較之下,Nano Banana在人物頭身比例的精準度上略有失衡,顯得不夠協調。


本輪小結: 即夢4.0在寫實還原與場景融合上小勝一籌


02

2D到3D的風格轉換

Prompt:將圖片中所有小怪獸,做成3D模型

這是一個典型的「圖生圖」測試,核心在於考察模型的影像理解、風格遷移和3D空間建構能力

模型需要先辨識出圖片中的「小怪獸」主體,然後將其從2D平面設計稿「翻譯」成體、飽滿的3D模型,並賦予其合適的材質和紋理。


即夢4.0本身自帶強烈的模型和手辦質感,非常適合這個主題。它能產生下面這樣類似「泡泡瑪特」風格的潮玩或精緻的遊戲模型,色彩鮮豔,造型可愛且富有設計感,主要是一致性很好。


Nano Banana在理解上出現了偏差。它似乎將指令理解為:將整體畫面進行3D化「浮雕」處理,而非將每個怪獸獨立建模,最終生成了一張立體感貼畫,未能完成核心任務。


本輪小結: 即夢4.0對3D指令的理解和執行能力稍強一些。


03

中國古畫的再創作

Prompt:給這幅中國古畫的右上角,畫幾行白鷺鷥。

這回主要考驗AI能不能在中國風古畫上加戲,模型不僅要畫出“白鷺”,更重要的是要讓這些白鷺完美融入古畫的意境中,無論是筆觸、墨色還是構圖,都不能有違和感。

參考圖如下:


左側為即夢4.0,右側為Nano Banana。出乎意料,這一輪兩者都表現不差。它們都沒有生硬地植入寫實白鷺,而是模仿了原作的筆觸和意境,並融入了自身的理解。添加的白鷺元素與背景渾然一體,沒有明顯的違和感。


本輪小結: 平分秋色,都展現了不錯的多風格藝術融合能力。


04

星艦印滿比卡丘

Prompt:將星艦上印滿比卡丘。

這是一個考驗紋理應用、透視理解和IP辨識的綜合案例。模型需要將「比卡丘」這個2D形象,作為紋理「貼」在「星艦」這個複雜的3D曲面上,並處理好透視、變形和光影變化,同時要確保比卡丘形象的準確性。我隨便找了一張星艦的圖片:


這是即夢4.0生成的,在3D曲面物體上,比卡丘的元素融合確實很好。比卡丘紋理在星艦不同曲面(如機翼、機身)上的貼合程度,基本上不存在不自然的拉伸或突出星艦本身的空間。


下面這具有視覺衝擊力的是Nano Banana生成的,比卡丘貼的嚴絲合縫。能看得出來,「比卡丘」和「星艦」都是Nano Banana舒適區內的元素,它能產生視覺衝擊力極強的畫面。


相較之下,Nano Banana的寫實渲染能力更強一下,會細緻地處理每一個比卡丘在不同角度下的形態,讓整個塗裝看起來很「真實」。

本輪小結: 兩者都出色完成任務。 Nano Banana在視覺效果和藝術氛圍更好。


05

手繪手帳風格

Prompt:手帳手繪風格,介紹Transformer是什麼?魚香肉絲怎麼做?

「手帳風」是一種集插畫、貼紙、文字等多種元素於一體的拼貼藝術。模型需要理解並重現這種看似隨意卻充滿設計感的雜亂美學。

即夢4.0的表現很不錯。產生的中文文字清晰準確,幾乎沒有錯誤。無論是解釋Transformer架構的圖文排版,或是魚香肉絲的食材圖鑑,都細節滿滿,風格統一,實用性與美觀兼具。


尤其是下面的魚香肉絲製作指南,看得出來對細節的把控很到位,整體所有食材的手繪圖細節都還不錯。


Nano Banana在趣味性上稍遜一籌。但其優點在於對複雜元素的組織能力,在介紹Transformer的頁面中,它運用了更多樣化、更複雜的圖形元素來建構畫面,視覺層次更豐富。


本輪小結: 即夢4.0在視覺上更可愛些,Nano Banana則在圖形元素的複雜組合上更有能力。


06

Sam Altman和Elon Musk 合影

Prompt:讓他兩個合影

這是一個名人肖像融合的經典測試。考驗兩個AI圖片模型,在生成合照時處理光線、表情和身體姿態的自然度。


在這一個測試裡,比起Nano Banana,即夢4.0的表現會更加自然一下,兩個人彷彿「世紀大和解」一樣。

只是,啊,餵!為什麼Sam Altman和Elon Musk的臉部的元素有點趨同了?


而在Nano Banana的生成結果中,二者還是像我在參考圖中提供的元素那樣,保持動作不變,很不自然。人物如同被簡單地「摳圖」並置,缺乏真實的互動感。


本輪小結: 即夢4.0在營造自然氛圍上更優,但臉部細節仍需打磨。


07

品牌元素的精準植入:OpenAI商標

Prompt:將多張OpenAI商標圖印在Elon Musk的黑色西服上。

這個測試,與星艦案例類似,但更考驗在衣物褶皺上的紋理貼合能力。黑色西服有明暗變化和布料褶皺,模型需要讓商標圖案,根據這些物理變化產生自然的光影和透視形變。

OpenAI商標圖如下:


二者相比,硬要說的話,即夢4.0將OpenAI元素融入Elon Musk的西服後,產生的效果看起來更有設計感一些,但是像是西服的袖口位置,並沒有被渲染到:


相反,Nano Banana更忠於提示詞,將OpenAI的商標順著西服的褶皺印的滿滿噹噹的。 Logo會根據衣物的褶皺產生自然的扭曲。


本輪小結: Nano Banana在指令的忠實度和技術實現上更勝一籌。


08

Elon Musk的手辦

接下來,我們把上面Nano Banana產生的圖做成當下最受歡迎的手辦模型。

Prompt:使用nano-banana模型,製作圖片中角色的1/7比例商業手辦,風格為寫實,並置於真實環境中。手辦擺放在電腦桌上,配有一塊無文字的圓形透明壓克力底座。電腦螢幕上顯示的是該手辦的ZBrush建模流程。電腦螢幕旁放置萬代(BANDAI)風格的玩具包裝盒,包裝上印有原始插畫,呈現為二維平面插圖。請確保所有元素與參考圖嚴格一致。

二者的表現,可以說是不相上下。只是即夢4.0背後電腦螢幕上的3D模型稍微有些幻覺:


Nano Banana確實會更嚴謹一些,從手辦的寫實風格,到包裝盒的平面插圖都執行的不錯:


本輪小結: 在複雜指令的執行上,Nano Banana的精準度略微領先。


09

多元素融合:換裝

下面我們來試試更多的元素融合。

Prompt:圖一的女性穿上圖二的搭配。


精準局部重繪是AI影像編輯的核心功能。考驗的是模型在替換主體後,保持背景、光影、透視不變,並使新元素與環境無縫銜接的能力。

兩者在整體表現上都相當不錯,成功地將新服裝融合到人物身上,效果逼真自然。但在細節處理上,兩者都還有進步空間,例如對手腕配件的理解和重繪都出現了一些偏差。


本輪小結: 整體打平,均屬於「說得過去」但未達完美的水平。


10

狗換成哈士奇

這個案例也是看兩個模型能不能精準重繪畫面中的某個元素。

Prompt:將男子的狗換成哈士奇。


這一輪,兩個模型都展現了成熟的影像編輯能力,無論是寫實的哈士奇毛髮,還是與環境的融合度,都處理得非常好,效果難分伯仲。


本輪小結: 再次平分秋色,皆能高品質完成任務。


11

劍風傳奇漫畫上色

下面這個案例會更複雜一點。非常考驗模型的上色能力和對特定藝術風格的理解。不只是填色,好的AI上色需要理解,漫畫作者三浦建太郎原畫中的光影、材質和氛圍,用色彩來增強而非破壞原作的厚重感和力量感。

Prompt:為劍風傳奇的漫畫上色。


即夢4.0上色風格更偏向色彩誇張、對比強烈的美式漫畫,視覺衝擊力強。


Nano Banana對暗黑系的日漫風格理解顯然更深。它的著色方案很好地保留了原作的史詩感和陰鬱氛圍。


本輪小結: Nano Banana對特定漫畫風格的理解與詮釋更勝一籌。


12

薩爾達傳說海報更改

以下這個案例測試模型對一個成熟、廣受歡迎的遊戲IP藝術風格的掌握程度,以及在此基礎上的創意延展能力。

Prompt:將這張海報男主角對面改成血月。


即夢4.0的生成結果更為震撼些,如果你仔細看左側男主,會發現即夢重新給他打上了一層高光。整體人物的3D感更強一點。


Nano Banana更傾向於在原作基礎上進行細節增強或無痕的元素增減,保持海報的原汁原味。它並沒有使用很誇張的元素,去改變整體海報的感覺。


本輪小結: 即夢4.0的二次創作更誇張一點,但Nano Banana的表現更忠於原海報,平分秋色。


13

薩爾達公主髮型9宮格

兩個模型都很適合透過1張圖片,衍生出多種創意元素。

Prompt:根據我提供的參考圖片,產生9種不同的髮型設計,並整合在同一張照片中展示。畫面需透過特寫視角,分別突顯每一種髮型的細節與特點,整體構圖統一、美觀。

參考圖如下:


不知為何,也就是夢4.0總是一張一張的生成,於是我將圖片拼接到了一起。它會產生各種角度和姿態的圖片,甚至出現了一些形態較為「詭異」的設計。

像第一排最左邊第二張的圖是什麼鬼!


Nano Banana表現更為穩定。它嚴格地保留了原圖的背景和人物姿態,僅針對髮型進行多樣化設計,更忠實於提示詞和原有畫風,最終結果的風格一致性很強。


本輪小結: Nano Banana在保持一致性和遵循指令方面表現更優。


14

世界十大地標建築等軸模型

這個測試,主要針對於模型對於特定建築的識別能力和對“等軸測圖”這一特定繪畫風格的執行能力。 「等軸模型」風格常見於模擬經營遊戲或扁平化設計中,要求所有物件在統一的斜向視角下呈現,無近大遠小的透視。

Prompt:生成世界10大地標建築的等軸模型

Emmmm怎麼說呢,左側是即夢4.0,以一種非常「直白」的方式完成了任務,它將10個地標建築分別生成為獨立的等軸模型,並嚴謹地配上了文字標籤,像是一份建築圖鑑。但是名稱和圖示對應還有問題,細節也不夠準確。


Nano Banana則將所有地標建築融合在一張大圖裡,創造了一個微縮景觀世界,整體更像是一個精美的模擬經營遊戲資產。


本輪小結: 即夢4.0勝在訊息清晰,Nano Banana勝在模型整合。


15

淘寶頁面精準元素修改

以下就是最後一個案例了,這是一個比較實用的商業應用場景測試。模型需要「讀懂」圖片上的文字和商品,理解畫面中各個元素的位置,並精準地修改圖片上的對應文字和數字,同時保持原有風格不變。

Prompt:沙拉醬+肉鬆大於等於95%,券後1.67


這次的結果就不像以上那些結果「難解難分」了,也就是夢4.0的表現明顯好一點。它能夠辨識出需要修改的文字區域,然後進行精準替換。同時完全不影響周圍的UI元素和商品圖像。


儘管多次嘗試,Nano Banana雖然能精準修改數字,但總是會「順手」改變麵包的形態,無法做到精準的局部控制。


本輪小結: 即夢4.0優勢很明顯,比較擅長複雜畫面的精準元素修改。


總結

經過15輪風格各異的“大考”,我們對即夢4.0和Nano Banana這兩位AI繪畫“選手”的實力畫像也變得愈發清晰。即夢4.0在寫實還原、創意設計和精準編輯方面,功力更深厚。 Nano Banana則更忠於提示詞、風格也更多變化。另一個親身體驗下來的直覺發現是:即夢4.0的生成速度真的很快,幾乎只要Google AI Studio或Gemini調用Nano Banana所需時間的一半。

不過,看完這場“神仙打架”,最大的感觸是:中國國產模型和國外大廠的差距,已經越來越小,甚至相持不下了。說實話,我已經提前預見到,2025年下半年,AI影像生成模式的競爭只會更加白熱化,同時也會更加百花齊放。