大戰Nano Banana，即夢4.0只有快不破

2025/09/10

•

谷歌的Nano Banana模型自發布以來，僅用一周時間就迅速引爆全球社區，成為討論熱度最高的新銳代表。就在昨天，字節也正式推出了Seedream 4.0，高調在「即夢」平台全量上線。

一邊是國際大廠的新銳之作，另一邊是國產模型的頂尖代表，兩位「選手」幾乎前後腳站上擂台卷生卷死，氣氛瞬間拉滿。

為了更直觀地呈現兩款模型的真實水平，我們特別設計了15個考題，涵蓋文字生成、邏輯推演、圖像處理、創意表達等多個維度。

廢話不多說，讓我們透過這份詳細的答案紙來一探究竟。

實測部分

嘿！你的悟空掉了！

Prompt：手機上坐著一個黑神話悟空

這波題考的是這兩個模型，能不能認出遊戲圈頂流「悟空」？還得有想像力，讓他合理地「坐」在手機上。

參考圖如下：

先看即夢4.0，如果你仔細放大看，能看出來即夢4.0生成的悟空坐著的姿勢很真實，能準確捕捉《黑神話：悟空》的美術風格和角色神韻。

相較之下，Nano Banana在人物頭身比例的精準度上略有失衡，顯得不夠協調。

本輪小結: 即夢4.0在寫實還原與場景融合上小勝一籌

2D到3D的風格轉換

Prompt：將圖片中所有小怪獸，做成3D模型

這是一個典型的「圖生圖」測試，核心在於考察模型的影像理解、風格遷移和3D空間建構能力。

模型需要先辨識出圖片中的「小怪獸」主體，然後將其從2D平面設計稿「翻譯」成體、飽滿的3D模型，並賦予其合適的材質和紋理。

即夢4.0本身自帶強烈的模型和手辦質感，非常適合這個主題。它能產生下面這樣類似「泡泡瑪特」風格的潮玩或精緻的遊戲模型，色彩鮮豔，造型可愛且富有設計感，主要是一致性很好。

Nano Banana在理解上出現了偏差。它似乎將指令理解為：將整體畫面進行3D化「浮雕」處理，而非將每個怪獸獨立建模，最終生成了一張立體感貼畫，未能完成核心任務。

本輪小結: 即夢4.0對3D指令的理解和執行能力稍強一些。

中國古畫的再創作

Prompt：給這幅中國古畫的右上角，畫幾行白鷺鷥。

這回主要考驗AI能不能在中國風古畫上加戲，模型不僅要畫出“白鷺”，更重要的是要讓這些白鷺完美融入古畫的意境中，無論是筆觸、墨色還是構圖，都不能有違和感。

參考圖如下：

左側為即夢4.0，右側為Nano Banana。出乎意料，這一輪兩者都表現不差。它們都沒有生硬地植入寫實白鷺，而是模仿了原作的筆觸和意境，並融入了自身的理解。添加的白鷺元素與背景渾然一體，沒有明顯的違和感。

本輪小結: 平分秋色，都展現了不錯的多風格藝術融合能力。

星艦印滿比卡丘

Prompt：將星艦上印滿比卡丘。

這是一個考驗紋理應用、透視理解和IP辨識的綜合案例。模型需要將「比卡丘」這個2D形象，作為紋理「貼」在「星艦」這個複雜的3D曲面上，並處理好透視、變形和光影變化，同時要確保比卡丘形象的準確性。我隨便找了一張星艦的圖片：

這是即夢4.0生成的，在3D曲面物體上，比卡丘的元素融合確實很好。比卡丘紋理在星艦不同曲面（如機翼、機身）上的貼合程度，基本上不存在不自然的拉伸或突出星艦本身的空間。

下面這具有視覺衝擊力的是Nano Banana生成的，比卡丘貼的嚴絲合縫。能看得出來，「比卡丘」和「星艦」都是Nano Banana舒適區內的元素，它能產生視覺衝擊力極強的畫面。

相較之下，Nano Banana的寫實渲染能力更強一下，會細緻地處理每一個比卡丘在不同角度下的形態，讓整個塗裝看起來很「真實」。

本輪小結: 兩者都出色完成任務。 Nano Banana在視覺效果和藝術氛圍更好。

手繪手帳風格

Prompt：手帳手繪風格，介紹Transformer是什麼？魚香肉絲怎麼做？

「手帳風」是一種集插畫、貼紙、文字等多種元素於一體的拼貼藝術。模型需要理解並重現這種看似隨意卻充滿設計感的雜亂美學。

即夢4.0的表現很不錯。產生的中文文字清晰準確，幾乎沒有錯誤。無論是解釋Transformer架構的圖文排版，或是魚香肉絲的食材圖鑑，都細節滿滿，風格統一，實用性與美觀兼具。

尤其是下面的魚香肉絲製作指南，看得出來對細節的把控很到位，整體所有食材的手繪圖細節都還不錯。

Nano Banana在趣味性上稍遜一籌。但其優點在於對複雜元素的組織能力，在介紹Transformer的頁面中，它運用了更多樣化、更複雜的圖形元素來建構畫面，視覺層次更豐富。

本輪小結: 即夢4.0在視覺上更可愛些，Nano Banana則在圖形元素的複雜組合上更有能力。

Sam Altman和Elon Musk 合影

Prompt：讓他兩個合影

這是一個名人肖像融合的經典測試。考驗兩個AI圖片模型，在生成合照時處理光線、表情和身體姿態的自然度。

在這一個測試裡，比起Nano Banana，即夢4.0的表現會更加自然一下，兩個人彷彿「世紀大和解」一樣。

只是，啊，餵！為什麼Sam Altman和Elon Musk的臉部的元素有點趨同了？

而在Nano Banana的生成結果中，二者還是像我在參考圖中提供的元素那樣，保持動作不變，很不自然。人物如同被簡單地「摳圖」並置，缺乏真實的互動感。

本輪小結: 即夢4.0在營造自然氛圍上更優，但臉部細節仍需打磨。

品牌元素的精準植入：OpenAI商標

Prompt：將多張OpenAI商標圖印在Elon Musk的黑色西服上。

這個測試，與星艦案例類似，但更考驗在衣物褶皺上的紋理貼合能力。黑色西服有明暗變化和布料褶皺，模型需要讓商標圖案，根據這些物理變化產生自然的光影和透視形變。

OpenAI商標圖如下：

二者相比，硬要說的話，即夢4.0將OpenAI元素融入Elon Musk的西服後，產生的效果看起來更有設計感一些，但是像是西服的袖口位置，並沒有被渲染到：

相反，Nano Banana更忠於提示詞，將OpenAI的商標順著西服的褶皺印的滿滿噹噹的。 Logo會根據衣物的褶皺產生自然的扭曲。

本輪小結: Nano Banana在指令的忠實度和技術實現上更勝一籌。

Elon Musk的手辦

接下來，我們把上面Nano Banana產生的圖做成當下最受歡迎的手辦模型。

Prompt：使用nano-banana模型，製作圖片中角色的1/7比例商業手辦，風格為寫實，並置於真實環境中。手辦擺放在電腦桌上，配有一塊無文字的圓形透明壓克力底座。電腦螢幕上顯示的是該手辦的ZBrush建模流程。電腦螢幕旁放置萬代（BANDAI）風格的玩具包裝盒，包裝上印有原始插畫，呈現為二維平面插圖。請確保所有元素與參考圖嚴格一致。

二者的表現，可以說是不相上下。只是即夢4.0背後電腦螢幕上的3D模型稍微有些幻覺：

Nano Banana確實會更嚴謹一些，從手辦的寫實風格，到包裝盒的平面插圖都執行的不錯：

本輪小結: 在複雜指令的執行上，Nano Banana的精準度略微領先。

多元素融合：換裝

下面我們來試試更多的元素融合。

Prompt：圖一的女性穿上圖二的搭配。

精準局部重繪是AI影像編輯的核心功能。考驗的是模型在替換主體後，保持背景、光影、透視不變，並使新元素與環境無縫銜接的能力。

兩者在整體表現上都相當不錯，成功地將新服裝融合到人物身上，效果逼真自然。但在細節處理上，兩者都還有進步空間，例如對手腕配件的理解和重繪都出現了一些偏差。

本輪小結: 整體打平，均屬於「說得過去」但未達完美的水平。

狗換成哈士奇

這個案例也是看兩個模型能不能精準重繪畫面中的某個元素。

Prompt：將男子的狗換成哈士奇。

這一輪，兩個模型都展現了成熟的影像編輯能力，無論是寫實的哈士奇毛髮，還是與環境的融合度，都處理得非常好，效果難分伯仲。

本輪小結： 再次平分秋色，皆能高品質完成任務。

劍風傳奇漫畫上色

下面這個案例會更複雜一點。非常考驗模型的上色能力和對特定藝術風格的理解。不只是填色，好的AI上色需要理解，漫畫作者三浦建太郎原畫中的光影、材質和氛圍，用色彩來增強而非破壞原作的厚重感和力量感。

Prompt：為劍風傳奇的漫畫上色。

即夢4.0上色風格更偏向色彩誇張、對比強烈的美式漫畫，視覺衝擊力強。

Nano Banana對暗黑系的日漫風格理解顯然更深。它的著色方案很好地保留了原作的史詩感和陰鬱氛圍。

本輪小結: Nano Banana對特定漫畫風格的理解與詮釋更勝一籌。

薩爾達傳說海報更改

以下這個案例測試模型對一個成熟、廣受歡迎的遊戲IP藝術風格的掌握程度，以及在此基礎上的創意延展能力。

Prompt：將這張海報男主角對面改成血月。

即夢4.0的生成結果更為震撼些，如果你仔細看左側男主，會發現即夢重新給他打上了一層高光。整體人物的3D感更強一點。

Nano Banana更傾向於在原作基礎上進行細節增強或無痕的元素增減，保持海報的原汁原味。它並沒有使用很誇張的元素，去改變整體海報的感覺。

本輪小結: 即夢4.0的二次創作更誇張一點，但Nano Banana的表現更忠於原海報，平分秋色。

薩爾達公主髮型9宮格

兩個模型都很適合透過1張圖片，衍生出多種創意元素。

Prompt：根據我提供的參考圖片，產生9種不同的髮型設計，並整合在同一張照片中展示。畫面需透過特寫視角，分別突顯每一種髮型的細節與特點，整體構圖統一、美觀。

參考圖如下：

不知為何，也就是夢4.0總是一張一張的生成，於是我將圖片拼接到了一起。它會產生各種角度和姿態的圖片，甚至出現了一些形態較為「詭異」的設計。

像第一排最左邊第二張的圖是什麼鬼！

Nano Banana表現更為穩定。它嚴格地保留了原圖的背景和人物姿態，僅針對髮型進行多樣化設計，更忠實於提示詞和原有畫風，最終結果的風格一致性很強。

本輪小結: Nano Banana在保持一致性和遵循指令方面表現更優。

世界十大地標建築等軸模型

這個測試，主要針對於模型對於特定建築的識別能力和對“等軸測圖”這一特定繪畫風格的執行能力。「等軸模型」風格常見於模擬經營遊戲或扁平化設計中，要求所有物件在統一的斜向視角下呈現，無近大遠小的透視。

Prompt：生成世界10大地標建築的等軸模型

Emmmm怎麼說呢，左側是即夢4.0，以一種非常「直白」的方式完成了任務，它將10個地標建築分別生成為獨立的等軸模型，並嚴謹地配上了文字標籤，像是一份建築圖鑑。但是名稱和圖示對應還有問題，細節也不夠準確。

Nano Banana則將所有地標建築融合在一張大圖裡，創造了一個微縮景觀世界，整體更像是一個精美的模擬經營遊戲資產。

本輪小結: 即夢4.0勝在訊息清晰，Nano Banana勝在模型整合。

淘寶頁面精準元素修改

以下就是最後一個案例了，這是一個比較實用的商業應用場景測試。模型需要「讀懂」圖片上的文字和商品，理解畫面中各個元素的位置，並精準地修改圖片上的對應文字和數字，同時保持原有風格不變。

Prompt：沙拉醬+肉鬆大於等於95%，券後1.67

這次的結果就不像以上那些結果「難解難分」了，也就是夢4.0的表現明顯好一點。它能夠辨識出需要修改的文字區域，然後進行精準替換。同時完全不影響周圍的UI元素和商品圖像。

儘管多次嘗試，Nano Banana雖然能精準修改數字，但總是會「順手」改變麵包的形態，無法做到精準的局部控制。

本輪小結: 即夢4.0優勢很明顯，比較擅長複雜畫面的精準元素修改。

總結

經過15輪風格各異的“大考”，我們對即夢4.0和Nano Banana這兩位AI繪畫“選手”的實力畫像也變得愈發清晰。即夢4.0在寫實還原、創意設計和精準編輯方面，功力更深厚。 Nano Banana則更忠於提示詞、風格也更多變化。另一個親身體驗下來的直覺發現是：即夢4.0的生成速度真的很快，幾乎只要Google AI Studio或Gemini調用Nano Banana所需時間的一半。

不過，看完這場“神仙打架”，最大的感觸是：中國國產模型和國外大廠的差距，已經越來越小，甚至相持不下了。說實話，我已經提前預見到，2025年下半年，AI影像生成模式的競爭只會更加白熱化，同時也會更加百花齊放。

科技