#即夢
不裝了!中國科技“狂飆”一個半月集體攤牌,攬多項第一震撼全球
誰也沒想到,2026年剛開局一個半月,中國就用一波接一波的科技暴擊,直接把全球科技圈給干懵了。沒有鋪天蓋地的宣傳,沒有虛頭巴腦的炒作,全是實打實、能硬剛全球頂尖水平的硬核成果——從AI碾壓矽谷,到航天叩響登月之門,再到量子科技領跑世界,中國用行動證明:所謂的技術封鎖,不過是倒逼我們加速突破的催化劑,現在,輪到我們給全世界上課了。這波爆發最讓人驚喜的,不是單一領域的突破,而是多賽道齊頭並進、全面開花,這種創新密度和落地速度,放眼全球都找不出第二個。很多人說中國科技只會“跟風追趕”,但這一個半月的成果告訴你:我們早已告別模仿,開始在多個領域定義規則、領跑未來。AI領域的“組團炸場”,絕對是開年最大的驚喜。字節2月初內測了Seedance 2.0大模型,別人還在糾結“生成視訊能不能不卡頓”,我們已經實現了電影級畫質、精準控幀,美國導演集體哀嚎“好萊塢要被顛覆”,馬斯克都急著發文吐槽“發展太快,根本追不上”。更狠的是,從內測到正式上線豆包App和“即夢”平台,只用了不到一周,這種執行力,矽谷巨頭看了都得俯首稱臣。更關鍵的是,不止字節一家發力。智譜AI緊接著推出的GLM-5大模型,在程式設計領域直接超越Claude,被程式設計師稱為“程式碼神器”,更重要的是它深度適配華為昇騰等國產晶片,這意味著中國AI生態徹底打通了“晶片+模型+應用”的閉環,再也不用看別人臉色。如果說AI讓人驚喜,那航天領域的突破,就足以讓人熱血沸騰。2月11日,長征十號運載火箭和夢舟載人飛船完成聯合試驗,一次創下三個“中國首次”,直接為2030年載人登月掃清了關鍵障礙。要知道,載人登月的每一步都險象環生,而這次試驗不僅實現了火箭初樣點火飛行,還完成了飛船最大動壓逃逸、返回艙與箭體海上濺落,每一個環節都精準落地。回看2025年,中國航天發射92次創下新高,2026年開年就放大招,這種節奏,就是中國航天的底氣。量子科技領域,中國更是直接拿出了“王炸”。2月12日,北大團隊耗時6年研製出兩款核心晶片,打破了世界紀錄。除了這三大熱門領域,中國在能源、通訊等領域也頻頻發力——“人造太陽”鞏固全球領先地位,釷基熔鹽堆開闢核能新路徑,光電融合晶片為6G築牢基礎,中國空間站已落地265項科研項目……可以說,中國科技的突破,已經形成了“全面突圍、多點開花”的格局。 (W侃科技)
“快手可靈 vs 字節即夢”誰更強?高盛:不存在“贏家通吃”,但AI將顯著改變娛樂業價值分佈
高盛認為,AI視訊生成領域非"贏家通吃",快手可靈與字節即夢均將受益於市場擴張。預計全球AI視訊生成市場將從2025年30億美元增至2030年290億美元,增長10倍。AI技術將重塑娛樂業價值鏈,使其向上游IP設計和分發平台轉移,這些環節將獲得更高附加值。儘管字節跳動旗下即夢近期推出的Seedance 2.0引發了市場高度關注,但高盛認為,AI視訊生成領域並非“贏家通吃”的零和遊戲,快手可靈與字節跳動即夢2.0等頭部模型都將從快速擴張的市場中受益,且AI技術的進步將重塑整個娛樂行業的價值分佈。在字節即夢2.0於2月12日正式向公眾開放後,投資者對兩大平台的競爭格局高度關注。高盛分析師Lincoln Kong、Ronald Keung及Luqing Zhou在最新研報中表示,可靈3.0在2月5日昇級,較即夢2.0提前數日推出,兩者均在音視訊一致性、視訊時長(15秒)及敘事控制方面實現重大突破。儘管部分測試者認為即夢2.0在流暢度和多場景連貫性上表現更優,但高盛強調,可靈3.0在影視級細節和定價優勢上仍保持競爭力,且在第三方基準測試中持續位居全球頂級模型行列。更重要的是,該行預計全球AI視訊生成市場規模將在未來五年增長10倍,至2030年達到約290億美元,足以容納多個頭部玩家共存。01. 可靈3.0對陣即夢2.0:技術對比與市場定位高盛最新報告詳細對比了兩大平台的技術能力與市場策略。研報稱,可靈3.0系列包括Kling Video 3.0、Kling Video 3.0 Omni、Kling Image 3.0及Kling Image 3.0 Omni,主要升級包括:原生多語言及方言音訊生成、視訊時長擴展至15秒、多鏡頭敘事能力、圖像內文字保留及影視級逼真輸出。其中Kling Video 3.0 Omni提供基於參考視訊的高級生成功能,可複製主體的視覺和聲音特徵,並支援多鏡頭分鏡指令碼製作。相比之下,即夢2.0自2月6日開始封閉測試,2月12日向公眾開放。高盛表示,根據社交媒體上的使用者反饋,該模型在物理規律理解、自然動作流暢度及"真人"寫實度方面表現突出,能夠從單一提示詞生成包含多個剪輯、場景、鏡頭角度及情感節奏的完整長視訊。其"全方位參考"功能支援圖像、音訊、視訊等多模態輸入,實現更精準的控制。高盛指出,可靈3.0的戰略定位主要針對企業及專業使用者,海外市場滲透是核心重點,這使快手能夠以正毛利方式擴展使用者群。而即夢2.0同時面向C端市場,更側重娛樂需求。在定價上,可靈3.0雖較此前的O1和2.6 Motion Control版本提價,但相比海外競品仍具明顯價格優勢。02. 視訊生成市場格局:非零和遊戲,多家頭部企業共存高盛認為,判定AI視訊生成/應用市場的贏家還為時尚早,即使存在"贏家",也很可能是多家企業,而非單一"贏家通吃"的格局。該行分析師預計全球AI視訊生成和編輯市場規模將快速擴張,未來五年增長10倍,從2025年的約30億美元增至2030年的約290億美元。市場擴容主要由廣告視訊和娛樂視訊製作(如短片、短劇、電影電視劇)中AI滲透率和採用率的激增推動,而模型能力的質的飛躍以及視訊製作行業的範式轉變將加速這一處理程序。更大的市場蛋糕將使包括可靈在內的領先模型受益。研報指出,根據第三方基準測試(如Artificial Analysis等),可靈在全球市場保持頂級模型能力。高盛根據Sensor tower資料追蹤發現,可靈使用者數和收入自去年12月底以來大幅躍升,1月份月收入至少增長30%至50%,預計2026年開局強勁,對2.8億美元的全年收入預期存在上行風險。03. AI變革娛樂業價值鏈:上游IP設計與分發平台價值提升即夢2.0的發佈引發市場對娛樂產業更廣泛影響的關注,涵蓋長短影片、遊戲、音樂和廣告等領域。高盛認為,多模態AI能力的提升將大幅降低視訊創作的門檻,中期內將帶來幾乎無限的內容供給。儘管AI工具能幫助個人更輕鬆地實現創意,但產品質量以及差異化IP和設計理念的能力仍然至關重要。對於視訊/音樂串流媒體平台或遊戲分發中心等分發平台的影響,目前評估尚早。但分發平台既有的使用者社區、使用者洞察以及流量/演算法優勢仍是關鍵差異化因素。因此,隨著即夢和其他AI模型變得更加成熟,高盛相信產業價值鏈將向上游轉移,IP/創意設計和分發平台將具有更高的附加值。這意味著,在AI工具降低製作門檻的同時,擁有優質IP、創意設計能力和強大分發網路的企業將在新的價值分配中佔據更有利位置。(硬AI)
Seedance2.0爆火:內容領域必將迎來史無前例的通貨膨脹
據上海證券報,日前,字節跳動最新視訊生成模型Seedance 2.0在即夢、豆包、小雲雀等產品開啟內測,引發市場高度關注。連續兩日,A股Seedance概念類股持續走強,多隻個股觸及漲停。儘管該模型仍處於小範圍內測階段,但從目前披露的資料看,Seedance 2.0支援生成4秒至15秒的單段視訊,通過配合自研的分鏡工作流,可快速製作出一段包含多角度拍攝、角色對話且帶字幕的視訊內容。一直以來,AI視訊大模型受困於“音畫脫節、角色跳變、可控性差”三大痛點,多數產品停留在碎片化娛樂場景。而作為字節AI生態的核心佈局之一,Seedance系列歷經數次迭代,如今在三大技術痛點上都取得亮眼的突破。並且,此次新模型最引人注目之處還在於極高的“性價比”。據相關報導,知名視效指導姚騏日前使用該工具製作的2分鐘科幻短片《歸途》,整體成本僅330.6元——這一數字在傳統製作框架下難以想像。遊戲科學創始人、CEO馮驥日前發文稱,這款大模型的出現,或許意味著未來一般性視訊的製作成本將無法再沿用影視行業的傳統邏輯,而是開始逐漸趨近算力的邊際成本。他直言:“內容領域必將迎來史無前例的通貨膨脹,傳統組織結構與製作流程會被徹底重構。”有影視行業相關人士估算,該款模型或將讓5秒視訊生成成本進一步壓縮至4.5元至9元。在生產端,動態漫製作周期由傳統的一周多縮短至3天內,人力成本降低約90%。有傳媒分析師告訴記者,這一系列重要的突破都意味著AI視訊大模型正在步入“工業可用”階段。開源證券最新研報認為,Seedance 2.0有望率先在AI漫劇、AI短劇等短內容領域得到廣泛應用。其極高的可控性顯著降低了“抽卡”成本,中性假設下可使模型每秒生成成本相比同業降低37%,推動製作大幅降本提效。在業內看來,此次字節跳動更像是在沉默多時後的“開大招”。記者注意到,去年1月,字節跳動宣佈啟動SeedEdge計畫,鼓勵長線研究,追求“智能”上限激發更多嘗試、不忽略關鍵技術節點,探索新的互動。在今年的首次全體大會上,公司CEO梁汝波明確將字節跳動2026年的關鍵詞設定為“勇攀高峰”。“AI時代存在很多重要的機會,我們要追求其中最重要的,去攀登最高的高峰。”梁汝波說,對於字節跳動來說,“高峰”短期內就是豆包/Dola助手應用。從更大的視角來看,Seedance2.0的推出恰逢AI視訊產業爆發前夜。公開資料顯示,2026年全球AI視訊市場規模將突破300億美元。一周前,快手可靈團隊宣佈上線其3.0版本模型,該模型基於All-in-One產品和技術理念建構,形成一個多模態輸入與輸出高度統一的一體化視訊模型體系。有AI創作者告訴記者,近期這輪大模型迭代潮中,不少模型都有了明顯質的飛躍。伴隨Seedance2.0的商用落地,整條產業鏈的價值將被進一步啟動。中銀證券在其最新研報中表示,Seedance2.0在功能層面取得的突破對於AI多模態應用特別是視訊生成領域有著重要的催化意義,同時,多模態生成對於算力需求較大,這使得上游硬體基礎設施亦有望同步受益。Seedance2.0帶動AI多模態產業鏈,各項因素有望催化AI應用觸底反彈。虛擬現實邊界需要重估了據21世紀經濟報導,人工智慧的技術革新浪潮還在加速。2026年2月,字節跳動旗下AI視訊生成模型Seedance2.0在小範圍內測階段便席捲海內外網際網路,憑藉“文字/圖片生成電影級視訊”的突破性能力成為行業內外焦點。知名科技博主“影視颶風”創始人Tim(潘天鴻)2月9日在抖音發佈的測評視訊中,稱其為“改變視訊行業的AI”,《黑神話:悟空》之父馮驥也評價說,Seedance2.0是當前地表最強視訊生成模型,沒有之一。業界普遍的評價和使用體驗是,Seedance2.0已經具備超越Sora2的水準。這一技術的躍遷,首先確實值得我們站在國產AI發展的立場上給予熱烈的掌聲。長期以來,頂級圖形渲染與生成式演算法的定價權往往掌握在海外巨頭手中,而Seedance2.0的出現,反映的是中國科技公司在深層演算法架構、超大規模平行計算能力以及資料處理邏輯上的全方位突破。站在2026年的起始點上,這種從“可用”到“驚豔”的跨越,意味著中國科技公司不再是跟隨者,而是真正站在了全球人工智慧競爭的最前沿。當虛構的內容擁有了超越真實的質感,虛擬就不再是現實的模仿,而是在數字空間中建構了一套自洽的、足以亂真的平行物理規律。這種力量的釋放是驚人的,它意味著人類的想像力第一次擁有了低成本的、具備物理真實性的視覺實現途徑。不過,Seedance2.0技術“出圈”的同時,也引發了有關真人肖像、版權問題的社會關注。很快,字節跳動旗下即夢營運發佈通知稱,Seedance2.0內測暫停真人素材作為主體參考。儘管目前這一模型仍處於內測階段,且公司的風控和邊界意識清晰,但Seedance2.0所展現出的那種近乎“真假難辨”的畫面質感,還是給所有人提出了一個宏大且緊迫的命題:我們確實需要重新評估所謂的“虛擬現實”了。過去我們談論虛擬現實,往往將其侷限在頭戴式裝置的沉浸感中,而現在,虛擬現實正在以一種更隱蔽、更徹底的方式重塑我們的認知。當AI生成的視訊能夠完美還原光線的折射、液體的流動,甚至人類微表情中轉瞬即逝的複雜情感時,我們傳統認知裡那道區分“實攝”與“生成”的鴻溝,正在賽博世界裡加速消弭。這已經不僅僅是一場影像製作的革命,更是一場關於“真實”定義的哲學變革。當“真”與“偽”在數字世界完全難以區分時,數字社會契約的基石——資訊的真實性,便面臨著前所未有的挑戰。首當其衝的便是深度偽造(Deepfake)技術帶來的風險。如果說早期的深度偽造還帶著些許僵硬與破綻,那麼基於Seedance2.0這類底層架構的偽造,將變得難以檢測。長期以來,我們習慣於“有圖有真相”,而現在,我們要進入一個“凡眼見皆存疑”的時代。這種心理層面的重構是劇烈的,它可能引發普遍的真相焦慮。因此,對Seedance2.0的討論,不應僅僅停留在算力、參數和生成時長上,而應該進一步上升到對“數字倫理護欄”的建構上。作為技術的開發者和引領者,中國科技大公司在刷新性能榜單的同時,未來也需要在技術溯源、數字水印標識、反偽造檢測演算法等安全領域投入更多。當然,這不是對技術進步的否定。面對日益消弭的邊界,我們需要的不是固守舊有的現實觀,而是建立一套適應人工智慧時代的全新認知體系。我們需要培養公眾的數字素養,讓他們明白影像不僅是客觀世界的鏡像,還可能是某種演算法意圖的表達。在未來的賽博世界裡,虛擬與現實的交織是不可逆的趨勢。Seedance2.0的火爆只是一個序章,它預示著一個由像素構築的、足以覆蓋物理感知的第二現實正在加速降臨。我們要為中國科技公司在這一賽道上的巔峰表現喝彩,因為只有掌握了核心技術,我們才有資格去參與制定未來的遊戲規則。但與此同時,我們也必須以前所未有的嚴肅態度,去應對那些隨之而來的深層挑戰。這場關於“重估虛擬現實”的技術之外的規則競賽,才剛剛開始。 (環球產經)
大戰Nano Banana,即夢4.0只有快不破
谷歌的Nano Banana模型自發布以來,僅用一周時間就迅速引爆全球社區,成為討論熱度最高的新銳代表。就在昨天,字節也正式推出了Seedream 4.0,高調在「即夢」平台全量上線。一邊是國際大廠的新銳之作,另一邊是國產模型的頂尖代表,兩位「選手」幾乎前後腳站上擂台卷生卷死,氣氛瞬間拉滿。為了更直觀地呈現兩款模型的真實水平,我們特別設計了15個考題,涵蓋文字生成、邏輯推演、圖像處理、創意表達等多個維度。廢話不多說,讓我們透過這份詳細的答案紙來一探究竟。實測部分01嘿!你的悟空掉了!Prompt:手機上坐著一個黑神話悟空這波題考的是這兩個模型,能不能認出遊戲圈頂流「悟空」?還得有想像力,讓他合理地「坐」在手機上。參考圖如下:先看即夢4.0,如果你仔細放大看,能看出來即夢4.0生成的悟空坐著的姿勢很真實,能準確捕捉《黑神話:悟空》的美術風格和角色神韻。相較之下,Nano Banana在人物頭身比例的精準度上略有失衡,顯得不夠協調。本輪小結: 即夢4.0在寫實還原與場景融合上小勝一籌022D到3D的風格轉換Prompt:將圖片中所有小怪獸,做成3D模型這是一個典型的「圖生圖」測試,核心在於考察模型的影像理解、風格遷移和3D空間建構能力。模型需要先辨識出圖片中的「小怪獸」主體,然後將其從2D平面設計稿「翻譯」成體、飽滿的3D模型,並賦予其合適的材質和紋理。即夢4.0本身自帶強烈的模型和手辦質感,非常適合這個主題。它能產生下面這樣類似「泡泡瑪特」風格的潮玩或精緻的遊戲模型,色彩鮮豔,造型可愛且富有設計感,主要是一致性很好。Nano Banana在理解上出現了偏差。它似乎將指令理解為:將整體畫面進行3D化「浮雕」處理,而非將每個怪獸獨立建模,最終生成了一張立體感貼畫,未能完成核心任務。本輪小結: 即夢4.0對3D指令的理解和執行能力稍強一些。03中國古畫的再創作Prompt:給這幅中國古畫的右上角,畫幾行白鷺鷥。這回主要考驗AI能不能在中國風古畫上加戲,模型不僅要畫出“白鷺”,更重要的是要讓這些白鷺完美融入古畫的意境中,無論是筆觸、墨色還是構圖,都不能有違和感。參考圖如下:左側為即夢4.0,右側為Nano Banana。出乎意料,這一輪兩者都表現不差。它們都沒有生硬地植入寫實白鷺,而是模仿了原作的筆觸和意境,並融入了自身的理解。添加的白鷺元素與背景渾然一體,沒有明顯的違和感。本輪小結: 平分秋色,都展現了不錯的多風格藝術融合能力。04星艦印滿比卡丘Prompt:將星艦上印滿比卡丘。這是一個考驗紋理應用、透視理解和IP辨識的綜合案例。模型需要將「比卡丘」這個2D形象,作為紋理「貼」在「星艦」這個複雜的3D曲面上,並處理好透視、變形和光影變化,同時要確保比卡丘形象的準確性。我隨便找了一張星艦的圖片:這是即夢4.0生成的,在3D曲面物體上,比卡丘的元素融合確實很好。比卡丘紋理在星艦不同曲面(如機翼、機身)上的貼合程度,基本上不存在不自然的拉伸或突出星艦本身的空間。下面這具有視覺衝擊力的是Nano Banana生成的,比卡丘貼的嚴絲合縫。能看得出來,「比卡丘」和「星艦」都是Nano Banana舒適區內的元素,它能產生視覺衝擊力極強的畫面。相較之下,Nano Banana的寫實渲染能力更強一下,會細緻地處理每一個比卡丘在不同角度下的形態,讓整個塗裝看起來很「真實」。本輪小結: 兩者都出色完成任務。 Nano Banana在視覺效果和藝術氛圍更好。05手繪手帳風格Prompt:手帳手繪風格,介紹Transformer是什麼?魚香肉絲怎麼做?「手帳風」是一種集插畫、貼紙、文字等多種元素於一體的拼貼藝術。模型需要理解並重現這種看似隨意卻充滿設計感的雜亂美學。即夢4.0的表現很不錯。產生的中文文字清晰準確,幾乎沒有錯誤。無論是解釋Transformer架構的圖文排版,或是魚香肉絲的食材圖鑑,都細節滿滿,風格統一,實用性與美觀兼具。尤其是下面的魚香肉絲製作指南,看得出來對細節的把控很到位,整體所有食材的手繪圖細節都還不錯。Nano Banana在趣味性上稍遜一籌。但其優點在於對複雜元素的組織能力,在介紹Transformer的頁面中,它運用了更多樣化、更複雜的圖形元素來建構畫面,視覺層次更豐富。本輪小結: 即夢4.0在視覺上更可愛些,Nano Banana則在圖形元素的複雜組合上更有能力。06Sam Altman和Elon Musk 合影Prompt:讓他兩個合影這是一個名人肖像融合的經典測試。考驗兩個AI圖片模型,在生成合照時處理光線、表情和身體姿態的自然度。在這一個測試裡,比起Nano Banana,即夢4.0的表現會更加自然一下,兩個人彷彿「世紀大和解」一樣。只是,啊,餵!為什麼Sam Altman和Elon Musk的臉部的元素有點趨同了?而在Nano Banana的生成結果中,二者還是像我在參考圖中提供的元素那樣,保持動作不變,很不自然。人物如同被簡單地「摳圖」並置,缺乏真實的互動感。本輪小結: 即夢4.0在營造自然氛圍上更優,但臉部細節仍需打磨。07品牌元素的精準植入:OpenAI商標Prompt:將多張OpenAI商標圖印在Elon Musk的黑色西服上。這個測試,與星艦案例類似,但更考驗在衣物褶皺上的紋理貼合能力。黑色西服有明暗變化和布料褶皺,模型需要讓商標圖案,根據這些物理變化產生自然的光影和透視形變。OpenAI商標圖如下:二者相比,硬要說的話,即夢4.0將OpenAI元素融入Elon Musk的西服後,產生的效果看起來更有設計感一些,但是像是西服的袖口位置,並沒有被渲染到:相反,Nano Banana更忠於提示詞,將OpenAI的商標順著西服的褶皺印的滿滿噹噹的。 Logo會根據衣物的褶皺產生自然的扭曲。本輪小結: Nano Banana在指令的忠實度和技術實現上更勝一籌。08Elon Musk的手辦接下來,我們把上面Nano Banana產生的圖做成當下最受歡迎的手辦模型。Prompt:使用nano-banana模型,製作圖片中角色的1/7比例商業手辦,風格為寫實,並置於真實環境中。手辦擺放在電腦桌上,配有一塊無文字的圓形透明壓克力底座。電腦螢幕上顯示的是該手辦的ZBrush建模流程。電腦螢幕旁放置萬代(BANDAI)風格的玩具包裝盒,包裝上印有原始插畫,呈現為二維平面插圖。請確保所有元素與參考圖嚴格一致。二者的表現,可以說是不相上下。只是即夢4.0背後電腦螢幕上的3D模型稍微有些幻覺:Nano Banana確實會更嚴謹一些,從手辦的寫實風格,到包裝盒的平面插圖都執行的不錯:本輪小結: 在複雜指令的執行上,Nano Banana的精準度略微領先。09多元素融合:換裝下面我們來試試更多的元素融合。Prompt:圖一的女性穿上圖二的搭配。精準局部重繪是AI影像編輯的核心功能。考驗的是模型在替換主體後,保持背景、光影、透視不變,並使新元素與環境無縫銜接的能力。兩者在整體表現上都相當不錯,成功地將新服裝融合到人物身上,效果逼真自然。但在細節處理上,兩者都還有進步空間,例如對手腕配件的理解和重繪都出現了一些偏差。本輪小結: 整體打平,均屬於「說得過去」但未達完美的水平。10狗換成哈士奇這個案例也是看兩個模型能不能精準重繪畫面中的某個元素。Prompt:將男子的狗換成哈士奇。這一輪,兩個模型都展現了成熟的影像編輯能力,無論是寫實的哈士奇毛髮,還是與環境的融合度,都處理得非常好,效果難分伯仲。本輪小結: 再次平分秋色,皆能高品質完成任務。11劍風傳奇漫畫上色下面這個案例會更複雜一點。非常考驗模型的上色能力和對特定藝術風格的理解。不只是填色,好的AI上色需要理解,漫畫作者三浦建太郎原畫中的光影、材質和氛圍,用色彩來增強而非破壞原作的厚重感和力量感。Prompt:為劍風傳奇的漫畫上色。即夢4.0上色風格更偏向色彩誇張、對比強烈的美式漫畫,視覺衝擊力強。Nano Banana對暗黑系的日漫風格理解顯然更深。它的著色方案很好地保留了原作的史詩感和陰鬱氛圍。本輪小結: Nano Banana對特定漫畫風格的理解與詮釋更勝一籌。12薩爾達傳說海報更改以下這個案例測試模型對一個成熟、廣受歡迎的遊戲IP藝術風格的掌握程度,以及在此基礎上的創意延展能力。Prompt:將這張海報男主角對面改成血月。即夢4.0的生成結果更為震撼些,如果你仔細看左側男主,會發現即夢重新給他打上了一層高光。整體人物的3D感更強一點。Nano Banana更傾向於在原作基礎上進行細節增強或無痕的元素增減,保持海報的原汁原味。它並沒有使用很誇張的元素,去改變整體海報的感覺。本輪小結: 即夢4.0的二次創作更誇張一點,但Nano Banana的表現更忠於原海報,平分秋色。13薩爾達公主髮型9宮格兩個模型都很適合透過1張圖片,衍生出多種創意元素。Prompt:根據我提供的參考圖片,產生9種不同的髮型設計,並整合在同一張照片中展示。畫面需透過特寫視角,分別突顯每一種髮型的細節與特點,整體構圖統一、美觀。參考圖如下:不知為何,也就是夢4.0總是一張一張的生成,於是我將圖片拼接到了一起。它會產生各種角度和姿態的圖片,甚至出現了一些形態較為「詭異」的設計。像第一排最左邊第二張的圖是什麼鬼!Nano Banana表現更為穩定。它嚴格地保留了原圖的背景和人物姿態,僅針對髮型進行多樣化設計,更忠實於提示詞和原有畫風,最終結果的風格一致性很強。本輪小結: Nano Banana在保持一致性和遵循指令方面表現更優。14世界十大地標建築等軸模型這個測試,主要針對於模型對於特定建築的識別能力和對“等軸測圖”這一特定繪畫風格的執行能力。 「等軸模型」風格常見於模擬經營遊戲或扁平化設計中,要求所有物件在統一的斜向視角下呈現,無近大遠小的透視。Prompt:生成世界10大地標建築的等軸模型Emmmm怎麼說呢,左側是即夢4.0,以一種非常「直白」的方式完成了任務,它將10個地標建築分別生成為獨立的等軸模型,並嚴謹地配上了文字標籤,像是一份建築圖鑑。但是名稱和圖示對應還有問題,細節也不夠準確。Nano Banana則將所有地標建築融合在一張大圖裡,創造了一個微縮景觀世界,整體更像是一個精美的模擬經營遊戲資產。本輪小結: 即夢4.0勝在訊息清晰,Nano Banana勝在模型整合。15淘寶頁面精準元素修改以下就是最後一個案例了,這是一個比較實用的商業應用場景測試。模型需要「讀懂」圖片上的文字和商品,理解畫面中各個元素的位置,並精準地修改圖片上的對應文字和數字,同時保持原有風格不變。Prompt:沙拉醬+肉鬆大於等於95%,券後1.67這次的結果就不像以上那些結果「難解難分」了,也就是夢4.0的表現明顯好一點。它能夠辨識出需要修改的文字區域,然後進行精準替換。同時完全不影響周圍的UI元素和商品圖像。儘管多次嘗試,Nano Banana雖然能精準修改數字,但總是會「順手」改變麵包的形態,無法做到精準的局部控制。本輪小結: 即夢4.0優勢很明顯,比較擅長複雜畫面的精準元素修改。總結經過15輪風格各異的“大考”,我們對即夢4.0和Nano Banana這兩位AI繪畫“選手”的實力畫像也變得愈發清晰。即夢4.0在寫實還原、創意設計和精準編輯方面,功力更深厚。 Nano Banana則更忠於提示詞、風格也更多變化。另一個親身體驗下來的直覺發現是:即夢4.0的生成速度真的很快,幾乎只要Google AI Studio或Gemini調用Nano Banana所需時間的一半。不過,看完這場“神仙打架”,最大的感觸是:中國國產模型和國外大廠的差距,已經越來越小,甚至相持不下了。說實話,我已經提前預見到,2025年下半年,AI影像生成模式的競爭只會更加白熱化,同時也會更加百花齊放。