#生圖 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#生圖

Meta，緊急下線爭議AI生圖功能

近來屢屢登上財經媒體頭條的美國科技公司Meta，又捲入了一起與AI有關的輿論風波。作為背景，Meta本周二發佈首款由超級智能實驗室（MSL）開發的AI圖像生成模型Muse Image。與傳統的AI畫圖工具略有不同，Muse Image同時也是智能體應用——除了能根據提示詞生成圖片外，Muse Image還能自主搜尋資訊，以最佳化生成結果。作為首先應用該AI的Meta產品，“美國版小紅書”Instagram一口氣上線了30多種將現有圖片“一鍵生成AI圖像”的效果。（一鍵應用AI效果）

深扒GPT Image 2：疑似“吞”下了GPT-4o，OpenAI沒把它當“生圖”模型訓練

GPT Image 2 憑什麼這麼強？是擴散模型又迭代了一版？是把 DiT 的參數量從 7B 擴到 20B？是訓了更多高品質資料？這些答案都對，但都不夠。以下是我們與多位從業者交流後，提煉出的幾個值得關注的技術方向，並嘗試做出更清晰的解釋。先給結論：OpenAI 很可能已經不在“純擴散模型”這條主賽道上了。他們已經把圖像生成從“美術課”調到了“語文課”——用一個能讀懂指令、能記住上下文、能理解物體關係的 LLM 主導語義規劃，至於最後一步的像素生成，可能由擴散元件或其他解碼器完成。而這個LLM，極大可能是GPT-4o。支撐這個推論的，首先是兩條直接線索。1. 模型自述2. C2PA溯源驗證C2PA 是一種內容溯源標準，相當於給每張 AI 生成的圖打上一個數字身份證。任何人拿到這張圖，都能查到它是由 GPT Image 2 生成的、生成時間是什麼、經過了那些修改。有專業人士在metadata2go.com上對image 2生成的圖片進行中繼資料提取。發現在actions_software_agent_name一欄上記錄著GPT-4o。這也能理解為什麼這次image 2的表現驚人了。圖片源於：【深入調查：OAI最新圖像模型底層是GPT-4o - 祈星函 | 小紅書 - 你的生活興趣社區】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share單憑這兩條當然不足以拆解全部秘密。但當我們帶著“LLM 主導”的假定回頭審視它的每一項能力躍遷時，這些變化，忽然有了統一的解釋。一、圖像語義，從像素到token1.1過去兩年，AI 生圖領域有一條不成文的鄙視鏈：Midjourney 負責美學，Stable Diffusion 負責可控性，DALL·E 負責……嗯，負責被 OpenAI 發佈。但不管你站那一隊，有一件事是所有人的共識——文字是 AI 的鬼門關。你能讓 AI 畫出逆光下緬因貓毛髮的半透明質感，卻無法讓它寫對招牌上的“Coffee”六個字母。一個能理解頂級光影描述的模型，在文字上給出的結果彷彿楔形文字。這件事的荒誕與根源，就藏在擴散模型的工作原理裡。先說擴散模型為什麼寫不好字？因為它的核心是一個從噪聲中還原圖像的“雕塑家”：訓練時，向清晰照片逐步撒噪聲，直到變成純電視雪花，模型學習逆向去噪。生成時，從一片隨機噪聲開始，每步都靠 U-Net 預測並擦除噪聲，幾十步迭代後“雕”出毛髮、虹膜和光影。這個過程本質上在還原連續的、可以用機率無限逼近的紋理。毛髮可以稍微硬一點或軟一點，顏色可以偏暖 5%，無傷大雅。但文字是離散符號，不存在“像不像”，只有“是不是”。字母 A 就是 A，你不能給它加 15% 的 B 和 8% 的 C 還指望它依然是 A。擴散模型的每一步去噪都是一個微小“估計”，用在紋理上是風格，用在文字上就是 O 變 0，或是拼出 WElcOm e。最終就成了外行眼中的“楔形文字”。不僅如此，擴散模型天然缺乏跨輪編輯的穩定一致性。你讓它改一個局部，它本質上是整張圖重新畫一遍，沒改動的地方也會悄悄漂移。但GPT Image 2現在不僅能“寫對字”，還能保持“有記憶”的一致性例如：你修改一個字之後，周圍的文字會自動調整間距；當你把“咖啡”改成“紅茶”，它不只是替換那個詞，而是連帶把杯子的顏色從深棕調成了琥珀色。這說明文字在它的系統裡不是圖層標註，而是畫面語義的一部分。文字內容的改動會像語言中的主語替換一樣，連鎖驅動畫面其他元素的合理變化。GPT Image 2 與其他模型對比圖1.2它不再把圖像當圖像看，而是把圖像當語言看。這聽起來像玄學，但其實是個很具體的工程選擇。要理解這件事，得先搞明白一個概念：Tokenizer。Tokenizer 的作用是把一種東西“翻譯”成另一種東西。GPT 處理文字前，會先把“你好”這個詞切碎編號，變成一個數字 ID，比如 [11892]。這是文字 token 化。圖像能不能也這麼幹？當然能。你把一張圖切成 16×16 的網格，每個格子編個號，也是一種 token 化。但這種做法太笨重——一張 1024×1024 的圖會變成幾千個 token，LLM 還沒開始畫就先被淹死了。所以過去兩年，各家大模型公司在拼一件事：怎麼把一張圖壓成儘量少的 token，同時還不丟關鍵資訊。這事有多難呢？想像你是一個情報員，要把《蒙娜麗莎》用一封電報發出去。電報局規定你最多隻能發 256 個字。你怎麼辦？你不能說“一個女人在笑”，因為對方畫不出來；你也不能逐個像素描述，因為字數不夠。你必鬚髮明一套只有你和對方懂的密語——“52號微笑、3號背景、17號手勢”——對方收到後能八九不離十地還原出來。這就是 OpenAI 在 tokenizer 上干的事。從 CLIP 到 DALL·E 再到 GPT-4o，他們逐漸建構了一種能夠在視覺與語言之間進行對應的語義表示體系。這意味著：圖像和文字被投影到了同一個對齊後的語義 embedding 空間。現在在 LLM 眼裡，“一隻逆光的緬因貓”這行字，和一張逆光緬因貓的照片，是同一個語義空間裡的兩套坐標。它能像理解文字一樣理解圖像，也能像生成文字一樣生成圖像。所以當你說“把第三行公司名改成團夥名”，它不是在修圖軟體裡找那個圖層，而是在改寫一段描述這個畫面的密文。改完後，解碼器再把密文翻譯回像素。這就是為什麼文字突然能寫對了。因為對 LLM 來說，寫一個W和寫一個我，沒有任何本質區別——都是它在密語系統裡調整幾個 token 的事。1.3既然 GPT Image 2 很可能把圖像變成了語義密文，那這串密文怎麼變回一張能看的圖？如果直接把 token 對應成像素，畫質必然一塌糊塗，這是自回歸模型的通病：它極度擅長決定畫什麼，卻不太擅長畫得好看——就像建築系教授徒手畫效果圖，空間關係全對，筆觸就是不及美院學生。而擴散模型正好相反，紋理光影以假亂真，卻經常不知道自己在畫啥。因此，一個高度自洽的推測浮現：讓兩款模型打配合。自回歸負責定調：根據你的 prompt 生成那幾百個語義 token，敲定畫面裡有什麼、它們的位置關係、整體構圖邏輯。這一步決定了“聽得懂”，也保證了多輪編輯時對修改對象的記憶與一致性。擴散負責潤色：拿到這串語義 token 後，不再負責理解內容，只負責填充高保真像素，把既定框架變成光影自然的成圖。這一步決定了“畫得好”。這不是理論空想。Google 發過一篇叫 Transfusion 的論文，Meta 搞過 Chameleon，走的都是類似路線。當然，這一切都是基於公開資訊和模型表現的推斷。OpenAI 有沒有在用？2026 年 4 月的媒體會上，OpenAI 拒絕回答任何關於模型架構的問題。拒絕本身就是一個訊號。如果這個假設成立，那就解釋了一切——文字寫對是因為自回歸天然懂離散符號；多輪編輯一致是因為自回歸記住了那一串 token；畫質沒崩是因為擴散在最後一關做了精細渲染。二、資料飛輪，GPT-4o 自己教自己生圖2.1但上文那個能把圖像壓成幾百個 token 的“密語系統”，到底是怎麼訓出來的？為什麼不是別的模型，偏偏是GPT-4o？答案藏在一件看起來最沒有技術含量的事裡：資料標註。在 AI 圈，資料標註長期處於鄙視鏈底端。研究員聊架構可以聊一晚上，聊資料標註三句話就冷場。但 GPT Image 2 這次的表現，甚至表明OpenAI 可能已經不需要人工標註了。而GPT-4o 本身就是全世界最強的圖像理解模型之一。你給它一張圖，它能寫出一段比真人標註師還細膩的描述。所以OpenAI 可以把過去幾年積累的幾十億張圖片，重新“過一遍水”——用 GPT-4o 生成新的、高維度的標註。但到這裡，只解決了“描述”的問題，沒解決“篩選”的問題。一個模型生成一百張圖，並不是每一張都值得拿來當下一輪訓練的教材。這裡需要一套嚴格的“質檢”機制——在機器學習裡，這叫拒絕採樣。具體來說就是，GPT-4o 先根據一段 prompt 生成一批圖像，然後根據美學偏好、指令匹配度、物理合理性等多條標準，逐張打分。批到符合條件的才“收下”，連同它為自己撰寫的詳細解析，一起塞進下一輪訓練集。批到不及格的就直接扔掉。這保證飛輪裡的資料不是在低水平循環，而是在有選擇地自我提純。上一代模型給下一代模型當老師，下一代模型再給下下代當老師。每轉一圈，對世界的理解就深一層。大家的差距也在這個過程中越來越大。這也解釋了為什麼Midjourney在畫質上能和OpenAI掰手腕，但在指令遵循和文字渲染上被拉開代差。當然，聽上去像個永動機騙局——自己教自己，那不得越教越傻？學術界確實有這個擔憂，管它叫模型崩潰：模型反覆吃自己吐出來的東西，會逐漸丟失分佈的尾部資訊，生成結果越來越單一、越來越平庸。但OpenAI在文字側已經證明：只要老師模型足夠強，並且配合拒絕採樣這樣的嚴格篩選機制，這事不但不會崩，還能加速，形成資料飛輪。2.2這個飛輪裡還有一個重要且難搞的角色——RLHF 在圖像側的質檢員。我們在文字側已經習慣了 RLHF（Reinforcement Learning from Human Feedback，基於人類反饋的強化學習）：給一段文字打分，判斷它有用、有趣、符合人類偏好，這件事 GPT-4o 做得很好。但在圖像側，難度驟升。因為質檢員需要同時盯住三條線：美學偏好；指令遵循；安全過濾。三條線的標準各不相同，甚至互相衝突。一道強光影可能很“好看”，但壓暗了 prompt 裡要求的某個細節，就會被“指令遵循”扣分。一層安全濾鏡可能誤傷正常的醫學解剖圖，又得回頭調閾值。這種多維度權衡，在文字側已經跑通，但在圖像側變得前所未有的複雜。而 OpenAI 之所以能做成，很可能是因為他們把圖像側的問題全部拉回了自己最擅長的戰場：語言理解。美學偏好被轉譯成一段構圖評語，指令遵循被轉譯成一組約束條件的核對清單，安全過濾被轉譯成一套規則判例。所有判斷最終都落到了 LLM 的語義空間裡。可能這才是資料飛輪真正的底牌。不是資料多，而是從標註、篩選到打分，全鏈路都被統一到了一個理解框架裡。拒絕採樣負責海選淘汰，RLHF 負責精修調優，兩者共享一套語義標準，飛輪才轉得起來。三、工程解法，兼顧推理速度和對話整合3.1到這裡，我們聊的都是效果。接下來聊一個經常被刻意繞開的話題：推理速度。先不說審美和一致性上的飛躍，且說一個看似矛盾的現象：生圖質量躍升了一個代際，但速度並沒有明顯變慢。這本身就是一種工程奇蹟——OpenAI 是怎麼做到的？自回歸模型的運作方式是逐 token 生成——每個 token 都依賴上一個 token 的完成。擴散模型則不同，它可以在整張畫布上平行去噪，一次處理所有像素。按理論推算，如果 GPT Image 2 確實用了自回歸架構，它的推理延遲應該比純擴散模型高出一個數量級。但實際體驗是：沒有。第一條線索：Token 壓縮率可能遠超預期。如果一張 1024×1024 的圖只需要 256 個 token 就能完整描述，對 Transformer 來說就是一次呼吸的事。這意味著 OpenAI 不僅做到了語義對齊，更在壓縮率上做到了極致，把高資訊密度濃縮到幾行字的程度。第二條線索：推理架構的深度最佳化。混合架構中，自回歸生成的是粗粒度的語義 token，決定“畫什麼”，不負責“畫成什麼樣”。生成步驟大幅縮短，擴散模型只用在最後一小段“按圖施工”，而不是從頭噪到尾。第三條線索：投機解碼（Speculative Decoding）可能被用到了圖像側。用一個更小的“草稿模型”快速生成候選 token，再由大模型一次性驗證，這套 LLM 推理加速經典技巧如果用在圖像 token 上，速度可以成倍提升。OpenAI 在 GPT-4 時代已把這套玩熟，移植到圖像側沒有原理障礙。所以結論是：GPT Image 2 的快，不是因為擴散模型變快了，而是因為可能它把最慢的語義規劃，從擴散模型手裡搶了過來，交給了擅長快速推理的 LLM。3.2比速度更影響體驗的，是與對話系統的整合。在傳統圖像生成工具中，例如 Midjourney 或基於 Stable Diffusion 的工作流，使用者通常通過編寫 prompt 來控制輸出結果。雖然這些工具已經支援諸如variations、inpainting和歷史記錄等功能，但整體流程仍然以“單次輸入 → 單次輸出”為主，使用者需要通過多次嘗試逐步逼近目標效果。這種過程在實踐中往往表現為反覆試錯：使用者根據結果調整 prompt，但模型對指令的理解程度並不完全透明，因此需要多輪迭代來校正偏差。相比之下，整合在對話系統中的圖像生成引入了連續上下文機制，改變了互動方式。使用者可以在多輪對話中逐步細化需求模型能夠利用對話歷史理解“當前修改”對應的對象或屬性修改請求可以以更自然語言的形式表達，而不需要一次性寫出完整 prompt例如，在多輪互動中，使用者可以先生成一個基礎場景，再逐步提出局部修改（如顏色、位置、風格）。最後，模型基於上下文生成新的結果。對話式互動還帶來另一個優勢：需求澄清能力clarification。將模糊的自然語言意圖，逐步轉化為更具體的生成條件，從而提高生成結果與使用者預期之間的一致性。結語在 GPT Image 2 出現之前，AI 生圖領域的討論框架是這樣的：“擴散模型的縮放定律還能走多遠？”“DiT 架構和 UNet 架構誰更優？”“Flow Matching 會不會取代 DDPM？”“多模態對齊的損失函數怎麼設計？”這些問題都有價值，但它們共享一個隱含前提：圖像生成是一個獨立的、需要專門架構來解決的問題。而GPT Image 2 給出的的回答是：不一定。如果我們把鏡頭再拉遠一點，GPT Image 2 的出現其實指向了一個更大的命題：世界模型。讓我們重新思考什麼是生成，以及世界。 (矽星人)

“被嚇到！”AI生圖已經這麼逼真了？網友：以後還能信嗎...

近日社交平台被一組圖片刷屏了：千禧年間的小學生在小賣鋪買零食一張印刷完好的數學試卷馬斯克在直播間賣瑜伽褲....你能看出那張是AI生成的嗎？答案是——全部4月22日，美國人工智慧公司OpenAI對外正式推出ChatGPT Images 2.0模型，這是其ChatGPT平台內圖像生成功能的最新一次升級。由於其生成的圖片真假難辨，相關話題迅速沖上熱搜，引發網友熱議。模型發佈後，一些用GPT-Image-2生成的AI假圖已經開始在網路上開始傳播。比如，“Tim Cook加入小米汽車”的“官宣圖”，粗看分辨不出AI的痕跡。隨後，小米發文闢謠。網傳圖片據瞭解，生成的圖片之所以真假難辨，是因為該大模型解決了以往AI細節粗糙、文字亂碼扭曲的問題。有網友測試用該模型生成全篇《出師表》，內容工整規範，幾乎零錯漏。不過，也有眼尖的網友在其它圖片中發現，生圖過程中會偶爾出現少量文字差錯。另據澎湃新聞，記者實測後發現，GPT-Image-2還存在嚴重的安全漏洞。記者將個人身份證上傳到ChatGPT後，要求把身份證中的人臉換成庫克。Image-2不僅改變了人臉，還替換了人名和出生年月日資訊，並同步替換了身份證號碼中的出生年月日資訊。圖源：澎湃新聞該模型不僅無法識別個人敏感資訊，而且也沒有阻攔使用者進行修改、偽造證件的提示詞。此外，GPT-Image-2的所有直出圖均沒有標註“AI生成”的水印或提示，進一步加大了核實和甄別的難度。面對該大模型生成的圖片，不少網友感嘆，第一反應是 “被嚇到了”。還有網友實測，只需簡單輸入一句話，就能一鍵生成精美的商業設計圖，擔心“設計師是不是要失業了”。許多網友擔憂，未來圖片真假將更難分辨。按照國家相關規定，AI生成內容應強制標註，而面對不斷升級的海外AI工具，大家也呼籲加快完善AI領域的法律法規，進一步加強監管。更有網友直言，有圖有真相的時代，已經過去了。“以後都要問一句，這是真的嗎？” (河南衛視)

李飛飛團隊新作：簡單調整生成順序，大幅提升像素級圖像生成質量

長期以來，AI生圖被一個經典矛盾困擾。潛空間模型效率高，但細節有損耗；像素空間模型保真度高，卻容易結構混亂、速度慢。要麼快要沒準，大家幾乎默認這是架構帶來的取捨問題，沒法徹底解決。但擴散模型生圖，順序真的對嗎？李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識，他們發現生成的質量瓶頸不在架構，而在順序。簡單說就像畫畫必須先打草稿再填色，AI也需要一個「先定結構、後填細節」的強制邏輯。Latent Forcing僅通過重排生成軌跡，像素擴散模型不僅找回了效率，更在多項指標上刷新SOTA。傳統方法瓶頸在深入瞭解Latent Forcing之前，咱先來說說當前兩大方法的瓶頸。傳統像素級擴散模型之所以畫圖會畫歪，是因為它在降噪過程中，高頻的紋理細節往往會干擾低頻的語義結構。模型常常在還沒搞清楚物體的整體輪廓時，就被迫去預測局部的像素顏色，其實這在本質上就違背了視覺生成的自然邏輯。為瞭解決這個問題，行業此前大多轉向潛空間。它通過預訓練的tokenizer把圖像壓到低維空間，生成速度飛起。但潛空間模型必須依賴一個預訓練的解碼器，但這不僅會引入重建誤差，也讓模型失去了端到端建模原始資料的能力。於是李飛飛團隊思考——能不能既保留像素級的無損精度，又獲得潛空間的結構引導？先打個草稿Latent Forcing的答案是——對擴散軌跡重新排序。怎麼做的呢？在不改變基礎Transformer架構的前提下，引入了雙時間變數機制。在訓練和生成過程中，模型會同時處理像素和潛變數。不同的是，團隊為兩者定製了獨立的降噪節奏：潛變數先行：在生成初期，潛變數會率先完成降噪，在大尺度上確立圖像的語義骨架；像素填色：在結構確定後，像素部分再跟進進行精細化降噪。這麼一看，潛變數就像是一個臨時的草稿本。生成結束時，這個草稿本直接丟棄，最終輸出仍是100%無損的原始像素圖像，沒有任何decoder。整個過程端到端、可擴展，幾乎不增加計算量（token數量不變，速度接近原生DiT）。這種先latent後pixel的細微調整，在ImageNet榜單上展現了出色的表現。在相同計算規模，訓練80個epochs的條件下，Latent Forcing在ImageNet-256任務中，條件生成的FID分數較此前最強的像素級模型JiT+REPA，從18.60降到9.76，接近腰斬。在200個epoch的最終模型（ViT‑L 規模）下，Latent Forcing實現了條件生成FID 2.48（guided）、無條件生成FID 7.2（unguided）的分數。創下像素空間擴散Transformer新的SOTA。過去學術界普遍認為，必須通過更高倍率的失真壓縮才能換取好的FID表現。Latent Forcing則用資料反駁了這一觀點——在保持100%原始像素精度的情況下，我們依然能跑出超越有損模型的性能。Latent Forcing項目由李飛飛領銜。第一作者Alan Baade是李飛飛的學生，史丹佛電腦系博士生，在擴散模型和生成建模方向有深入研究。其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。此外，密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)

神仙打架！阿里字節同日發佈AI生圖新品：Seedream 5.0 vs Qwen-Image-2.0

不同的技術路線和市場定位，阿里巴巴側重於模型架構的統一與性能提升，字節跳動則聚焦智能理解和知識驅動。圖片來源：AI生成中國兩大科技巨頭阿里巴巴和字節跳動今日分別發佈了各自最新的AI圖像生成模型——字節跳動發佈了主打智能理解和高解析度輸出的Seedream 5.0，阿里巴巴則推出了集圖像生成與編輯於一體的Qwen-Image-2.0。這兩款模型均在今日正式上線，阿里巴巴通過阿里雲百煉平台開放API邀測，使用者可通過Qwen Chat免費體驗；字節跳動則將Seedream 5.0整合於旗下剪映、CapCut、小雲雀等應用，並提供限時免費使用，未來計畫在美國市場開放。阿里巴巴Qwen-Image-2.0的核心創新在於首次將圖像生成與編輯功能統一到單一模型架構中，顯著提升了性能和靈活性。該模型支援長達1000 token的複雜文字輸入，能夠生成高達2K解析度的圖像，適合專業PPT、海報、多格漫畫等複雜場景。Qwen-Image-2.0尤其在中文文字渲染方面表現卓越，能夠準確生成多種字型和複雜文字內容，如《蘭亭集序》全文配圖。AI Arena評測資料顯示，Qwen-Image-2.0在文字生成圖像任務中以1029分位列全球第三，圖像編輯能力得分1034，排名第二，接近頂尖水平。相比之下，字節跳動的Seedream 5.0則強調智能水平的提升，增強了對提示詞的理解能力，支援檢索生圖、多步邏輯推理和聯網知識整合，適合複雜知識驅動的任務，如生成詳細步驟說明圖。此外，Seedream 5.0支援2K及4K解析度輸出，細節紋理和照明效果更為精細，新增了精準編輯功能。該模型主要對標Nano Banana Pro，突出低成本優勢，目前使用者可免費使用20次，未來將逐步開放更多地區。儘管在藝術設計感方面略遜於競爭對手，但其在實用性和智能推理方面表現突出。從技術參數來看，Qwen-Image-2.0的長文字輸入能力（1K token）遠超行業平均，極大拓展了模型對複雜指令的理解和執行能力，尤其適合需要精細文字排版和多元素組合的專業應用。Seedream 5.0則通過多步邏輯推理和聯網知識整合，提升了模型對複雜任務的適應性，尤其在生成步驟說明圖等知識密集型場景中表現優異。此外，Seedream 5.0支援4K解析度輸出，滿足更高端視覺需求。在使用體驗方面，Qwen-Image-2.0通過阿里雲百煉平台和Qwen Chat提供開放體驗，使用者反饋其生成圖像細膩，文字渲染精準，編輯功能靈活多樣，能夠實現九宮格自拍、多風格轉換等多樣化創作。Seedream 5.0則依託字節跳動生態，深度整合剪映、CapCut等視訊及內容創作工具，使用者可便捷呼叫模型完成高品質圖像生成和精準編輯，尤其適合內容創作者和知識工作者。兩款模型的發佈反映了中國AI圖像生成領域的多元化發展趨勢。阿里巴巴側重於模型架構的統一與性能提升，強調中文文字渲染和多場景應用，推動AI圖像生成的實用化和普及化。字節跳動則聚焦智能理解和知識驅動，強化模型的推理能力和高解析度輸出，滿足更複雜的專業需求和內容創作場景。未來，隨著AI圖像生成技術的不斷演進，模型的多模態融合能力、長文字理解深度以及高解析度細節表現將成為競爭關鍵。阿里巴巴和字節跳動的這兩款模型分別代表了不同的技術路線和市場策略，預計將在專業設計、內容創作、教育培訓等多個領域展開激烈競爭。同時，隨著API和應用的開放，更多開發者和使用者將參與到AI圖像生成生態中，推動技術的快速迭代和應用創新。綜合來看，Qwen-Image-2.0以其統一架構和卓越的中文文字渲染能力，在專業圖像生成與編輯領域具備明顯優勢；而Seedream 5.0憑藉智能推理和高解析度支援，在知識密集型和高端視覺需求場景中表現突出。兩者的差異化發展不僅豐富了市場選擇，也促進了中國AI圖像生成技術的整體提升和生態繁榮。 (鈦媒體AGI)

OpenAI還在卷生圖，中國AI已一鍵成片！馬斯克免費代言

【新智元導讀】AI一鍵成片神器來臨！今天，Vidu Agent開啟全球內測，一句話復刻爆款，從廣告到創意短片，分鏡級可控一鍵短片。視訊AI，正在進入真正的「硬仗階段」。2025年，GoogleVeo 3、OpenAI Sora 2、Runway Gen-4.5，本土Vidu等競相角逐，激烈交鋒。模型能力不斷狂飆，參數和demo一個比一個驚豔。但所有模型都繞不開一個現實問題：AI是能生成視訊片段了，可真正「會拍片」的，還是少數。創意如何拆解？鏡頭怎麼設計？節奏、情緒、結構怎麼控？就在今天，全新Vidu Agent出世，讓所有人看到了一種更親民的創新路徑：一個專業視訊創作夥伴，打破了單純的片段式視訊素材拼接的舊範式。Vidu Agent，主打一個「一鍵成片」。無論是產品廣告、品牌TVC，還是動畫短片，創意短片，你只負責想像，AI負責把創意100%落地。這一新功能，主要帶來了以下三大核心亮點——一站式創意輸出：專業級內容質感，想像力x分鏡級可控力x精細化編輯力高效率高性價比：支援一鍵成片、範本復刻與批次創作，讓創作高效簡單多元化場景定製：從靈感發散到結構化成片，覆蓋多語種、多場景創作需求從12月16日起，Vidu Agent 全球開放內測，使用者進入Vidu官網（Vidu.cn）申請Agent內測，並加入社群即可優先獲得體驗權限。使用邀請碼：XINZHIYUAN，立即註冊即送100積分提前拿到內測資格的小編，對Vidu Agent展開了一次最完整、最真實的實測體驗。一手實測進入Vidu首頁，點選左側欄中「AI Agent」，即刻體驗一鍵成片和視訊復刻。傳送門：https://www.vidu.cn/上手實操第一步，選定場景，上傳幾張產品圖+產品功能資訊+主題要求，Vidu Agent便開始自主工作了。張口提需求，AI一鍵成片傳統的電商視訊製作，堪稱一場「持久戰」。一條短短幾分鐘的廣告，素材成本獲取高昂，涉及攝影師、剪輯師等多工種協作，動輒數萬元成本。而且，製作周期長，迭代慢。尤其是，在大促前夕，傳統方式無法快速批次產出變體視訊，導致投放效果衰減快。更致命的是，創意與轉化的兩難：有趣的視訊，點贊率高但轉化差；但直擊賣點的「硬廣」，又容易被使用者劃走。一些平台的廣告投放資料顯示，前3秒未能有效吸引注意力，退出率特別高。產品功能展示不吸引人，觀眾難以產生「必須買」的衝動。此外，跨境電商還面臨多語種、本地化痛點：不同市場文化差異大，傳統拍攝難以覆蓋。早期AI視訊工具看似「解決」但往往陷入了「雞肋」的境地。除了多主體一致性差，質量不穩定，更常見的問題是「生成即結束」——AI只提供半成品，缺少爆點設計、情感敘事、行動號召（CTA）....而最新推出的Vidu Agent的「一鍵成片」，便直擊這些痛點，生成可直接投放的廣告成片。先來體驗一波「電商廣告」場景的視訊生成。上傳兩張圖片，一張是BOLON太陽鏡的產品圖，一張是奧黛麗赫本照片，看看Vidu Agent如何聯動起來。輸入一句話後，Vidu Agent直出一個分鏡指令碼。整個廣告片的劇情，它都幫你寫好了。若是對指令碼中的內容不滿意，可以自行編輯完善。然後對話方塊輸入「生成視訊」，由赫本代言的暴龍太陽鏡的廣告片就生成了！讓馬斯克穿上潮牌Supreme，展示上身效果，Vidu Agent一鍵搞定。無需複雜提示詞，全程只需「簡單式操作」即可完成——在Agent介面上傳所有圖片素材，來一句「圖片中的男子穿上潮牌紅衣」，分鏡指令碼視訊全由Vidu Agent瞬間完成。亦或是CHANEL蔚藍，想要一種美學效果的短片，還是得找專業的Vidu Agent。當香奈兒香水從綻放花苞當中閃現，那種神秘優雅感油然而生。它甚至自動完成「音畫同步」，一鍵生成配音。再比如，還是同款產品，這一次，選擇讓一位男模為這瓶香水代言。簡簡單單一句話——男模特拿著BLEU DE CHANEL香水瓶，Vidu Agent同樣直出高品質的視覺與創意短片。從人物形象、動作氣質，到香水瓶的外觀細節，鏡頭中的呈現方式，都能夠穩定一致，不會出現走樣的問題。或者直接告訴Agent想要的文案——令人驚豔的是，Vidu Agent瞬間就自動完成了，從畫面構思到鏡頭編排的全過程，一支拿來即用的品牌廣告片出爐了。一鍵成片，即刻上手是Vidu Agent的最大亮點之一。而且這並不是「一次性生成、不可修改」的成片，Vidu Agent具備「精細化編輯力」，不論是想調整文案、鏡頭節奏，還是修改動作、補充情緒表達，皆可隨時修改指令碼和視訊內容。最重要的是，Vidu Agent的「分鏡級可控力」，產品、人物、場景在15秒或者30秒視訊中能始終保持一致，生成直接可商用的廣告成片。再比如，為蘋果AirPods Max做一個創意宣傳片——戴著耳機在咖啡廳喝咖啡。令人驚喜的是，Vidu Agent巧妙地將Apple AirPods Max與尼克角色自然結合，生動詮釋出產品的高品質音效與其時尚的外觀設計。再比如，讓Vidu Agent生成一段耳機廣告，它能一鍵直出沉浸感十足的視覺場景，營造出所需氛圍與意境。不僅如此，Vidu Agent還可以支援多語言、多場景定製，從中文到多語種電商廣告，都能無縫適配，跨境電商只需簡單改一句話，就能生成不同語種的產品廣告了。在如下的宣傳視訊中，AI原生直出英文。以上這些廣告成片凸顯了Vidu Agent在電商廣告類場景中的應用效果——它不只是生成視訊，還最佳化了「爆點」。比如，產品特寫、指令碼情感過渡、產品使用場景、產品功能展示、使用者感受等，以提升廣告片的吸引力和使用者購買力。從簡單一句話+產品圖即可生成敘事完整的廣告大片，釋放從1到100的創意產能。此外，視訊復刻，是Vidu Agent另一大殺器。對於廣告電商從業者，營運的核心痛點在於，沒有專業編導和剪輯師，不懂平台演算法和使用者喜好，做視訊如同開盲盒，費了九牛二虎做的視訊，播放量卻是個位數，始終與爆款無緣。而「視訊復刻」功能就是廣告電商從業者上手立即可用的解決方案，上傳1分鐘以內爆款視訊以及產品參考圖，只描述想要的效果即可生成同樣高品質的爆款視訊。從此產出爆款不再是玄學，而是可以批次產出的可靠方法論。生成即成片，成片即投放像Vidu Agent這樣的AI視訊工具，正在深刻重塑內容生成的鏈條。對於2B領域的品牌主和行銷團隊來說，品牌廣告片、產品宣傳視訊的製作門檻被大幅降低。只需一個產品圖，加上幾句提示，就能立即把腦海中的畫面變為現實。實現生成即成片，成片即投放。這意味著，企業可以更快速地響應市場熱點，一些天馬行空，但拍攝成本極高的想法，如今也能借助Vidu Agent低成本實現。這種高效低成本的內容生產範式，使品牌行銷更加敏捷多變，廣告的定製化和本地化也更易實現。對於內容創作者來說，Vidu Agent也是流量變現的利器，一鍵復刻爆款視訊DNA，快速迭代視訊，適應平台演算法。Vidu Agent更深層次的價值在於，推動了「人機共創」的模式，讓AI成為協作的夥伴，放大人類的想像力。我們正處於一場內容生產大變革的前夜——可以預見的是，不久的將來，AI視訊生成將在廣告、電商、動漫、短片等眾多領域中，釋放出巨大潛能。最後再劃個重點，多模態領域Vidu首推Agent API ，Vidu在深入場景為企業提供可端到端交付結果的API，不再是單點原子能力。 (新智元)

矽谷大佬現身「豪華火雞局」，沒有一個是真人！

今年感恩節，AI比人先上桌！機艙火雞宴、政治名人拼盤、科技大佬假笑全刷屏得像真實記錄。節日本該是煙火氣和家人，卻被一堆不存在的合照搶走注意力。我們到底在看回憶，還是在被AI製造記憶？你可能也刷到過這張圖：Newman坐在中間，周圍是被P出來的一圈科技大佬，像在開公司年會。照片細節滿滿：火雞、紅酒、燭光一字排開，旁邊是笑得乖巧的祖克柏、馬斯克、納德拉、庫克……畫面精緻到像雜誌大片。這張圖被評為今年最「亂入」的感恩節名場面之一。Google剛上線的Nano Banana Pro，讓這張照片離「現場直擊」只差一個BBC水印。也許幾年後的感恩節，我們抬頭看著眼前的土豆泥，問「這是不是AI土豆泥？」今年的感恩節名場面，被AI承包了今年感恩節，最先上桌的不是人，是AI做出來的神圖。托AI的福，RFK Jr.把當年的麥當勞合照玩成感恩節版。薯條和漢堡被換成了孢子甘藍和蔓越莓，川普父子、馬斯克全員在桌邊「健康飲食」。離譜的是不止這一張。Newman親自下場，配文半開玩笑地說這是「AI牛市的感恩節晚宴」。Tiffany Fong更絕，直接把成龍請到自己餐桌旁幫忙切肉。這些「名人聚餐」，在社交平台上被轉得一本正經，像真的發生過一樣。這些照片的共同點，是「過分自然」。燈光剛好，皮膚剛好，連光都出現在應該出現的位置。這就是Google剛推出的Nano Banana Pro的威力。假圖，怎麼比真的還真？你有沒有發現，今年的感恩節合照像換了畫風？事實的確如此。感恩節前一周，Google才把Nano Banana Pro端上桌。媒體當時的評論一針見血：它不是在生成圖片，是在生成你會相信的場景。它最強的一點，是把那些最容易騙過人眼的細節全部「拉滿」：桌布的褶紋、玻璃杯的亮點、火雞表層的油光、燈光照在皮膚上的微妙柔焦……原本一眼假的地方，現在全都恰到好處。你已經不能再完全相信網上的照片了。Nano Banana與Nano Banana Pro對比更要命的是，它不用你懂技術，不需要專業攝影思路，不需要會修圖，只要一句提示，就能生成一堆感恩節場景。尤其是「名人＋節日＋食物」，這種最容易被接受、最不容易被懷疑的組合。這也是為什麼今年的AI合照的熱度比往年更高。過去的AI圖像靠「奇怪」，今年AI圖像靠「真實」。明知道是假的，為什麼還要轉發？今年感恩節有個特別有意思的現象：大家明明知道圖是假的，但還是忍不住點開、保存、轉發，甚至截圖發到群裡「看這個笑死我了」。它為什麼這麼好傳播？答案不是因為它逼真，而是它懂你想在節日裡看到什麼。今年的這些感恩節AI圖，本質上是「情緒出口·節日版」。節日期間，大家一邊忙著應付家人，一邊想找點輕鬆的東西喘口氣。而這些荒誕、無害、帶一點「節日限定混亂感」的AI圖像，剛好滿足了這種需求。比起真實的感恩節——廚房亂成一團、火雞切不動、親戚問東問西、孩子哭鬧，這些AI合照更像是節日的理想樣子：燈光正好、笑容統一、氣氛完美、連火雞都是高級擺盤。社交平台也特別偏愛這種內容。圖片本來就比文字更容易被推送，再加上這種「荒誕而不危險」的節日段子更容易讓人刷個不停，演算法自然把它往前排。Fast Company在談Nano Banana Pro時說過一句話：我們轉發的不是圖，而是一種想一起笑一笑的衝動。而這正是今年最微妙的點：這些AI圖火，是因為它們比真實的感恩節更輕鬆、更好笑，也更容易讓人覺得有參與感。但問題就出在這裡：當一張從沒發生過的合照被反覆刷到、反覆轉發，它開始在你的記憶裡佔位。你會下意識覺得「我見過」「好像看過新聞」「是不是某個場合拍的」。真實的節日畫面、記憶痕跡、現實關係通通被替代。這就是今年感恩節AI熱潮最讓人不安的一部分：你以為自己笑了一下，其實什麼都沒發生。刷了一圈今年的感恩節圖，你會發現一個挺好笑也挺現實的問題：螢幕裡的宴會永遠完美、永遠熱鬧、永遠上頭。而真正的感恩節，卻是混亂、乾巴巴火雞、吵鬧的孩子。AI做出來的那些照片當然好看，眾星雲集、燈光溫柔、火雞烤得剛剛好，一切宛如廣告片。可等你把手機放下，會突然意識到：能讓你伸手夾一口、能讓你覺得太鹹、能讓你笑出聲的，還是眼前這桌不完美的飯。也許今年最值得「感恩」的，不是先進的技術，而是一個簡單的提醒：好看的畫面可以生成，但真實的陪伴只能發生。把手機放一邊吧。螢幕裡的假名人，就讓他們繼續在AI裡吃飯。而你，只要存在，便是真實。 (新智元)

矽谷8巨頭夜會遭「宿管阿姨」驅散？AI造假首次讓「肉眼死亡」

【新智元導讀】一覺醒來，矽谷八巨頭深夜派對，竟被宿管趕到大街上？這則炸翻全網的奇聞，真相竟是GoogleNano Banana Pro的一張AI合影。效果足以亂真，肉眼根本無法分辨。AI生圖的「眾神時代」，真的來了。真是瘋了！一夜之間，矽谷兆俱樂部CEO們罕見同框，多張合影刷爆全網，在各個社交平台上瘋轉。這，堪稱矽谷AI天團的「頂級陣容」——馬斯克、老黃、劈柴、納德拉、小扎、奧特曼、庫克、貝索斯悉數在場。有夜晚出來散步的，有在屋子裡暢聊的，還有在停車場密謀大事的.....搞笑的是，矽谷八巨頭深夜開Party，卻被宿管阿姨趕到了大街上。令人難以置信的是，他們並非真實存在，實則來自另一個平行宇宙。這一切的一切，全部由GoogleNano Banana Pro一鍵生成，逼真到讓人看不出一絲破綻。簡直令人細思極恐！有網友表示，人類肉眼已經分不清了，我們就生活在AI模擬的世界中。還有網友惡搞系列——巨頭CEO們一起喝「蜜雪冰城」。出世僅48小時，Nano Banana Pro真的無敵了。只用兩天，Nano Banana Pro封神在最新LMArena榜單上，Nano Banana Pro（Gemini 3 Pro image）一夜屠榜，雙榜第一。就連第二名的榮耀——Nano Banana，也屬於Google。具體來說，在文字-圖像測試中，Pro版要比第一代領先84分；在圖像編輯中，要高出41分。正是因為有了Gemini 3這一強大的基座，Nano Banana Pro才能大殺四方。僅用三年時間，Google煉出最強AI，秘訣究竟是什麼？GoogleDeepMind CEO Hassabis一語道破天機，「世界級研究+世界級工程+世界級基礎設施」。三個「世界級」，凝練又強勁。GoogleNano Banana Pro的周五發佈看似波瀾不驚，卻憑實力刷屏。全網驚豔實測，後勁太大了！Google剛剛發佈的Nano Banana Pro，強得離譜，全網都還沒回過神來。這次更新絕不僅僅是「更好的提示詞」那麼簡單。它簡直是開啟了AI生圖的「眾神時代」。Nano Banana Pro理解的是真實世界，而不僅僅是像素堆疊。它直接捅破了行業的天花板，重新定義了「可能」。發佈都兩天了，還有新玩法兒。只要你能想得到，Nano Banana Pro就能讓你看到！矽谷CEO合影，騙過全網再回到「矽谷兆俱樂部CEO」合影，鏡頭前的開腦洞玩法，讓人炸腦。傅盛轉發了一張AI大佬在等1號線的合影，調侃道「同事說下班路上碰到的」。就這張圖片的含金量，誰懂？西安雁塔前一張合影。同款在停車場的合影。美國科技名流搖滾版「全家福」：大晚上，一起約著盪鞦韆，推著購物車在馬路上跑，CEO們開心地像一群孩子一樣。開party、聚餐，真的無法相信沒有一張是真實的。還有劈柴和Hassabis這張合拍，質感超絕。GoogleI/O大會上的原圖爆改系列，劈柴：來一隻嗎？Nano Banana Pro預測了馬斯克將登陸火星。還有九宮格為CEO爆改髮型的圖片。一個坐標出圖，推理炸裂這一次，全網又搞出一個新玩法：一個坐標，讓Nano Banana Pro出圖。通用的提示詞範本：生成一張經緯度為「填入經緯度」，時間為「填入時間」就比如震驚全球的911事件，Nano Banana Pro完美還原了飛機撞向紐約世界貿易中心的那一刻。足不出戶，想看「北緯36.4602° N，東經25.3730° E」的日落時刻，Nano Banana Pro滿足你。Create an image of 36.4602° N 25.3730° E at sunset對應的實現中該地的日落：效果也太還原了！泰坦尼克號沉船，說一個地理坐標，Nano Banana Pro即可畫出。Create an image of the major event that happened at these coordinates: 41°43′32″N 49°56′49″W.需要強調的是，Nano Banana Pro在創作之前，需要一定推理，才能得知坐標對應的時間線。就這一點，少有AI可以做到。同上類似，興登堡號空難、羅馬大火，均可一個坐標出圖。Generate an image of a major event that happened at these coordinates 40.0303° N, 74.3258° WCreate an image of the major event that happened at these coordinates: 41°53′36″N 12°28′58″E , its year July 19, 64 AD , intereeesting !已故學界巨匠的現代生活Nano Banana Pro可收集已故科學家的生平資訊，生成對應的社交軟體截圖。牛頓、奧本海默和愛因斯坦的現代社交軟體首頁：還可以生成相關的帖子——換種風格也可以：類似的，虛擬人物也可以生成社交首頁截圖：不得不說，Nano Banana Pro太強了，生成名人開Ins帳號。Vibe Art：氛圍藝術AI這次可以直接生成梗圖二創了：提升梗圖的解析度，更是Nano Banana Pro的拿手菜：網友嘗試用最少的提示詞，「毀掉」名畫：最後看看一些真正能放到簡報的例子吧：好戲開場，OpenAI急了Google這波強勢回歸，讓全世界看到了真正的王者，並不是唯OpenAI獨尊。The Infomation此前爆料稱，OpenAI內部感受到了壓力，奧特曼發佈備忘錄——Google在AI領域的近期進展，可能為公司帶來「暫時的經濟阻力」。為此，OpenAI正在醞釀一個反擊計畫，代號為Shallotpeat。在預訓練Scaling方面，OpenAI失敗了，但Google成功了。這一點讓外界難以置信，畢竟Bard翻車至今也不過3年的時間。Hyperbolic CEO Yuchen Jin點評道，是OpenAI，喚醒了這個沉睡的巨獸。2024年一場發佈會，奧特曼還不忘調侃Google的審美。估計現在，已經啞口無言。BI的一篇文章，闡述了Google的全端優勢，是OpenAI無法企及的。在Gemini 3發佈前的一次座談會上，GoogleDeepMind首席技術官Koray Kavukcuoglu表示，端到端優勢是他們能夠更快推進的原因之一。1 GoogleDeepMind研究人員搭建模型；2 Google在自主研發TPU晶片上訓練模型；3 Google使用自家雲服務來託管模型，並向開發者提供這些模型；4 Google將模型整合到搜尋、YouTube、Gemini等熱門應用中，直接交到使用者手中。更恐怖的是，Google純TPU算力，將在未來4-5年翻1000倍。毫無疑問，Google擁有人才、技術、市場的全方位優勢，這套「組合拳」終於開始見效了。最後再致敬一下Google，生成式AI十年前與今天的對比，這種跨時代的飛躍，便是最好的證明。(新智元)