#生圖
矽谷大佬現身「豪華火雞局」,沒有一個是真人!
今年感恩節,AI比人先上桌!機艙火雞宴、政治名人拼盤、科技大佬假笑全刷屏得像真實記錄。節日本該是煙火氣和家人,卻被一堆不存在的合照搶走注意力。我們到底在看回憶,還是在被AI製造記憶?你可能也刷到過這張圖:Newman坐在中間,周圍是被P出來的一圈科技大佬,像在開公司年會。照片細節滿滿:火雞、紅酒、燭光一字排開,旁邊是笑得乖巧的祖克柏、馬斯克、納德拉、庫克……畫面精緻到像雜誌大片。這張圖被評為今年最「亂入」的感恩節名場面之一。Google剛上線的Nano Banana Pro,讓這張照片離「現場直擊」只差一個BBC水印。也許幾年後的感恩節,我們抬頭看著眼前的土豆泥,問「這是不是AI土豆泥?」今年的感恩節名場面,被AI承包了今年感恩節,最先上桌的不是人,是AI做出來的神圖。托AI的福,RFK Jr.把當年的麥當勞合照玩成感恩節版。薯條和漢堡被換成了孢子甘藍和蔓越莓,川普父子、馬斯克全員在桌邊「健康飲食」。離譜的是不止這一張。Newman親自下場,配文半開玩笑地說這是「AI牛市的感恩節晚宴」。Tiffany Fong更絕,直接把成龍請到自己餐桌旁幫忙切肉。這些「名人聚餐」,在社交平台上被轉得一本正經,像真的發生過一樣。這些照片的共同點,是「過分自然」。燈光剛好,皮膚剛好,連光都出現在應該出現的位置。這就是Google剛推出的Nano Banana Pro的威力。假圖,怎麼比真的還真?你有沒有發現,今年的感恩節合照像換了畫風?事實的確如此。感恩節前一周,Google才把Nano Banana Pro端上桌。媒體當時的評論一針見血:它不是在生成圖片,是在生成你會相信的場景。它最強的一點,是把那些最容易騙過人眼的細節全部「拉滿」:桌布的褶紋、玻璃杯的亮點、火雞表層的油光、燈光照在皮膚上的微妙柔焦……原本一眼假的地方,現在全都恰到好處。你已經不能再完全相信網上的照片了。Nano Banana與Nano Banana Pro對比更要命的是,它不用你懂技術,不需要專業攝影思路,不需要會修圖,只要一句提示,就能生成一堆感恩節場景。尤其是「名人+節日+食物」,這種最容易被接受、最不容易被懷疑的組合。這也是為什麼今年的AI合照的熱度比往年更高。過去的AI圖像靠「奇怪」,今年AI圖像靠「真實」。明知道是假的,為什麼還要轉發?今年感恩節有個特別有意思的現象:大家明明知道圖是假的,但還是忍不住點開、保存、轉發,甚至截圖發到群裡「看這個笑死我了」。它為什麼這麼好傳播?答案不是因為它逼真,而是它懂你想在節日裡看到什麼。今年的這些感恩節AI圖,本質上是「情緒出口·節日版」。節日期間,大家一邊忙著應付家人,一邊想找點輕鬆的東西喘口氣。而這些荒誕、無害、帶一點「節日限定混亂感」的AI圖像,剛好滿足了這種需求。比起真實的感恩節——廚房亂成一團、火雞切不動、親戚問東問西、孩子哭鬧,這些AI合照更像是節日的理想樣子:燈光正好、笑容統一、氣氛完美、連火雞都是高級擺盤。社交平台也特別偏愛這種內容。圖片本來就比文字更容易被推送,再加上這種「荒誕而不危險」的節日段子更容易讓人刷個不停,演算法自然把它往前排。Fast Company在談Nano Banana Pro時說過一句話:我們轉發的不是圖,而是一種想一起笑一笑的衝動。而這正是今年最微妙的點:這些AI圖火,是因為它們比真實的感恩節更輕鬆、更好笑,也更容易讓人覺得有參與感。但問題就出在這裡:當一張從沒發生過的合照被反覆刷到、反覆轉發,它開始在你的記憶裡佔位。你會下意識覺得「我見過」「好像看過新聞」「是不是某個場合拍的」。真實的節日畫面、記憶痕跡、現實關係通通被替代。這就是今年感恩節AI熱潮最讓人不安的一部分:你以為自己笑了一下,其實什麼都沒發生。刷了一圈今年的感恩節圖,你會發現一個挺好笑也挺現實的問題:螢幕裡的宴會永遠完美、永遠熱鬧、永遠上頭。而真正的感恩節,卻是混亂、乾巴巴火雞、吵鬧的孩子。AI做出來的那些照片當然好看,眾星雲集、燈光溫柔、火雞烤得剛剛好,一切宛如廣告片。可等你把手機放下,會突然意識到:能讓你伸手夾一口、能讓你覺得太鹹、能讓你笑出聲的,還是眼前這桌不完美的飯。也許今年最值得「感恩」的,不是先進的技術,而是一個簡單的提醒:好看的畫面可以生成,但真實的陪伴只能發生。把手機放一邊吧。螢幕裡的假名人,就讓他們繼續在AI裡吃飯。而你,只要存在,便是真實。 (新智元)
矽谷8巨頭夜會遭「宿管阿姨」驅散?AI造假首次讓「肉眼死亡」
【新智元導讀】一覺醒來,矽谷八巨頭深夜派對,竟被宿管趕到大街上?這則炸翻全網的奇聞,真相竟是GoogleNano Banana Pro的一張AI合影。效果足以亂真,肉眼根本無法分辨。AI生圖的「眾神時代」,真的來了。真是瘋了!一夜之間,矽谷兆俱樂部CEO們罕見同框,多張合影刷爆全網,在各個社交平台上瘋轉。這,堪稱矽谷AI天團的「頂級陣容」——馬斯克、老黃、劈柴、納德拉、小扎、奧特曼、庫克、貝索斯悉數在場。有夜晚出來散步的,有在屋子裡暢聊的,還有在停車場密謀大事的.....搞笑的是,矽谷八巨頭深夜開Party,卻被宿管阿姨趕到了大街上。令人難以置信的是,他們並非真實存在,實則來自另一個平行宇宙。這一切的一切,全部由GoogleNano Banana Pro一鍵生成,逼真到讓人看不出一絲破綻。簡直令人細思極恐!有網友表示,人類肉眼已經分不清了,我們就生活在AI模擬的世界中。還有網友惡搞系列——巨頭CEO們一起喝「蜜雪冰城」。出世僅48小時,Nano Banana Pro真的無敵了。只用兩天,Nano Banana Pro封神在最新LMArena榜單上,Nano Banana Pro(Gemini 3 Pro image)一夜屠榜,雙榜第一。就連第二名的榮耀——Nano Banana,也屬於Google。具體來說,在文字-圖像測試中,Pro版要比第一代領先84分;在圖像編輯中,要高出41分。正是因為有了Gemini 3這一強大的基座,Nano Banana Pro才能大殺四方。僅用三年時間,Google煉出最強AI,秘訣究竟是什麼?GoogleDeepMind CEO Hassabis一語道破天機,「世界級研究+世界級工程+世界級基礎設施」。三個「世界級」,凝練又強勁。GoogleNano Banana Pro的周五發佈看似波瀾不驚,卻憑實力刷屏。全網驚豔實測,後勁太大了!Google剛剛發佈的Nano Banana Pro,強得離譜,全網都還沒回過神來。這次更新絕不僅僅是「更好的提示詞」那麼簡單。它簡直是開啟了AI生圖的「眾神時代」。Nano Banana Pro理解的是真實世界,而不僅僅是像素堆疊。它直接捅破了行業的天花板,重新定義了「可能」。發佈都兩天了,還有新玩法兒。只要你能想得到,Nano Banana Pro就能讓你看到!矽谷CEO合影 ,騙過全網再回到「矽谷兆俱樂部CEO」合影,鏡頭前的開腦洞玩法,讓人炸腦。傅盛轉發了一張AI大佬在等1號線的合影,調侃道「同事說下班路上碰到的」。就這張圖片的含金量,誰懂?西安雁塔前一張合影。同款在停車場的合影。美國科技名流搖滾版「全家福」:大晚上,一起約著盪鞦韆,推著購物車在馬路上跑,CEO們開心地像一群孩子一樣。開party、聚餐,真的無法相信沒有一張是真實的。還有劈柴和Hassabis這張合拍,質感超絕。GoogleI/O大會上的原圖爆改系列,劈柴:來一隻嗎?Nano Banana Pro預測了馬斯克將登陸火星。還有九宮格為CEO爆改髮型的圖片。一個坐標出圖,推理炸裂這一次,全網又搞出一個新玩法:一個坐標,讓Nano Banana Pro出圖。通用的提示詞範本:生成一張經緯度為「填入經緯度」,時間為「填入時間」就比如震驚全球的911事件,Nano Banana Pro完美還原了飛機撞向紐約世界貿易中心的那一刻。足不出戶,想看「北緯36.4602° N,東經25.3730° E」的日落時刻,Nano Banana Pro滿足你。Create an image of 36.4602° N 25.3730° E at sunset對應的實現中該地的日落:效果也太還原了!泰坦尼克號沉船,說一個地理坐標,Nano Banana Pro即可畫出。Create an image of the major event that happened at these coordinates: 41°43′32″N 49°56′49″W.需要強調的是,Nano Banana Pro在創作之前,需要一定推理,才能得知坐標對應的時間線。就這一點,少有AI可以做到。同上類似,興登堡號空難、羅馬大火,均可一個坐標出圖。Generate an image of a major event that happened at these coordinates 40.0303° N, 74.3258° WCreate an image of the major event that happened at these coordinates:  41°53′36″N 12°28′58″E , its year July 19, 64 AD , intereeesting !已故學界巨匠的現代生活Nano Banana Pro可收集已故科學家的生平資訊,生成對應的社交軟體截圖。牛頓、奧本海默和愛因斯坦的現代社交軟體首頁:還可以生成相關的帖子——換種風格也可以:類似的,虛擬人物也可以生成社交首頁截圖:不得不說,Nano Banana Pro太強了,生成名人開Ins帳號。Vibe Art:氛圍藝術AI這次可以直接生成梗圖二創了:提升梗圖的解析度,更是Nano Banana Pro的拿手菜:網友嘗試用最少的提示詞,「毀掉」名畫:最後看看一些真正能放到簡報的例子吧:好戲開場,OpenAI急了Google這波強勢回歸,讓全世界看到了真正的王者,並不是唯OpenAI獨尊。The Infomation此前爆料稱,OpenAI內部感受到了壓力,奧特曼發佈備忘錄——Google在AI領域的近期進展,可能為公司帶來「暫時的經濟阻力」。為此,OpenAI正在醞釀一個反擊計畫,代號為Shallotpeat。在預訓練Scaling方面,OpenAI失敗了,但Google成功了。這一點讓外界難以置信,畢竟Bard翻車至今也不過3年的時間。Hyperbolic CEO Yuchen Jin點評道,是OpenAI,喚醒了這個沉睡的巨獸。2024年一場發佈會,奧特曼還不忘調侃Google的審美。估計現在,已經啞口無言。BI的一篇文章,闡述了Google的全端優勢,是OpenAI無法企及的。在Gemini 3發佈前的一次座談會上,GoogleDeepMind首席技術官Koray Kavukcuoglu表示,端到端優勢是他們能夠更快推進的原因之一。1 GoogleDeepMind研究人員搭建模型;2 Google在自主研發TPU晶片上訓練模型;3 Google使用自家雲服務來託管模型,並向開發者提供這些模型;4 Google將模型整合到搜尋、YouTube、Gemini等熱門應用中,直接交到使用者手中。更恐怖的是,Google純TPU算力,將在未來4-5年翻1000倍。毫無疑問,Google擁有人才、技術、市場的全方位優勢,這套「組合拳」終於開始見效了。最後再致敬一下Google,生成式AI十年前與今天的對比,這種跨時代的飛躍,便是最好的證明。(新智元)
阿里攻勢不減,這一仗是AI to C
將千問定義為“AI時代的未來之戰”,阿里並非一時興起,而是戰略的必然。阿里AI通往未來的野心越來越清晰了。11月13日,阿里巴巴傳聞將秘密啟動“千問”項目,當日股價最高上漲6%。11月17日,“傳言”落地成了現實:阿里巴巴正式官宣“千問”,全力進軍AI to C市場——千問App公測版正式上線,並同步提供網頁和PC版。面向全球市場的千問App國際版也將在近期上線,基於全球性能第一的開源模型Qwen3,以及與各類生活場景生態的結合,與ChatGPT直接對戰。上線首日,有消息稱千問公測便因使用者湧入過載,遭遇流量洪峰,部分服務出現擁堵和中斷。隨後,“阿里巴巴千問崩了”相關話題沖上微博熱搜。對此,阿里千問通過其官方微博回應稱:“我好著呢,狀態良好,歡迎來問。”11月18日,千問App在公測上線次日便迅速衝入蘋果App Store免費應用總榜第四位。市場對千問的熱情,首先源於技術期待。千問底座基於阿里開源模型Qwen3。自2023年全面開源以來,阿里Qwen在技術上全球領先。截至目前,Qwen共計開源模型超300款,覆蓋文字、程式設計、圖像等全模態,下載量突破6億次,衍生模型超17萬個。將千問定義為“AI時代的未來之戰”,阿里並非一時興起,而是戰略的必然。來源:受訪者今年9月的雲棲大會上,吳泳銘宣佈了阿里雲的新定位,要做全球領先的“全端人工智慧服務商”。通義千問希望成為下一代作業系統,阿里雲要成為“超級AI雲”,把Token做成未來的電。吳泳銘還拋出了一個關鍵論斷:“通用人工智慧AGI並非AI發展的終點,而是全新的起點。AI不會止步於AGI,它將邁向超越人類智能、能夠自我迭代進化的超級人工智慧(ASI)。”而通往ASI的第二階段便是“自主行動”,AI不再侷限於語言交流,AI掌握工具使用和程式設計能力以“輔助人”,且具備了在真實世界中行動的能力。這裡面有兩個隱含的重要資訊,一個是“全端”。AI發展至今,已經不是單純技術上的迭代和比拚了,而是一場體系性的革命。這意味著大廠之間的競賽已經不侷限於軟體/硬體、B端/C端的單點突破,而是全鏈條的競爭,任何一個環節的短板都有可能成為制約整體的瓶頸。阿里在模型層上很強,但在與海外ChatGPT、Gemini的全端比拚中,要追求系統上的最優,在C端的佈局不能過於謹慎。另一個重要資訊便是ASI的“自主行動”。不久的未來,AI將重構整個基礎設施、軟體和應用體系,顛覆人機互動的入口。從這個角度來看,千問比拚的也並非單純的C端應用能力,更是下一代的流量入口。AI to C,阿里必須要做,而且必須要贏。而千問,正是目前承載著阿里野心的最佳載體。01 阿里的AI野望目前的千問App幾乎整合了通義系模型的能力,在千問的對話欄中,支援深度思考、AI修圖、翻譯、即時記錄、拍照講題、AI生視訊、PPT創作、AI生圖等多種功能。阿里方面表示,這次發佈的千問App還只是一個初級版本,它不僅“會聊天”,未來還將成為“能辦事”的AI助手。雖然剛剛上線,千問已經展現出了一定的辦事能力。比如,一句指令就能在幾秒鐘完成一份研究報告,並製作成幾十頁的精美PPT。這種產品形態,與全球已擁有8億使用者的ChatGPT有著明顯的相似性。二者均以全場景AI入口為核心定位,通過統一的互動介面,滿足使用者從日常閒聊、知識查詢到複雜任務處理的全維度需求。在當下的全球競爭中,使用者對AI工具的期待已從單點功能轉向全端賦能:一個基礎模型如果只支援文字或者圖像某一個能力,未來空間必然受到制約。但在“模型即產品”的時代邏輯下,C端產品強大與否,更要看底層能力。在這一層面,阿里雲有充足底氣。Qwen下載量超過Llama。來源:受訪者自全面開源以來,阿里Qwen已經超越Llama等模型,成為全球性能最強、應用最廣泛的開源大模型。在AI雲端運算層,阿里巴巴營運著中國第一、全球領先的AI基礎設施和雲端運算網路。三方機構Omdia資料顯示,中國AI雲市場阿里雲佔比35.8%,超過2到4名總和;在已採用生成式AI的財富中國500強中,超53%的企業選擇阿里雲,滲透率位列第一。黃仁勳在2025年GTC大會上的演示,Qwen在全球開源模型中市佔率最高且還在增長。來源:受訪者Qwen還在迅速搶佔矽谷市場。Airbnb CEO布萊恩·切斯基公開表示,公司正“大量依賴Qwen”。輝達CEO黃仁勳也表示過,Qwen已佔據全球開源模型的大部分市場,並在持續擴大份額。近期,阿里發佈的旗艦模型Qwen3-Max,性能超過GPT5、Claude Opus 4等國際競爭者,躋身全球前三。不久前,千問更在與ChatGPT、Gemini、Grok等全球頂級模型PK的實盤投資大賽中斬獲冠軍。對阿里而言,並非此時才開始重視AI C端,而是阿里這一場AI敘事的線索彙集到今天,放大C端戰果的時機剛好成熟。吳泳銘在雲棲大會上的發言佐證了這一點。當各家科技公司還在“通用人工智慧”(AGI)道路上苦苦求索、爭論不休時,吳泳銘已對下一程“超級人工智慧”(ASI)打開暢想,其意在展露阿里對AI長期投入的決心。面向未來,吳泳銘將通往ASI的路徑分為三個階段:第一階段是“智能湧現”,AI通過學習人類知識具備泛化智能,目前通義千問已進入這一階段;第二階段是“自主行動”,AI掌握工具使用和程式設計能力以“輔助人”;第三階段是“自我迭代”,AI通過連接物理世界的全量原始資料實現自學習,最終達成“超越人”。阿里管理層認為,目前大模型的能力已經進入到“輔助人”的Agentic AI時代。C端應用湧現並接入現實場景的時機已到。阿里千問項目的產品經理在接受《晚點LatePost》採訪時提到:當下做C端的時機剛剛好,一方面是模型成熟度,Qwen3-Max整體性能、效果都已經達到全球領先。另外不管是三方生態,還是阿里集團內部,Agent生態都到了更能被模型普遍呼叫、能解決更多問題的階段。儘管現在國內已經有多款大模型產品提供給C端使用者選擇,但在阿里千問項目的產品經理看來,“客觀來說,還處於初級階段,還沒有真正演進到能解決很多實際問題的程度。”02 打造未來的AI生活入口那麼,AI to C為何在今天對阿里變得如此重要?在阿里的生態中,現有最大體量的to C產品無疑是淘寶、支付寶、高德。而下一個時代,流量入口或許將被AI重構。從這個角度思考,就不難理解阿里全力投入AI to C的必要性——這並非單純的C端產品競爭,而是一場事關未來入口的爭奪戰。強大的模型和完整的生活消費生態,構成阿里AI to C的競爭力。阿里方面也表示,千問App的戰略目標是打造未來的AI生活入口,成為阿里全端生態系統的“中樞神經”。比如,在傳統手機OS裡,淘寶找商品、支付寶付錢、飛豬訂酒店,每個步驟都要切換App。未來,千問或將讓使用者無需關心“服務來自那個App”,只需說“規劃周末親子游,訂門票、酒店,用餘額寶支付”,系統便可以在淘寶上比價下單,或自動完成跨平台協同,打破應用壁壘。雲棲大會阿里AI七連發,通義佔據HF全球模型榜單前十中的七席。來源:受訪者阿里的“合力”與“聚焦”的趨勢越來越明顯。今年以來,阿里打破業務類股壁壘,電商、支付、本地生活、雲端運算、健康、文娛等多條業務線,都在圍繞AI進行資源整合與重構。這些線索最終都指向一個“大腦”,那就是千問——或許在未來不久,千問會成為阿里生態內的服務連接器,以及新的高頻流量入口;讓阿里的各個生態協同性更強,將分散的場景需求與業務能力匹配,實現流量的二次啟動。當然,“打通生態”絕非易事,打破部門牆也將是對阿里組織能力的巨大考驗。但今年淘寶閃購和餓了麼、高德等業務的協同作戰、流量互導,實現了單業務線難以達成的增長突破,也激發了阿里內部的戰鬥力和士氣,證明了打破壁壘的可能性。毫無疑問,阿里必須打贏AI to C這場戰役,這不僅關乎搶佔全球AI競爭主導權的當下,更決定了阿里未來在數字生態領域的生死成敗。03 三場硬仗,阿里持續進擊回過頭看,阿里從2月宣佈未來三年投入3800億重注AI,到5月強勢入局即時零售、9月上線高德掃街榜,再到11月上線千問App、全力進軍AI to C,今年阿里多條業務線接連爆發,逐漸匯聚為一股強勁的增長勢頭。在幾場關鍵戰役中,阿里在持續增長的AI需求驅動下,阿里雲收入加速增長至26%,AI相關產品收入連續8個季度實現同比三位數增長。在競爭激烈的即時零售市場,淘寶閃購快速拿下市場份額,日訂單峰值達1.2億單,協同效應更帶動電商MAC(月度活躍消費者數)增長25%。9月高德發佈“掃街榜”,上線僅23天使用者數便突破4億。單一產品的成功或許有偶然,但業務生態的繁榮必然依賴佈局。阿里正在推進的這盤大棋,關鍵在於發揮協同效應——各業務類股深度聯動,帶動公司整體勢能持續回升。更重要的是,在這場關乎未來的AI時代競爭中,人們看到那個敢於破局、持續進擊的阿里又回來了。這也構成阿里未來最堅實的發展底氣。 (中國企業家雜誌)
超越 Nano Banana,這個中國國產 AI 剛剛拿下全球生圖第一 | 附詳細體驗
這幾天 AI 圈都在被 Sora 2 刷屏,沒想到國產 AI 也悄咪咪地幹了票大的。騰訊的混元圖像大模型 3.0,才發佈一週,就在全球最硬核的 AI 競技場 LMArena 上殺瘋了——在26 個全球頂級模型混戰,拿下文生圖全球榜單的 Top 1!這可不是什麼野榜,LMArena 是加州大學伯克利分校搞的,純靠全球網友「盲測」投票,誰好誰壞,全憑真實體驗說話。簡單說,就是把所有模型的名字都遮住,讓你憑感覺二選一,選出你更喜歡的那張圖。這種機制下拿第一,含金量可想而知。LMArena 官方也發文祝賀,說這是「文生圖排行榜大洗牌」,稱混元圖像 3.0 已經超過了 Google 爆火的 nano banana。騰訊這個開源模型實打實把一眾頂級閉源模型都給「干沉默」了.APPSO 也深度體驗了混元圖像大模型 3.0,再次分享給大家。中秋佳節將至,不妨用它來傳達些有意思的祝福,APPSO 預祝大家團團圓圓閤家歡樂。混元圖像 3.0 的最大的亮點是,不僅能畫圖,還能精準「理解」,和利用世界知識「推理」。比如我們想做一張廣告海報,它能把商品畫出來,還順手把文字排版好;想做一套漫畫,輸入一句話,它就能幫我們畫好分鏡。聽起來是很強,但也讓人好奇,它真能替代設計師嗎?還是只是多了點「聰明」的生圖?畢竟我們手上已經有 nano banana 這樣強大的圖像編輯模型,更不用說其他層出不窮的生圖模型。體驗地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual在開始我們的實測之前,先看看這次 3.0 更新了什麼內容。這是首個開放原始碼的工業級原生多模態生圖模型。多模態的能力,意味著它不僅能畫畫,還具備語言模型的理解和推理能力,在畫之前,它可以先想清楚要畫什麼。開源方面,混元圖像 3.0 的體量和能力都處於最前列,參數規模高達 80B,是目前最大的開源生圖模型。騰訊混元圖像 3.0 模型框架圖,80B 參數的 MoE 結構原生多模態架構,也讓一個模型,就可以同時處理文字、圖像、視訊、音訊的輸入輸出,而不是把幾個不同模型拼湊在一起;此外,文字生成的能力,也是混元圖像 3.0 的一大主打,它號稱能解析千字等級的複雜語義內容,精確生成長文字文字。騰訊混元把它形容成一個自帶「大腦」的畫家。使用者只需給出大方向,它就能用常識和世界知識把畫面補全,生成真實、細膩、帶有美學質感的圖像。採用了常用於評估圖像生成效果的 GSB(好/一樣/差)評價方法。總共使用了1000 個文字提示,100 多名專業評估人員,混元圖像 3.0 與 nano banana 和字節跳動的 Seedream,以及 GPT-IMG 對比,一樣好的情況佔比最多,而深灰色部分,則代表混元圖像 3.0 更好,淺灰色代表用來對比的模型更好。光說不練假把式。從常識到創意,從專業到玩梗,我們用不同的提示詞,全方位地測試了這個混元圖像 3.0 模型的生圖能力,結果低估它了?世界知識和推理,AI 像人一樣畫畫有了世界知識,最大的好處,我們的提示詞可以更像人話。就像下面這張圖,我們直接告訴它 labubu,而不用專門去描述 labubu 這個形象具體是什麼樣。生成一個畫出 labubu 的四宮格素描畫流程而一些特定的知識上,它似乎也有查詢的能力,並應用在圖像生成的過程中。像下面這張圖片,我的提示詞只有 3 號線、客村站這些資訊,但是模型推理出下一站是廣州塔、珠江新城、體育西路。更令我感到驚喜的是,混元圖像 3.0 對文字生成的把控,幾乎是做到了精準還原。廣州地鐵客村站站台實拍圖,遮蔽門頂部有顯示3號線的站點情況我們也用 nano banana、ChatGPT、和豆包生成同樣的照片,結果是,都只能根據我輸入提示詞的資訊來生圖,線路站點資訊,有些是文字渲染完全不行、有些是資訊錯誤、還有直接顯示「3 號線站點資訊」幾個字的。一時間不知道是該誇,服從使用者指令,還是說它知識學習得不夠多。不過 Seedream 給我的感覺,整張圖片的風格,是「AI 味」最少的。能夠利用世界知識進行推理,給了生圖模型更多的潛在玩法。就像開頭我們的 labubu 四宮格素描圖,可以擴展到做一些知識點的講解,這些經常在社交媒體平台上刷到的,漫畫科普小卡片。生成一個月全食的四格科普漫畫混元官方也給出了類似四宮格漫畫的提示詞指南,幫助我們單抽出金。開篇表明是四宮格漫畫:「一幅黑白四格漫畫。」分格子描述畫面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」可以展開你的想像,填充細節,這樣效果會更好。想要高級感,很吃提示詞官方在它們 GitHub 倉庫放出的幾張圖片,我第一眼看到,想到的是朋友圈的那些範本封面圖,高級感真的拉滿。但我自己用一些簡單的提示詞,讓混元圖像 3.0 去做的時候,出來的圖片 AI 味是非常重的,甚至給我一種,這不像是 2025 年生圖模型的效果。在提示詞裡面,我們已經用了「日常拍照風格」、「復古濾鏡」等風格化用詞,但是最後的成片,還是高飽和度、高亮度。官方給出的攝影風格,提示詞參考技巧是,主體場景+畫質風格+構圖視角+光線氛圍+技術參數。我們又照著這個格式,重新測試了一回,效果上確實好了一些。指定多少毫米的鏡頭,在提示詞裡面,確定這類技術參數,我認為是生成真實圖片的關鍵。但還是很難抽到「AI 味」沒那麼重的圖片,目前混元圖像 3.0 也只支援文生圖,圖像的編輯功能暫時還沒有上線,所以對提示詞的要求,變得更高。騰訊混元團隊透露,圖生圖、圖像編輯、以及多輪互動等版本將在後續發佈。國外模型的難點,長文字生成真實照片的攝影風格比較不如意,其他風格化,像是卡通、漫畫以及不同材質的渲染,混元圖像 3.0 的表現確實不錯,以及還有一項長文字的生成能力。畫一個咖啡店的菜單黑板,上面寫著:拿鐵 - 30元,美式 - 25元,卡布奇諾 - 28元。而更複雜的文字,也需要掌握一些官方給出的技巧。將大段的文字拆成多句並使用多個引號,文字會更準確。同時,文字的精準性與 prompt 描述的佈局方式有一定關聯。可以嘗試以下的策略:(a)在渲染的文字前使用「第幾行寫著」、「左邊寫著」之類提示佈局資訊的詞(b)修改圖片長寬比(c)換一種內容佈局的方式(如左右佈局換成上下佈局)文章的幾個測試案例,大多集中在「玩」的階段。從效果看,混元圖像 3.0 的確在一些細節上比大部分模型更聰明,但能不能真的應用到具體的工業場景,選擇繼續開源是它最好的答案。最後,不得不說,生圖還是目前 GenAI 裡面最火的,模型能不能出圈,彷彿都得靠生圖。ChatGPT 靠一張吉卜力風格的照片、Gemini 則是用一張一致性極強的桌面手辦,獲得了空前的關注。從風格到一致性,傳達的都是這張照片給我們最直接的感覺,而非照片的具體含義。這大概是視覺動物的特點,一致性過後,AI 圖片的下一個大熱門,會是什麼呢?極強的創意,更極致的細節密度,往真實再進一步。 (APPSO)
Google手機十年最狠升級,全家桶AI宣戰蘋果!一句話P圖,100倍變焦
【新智元導讀】還沒等到蘋果出手,Google直接截胡了!昨晚,全新Pixel 10「全家桶」火力全開,全系Gemini加持,百倍變焦秒殺細節。十年最強升級,Google傳統智慧型手機宣告終結。這幾天,Google一款神秘AI生圖模型Nano Banana在全網掀起了巨震。一句話P圖、修復老照片、參考生圖.....堪稱終極AI編輯器。如今,這款神級AI圖像模型,深度整合到Google新一代智慧型手機Pixel 10「全家桶」了。在Made by Google 2025新品發佈會上,Google首次亮相Pixel 10系列,正面狙擊未發佈的蘋果iPhone 17。Pixel 10系一共有四款——Pixel 10、Pixel 10 Pro、Pixel 10 Pro XL、Pixel 10 Pro Fold,搭載了全新Tensor G5晶片,以及Gemini Nano模型。相較於硬體配置,讓全網更興奮的是,Pixel 10全系配備的強大的AI能力:Gemini Live:語音模式拍那問那,AI立即給出解答,語音對話時長達文字5倍Voice Translate:即時語音翻譯,內建「翻譯官」,拿捏11種不同語言Nano Banana:照片編輯器,瞬間消除人物、更換衣物、調整光線Camera Coach:基於Gemini打造,個人攝影「導師」,承包構圖、畫面佈局、拍攝方式Pro Res Zoom:高達100倍智能變焦AI,智能恢復和最佳化複雜細節Magic Cue:智能資訊提示,自動從Gmail、日曆、資訊中建議內容有了Gemini Live的加持,去商店購物沒有人陪,Pixel 10也能幫你提建議。拍照小白,尤其是給女友不會拍照的男票們,Pixel 10自帶AI攝影師,角度佈局全程指導。與此同時,Google還亮相了多款配套硬體,比如Pixel Watch 4、Pixel Buds 2a等等,全部All in AI。蘋果還未做到的,Google提前都實現了。有網友表示,就拿一張夜景圖來看,iPhone和Pixel的差異實屬有些離譜。十年重磅升級 Google贏麻了昨天,Google正式宣告:傳統智慧型手機時代終結了,手機、手錶、耳機、摺疊屏……全都由Gemini驅動。這可能是近十年來最重磅的一次手機升級。昨天,Google一口氣推出了Pixel 10系列:Pixel 10,10 Pro, 10 Pro XL,10 Pro Fold。全新設計,搭載Material 3 Expression UI支援Pixel Snap與Qi2磁吸配件提供長達7年的系統更新與Pixel Drops功能推送先看一下這次的核心硬體升級:晶片和攝影機。Google最強晶片:Tensor G5晶片Tensor G5是Google迄今為止最大規模的升級,實現了性能的顯著提升,全方位得到了增強——TPU性能提升高達60%,CPU平均運行速度加快34%,採用台積電領先的3奈米製程工藝打造,搭載的全新安全硬體,為Pixel提供更全面的保護。Tensor G5讓Pixel手機又快又智能。Tensor G5晶片中全新的圖像訊號處理器ISP,提升了Pixel拍攝視訊的高品質,即便在低光環境下也不例外。它默認支援動態去模糊功能,並為1080p和4k30視訊提供10-bit色深。此外,它還改進了「真實色調」(Real Tone)功能,能夠無縫地還原照片或視訊中每個人不同的膚色,讓人看到每個人最真實的光彩。除了提升圖像和視訊質量,Tensor G5還驅動了一系列相機功能。Pixel相機:不只5倍長焦鏡頭Pixel 10首次配備了5倍潛望式長焦鏡頭。它能提供同類最佳的2倍變焦畫質、快速自動對焦、10倍光學品質變焦以及最高可達20倍的超解析度變焦。Pixel 10 Pro Fold則採用了一款全新的4800萬像素後置攝影機感測器。Pixel相機中運行了有史以來最大規模的AI模型,將您的變焦範圍驚人地擴展至100倍,同時保留驚人的細節。Pixel相機更是AI全面進化:Auto Best Take:融合150幀,打造完美合影Camera Coach:AI指導構圖、光線與技巧摺疊屏獨享Instant View:拍攝同時預覽內容憑證C2PA:原生認證照片真實性而且這次發佈恰好卡在蘋果預計推出iPhone 17的前幾周。相比之下,蘋果的新機依舊是熟悉的升級套路——更強的相機、或許更薄的機身,再加上幾款全新的配色可選。蘋果對外展示過更聰明的Siri,但如今「神龍見首不見尾」「猶抱琵琶半遮面」,其他所謂Apple Intelligence功能也乏善可陳。而Google這次的Pixel手機卻是滿滿的AI體驗——而且都是使用者真能用得上的工具。這次Pixel新系列的智能工具讓記者IPhone使用者、記者Nicole Nguyen都嫉妒了起來。硬剛蘋果,真·AI手機登場在Pixel 10上,Gemini原生融入裝置,讓許多人真切體驗到何為「真正的AI手機」。Gemini Live:AI超級管家,24h線上今年GoogleI/O大會上,Gemini Live一邊通話,一邊指導小哥組裝自行車的演示,讓全網驚嘆。這一次,搭載到全新Pixel 10的Gemini Live,功能也得到了升級。與以往不同的是,它能夠在即時視訊中「花圈」了!假設你想喝一杯咖啡,直接要求Gemini Live「你能教我如何製作一杯濃縮咖啡嗎」?它圈出來告訴你,「先按左邊的研磨按鈕,接著往豆倉裡加咖啡豆」。這裡,Gemini Live植入了一種「視覺疊加」(Visual Overlays)新功能,能夠清晰看到你所看到的內容,並通過高亮螢幕上物體,給出建議。它還新增了一款音訊模型,可以監測一個人的語氣,比如是興奮,還是擔憂,便會自主調整適應。要去面試一份工作,提前練習如何自我介紹,找Gemini Live即可。它會成為你的「面試官」,讓你輕鬆自如地講出自己的工作經驗和個人能力。Magic Cue:開口搞定一切,Siri要等到26年這一次,Google還重磅推出了對標Siri的AI——Magic Cue,能主動根據即時情境,提供個人建議。Magic Cue出世,真正拉近了人與AI之間的距離。多年來,Google一直夢想著使用者能與自家AI技術之間積極主動的互動,這種構想早在AI時代之前,就已萌芽。2010年代初期,Google曾在Android系統中,推出了名為「Google Now」功能——主動彈出資訊卡片,根據日程安排提供即時資訊。十多年後,Magic Cue在新版Gemini Nano加持下亮相,深度整合到Pixel 10中。它能感知個人Gmail、日曆、Keep 便簽、資訊應用和截圖中的資訊,在恰當時機自動提供相關資訊和操作。發佈會上,小哥現場演示,收到朋友去那約飯的資訊時,Magic Cue會在資訊窗口下方彈出提醒——已在Coppelia預定座位。不用手寫打字,點選提醒直接傳送。又或是,朋友問題落地航班的具體時間,Magic Cue直接呼叫個人日程,給出建議。不用跳轉應用,也能一鍵回覆。Magic Cue會以彩色邊框提醒,不論是Google資訊、電話、Pixel 天氣、各類應用內的搜尋功能,它都會直觀彈出通知。蘋果也在一直嘗試讓使用者,通過Siri對話在應用內進行互動操作。但遺憾的是,這款由AI驅動的Siri,已被推遲到2026年。自帶AI攝影師,百倍變焦在拍照這方面,Pixel 10這次的硬體升級,直接碾碎了最強iPhone 16。發佈會現場,在同一個夜景下,iPhone 16 Pro Max和Pixel 10 Pro XL效果鮮明對比圖,引發在座觀眾的激動歡呼。不僅如此,他們還推出了一款AI助手Camera Coach,教你煉成一名更出色的攝影師。在Gemini模型加持下,它能提供更好構圖和拍攝的建議,甚至可以選擇「獲取靈感」選項,AI還會推薦一些合適的場景。選定好你想要的一種風格後,Camera Coach會在螢幕上給出構圖、視角建議——比如,鏡頭再拉近一點,手機要放低.....即便是一個初學者也能分分鐘拍出大片。現場,Google親自演示了,如何在Camera Coach指導下,拍出一張自己想要的照片。此外,攝影機還能一眼識別出,使用者是否在拍團體照。這時,「Auto Best Take」功能自動啟動,並在數秒內拍攝至多150張照片,並推薦其中最佳的一張。「照片問答」(Ask Photos)工具,可以讓你直接通過語音、文字與AI助手互動,不論是編輯、調整光線,或是更改構圖、移除物體等瞬間實現。在 Pixel 10 Pro和Pro XL兩款機子中,還可以實現百倍生成式AI變焦,刷新紀錄。通過Pro Res Zoom,即使放大到100倍,也能呈現驚豔清晰度。不僅僅是裁剪,它還能在極端遠距離下智能修復細節。除此之外,Pixel 10還有搭載了即時AI翻譯功能,讓任何人和歪果仁都能無縫交流。即便你只會說一點點西班牙語,也不用擔心。它能夠支援11種不同語言,翻譯又快又準,就好像你在手機中內建了一個私人翻譯官。GooglePixel全系,All In AIPixel 10系列,還有一款摺疊屏——Pixel 10 Pro Fold,同樣全面搭載了Gemini Nano模型。它是Google迄今最耐用的摺疊屏手機,代表了Google工程能力的巔峰。Fold的內屏為迄今摺疊屏中最大的8英吋;外屏為6.4 英吋,邊框更窄,顯示面積更大;兩塊螢幕均支援 3000 尼特峰值亮度。不僅是大屏,更是耐用性新標竿:IP68認證:首款具備完整防塵防水的摺疊機。潑濺、灰塵都不在話下。薄而堅固:比鉛筆還薄,強化鉸鏈+高端材質,開合都很穩固。AI驅動:Tensor G5讓多工流暢應對,輕鬆跑大應用。與前三款類似,Pixel 10 Pro Fold中同樣整合了,Magic Cue、語音翻譯、Gemini Live等AI能力。與手機相匹配的其他硬體,這一次也得到全面升級。新代Pixel Watch 4讓Gemini上手腕,新增「抬腕說話」功能。 配備AI健康教練,還能檢測脈搏消失。耳機Pixel Buds 2a首款搭載主動降噪,Tensor A1音訊晶片驅動,單次7小時(ANC 開啟),搭配充電盒20小時。如今,GooglePixel 全系植入強大的Gemini,讓人人可用AI。更好的消息是,Gemini 3離正式發佈不遠了。LMarena最強修圖神器是Gemini 3?大模型競技場LMarena中,代號「Nano-banna」的神秘模型大放異彩,讓網友驚呼一致性好到發瘋!而且不僅僅是圖片PS領域,Nano-banna讓他覺得這就是變革。Google實驗室的Lars Pragmate認為Nano-banna就是Gemini  3的圖像編輯功能。她認為這是最好的圖片編輯器,圖像編輯被解決了。美國媒體推測Nano-banna跟Google離不開關係,而「nano」暗示本地裝置可跑的模型。而且在基準測試「人類最後測試」,Gemini 3.0的分數在原始碼中被洩露:Gemini 3.0的成績為32.4%,高於GPT-5的26.5%以及Grok 4的23.9%。不過,這一消息沒有得到確認,而且同時洩露的另一張圖中,GPT-5(high)還頂這xAI的logo(見下圖左2)。如果成績是正的,GPT-5將面臨真正激烈的競爭。 (新智元)
Qwen新開源,把AI生圖裡的文字SOTA拉爆了
現在,圖像中的文字生成都進化到這種程度了,還是開源的。通義模型家族,剛剛又雙叒開源了,這次是Qwen-Image——一個200億參數、採用MMDiT架構的圖像生成模型。這也是通義千問系列中首個圖像生成基礎模型。看Qwen-Image生成的畫面就知道,它主打的能力之一就是複雜文字渲染。像這張書店暢銷書架的圖片,包含複雜的圖文混合佈局,文字的精準度、契合度,甚至於隨書籍擺放角度形成的變化,都挑不出來什麼錯。生成海報,也是不在話下。照例,通義千問團隊把模型、詳細技術報告一口氣都放了出來,Qwen-Image的能力也第一時間上線QwenChat,現在就能在官網上手體驗。實測Qwen-ImageDemo很優秀,實測效果又會如何?Round 1:情境插畫測試提示詞是:李白站在窗前寫“床前明月光”,窗外明月當空,在屋內投下柔和的光線,書桌上有酒和書籍,整體風格古典好傢伙,感覺可以直接給語文課本用了。“床前明月光”這幾個字不是直愣愣P上去的,跟畫面融合得相當不錯。畫面細節方面,也很有氛圍感。硬要挑刺,就是AI有點分不清屋內屋外了(doge)。Round 2:生成PPT、海報官方Demo中有直接生成PPT的示例,我們也來測試一下,提示詞是:一張企業級高品質PPT頁面圖像,整體採用簡約現代的風格,主題顏色是藍綠色,背景用線條和粒子營造科技感,頁面頂部左側清晰展示QbitAI的標誌。主標題位於畫面中央偏上,文字內容為“量子位AI Coding線下沙龍”,字型規整簡介,突出技術感。主標題下方放兩張圖,一張是線下沙龍現場照片,另一張體現AI程式設計生成結果是這樣的:嚴格來看,右上角有小小的瑕疵,左下角圖中圖的文字也不是那麼準確,但整體效果確實很頂,主體文字、圖中圖都能符合提示詞的要求。那麼如果提示詞更模糊更簡單,Qwen-Image是否還能給出高品質結果?測試提示詞:製作一張海報,主題是:通義千問開源Qwen-Image文字精準,也體現了AI畫畫的元素,沒毛病。Round 3:商品宣傳圖最後,再來測測Qwen-Image的“賣貨”技能。提示詞:面包店的商品宣傳圖,畫面主體是面包和奶油蛋糕。圖中文字展現“美味”、“動物奶油”、“開啟美好一天”,字型採用花體字,整體風格輕鬆活潑。整體採用暖色調有點驚喜的是,Qwen-Image把“動物奶油”這幾個字精準對應到了奶油蛋糕上。需要說明的是,以上實測,均為一次出圖。可以看到,Qwen-Image對提示詞的理解都很到位,提示詞給得越精準,執行的效果細節越豐富,其中文字渲染能力,確如官方所說,能做到高保真輸出。你給這個效果打幾分?性能SOTA文字渲染能力之外,Qwen-Image還具備一致性圖像編輯能力,支援風格遷移、增刪改、細節增強、文字編輯、人物姿態調整等多種操作。總結起來,其主要特性包括:複雜文字渲染能力: Qwen-Image在複雜文字渲染方面表現出色,支援多行佈局、段落級文字生成以及細粒度細節呈現。無論是英語還是中文,均能實現高保真輸出。一致性的圖像編輯能力:通過增強的多工訓練範式,Qwen-Image在編輯過程中能出色地保持編輯的一致性。性能SOTA:在多個公開基準測試中的評估表明,Qwen-Image在各類生成與編輯任務中均獲得SOTA。性能表現方面,通義千問團隊在多個公開基準上對Qwen-Image進行了評估,包括用於通用圖像生成的GenEval、DPG和OneIG-Bench,以及用於圖像編輯的GEdit、ImgEdit和GSO。在所有基準測試中,Qwen-Image都實現了SOTA。在用於文字渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明,Qwen-Image在文字渲染方面表現尤為出色。特別是在中文文字渲染上,大幅領先現有的最先進模型。從技術報告透露的細節來看,為瞭解決複雜文字渲染難題,通義千問團隊在資料處理、訓練策略方面都做出了改進。訓練方面,Qwen-Image採用漸進式訓練策略,從非文字到文字渲染,從簡單到複雜文字輸入,逐步過渡到段落級描述,這種課程學習方法大大增強了模型的原生文字渲染能力。更多細節,可戳文末連結,查看官方技術報告。One More Thing官方放出的示例中,還有這麼一張有意思的PPT。提示詞中的關鍵字是“通義千問視覺基礎模型”。莫非是新的劇透?這個8月真是有意思了~ModelScope:https://modelscope.cn/models/Qwen/Qwen-ImageHugging Face:https://huggingface.co/Qwen/Qwen-ImageGitHub:https://github.com/QwenLM/Qwen-Image技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf實測地址:chat.qwen.ai (量子位)
“變身”絕地武士、扮教宗……川普AI玩脫了!
近日,美國總統川普利用人工智慧(AI)合成天主教教宗肖像後,又在“星際大戰日”(Star Wars Day)分享表情包,扮成反派的西斯尊主(Sith'ari),引發網路熱議。01 “星戰日”化身絕地武士為紀念5月4日“星戰日”,川普團隊分享了一張川普的AI生成圖像,只見他扮成絕地武士,身穿背心展現雄壯手臂肌肉線條,手持紅色光劍,表情嚴肅,背景則是美國國旗和國鳥白頭鷹。這張照片透過白宮官方Instagram分享,並配文“祝大家5月4日快樂”,同時抨擊“左翼引入西斯勢力”,反遭網友群嘲:“官方實錘總統是西斯領主!”“絕地變反派,AI暴露了政治黑暗面!”有網友在評論區質疑內容不夠嚴肅,“說真的,這太尷尬了。”也網友指出,圖片中川普手持的光劍是紅色,並不是“絕地武士”常用的,反而是作品中反派“西斯武士”的標誌。星戰迷則表示,“試想,你一輩子都在看星際大戰,但仍認為那個手持紅色光劍的傢伙才是好人。”還網友寫道,“我不敢相信這是真的白宮帳號,全世界的笑柄。”贊成白宮帖文的網友則讚頌“川普肯諾比,搭配火焰表情符號”,歐比王‧肯諾比(Obi-Wan Kenobi)是指導下一代絕地武士的睿智大師。02 AI扮教宗 引眾怒白宮分享川普扮成西斯尊主的AI照片前幾天,川普在自己的社交媒體上發佈扮成教宗的AI圖像,影射他是接替已故教宗方濟各(Pope Francis)的下一任教宗。川普曾發表“我想做教宗,那是我第一選擇”的言論,扮成教宗疑似為滿足自己的“教宗夢”。畫面中他身穿教宗白袍、戴上主教帽,胸前掛著十字架,右手指天。該AI圖在他本人的社交平台首次曝光後,白宮隨後也轉發了這則帖文。白宮官方社交平台帳號轉發川普扮教宗的AI圖。(X圖片)該圖片引發宗教界及網友強烈不滿和批評!紐約大主教多蘭就這張照片進行回應時,用了義大利語“brutta figura”,意思是這篇帖子太令人尷尬了,“我希望他和這件事沒任何關係。這並不好。就像義大利人說的,這很尷尬。”代表紐約州天主教主教的“紐約州天主教會議”也對該照片表達了憤怒,“總統先生,這張照片一點也不好笑,教宗方濟各才剛安葬,樞機主教即將舉行神聖的秘密會議。請不要拿我們開玩笑。”該會執行總監普斯特(Dennis Poust)更指出,即使川普無意冒犯,但在這個敏感時刻發佈此圖極為不恰當,“從來都不應該嘲笑或戲弄教宗職位”。共和黨全國委員會前主席Michael Steele直言,川普此舉反映他“不嚴肅且無能”。義大利前總理馬泰奧·倫齊(Matteo Renzi)則批評該AI圖“冒犯了信徒,侮辱了機構”,並稱川普樂於扮小丑。倫齊還在X上寫道:"與此同時,美國經濟面臨衰退風險,美元貶值。主權主義者在各地都造成了損害。"義大利的左翼報紙《共和報》也在其首頁上刊登了這張圖片,並附評論指責川普“病態的妄想症”。網友紛紛譴責川普和白宮轉載的行為:“這張照片深深地侮辱了我的天主教信仰。在此之後,我再也不會投票給川普了。”↓“誰在營運這個帳戶?無論政治觀點如何,白宮官方頁面都應該保持專業的語調。”↓“這肯定是個惡搞帳號,世界上沒有那個真正的政府會發佈這麼愚蠢的東西——說真的,如果這不是惡搞,那你的國家就完蛋了。”↓“MAGA(讓美國再次偉大)陣營的人,請給我解釋解釋,這個所謂‘有信仰的人’為什麼徹頭徹尾地嘲弄那些虔誠的信徒?而且,那該死的白宮帳號還轉發了,所帶來的羞恥感簡直令人無法容忍。”↓保守派評論員克里斯托爾(Bill Kristol)在X上寫道,“嘿,范斯,你對這種對聖父的不尊重和嘲笑沒什麼意見嗎?”身為天主教徒的副總統范斯卻輕描淡寫地稱:“這不過是個笑話,沒有問題。"范斯說:“一般來說,我可以接受人們講笑話,但不能接受人們發動愚蠢的戰爭,殺死我成千上萬的同胞。”白宮發言人萊維特(Karoline Leavitt)回應外界批評時表示,總統曾親赴義大利出席葬禮,並一直是天主教及宗教自由的堅定擁護者,否認此舉是對教宗制度的不敬。03 川普否認據紐約時報報導,在該圖片引發宗教界及網友強烈不滿後,川普突然和白宮“翻臉”,稱“白宮發出的這張AI圖和我無關,我跟這件事沒關係”。川普在橢圓形辦公室接受提問時說:“有人生成了一張我打扮成教宗的圖片,然後把它放到網上。那不是我幹的,我不知道它從那裡來——也許是AI。但我不知道它是從那裡來的。”川普在回答有關天主教徒對他的生成AI圖感到不滿的問題時,也試圖淡化輿論的“差評如潮”。川普說:“你(記者)指的不是天主教徒,而是假新聞媒體。天主教徒喜歡它。”雖然川普堅稱他不知道自己打扮成教宗的AI圖存在,但這張圖片是由白宮在官方社交平台帳號和他自己的“真實社交”(Truth Social)帳戶發佈的。據悉,川普不是天主教徒,但他的妻子梅拉尼婭(Melania Trump)是羅馬天主教徒,梅拉尼婭顯然很喜歡川普打扮成教宗的形象。“其實,我妻子覺得這很可愛,她說這難道不好嗎?”川普稱,”事實上,如果我是教皇的話,我就不能結婚了。”川普日前出席了教宗方濟各的葬禮,他曾在白宮向記者開玩笑說,自己想當教宗。美國天主教徒約佔全國人口20%。根據2024年總統大選後出口民調,約六成天主教選民支援川普。不過,他與教皇方濟各之間的關係歷來緊張。2016年競選期間,方濟各曾明確批評川普主張在美墨邊境築牆,稱:“任何只想著建牆、不願搭橋的人,不論是誰,都不能算是基督徒。”今年2月,川普也曾在社交媒體發佈自己穿皇袍、戴皇冠的圖片,更自詡“國王”,“擁堵收費已死,曼哈頓和整個紐約都得救了,國王萬歲!”白宮官方X帳號也轉發吹捧,還發佈模仿《時代》雜誌封面的合成圖,配文“國王萬歲”。許多美國網友也認為,川普自詡“國王”很不恰當。有美國國會議員對此表示,“我們沒有國王!” (香港商報)
OpenAI新文生圖模型:AI繪圖進入“零門檻”時代
在人工智慧的浪潮中,每一次技術的突破都可能引發行業的巨震。2025年3月25日,OpenAI發佈了一款全新的文生圖模型,整合於GPT-4o與Sora平台,支援免費使用者使用,並開放企業版、教育版及API介面。這一事件不僅是AI繪圖領域的一次重大突破,更是對整個創意設計行業的一次“顛覆性時刻”。技術亮點方面,該模型的圖像生成速度僅需15秒,支援自訂操作、連續提問、風格轉換及“圖像PPT”等實用功能,其逼真度媲美頭部平台Midjourney這一模型的發佈,不但大幅地降低了,AI繪圖的門檻,而且還為創意設計,帶來了全新的可能性。為何這一模型會引發如此大的震動?首先技術普惠是關鍵。免費開放策略使得普通使用者也能生成專業級圖像,極大地降低了AI繪圖的門檻。其次多模態融合是該模型的核心優勢。結合文字、音訊圖像等多維度輸入,實現“對話式創作”,使用者可以通過簡單的對話指令,生成複雜的圖像。技術場景與爭議的三維解析(一)技術突破非自回歸生成技術傳統的自回歸模型,逐像素地生成圖像,速度較為緩慢,而且容易累積錯誤。不過OpenAI的新模型,採用了非自回歸生成技術,能夠直接生成完整的圖像,速度提升了3倍以上,其細節的一致性也顯著地增強了。這一技術突破,使得AI繪圖的速度以及質量,都得到了質的飛躍。多模態融合能力該模型支援跨模態輸入,使用者可以通過文字、音訊參考圖像聯合輸入生成新圖像。例如結合音訊描述與圖片風格創作,使用者可以輕鬆生成符合需求的圖像。除此之外,連續對話最佳化功能,允許使用者通過多次提問,細化圖像細節,例如“放大手部骨骼特寫”,這樣的話,極大地提升了創作的靈活性,並且提升了創作的精準度。精準文字遵循在複雜場景還原能力方面,該模型表現出色。測試案例中,對“甜品世界”等超現實場景的細節還原度達90%以上。這表明在創意設計領域的以及商業行銷方面的,該模型都可提供高品質圖像生成的解決方案。它為各個領域帶來了高效的助力,輕鬆地且愉快地,功能清晰地直接。並且它在兩個領域中都能發揮關鍵的作用,著實令人讚嘆。(二)應用場景教育領域在教育領域,該模型可以作為動態教學工具,生成牛頓定律、人體結構等教學圖像PPT,替代傳統圖文排版。這種創新的教學方式,不但能夠提升,學生的學習興趣,而且還能提高教學效率。醫療與科研在醫療與科研領域,該模型可以生成高精度醫學圖像,輔助醫生教學與患者溝通。比如通過生成人體解剖圖這種方式,接下來呢,醫生就能更加清楚地給患者講解病情啦。這樣的話,就能夠提升醫患溝通的成效咯。提示詞:用一張圖片介紹人體各個結構創意設計對於創意設計行業,該模型提供了個性化的創作體驗。使用者輸入“復古書房拼貼詩”等抽象描述,AI可以生成兼具藝術性與邏輯性的視覺作品這種能力,不但能夠引發設計師的靈感;而且還能給普通使用者給予創作的可能性。商業行銷在商業行銷領域,該模型可以快速生成商品場景圖,電商企業可以利用這一功能,將商品展示得更加生動和吸引人,成本降低90%。這不但提升了行銷的效率,而且還給企業帶來了更突出的經濟效益。(三)行業衝擊對Midjourney等平台的威脅:OpenAI的免費策略直接衝擊了Midjourney的訂閱制商業模式通過向C端使用者開放,OpenAI不僅吸引了大量使用者,還為開發者提供了更強大的工具,這對Midjourney等競爭對手構成了巨大的壓力。設計師職業爭議:AI繪圖的普及引發了設計師職業的爭議。一方面基礎設計工作(如Banner、PPT配圖)可能逐步被AI替代。另一方面,設計師可以轉向創意策劃與AI調校,聚焦高階審美與場景定義。這一轉變,不但帶來了效率的革命,與此同時也為設計師帶來了新的機遇。倫理與安全風險:AI繪圖獲得了廣泛的傳播,不過此情況也給倫理與安全埋下了隱患。該模型或許會生成帶有暴力且存有偏見的畫面,所以這不僅需要使用者自身自覺地去約束自我,還需要平台展開嚴格的內容審查,以此來妥善應對潛在的問題。除此之外,AI生成的圖像,其版權歸屬並非清晰明了;而且或許會誘發法律範疇內的糾紛。這些問題,需要行業以及政策制定者共同去面對,並且加以解決。總結在短期內,開發者將通過API將模型整合至設計軟體、教育平台,形成工具鏈閉環這個時候OpenAI計畫最佳化中文提示支援,解決生成文字模糊問題這一趨勢,將進一步,推動AI繪圖技術的普及和應用。從長期來看,AI繪圖將結合ARVR技術,實現“所想即所見”的沉浸式創作體驗。未來AI將負責執行,人類將聚焦於創意,重塑藝術生產鏈條這一願景,不但將提升創作的效率,而且將激發更為豐富的創意和創新。對於創作者來說,學習“AI提示詞工程”,掌握跨模態輸入技巧,是應對AI繪圖時代的重要策略對於企業來說,探索AI繪圖在行銷、培訓等場景的降本增效潛力,將為企業帶來更大的競爭優勢。總之OpenAI的新文生圖模型,不但意味著AI繪圖踏入了“幾乎無需門檻”的時代而且給整個創意設計行業帶去了嶄新的機遇與挑戰。在往後伴隨技術持續地發展,還有應用不停地拓展,AI繪圖將會給人類社會帶來更為繁多的驚喜與變革。 (不掉髮的小呆呆)