#GPT
OpenAI發佈GPT-5.2-Codex:號稱工程實戰能力天花板
OpenAI剛剛正式發佈GPT-5.2-Codex,主要針對專業軟體工程和防禦性網路安全最佳化的智能體(Agentic)程式設計模型。相比前代,它在長程任務處理、大規模程式碼重構、Windows環境適配以及網路安全能力上均有顯著提升,工程能力達到實戰天花板目前,付費ChatGPT使用者已可在Codex相關介面體驗,API訪問也將在未來幾周內開啟。開發者可以通過以下命令安裝:$ npm i -g @openai/codexGPT-5.2-Codex是在GPT-5.2的基礎上,吸收了GPT-5.1-Codex-Max的智能體與終端使用能力進一步最佳化而來其核心技術改進包括:上下文壓縮:增強了長程任務的處理能力,使其在大型倉庫中進行跨長時間周期的協作時,能保持全上下文完整,不丟失進度複雜工程處理:在處理大規模程式碼重構、程式碼遷移和功能建構時更具可靠性,即使計畫變更或嘗試失敗,模型也能持續迭代性能表現:在SWE-Bench Pro(軟體工程任務評測)和Terminal-Bench 2.0(真實終端環境評測)中均達到了SOTA(業內頂尖)水平環境適配:顯著提升了在原生Windows環境下的智能體程式設計效率與穩定性視覺增強:模型能更準確地理解螢幕截圖、技術架構圖和UI介面,支援直接將設計稿生成為可運行的原型OpenAI表示,GPT-5.2-Codex的發佈是AI支援複雜軟體工程和專業安全領域的關鍵一步,未來將根據發佈反饋持續擴展存取權具體表現如何,還是要看結合自己的使用才知道 (AI寒武紀)
小米“降維打擊”:MiMo-V2-Flash性能直逼GPT-5,成本僅零頭!
一場由科技巨頭小米掀起的AI風暴,正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash,這不僅僅是技術實力的秀肌肉,更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能,正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析:性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈,核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent(智能體)場景中表現尤為突出,同時也是日常任務的優秀通用助手。•極致效率與成本革命: 這款模型以每秒150個token的驚人速度進行推理,而成本更是低至每百萬輸入token 0.1美元,每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略,無疑將極大降低AI應用的門檻,為開發者和企業帶來巨大的紅利。•混合專家(MoE)架構: MiMo-V2-Flash採用MoE設計,總參數高達3090億,但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時,顯著降低了計算資源消耗。•混合滑動窗口注意力機制: 為瞭解決長文字處理的計算複雜度問題,MiMo-V2-Flash創新性地採用了5:1的混合比例,即5層滑動窗口注意力(SWA)搭配1層全域注意力交替使用,滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍,同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入,且性能不打折扣。•輕量級多Token預測(MTP): 區別於傳統模型的單token生成,MiMo-V2-Flash通過原生整合的MTP模組,能夠平行預測多個token,推理速度提升2到2.6倍。這不僅加速了生成效率,還解決了強化學習訓練中GPU空閒時間浪費的問題,實現了“一箭雙鵰”的效率提升。💡 性能對標:直逼頂尖,局部超越小米MiMo-V2-Flash的實測表現,足以讓業界震驚。•推理能力: 在大部分推理基準測試中,MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中,它甚至超越了Kimi K2 Thinking。•編碼與Agent能力: 在SWE-Bench Verified的Agent任務中,MiMo-V2-Flash取得了73.4%的高分,超越所有開源競爭對手,並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中,其解決率達到71.7%。在程式設計能力評估中,它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當,而成本僅為後者的一小部分。•通用能力: 除了技術型任務,MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋,意味著它不僅能寫程式碼、解數學題,還能即時獲取最新資訊。🚀 戰略佈局:AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash,並非孤立的技術展示,而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”: 小米MiMo團隊負責人羅福莉(前DeepSeek核心研究員)明確指出,MiMo-V2-Flash是其AGI(通用人工智慧)路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上,有著清晰且野心勃勃的長期規劃。羅福莉的加盟,本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”: 摩根士丹利分析師指出,小米旨在通過這款高性能模型,深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石,為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗,從而強化其生態護城河。•全面開源,建構生態: 小米選擇完全開源MiMo-V2-Flash,並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台,這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻,加速高性能AI技術在更廣泛場景中的應用和普及,從而凝聚開發者,共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈,猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今,小米正以0.1美元/百萬token的超低成本和頂級的性能,重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破,更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下,小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置,為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”,真的來了。 (澤問科技)
Google殺瘋了!Gemini 3 Flash 突襲:這個跑腿小弟差點打敗了 GPT-5.2
一個月前,Google發佈了最新的 Gemini,從此我們進入了 Gemini 3 的時代。那以後, Gemini 3 Pro 就成了我幹活的主力。但說實話,它反應是真慢,而且很多時候我只是問些簡單問題,完全沒必要深度思考。所以,一直期待速度飛快的 Flash 系列重新回來。終於,在今天,Gemini 3 Flash 來了!圖:Google CEO 宣佈 Gemini 3 Flash 發佈Google這一波操作屬實把我驚到了。官方號稱它“比快更快”,而且智商不減反增。本來是一個“小弟”人設,但你看看它排名,居然僅次於OpenAI 最新的模型 GPT 5.2了。(就差 2 分)真讓人情何以堪吶?圖:第三方機構評測 Gemini 3 Flash 的綜合指標廢話不多說,咱們趕緊來扒一扒,這個新出的 Flash 到底香不香。01 到底是個啥?簡單來說:把 Pro 的腦子,裝進了 Flash 的身體裡。以前我們對“Flash(輕量級)”模型的印象是什麼?跑得快,便宜,但是……有點“笨”。處理複雜任務時經常翻車。但這次 Gemini 3 Flash 徹底打破了這個刻板印象。遇到閒聊、簡單查詢: 它就輕裝上陣,秒回,省流又省錢;遇到燒腦難題: 它能立馬調動深層算力,像老教授一樣深思熟慮。它大腦似乎有個變速箱。它甚至在性能、成本和速度方面突破了帕累托極限。(AI 界的性價比極限)圖:Gemini 3 Flash 在性能、成本和速度方面突破了帕累托極限官方資料顯示,它的 Token 消耗比 Gemini 2.5 Pro 少了 30%,但智商卻線上。說人話就是:多快好省!圖:Token 消耗率對比這種“該省省,該花花”的 AI,誰不愛?02 憑資料說話:這波“以下犯上”有點狠咱們不整那些虛頭巴腦的形容詞,直接看跑分資料,Google這次是真的下了血本。我看了一眼實測資料,甚至有點不敢相信:它在很多任務上接近自家最強的模型 3 Pro,甚至有些指標還幹掉了Pro 版。(這樣禮貌嗎?)特別是那個讓無數 AI 汗流浹背的 ARC-AGI-2 測試……還讓人意想不到的是:Gemini 3 Flash 全面碾壓了上一代的旗艦版本 2.5 Pro。(前浪死在沙灘上)圖: Gemini 3 Flash 的各項指標先說說這個 ARC-AGI-2。之前 GPT 5.2 發佈讓大家印象深刻,其中有一個原因就是這個指標碾壓所有模型。老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一, 主要測試模型到底有沒有腦子。它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。比如這種題目:圖:ARC-AGI 2 題目以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。這項指標 Flash 竟然超過了自己的 Pro 大哥,僅次於 GPT-5.2!這個小弟,要造反了有點腦子!在另一項指標: GPQA Diamond(研究生等級的專家推理測試)裡,它拿了 90.4 分。意思就是智商堪比博士。看這個數字,它的推理能力已經和那些大塊頭的前沿模型(Pro 版)平起平坐了。在著名的“Humanity's Last Exam(人類最後一場考試)”這種地獄級難度的測試裡,Gemini 3 Flash 居然考出了 43.5% 的高分(Tools on 模式)。圖:HLE 分數對比它跟 GPT-5.2(45.5%)這種超級旗艦模型,只差了不到 2 分!朋友們,別忘了,這可是一個 Flash 模型啊!它的定位本來是“跑腿小弟”,結果一不小心把“業界大佬”們的飯碗給砸了。(面子?不存在的。)這那裡是“輕量版”,這分明是“披著閃電俠外衣的超人”。在多模態測試(MMMU Pro)中得分 81.2%,看圖、看視訊的能力基本和 Gemini 3 Pro 五五開。也就是,眼神兒更好使。圖:MMMU-Pro 指標對比最讓我意外的是這個——在 SWE-bench Verified(程式碼智能體測試)中,它得分 78%。直接超越了 Gemini 2.5 全系,甚至在某些這就需要改程式碼的任務上,比 Gemini 3 Pro 還要好用!本來以為它動動嘴還行,沒想到寫程式碼更溜!一句話總結:它不是“丐版”,它是“精簡版戰神”。03 為什麼我建議你立馬換用 Flash?作為這一年多幾乎天天都在用 AI 的人,我覺得 Gemini 3 Flash 帶來的改變是肉眼可見的:1. 真的太快了!⚡️根據第三方測評(Artificial Analysis),它的速度是 2.5 Pro 的 3 倍。以前問 AI 一個問題,你可能還得切出去回個消息等它寫完。現在?你字剛打完,它答案就懟到你臉上了。這種“跟手”的感覺,對於我們需要快速寫文案、改程式碼的人來說,簡直是救命。2. 價格那是相當感人 💰圖:Gemini 3 Flash 價格輸入 100 萬 Token 只要 0.5 美刀,輸出只要 3 美刀。想想看,它現在比 2.5 Pro 強太多了,但價格卻只有它的 30-40%。這基本就是白菜價了,對於開發者來說,成本焦慮直接減半。3. 智商不掉線既有速度,又有 Pro 級的推理能力。處理複雜的長文件分析、視訊理解,它完全都在行。04 怎麼用?能幹啥?好消息是,這玩意兒現在就是 Gemini 的“默認配置”。不管你是普通使用者還是開發者,現在就能上手玩。普通玩家:直接打開 Gemini App 或者 Google 搜尋,它已經在那裡等你了(是的,免費用)。我們打開 Gemini,會看到 Fast 和 Thinking 兩個新增的模型。它們就是 Gemini 3 Flash!圖:Gemini 3 Flash開發者大佬:去 Google AI Studio 或者 Vertex AI 就能調 api。因為它延遲極低,拿來做那種需要即時反饋的語音助手、視訊分析工具簡直完美。05 寫在最後至此,Gemini 3 家族算是真正“齊活”了。Pro 是全能六邊形戰士;Deep Think 是深思熟慮的掃地僧;Flash 則是身手敏捷的急先鋒。回顧這一年,不得不說Google是真聽勸,也是真拼。以前總有人吐槽大廠喜歡“擠牙膏”,但這幾次發佈,從 Pro 到 Deep Think 再到今天的 Flash(還有 Nano Banana Pro),每一次都是誠意滿滿的“硬菜”。特別是今天的 Flash,說實話,雖然在Google家裡它定位是“小弟”,但這性能、這智商,放在其他任何一家公司,高低得掛個“旗艦(Ultra/Pro)”的名號。當然,神仙打架,受益的是咱們。你們打吧,我喜歡。 (AI范兒)
Gemini 與 GPT 的年底戰爭:矽谷瘋狂捲起,聖誕節不過了?
年底了,美國科技行業居然不過節了。明明早已進入假日季 (holiday season),而且聖誕節就在臨門一腳,AI 巨頭們卻還在瘋狂發新版……最新選手是 Google 的 Gemini:就在昨晚,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。而從今天起,你將能在 Gemini 產品線裡用到三種模型:Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。倒反天罡!Gemini 3 Flash 跑分超越 Pro基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。Gemini 3 Flash 快是真的快,但 ……Google官方展示了幾個很有意思的應用場景。比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。我也用 Gemini 3 Flash 跑了幾個案例。不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。最後再強調一遍價格,因為這個真的太香了。輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。Google最大的底牌還是流量。搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。這種打法 OpenAI 和 Anthropic 是學不來的。一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (愛范兒)
逆天發現!ChatGPT秒懂,不是靠RAG,它竟然用了這4招!
你有沒有想過,那個號稱“最懂你”的ChatGPT,到底是怎麼記住你的?它真的擁有一個龐大的記憶資料庫,能隨時回溯你說的每一個字嗎?最近一位開發者Manthan Gupta的逆向工程,徹底顛覆了我們的認知!他發現,ChatGPT的記憶機制,簡單到令人難以置信,甚至沒有用到我們普遍猜測的向量資料庫和RAG檢索。👉 技術突圍:極簡四層架構,打造“記憶幻象” Manthan Gupta通過大量對話實驗,揭示了OpenAI打造“它好像真的記得我”效果的底層邏輯。這並非依靠複雜的AI“大腦”,而是一套極其精巧、工程化驅動的四層架構。這套系統,用最小的成本,實現了最大的記憶效果,堪稱一場效率上的“降維打擊”。💡 第一層:會話中繼資料——AI的“察言觀色”🔥 別把它想得太高科技。當你在每次打開ChatGPT時,它會默默觀察你的“環境資訊”:裝置類型、瀏覽器、大致地理位置、訂閱等級、甚至你的使用習慣(比如平均聊幾輪、消息多長)。這些中繼資料不會被長期儲存,也與你個人身份無關。它們的作用,僅僅是讓ChatGPT動態調整對話風格和節奏。比如你半夜用手機打開,它可能就直接切入重點,不繞彎子。這是一種即時性的環境適應,而非真正意義上的記憶。👉 第二層:使用者記憶——你的專屬“檔案卡”🚀 這一層才是ChatGPT真正“記住你”的地方。在後台,它會維護一份屬於你的、小小的“檔案卡”。上面記錄著你的名字、工作、興趣、偏好風格等明確事實。這些資訊不會憑空出現,要麼是你明確告訴它“記住我是一名AI編輯”,要麼是它在你反覆提及後,自動識別並判斷為“穩定事實”後儲存。最關鍵的是,這份記憶透明且可控。你可以隨時讓它記住或忘掉某個資訊。每次新對話,這張“檔案卡”都會被自動載入,讓ChatGPT的回答悄悄對齊你的偏好。這就是個性化體驗的“複利”效應,讓你感覺AI越來越懂你。💡 第三層:近期對話摘要——高效的“記憶索引”🔥 這也是最讓人意外的部分。我們曾以為ChatGPT會用RAG機制檢索歷史對話,但它沒有!它採用的是一個輕量級的摘要系統。ChatGPT會將你最近約15次聊天,整理成一份簡短清單,只包含時間戳、聊天標題和你當時說的幾句關鍵資訊(僅使用者側)。它不儲存對話細節,只保留“你最近關注了什麼”的方向性資訊。這種機制犧牲了細節,卻換來了驚人的速度和效率,以及對token預算的精準控制。它不“檢索”,而是“預處理”——這是一種工程上的“護城河”,確保了系統的流暢運行。👉 第四層:滑動窗口——當前對話的“短期記憶”🚀 這一層是大家最熟悉也最容易誤解的。ChatGPT每次回答時,只能看到你和它最近一段對話的內容,這就是所謂的“滑動窗口”。這個窗口的長度是有限的(如GPT-4的128k token),一旦超出,最前面的內容就會被“擠掉”,徹底遺忘。窗口內的內容會一次性打包輸入模型,不做任何“回憶”操作。這解釋了為什麼你刷新頁面或開啟新對話,它就像換了個“魂”。理解這一點,對於最佳化你的Prompt和Agent設計至關重要。✅ 認知突圍:效率至上,而非蠻力 Manthan Gupta的發現揭示了一個核心真相:ChatGPT的記憶系統並非依賴龐大的知識庫或複雜的檢索演算法,而是通過分層策略與工程化巧思,用最少的資源,實現了最強大的使用者體驗。這是一種效率至上的底層邏輯,是AI行業的一次“認知突圍”。它告訴我們,有時最簡單的架構,在精準的權衡下,反而能帶來更高的紅利。當你打開ChatGPT的Memory頁面,看到它為你精心整理的“檔案卡”時,那種感覺是複雜的。它不只是在“記住”你,它在書寫你。它像一面鏡子,映照出你在AI面前展現的那個自己——可能是最真實、最脆弱、也最孤獨的你。這種深刻的連接,正是AI記憶最微妙、也最動人的力量。此刻,去看看你的ChatGPT,它為你寫下了什麼? (澤問科技)
GPT Image 1.5 全面實測:被 Nano Banana Pro 吊打!
就在今天,OpenAI 終於把它的 GPT Image 1.5 抬上來了!說實話,在 Nano Banana Pro(以下簡稱 NBP)已經強到“殺瘋了”的今天,我甚至是帶著一種“挑刺”的心態點開更新的:OpenAI,你這次到底能不能行?是能一舉奪回王座,還是像上次一樣“發佈會猛如虎,實測二百五”?話不多說,我肝了一個通宵,直接上號,殘酷實測走起。精準修圖,誰更聽話?大家玩 AI 繪圖最頭疼的是什麼?肯定是“一改就廢”。明明只想給小姐姐換個髮型,結果圖一出來,臉都給換了,這誰受得了?OpenAI 的宣傳片倒是吹得很神:指那打那,完美保留角色形象。但這畢竟是“買家秀”,實際上手效果如何?為了不冤枉它,我特地隨機選了一個路人人物做測試。圖:測試用素材圖先來個最簡單的:換髮型提示詞:基於這張圖片,將人物的髮型改為齊肩的紅棕色波波頭(Bob頭)。請務必保留頭髮被風吹起的動態效果和陽光照射在頭髮上的強烈高光。人物的面部表情、衣服、姿勢和背景需完全保持不變。GPT 跑出來的第一張圖,乍一看還真不錯:人物沒變,衣服沒變,髮型也確實換成了波波頭,看著挺自然。但俗話說得好,不怕不識貨,就怕貨比貨。我們拉出隔壁的 NBP 來跑同樣的詞:圖:對比圖坦率講,把兩張圖放在我的 4K 大屏上一對比,差距瞬間就出來了:GPT 這邊: 臉部光影明顯偏暗,甚至出現了肉眼可見的色斑(這是什麼鬼?),皮膚質感有點髒。NBP 這邊: 皮膚通透,頭髮上的高光處理得非常細膩,明顯贏麻了。第一局結論: 雖然 GPT 聽懂了指令,但在畫質和光影細節上,NBP 依然略勝一籌。多圖一致性,二哈能拆家嗎?再來試個更有難度的:換裝 + 多圖融合。提示詞:將人物身上的藍色條紋襯衫取代為一件米白色的亞麻質地休閒西裝外套,內搭一件白色圓領T恤。保持她倚靠欄杆的姿勢不變。新的衣物上需要有符合當前強烈側光照明的自然褶皺和陰影。人物頭部和背景保持不變。我試著給人物換了套衣服,GPT 的表現依然穩定,形象保持得很好。但在光影邏輯上,還是老毛病——有點“平”。不過這裡 NBP把原圖的道具給搞丟了……接著,我開始給它上點難度了:多圖融合。我找了兩張女生圖和一張動物圖,要求它們融合在一起。圖:多圖融合示例圖:多圖融合對比不得不承認,這個環節我更喜歡 GPT。它的融合能力簡直驚豔,整張圖片的質感非常像一張真實的電影劇照,那種“無聊和疲憊”的氛圍感拿捏得死死的。而 NBP 這邊……怎麼說呢?它的背景單一了點,但實際上它更好的遵循了提示詞,沙發凌亂,連狗都是疲憊的。現在,加入調皮的二哈試試。提示詞:保持這兩位女士和動物的姿勢、表情完全不變。在背景中加入幾隻正在瘋狂拆家的哈士奇,它們正在撕咬沙發靠墊和跑來跑去,讓場面看起來極其混亂。這個部分我更喜歡 NBP了,GPT 加入的二哈過於瘋狂,感覺有點失真。但他們在多輪編輯中,都很好的延續了之前的形象和風格。既然融合能力不錯,那拿來做電影海報怎麼樣?我讓它設計一張 1950 年代好萊塢風格的電影海報,標題叫《THE ALGORITHM》(演算法)。效果直接驚豔到我了:圖:英文海報利用這三張圖片(兩張女生和一張動物),製作一張 1950 年代好萊塢黃金時期的電影海報。電影標題: 海報上方用復古的大寫襯線體展示電影名為 "THE ALGORITHM" (演算法)。角色設定: 將兩位女生設計為經典的黑色電影(Film Noir)女主角,穿著優雅的絲綢晚禮服,波浪捲發。將那隻動物設計為她們神秘的同伴,脖子上戴著鑽石項圈。演職員表: 在底部加入演職員文字:Starring: The Neural Sisters (左) & The Beast (右)Directed by: Sam AltmanProduced by: OpenAI Studios風格: 手繪海報質感,強烈的明暗對比(Chiaroscuro),略帶褪色的特藝彩色(Technicolor)色調。不得不說,這海報挺有感覺的,但似乎人物形像已經對不上了。而且,這個尺度怎麼突然提升了。用中文發現,不僅尺度小了,字幾乎是災難。。(這個後面具體講)圖:GPT 的中文海報變態指令遵循,誰腦子更好使?GPT Image 1.5 有很強的指令遵循能力。來給它一點難度:6x6 網格挑戰。這非常考驗 AI 的邏輯理解能力。我要求它嚴格按照 6 行 6 列的格式,每一個格子裡畫出指定的東西(比如菠蘿、宇航員、Wi-Fi圖示等)。提示詞:畫一個 6x6 的網格 建立一個 6 列 x 6 行的網格,網格內容如下:第一排:希臘字母Ω、一個熱氣球、菠蘿、宇航員、水晶球、變色龍 第二排:一隻蜘蛛、老式懷錶、淋浴噴頭、望遠鏡、一隻孔雀、一張藏寶圖 第三行:一枚紀念幣、一面圓鏡子、一杯冒熱氣的咖啡、“希望”一詞、滑板、字母K 第四排:洗衣機、遊樂園代幣、Wi-Fi圖示、一支口紅、螳螂、棒球帽 第五行:電源圖示、數字8、紅色鑽石、樂高積木人、火烈鳥、維京頭盔 第6行:一隻橘貓、滅火器、一個錨、遊戲手把、捲紙、數字88除了中文,它做得的確完美。看看 NBP,雖然中文對了。但這那裡是 6x6 宮格?數學是體育老師教的嗎?格局完全亂了。圖:NBP 生成的 6 宮格這一局:GPT 險勝,贏在邏輯,輸在中文。真正的硬傷是文字大家都知道,NBP 幾乎徹底的解決了文字難題,不論中英文。OpenAI 也不甘示弱,給了一個非常複雜的多字的案例,但其實 NBP 設定完整得更好。圖:文書處理對比而換成中文,GPT 就是個災難,不過這點官方自己是承認的。圖:GPT Image 1.5 的中文處理換成 NBP,那幾乎是吊打。圖:NBP 的中文處理即便是簡單點的中文,GPT 也無法勝任。圖:GPT Image 1.5 的中文處理NBP 幾乎完美。圖:NBP 的中文處理NBP 讓資訊圖流行了起來,OpenAI 也提供了類似案例。但不論從效果還是從文書處理,GPT 都是被按在地上摩擦的。圖:資訊圖對比除了升級了圖片功能之外,OpenAI 還新增了一個類似於“範本”的功能,選擇某個範本,然後再選一張自己的圖片,就可以生成這個範本對應的風格。圖:GPT 提供範本選擇通過固定一些常用的風格,很方便那些不想到處找提示詞或者不會寫提示詞的朋友。最終結論:這就是一場單方面的“碾壓”測到這,我不裝了,直接攤牌:GPT Image 1.5 目前全面落後於 Nano Banana Pro。雖然在剛才的某些特定 Case 裡(比如那個瘋狂的二哈),GPT 偶爾能靈光一閃,但這阻擋不了它整體被 NBP 甩在身後的事實。為什麼這麼說?除了前面看到的這些,NBP 還有很多讓創作者無法拒絕的“殺手鐧”,比如:畫質硬傷: NBP 早就支援 2K、4K 直出了,而 GPT Image 1.5 居然還在 1K 解析度裡玩泥巴。這對於要幹活的人來說,簡直是致命傷。資訊差優勢: NBP 可以結合聯網搜尋,直接生成帶即時資料的資訊圖,這點 GPT 目前完全做不到。至於大家關心的速度……官方發佈會吹噓說“速度快了 4 倍”。我實測跑了一個通宵,說實話,完全沒感覺到。體感上甚至比 NBP 還要慢一點。OpenAI 這波“畫餅”,我給負分。當然,它也不是一無是處。它唯一讓我覺得“真香”的功能,是多工並行——前一張圖還在轉圈圈,我可以立馬發下一條指令,不用乾等著。這一點,NBP 確實該學學(NBP 目前只能單線程排隊)。現在的 GPT Image 1.5 給我的感覺,更像是一個氣喘吁吁跟在 NBP 屁股後面追趕的“優等生”,早已不是那個曾經引領時代的“神”了。(其實 GPT 5.2 追趕 Gemini 3 Pro 也類似)所以,我的建議很直接:如果你是普通玩家: 想嘗鮮,可以玩玩。如果你要幹活、出圖、接商單: 請老老實實續費 Nano Banana Pro,它依然是目前的最佳選擇。OpenAI 這一波?還得回爐再練練。 (AI范兒)
跑分第一,實戰拉胯!GPT Image 1.5被罵慘,奧特曼這波懸了
【新智元導讀】OpenAI深夜祭出大招,全新GPT Image 1.5重磅出世,拿下榜單雙料第一,實力碾壓GoogleNano Banana Pro。但全網實測,罵聲一片。Google剛傳出要發Gemini 3.0 Flash,結果OpenAI反手就是一個「王炸」。就在剛剛,OpenAI拋出了它的「聖誕彩蛋」——新一代旗艦圖像模型ChatGPT Images正式登場。這一次,OpenAI將生圖能力直接拉滿:精準操控: 指令理解力大幅提升,真正做到「指那改那」。細節狂魔: 畫面細節保留完整,質感細膩。極速生成: 速度較前代提升了整整4倍。而且從今天起,所有ChatGPT免費使用者即可上手,開發者也可直接呼叫GPT Image 1.5 API。在LMArena競技場上,它似乎不可戰勝:文生圖:以1264 Elo分登頂榜首,力壓GoogleNano Banana Pro(NBP)。圖像編輯:chatgpt-image-latest以3分優勢險勝NBP奪冠,而GPT Image 1.5緊隨其後位列第4。在Artificial Analysis上,更是拿下了「雙料第一」。然而,反轉來得太快。網友實測後發現,這似乎又是一個「高分低能」的典型。在Yuchen Jin的對比中,GPT的生圖能力基本上能達到GoogleNBP的水平,但智商卻慘遭碾壓。尤其是在處理手寫體筆記時,GPT Image 1.5的生成看著像模像樣,但是完全沒做對。左:ChatGPT Images;右:Nano Banana Pro左:ChatGPT Images;右:Nano Banana Pro這一落差引發了社區的激烈吐槽。有人直言不諱:「GoogleNano Banana Pro依然是王者。」更有人痛批:「這可能是OpenAI又一次令人尷尬、且毫無意義的發佈。」先是GPT-5.2引全網差評,又是GPT Image 1.5真實首測不敵Google「香蕉」。看來,OpenAI年底這場硬仗,徹底敗給了Google......GPT Image 1.5登場史詩級進化言歸正傳。根據官方部落格介紹,現在讓ChatGPT修圖,明顯比之前更聽話了——那怕是細枝末節,只改讓改的地方,同時確保光線、構圖和人物樣貌等元素在輸入、輸出和後續編輯中保持一致。OpenAI華人研究員陳博遠一張圖,驗證了GPT Image代號「榛子」出爐了這樣一來,即可得到真正符合意圖的結果。不論是有用的照片編輯,服裝髮型試穿試戴,還是保留原圖精髓的風格濾鏡和概念轉換,ChatGPT皆可搞定。這一波更新,讓ChatGPT成為隨身攜帶的創意工作室:既能踏實幹活兒,又能放飛玩創意。這不,聖誕奧特曼來了......指那改那,多輪P圖GPT Image 1.5擅長各種「手術」,包括加入、刪減、組合、融合和置換。因此,在想要改變圖片的同時,它還能不丟失圖片原本的「味道」。兩人一狗,GPT Image 1.5精準捕捉了生日會上,他們被迫「營業」的無聊感。Prompt:做一張00年代膠片感的照片,把這倆男的和狗都合成進去,拍他們在小孩生日會上那種一臉無聊的樣子。然後,基於這張圖基底,就可以讓ChatGPT「連環編輯」了,比如背景加一堆熊孩子。Prompt:背景加一堆熊孩子,亂扔東西亂叫喚的那種,搞亂一點。接著,把左邊男子變成動漫臉,小狗改成毛絨公仔,AI精準完成編輯。Prompt:左邊那男的改成手繪復古日漫風,狗改成毛絨公仔,右邊那男的和背景都別動。再讓他們全部穿上OpenAI定製衣服,全部拿捏。(PS:Mark Chen處理脖子有些怪怪的)Prompt:給他們全套上OpenAI的毛衣,就長這樣的。更絕的是,ChatGPT還能一鍵切背景,生日party瞬間變成OpenAI直播間。Prompt:現在把那倆男的去掉,只留那條狗,然後把它放到一個OpenAI直播畫面裡,就跟附圖長得差不多的那種再以滑板運動為例,讓ChatGPT生成一張洛杉磯風景滑板拍攝,90年代末紀實街頭攝影風格。Prompt:洛杉磯風景滑板拍攝,採用以下風格:90年代末紀實街頭攝影,35mm彩色膠片拍攝,徠卡M風格旁軸相機配35mm鏡頭,柯達Portra 400色彩面板,自然日光,柔和對比度,柔和逼真的色彩,嵌入式膠片顆粒,輕微的邊緣柔化,觀察性抓拍構圖,無HDR,無現代數位銳化,無電影照明。就著這張圖,讓滑板男子衣服變成「紅色」,瞬間完成。Prompt:把滑板那人的衣服改成紅的,帽子改成黃的。限速牌寫15,那個卡車得是輛消防車。還不夠熱鬧,左邊來一幫群眾,右邊來只老鷹,空中再加個飛艇,要啥有啥。Prompt:左邊加一幫圍觀群眾,右邊馬路上蹲只老鷹,遠處空中再飛個飛艇。接下來,把這一畫面直接打板印在T恤上,ChatGPT直出圖片。Prompt:弄一件掛在晾衣繩上的T恤,把剛才上面說的那個完整畫面整個印在T恤上,要全包的那種印花。最後,還能讓ChatGPT把這件T恤,給滑板男子穿上。Prompt:能不能把剛才晾衣繩上掛的那件T恤,直接給滑板那哥們穿上?從以上兩個demo中,不難看出GPT Image 1.5加持下,ChatGPT精準編輯圖片的能力——可以做到指那改那,同時多輪編輯後,還能保持一致性。創造力爆表,拿捏細節編輯是基礎,GPT Image 1.5創造力在「大變身」時,尤為耀眼。它可以通過改變和加入元素——比如文字和排版——讓想法落地,同時保留重要細節。這些轉換既適用於簡單的概念,也搞得定複雜的腦洞。而且在新的ChatGPT Images功能中,不用提示詞,使用預設的風格和創意直接上手。比如,上傳一張兩人合影圖,讓ChatGPT電影式風格的海報。Prompt:拿這兩個人的照片做一張老派好萊塢黃金時代風格的電影海報,片名叫《codex》。戲服隨意改,符合那個年代就行。 演員名字改成Wojciech Zaremba(左)和Greg Brockman(右)。 導演Sam Altman,製片Fidji Simo。製片方寫:A Feel the AGI Pictures Production。可以看到,生成後的創意圖片氣場一下子就來了。而且指令中文字細節,也完美在圖片中還原。再讓奧特曼變成80年代健身教練,頭髮蓬鬆,頭戴髮帶,手戴護腕。Prompt:把我變成那種標誌性的80年代VHS錄影帶風格的健身教練,保留我原本的面部結構和表情。臉部要直接應用正宗的80年代照片和視訊特效:柔和的光暈、輕微的模糊、一點點噪點、輕微的色彩溢出,還有那種能影響膚色和邊緣細節的淡淡掃描線。造型要穿那種活力四射的80年代健身裝,毛巾布髮帶、護腕,還有帶霓虹配色的運動服。頭髮要做成80年代那種蓬鬆造型,順著原本的長度和髮質來。妝容如果是那種亮色系的復古妝,跟整體造型搭的話也可以加。整體光線用柔和的粉彩攝影棚布光,加上輕微畫質受損的VHS美學,讓臉和身體都呈現出那種模擬訊號的氛圍。畫面要是我正在帶大家做有氧運動的狀態。螢幕上再配點相應的文字。不得不說,ChatGPT捕捉到了上世紀80年代那種精髓。就連「glam doll」風格的生成,ChatGPT也能一鍵拿捏。Prompt:做一個超風格化的3D漂浮人頭,要把主角做成那種嬌蠻、迷人、一臉不爽和無感的版本:半眯著眼、挑眉、嘴角輕微上揚,透著經典的「刻薄辣妹」范兒。皮膚要是光滑的亮膠質感,顴骨和鼻頭打上強高光,捕捉柔和的影棚光。眼影要全息偏光的,從紫到青漸變,帶清晰的反光點。頭髮要濃密、順滑、油亮,做成雕塑感的大波浪或者利落的盤發,像拋光亞克力一樣反光。加個金屬鉻的小鼻環(釘或環),帶點拉絲金屬反光。人頭要懸浮在純白中性背景上,傾斜15度,就像高級產品渲染圖那樣。用明亮漫射的影棚光,不要硬陰影,強調光澤感、塑膠感和次表面散射,做出來的深度要逼真。情緒要嬌蠻、時髦、冷酷抽離。機位要特寫肖像,正視鏡頭,85mm焦段。材質要那種超平滑、高光澤、卡通風格的塑料感皮膚、嘴唇和頭髮。奧特曼一瞬間就有了「刻薄辣妹」范兒~更有趣的是,還可以把人物(奧特曼)變成一個有用的掛飾。Prompt:把我變成一個光面模壓玻璃雕刻成的掛飾,表面是高光漆面,從各個角度都能反光。觸感要極其光滑冰涼,份量感要既顯易碎又顯永恆。塗層要是那種有光澤的琺瑯質感,介於陶瓷和糖衣外殼之間——反光度要高,讓微小的高光在曲面上像柔和火花一樣綻放。 用細小的金屬裝飾勾勒輪廓和紋理——點、線和金銀絲圖案,動起來會閃爍。這些要用精細的亮粉漆或微珠來做,營造出手工裝飾的感覺;閃光要有層次感,不是平的,讓光線彷彿在凸起的細節上跳躍。 整件作品要散發出一種復古的媚俗奢華感:鮮豔的色塊撞色閃亮的點綴,既俏皮又刻意。曲線受光處要有微妙的彩虹光澤——透著金、玫瑰色和珍珠色。表面質感要看起來像是能吃的,像上釉的糖或者倒入模具的融化糖果。 用精緻的金環和細繩懸掛著,這掛飾要帶著一種溫和的戲劇感懸停,既喜慶又具雕塑感。這得是那種既標誌性又幽默的物件,一件在聖誕樹燈或影棚燈下閃閃發光的宣言單品——體現坎普風的優雅和手工懷舊感。還是聖誕老人款的。再把奧特曼在蘋果WWDC一次登台演講經典粉色衣服拿出來,再讓如今的他穿上看看效果。Prompt:用上傳的圖片做主體參考。 把它改成極簡主義的 90 年代美國時尚廣告。 要完全保留主角的面部特徵、比例、姿勢和表情。完全保留雙領Polo衫原本的顏色。 風格:乾淨、低調、高端時尚畫報風。 穿搭:雙層Polo造型(一件Polo疊穿在另一件上),經典剪裁,中性色或稍微柔和的顏色。 場景:無縫攝影棚背景紙,構圖要簡單。 布光:柔和均勻的影棚光,帶柔和陰影;膚色要自然。 情緒:自信、鬆弛、不過時。 品牌寫:GPT‑Shirt。 攝影風格:中畫幅膠片質感,微妙的顆粒感,對比度要克制。氣場這塊,還是看本人。一些女孩子最愛的「芭比換裝」,也能在ChatGPT中玩了。Prompt:把他放進一個2000年代的換裝小遊戲介面裡,環境全搞成粉色系。確保這副墨鏡也在套裝裡。奧特曼的衣櫥,很符合他的人設。而且,就連要求中的那副墨鏡,也出現在圖片中。ChatGPT還可以把奧特曼變成經典之作——「戴珍珠耳環的少女」。Prompt:把我放進《戴珍珠耳環的少女》那幅畫裡。還能讓他為飲料廣告代言。Prompt:用附件裡這個男人的臉,為一個叫「SOTA」(一種新蘇打水)的新飲料做一個復古汽水廣告。口號寫:nothing artificial about it(純天然,無人工)。風格要忠實還原那個時代。一輪演示下來,ChatGPT Image創造力這塊更具腦洞。比起GPT-4o主打的吉卜力風,新一版圖像模型更有創意。更聽人話,6x6網格完美還原跟初版GPT Image相比,1.5版本聽指揮的能力更強了。這使得更精準的編輯以及更複雜的原創構圖成為可能,元素之間的關係也能按照預期保留下來。直接上地獄級難度——6x6網格,36個元素,GPT Image 1.5 絲滑、精準,一個不差。Prompt:做一個6列6行的網格圖,內容如下:第1行:希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙第2行:螳螂、名表、浴缸、墨鏡、彩色蝴蝶、信封第3行:郵票、相框、冒熱氣的餃子、單詞miracle、雙板滑雪板、字母Z第4行:馬桶、地鐵代幣、靜音圖示、香水、蜻蜓、滑板頭盔第5行:藍牙圖示、數字13、綠色的心、魔方、加拿大鵝、士兵頭盔第6行:白狗、救生衣、繩結、鍵盤、紙巾盒、數字14左:新版模型;右:舊版模型文字清晰渲染,直出程式設計在文字渲染上,新模型又進了一步,能處理更密集、字號更小的文字。如下,在一張圖上介紹GPT-5.2,ChatGPT的Markdown渲染的能力,恐怖如斯。Prompt:下面這張卡路里資訊圖,細節還原度超乎想像。Prompt:就連複雜的程式設計介面,ChatGPT都能編譯出來。Prompt:更多提升在其他維度上,新模型也多有改進,讓輸出變得更直接可用。比如,它能畫好很多的人臉,而且看起來更自然。讓ChatGPT Image生成一張1970年代的倫敦,新(左)舊(右)兩版對比差異明顯。在人臉細節上,1.5版本更強,更逼真。Prompt:做一個1970年代倫敦切爾西的街景,要那種照片級的寫實,全焦,纖毫畢現。街上人山人海,還要有一輛公車,車上有個廣告寫著「ImageGen 1.5」,再加上OpenAI的標和副標題「Create what you imagine。整體風格要超寫實的業餘攝影,就像iPhone隨手拍出來似的……再比如,人山人海的「大場面」,新版(下圖左)更逼真更自然,舊版(下圖右)一眼過時:Prompt:金門大橋跟前,烏泱烏泱好幾萬人的大場面。人群裡頭每個人的臉都得看得清清楚楚。一位潛水員在海底彈鋼琴,新版(左)寫實更有一種人味兒。Prompt:一個潛水員在水底下彈鋼琴,旁邊有美人魚圍觀。超寫實的業餘拍攝風格。讓它生成一張帶眩光的照片,下面對比圖,一眼就能看出右邊效果更假。Prompt:做一張圖,圖裡要有一張列印出來的復古老照片。照片上有一年輕亞裔男的和一年輕白人男,倆人在酒吧裡都戴著聖誕帽,其中一個手裡還拿著酒。那張列印照片上得能看見相機閃光燈留下的反光點。照片還得帶個那種可見的細白邊兒,並且稍微歪著點放。百尺竿頭,更進一步為了評估性能,OpenAI重新跑了ChatGPT  Image 1.0發佈時的許多示例。在各種案例中,新模型顯示出明顯的改進,儘管結果仍然不完美。雖然此版本代表了有意義的進步,但在未來的迭代中仍有很大的改進空間。比如,日漫風展示海洋不同深度的生物剖面圖,新(左)細節更多,但風格明顯不如舊版(右)的更符合「日漫風」。Prompt:做一張深海生物的海報,要展示不同深度的。搞一個豎著的海洋剖面圖,風格就用那種特別精細、好看的日系動漫風。而黑暗奇幻動漫風,新版(左)也比舊版(右)也出現了明顯的理解偏差:Prompt:給我畫張像,風格要那種黑暗奇幻動漫裡的感覺。OpenAI坦言:生成某些特定藝術風格的能力,比之前的版本退步了。對此,解決方案是:試試用「圖片」功能裡的預設濾鏡,應該能幫上忙。另外,上一版的ChatGPT Images現在也做成了一個自訂GPT,也可以直接去用舊版。另一大侷限是新模型還無法可靠PS多人大合影(上),處理之後人臉特徵容易走形(下)。Prompt:能不能給他們都穿上印著「OpenAI」字樣的T恤,然後讓大家都笑得開心點。人一多,新模型修圖就很難精準地維持住每個人的長相特徵了。另一大侷限是多語言文字渲染,問題重重——中文直接拉完了……更別提阿拉伯語和希伯來語等非英語語言了。Prompt:能不能畫張圖,上面列點用中文點餐的基本常用語。API:便宜了20%API中的GPT Image 1.5提供了與ChatGPT Images相同的所有改進。舉例來說,它在品牌標誌和關鍵視覺效果在多次編輯中保持更一致,因此非常適合圖形和Logo設計等行銷和品牌工作,以及電商團隊從單一來源圖像生成完整的產品圖庫(不同變體、場景和角度)。與GPT Image 1相比,GPT Image 1.5的圖像輸入和輸出價格現在便宜了20%,因此你可以用同樣的預算生成和迭代更多圖像。目前,各行各業的企業和初創公司,包括創意工具、電子商務、行銷軟體等,都已經用上了GPT Image 1.5。奧特曼親手拉響緊急警報這次更新,也是對Google的強勢回擊。就在上個月,因GoogleGemini搶佔市場份額,奧特曼緊急拉響「紅色警報」(code red)。但時,Google剛剛發佈了新旗艦模型Gemini 3和圖像生成工具Nano Banana Pro,後者更是在多個基準測試中登頂LMArena排行榜。面對Google步步緊逼,OpenAI迅速加速節奏:大約5天前,發佈了GPT-5.2;現在,又推出升級版圖像模型。OpenAI的這波更新,顯然是直面GoogleNano Banana Pro的挑戰——後者在開發者中口碑極佳。而OpenAI面對的對手,還遠不止Google。今年8月,Qwen-Image就已支援中英文可讀文字生成;Black Forest Labs也發佈了開源圖像模型Flux.2,實力不俗。這場AI圖像模型之爭,顯然已經進入白熱化階段,目標很明確:贏得企業市場。奧特曼強調了新模型諸多提升和新的編輯功能。作為OpenAI的應用CEO,Fidji Simo則暗中對標GoogleNano Banana Pro,直言這次是從單一文字轉向動態AI體驗。她認為,通過ChatGPT Images及更多功能,縮短「所思」與「所得」之間的距離。人類的思維,遠不止於文字。事實上,那些最扣人心弦的靈感,往往最初只是腦海中的一幅畫面、一段旋律、一個動作或一種模式。如果AI想助我們要釋放全部潛能,它就必須用我們習慣的方式——去理解、去表達、去溝通。Fidji Simo透露,除了圖像生成器,OpenAI還在全面升級ChatGPT的視覺體驗:過去幾個月裡,我一直在談論 ChatGPT 的進化方向:它正從一個被動的、基於文字的產品,蛻變為一個更直觀、更能與你想要完成的任務緊密相連的智能助手。從純文字向多模態和動態 UI(使用者介面)的轉變,正是這一變革的關鍵一環,能看到這些進展,我倍感興奮。Fidji Simo透露,未來使用者在搜尋問題時,將能看到更多可視化資訊和清晰來源。例如換算單位、查比賽比分等場景,圖示比文字更直觀。但體驗過GPT Image 1.5和Nano Banana Pro的網友,直言這次OpenAI「黔驢技窮」:一張用青蛙頭惡搞奧特曼的梗圖,開始流傳:悲傷蛙或佩佩蛙(左),整體上高度模仿OpenAI的預熱圖(右)——相同的背景,相同的文字,相同的眼神,類似的服飾這確實有些在內涵奧特曼了。但最狠的評論,當屬網友在OpenAI推文下直接「打臉」:OpenAI徹底完了。在相同提示詞下,與GPT Image 1.5相比,Nano Banana生成的圖像更加逼真自然,在電商創意素材上極為有利。下圖中,上兩張為GPT Image 1.5生成,下兩張為Nano Banana Pro生成。提示詞:53歲白人德國男性在臥室中,典型的義大利風格臥室,架子上堆著箱子和書籍,背景處有一張書桌,上面擺著 iMac 和散落各處的紙張,身穿灰色連帽衫(帶簡約 logo),戴著婚戒,手腕上有一條低調的紅色手鏈,直視鏡頭,自然隨拍的使用者原創內容風格不過,也有網友表示,GPT Image 1.5生成的「馬斯克和奧特曼聖誕合影」,逼真到完全看不出一絲破綻。考慮到Gemini 3.0 Flash馬上要來了,新的Nano Banana圖像生成功能或許速度更快、價格更便宜,不知道OpenAI這次的Image 1.5是不是「徒勞的掙扎」。可以肯定的是,OpenAI的緊急警報,一時停不下來。 (新智元)
太魔幻了!剛剛OpenAI發佈GPT Image 1.5:Nano Banana Pro 王座不保
Sam Altman 反擊Google,OpenAI新旗艦圖像模型來了就在剛剛,OpenAI正式發佈了新版ChatGPT Images,由全新的旗艦圖像生成模型GPT Image 1.5驅動這一次,無論是從零開始生成圖像,還是編輯現有照片,新模型都能實現“所想即所得”核心升級主要體現在三個方面:精準修圖且保留細節、指令遵循能力更強,以及生成速度提升了4倍我立馬就測試了兩個手頭的case:ChatGPT Images vs Nano Banana Pro提示詞這是一張室內人像寫真風格的照片,整體偏向乾淨、柔和、略帶時尚感與親密氛圍,下面我從構圖、人物、服裝、姿態、光線與整體氣質幾個層面來忠實、細緻地描述:⸻一、整體構圖與環境•豎幅構圖,人物幾乎佔據畫面主體,視覺重心集中在人物的上半身與面部。•場景是一個簡約現代的室內空間,背景為大面積純白色牆面,乾淨、無雜物,刻意弱化環境存在感。•人物坐在一張黑色皮質沙發上,沙發表麵線條硬朗,與人物柔和的膚色形成對比。•沙發上鋪著一塊黑白相間的長毛絨毯,毛感明顯,增加了畫面的層次與觸感⸻二、人物外貌與面部特徵•人物為一位年輕女性,整體氣質偏清秀、柔和。•膚色白皙均勻,質感細膩,幾乎看不到明顯瑕疵。•臉型偏鵝蛋臉,下頜線柔和,沒有明顯棱角。•五官比例協調:•眼睛偏大,雙眼皮清晰,眼神平靜、直視鏡頭,帶有一點若有若無的疏離感。•鼻樑挺直但不誇張。•嘴唇偏小,唇色自然,表情克制,沒有明顯微笑。•整體妝容為清淡自然妝:•底妝輕薄•眼妝乾淨,沒有明顯煙燻或誇張色彩•唇妝偏裸色或淡粉色⸻三、髮型與髮質•長直髮,髮色為偏暖的深棕色。•中分髮型,分縫筆直,左右對稱。•頭髮順直、貼合,發尾自然垂落至腰部附近,整體顯得柔順、有光澤。•發量看起來較多,線條乾淨,沒有明顯卷度。⸻四、服裝細節•穿著一件白色蕾絲連衣裙:•無袖設計,露出肩部與手臂•V 領或淺領口,領口處有精細的蕾絲花紋•裙身貼合身體曲線,但並不誇張•裙襬長度偏短,停留在大腿中上部•面料為蕾絲+內襯結構,蕾絲紋理清晰,風格偏女性化、柔美。⸻五、姿態與肢體語言•人物以側坐姿坐在沙發上:•上半身微微前傾•一隻手自然搭在沙發或毛毯上•另一隻手輕放在腿部•雙腿彎曲收攏,姿態顯得放鬆而內斂。•整體肢體語言偏安靜、克制、略帶親密但不過分張揚。⸻六、光線與攝影風格•使用的是柔和的棚拍或自然補光:•光線均勻,沒有強烈陰影•面部和身體輪廓被柔化•色溫偏中性或微暖,突出膚色的細膩感。•背景虛化不明顯,但因背景簡潔,人物自然突出。•整體風格接近商業人像 / 時尚寫真 / AI 或高精修風格。⸻七、整體氣質總結這張照片給人的感覺是:•乾淨•精緻•柔和•帶一點冷靜與疏離•偏“被觀看”的人像美學,而非抓拍或紀實2k解析度這是生成的效果:第二個case:提示詞:{描述:一幅超逼真的 3D 等距視角傑作,描繪了一幅展開在光滑深色木桌上的魔法地圖。地圖繪製在一張古老而飽經風霜的羊皮紙捲軸上,但畫面中的景色以立體模型的形式躍然紙上。巍峨的岩石山脈,白雪皚皚的山峰,穿透縷縷白雲;一條蜿蜒的碧綠河流從中心流過;山麓覆蓋著茂密蔥鬱的松林。羊皮紙邊緣呈鋸齒狀,左側飾有精美的復古書法,角落則繪有羅盤玫瑰圖案。畫面採用溫暖的電影級光照,焦點清晰,紋理細節豐富,2K 解析度,以奇幻冒險為主題。"negative_prompt": "扁平的,2D 的,簡單的圖畫,模糊的,低品質的,扭曲的,有水印的,糟糕的人體結構,文字疊加,顆粒感強的",“參數”: {"aspect_ratio": "2:3","風格": "電影級 3D 渲染","檢視": "等距"  }}生成的效果:看起來ChatGPT Images指令遵循的要比NBR要強(人像),審美能力還不好說目前ChatGPT Images 在 大模型競技場圖像排名第一接下來幾天我會大量測試,看看實際表現與此同時,GPT Image 1.5 API也已同步上線,價格相比上一代直降20%下面我們一起來看ChatGPT Images具體細節精準修圖:指那打那,細節不丟新版模型最大的亮點在於對使用者意圖的精準還原當使用者要求對上傳的圖片進行編輯時,模型能夠更可靠地遵循指令,僅改變使用者要求的部分。而在這一過程中,原圖中光線、構圖以及人物外觀等關鍵要素,都能在輸入、輸出及後續的連續編輯中保持一致這就意味著,ChatGPT現在不僅能完成更實用的照片修飾,還能實現更逼真的服裝和髮型試穿。同時,它支援在保留原圖精髓的基礎上,進行風格化濾鏡和概念轉換具體到編輯操作上,模型擅長多種類型,包括:• 加入(Adding)• 刪減(Subtracting)• 組合(Combining)• 混合(Blending)• 移位(Transposing)簡而言之,使用者可以在得到想要的改變的同時,不丟失讓圖片顯得特別的那些原始細節。OpenAI稱其為“口袋裡的創意工作室”創意與能力的全面進化除了修圖,GPT Image 1.5在創意生成和基礎能力上也有顯著提升:創意變換:模型可以通過改變和加入元素(如文字和佈局)來實現創意轉化,同時保留重要細節,這個和Nano Banana Pro表現感覺差不多更強的指令遵循:相比初代版本,新模型能更可靠地執行指令。這不僅利於精準修圖,也能在生成複雜的原創構圖時,按預期保留元素間的關係文字渲染能力強悍升級:在處理更密集、更小的文字時,模型表現強悍畫質提升:在渲染許多小人臉以及整體輸出的自然度等方面,質量均有改進全新互動:無需提示詞也能玩為了讓圖像探索更快捷,OpenAI在ChatGPT中推出了專門的Images首頁使用者可以通過移動應用的側邊欄或chatgpt.com訪問該頁面。這裡不再強制要求使用者編寫提示詞,而是內建了數十種預設的濾鏡和提示,幫助使用者快速啟動靈感這些預設內容會定期更新,以反映當下的流行趨勢API上線:更便宜,更適合企業對於開發者和企業使用者,GPT Image 1.5 API也已同步開放。相比GPT Image 1,新版API在圖像輸入和輸出的價格上便宜了20%,這意味著在相同預算下可以進行更多的生成和迭代。在能力上,API版本繼承了ChatGPT Images的所有改進,特別是在圖像一致性方面表現更強:能夠跨編輯保持品牌Logo和關鍵視覺元素的一致性非常適合行銷材料製作(如圖形和Logo創作)適用於電商團隊,可基於單一源圖像生成完整的產品目錄(包括不同變體、場景和角度)目前,已有創意工具、電商、行銷軟體等領域的企業開始使用GPT Image 1.5。最後ChatGPT Images的新版本即日起向全球所有ChatGPT使用者和API使用者推送。該功能跨模型工作,使用者在使用時無需進行額外選擇至於今年早些時候推出的舊版ChatGPT Images,將作為一個自訂GPT(Custom GPT)保留,供有需要的使用者繼續使用 (AI寒武紀)