26日凌晨,OpenAI推出了GPT4o圖像生成,可以說解決了此前Midjourney等擴散模型很難解決的問題,業內為之大為讚歎。這是用手機拍攝的玻璃白板的廣角圖像,拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型 OpenAI 標誌的 T 恤。筆跡看起來很自然,但有點凌亂,我們可以看到攝影師的倒影。現在,使用者建立和自訂圖像就像使用 GPT‑4o 聊天一樣簡單 - 只需描述需求,包括任何細節,例如縱橫比、使用十六進制程式碼的精確顏色或透明背景。攝影師的自拍照,她轉身和他擊掌不過,OpenAI表示,由於此模型可以建立更詳細的圖片,因此圖像渲染時間更長,通常長達一分鐘。有用的圖像生成當今的生成模型可以呈現超現實、令人驚嘆的場景,但卻無法處理人們用來分享和建立資訊的主要圖像。從徽標到圖表,圖像在加入指代共同語言和經驗的符號後,可以傳達精確的含義。GPT‑4o 圖像生成擅長精準渲染文字、精確遵循提示以及利用 4o 固有的知識庫和聊天上下文(包括轉換上傳的圖像或將其用作視覺靈感)。這些功能讓您可以更輕鬆地建立您設想的圖像,幫助您通過視覺效果更有效地進行交流,並將圖像生成推進為一種精確而強大的實用工具。增強功能:一圖勝千言生成精準的文字,可程式碼編輯,強大的情景感知據OpenAI官網介紹,根據在線圖像和文字的聯合分佈訓練模型,不僅學習圖像與語言之間的關係,還學習圖像與語言之間的關係。結合積極的後期訓練,生成的模型具有令人驚訝的視覺流暢性,能夠生成有用、一致且具有情境感知能力的圖像。文字渲染一張圖片勝過千言萬語,但有時在正確的位置生成幾個文字可以提升圖像的含義。4o 將精確的符號與圖像融合的能力將圖像生成轉變為視覺交流的工具。多輪生成由於圖像生成現在是 GPT-4o 的原生功能,您可以通過自然對話來最佳化圖像。GPT-4o 可以在聊天環境中基於圖像和文字進行建構,從而確保始終保持一致性。例如,如果您正在設計視訊遊戲角色,那麼在您進行最佳化和實驗的過程中,該角色的外觀在多次迭代中保持一致。原始圖像給這隻貓一頂偵探帽和一副單片眼鏡將其變成使用 4k 遊戲引擎製作的 3A 視訊遊戲,並加入一些使用者介面作為神秘 RPG 的覆蓋,我們可以在頂部看到健康欄和小地圖,在底部看到具有一致圖像的咒語更新為 16:9 比例的橫向圖像,在 UI 中加入更多咒語,並縮小視覺效果,以便我們以第三人稱視角看到貓穿過蒸汽朋克曼哈頓,創造出美麗的對比度和燈光,就像在最好的三 A 遊戲中一樣,配以冷色調當玩家打開菜單時建立介面,我們會看到貓的角色資料及其裝備以及另一頁顯示活躍任務(並且它應該與我們在圖像中描述的宇宙世界建構有關係)遵循指令GPT‑4o 的圖像生成遵循詳細的提示,注重細節。其他系統在處理約 5-8 個對象時會遇到困難,而 GPT‑4o 可以處理多達 10-20 個不同的對象。對象與其特徵和關係的更緊密繫結可以實現更好的控制。一張正方形圖片,包含一個 4 行 4 列的網格,網格上有 16 個對象,背景為白色。從左到右,從上到下。列表如下:1. 一顆藍色的星星2. 紅色三角形3. 綠色正方形4. 粉色圓圈5. 橙色沙漏6. 紫色無限符號7. 黑白圓點領結8. 扎染“42”9. 一隻戴著黑色棒球帽的橙色貓10. 一張帶有寶箱的地圖11. 一雙活動眼珠12. 一個豎起大拇指的表情符號13. 一把剪刀14. 一隻藍白相間的長頸鹿15. 用草書寫的“OpenAI”一詞16. 一道彩虹色的閃電情境學習GPT‑4o 可以分析和學習使用者上傳的圖像,將其細節無縫整合到其上下文中以指導圖像生成。使用這些圖像作為參考,繪製帶有三角形車輪的車輛的設計圖。標記前輪、後輪,並在圖表上寫上(小寫)三角輪車輛。英文專利。2025. OPENAI。現在把它放到一張在紐約市拍攝的照片中。世界知識原生圖像生成使 4o 能夠將其知識連結到文字和圖像之間,從而產生一個感覺更智能、更高效的模型。示例:可以通過程式碼來修改圖像。照片寫實主義和風格通過對反映各種圖像風格的圖像進行訓練,模型可以令人信服地建立或轉換圖像。一種新型的圖片生成方式一位hackernews使用者表示:關於這種新型圖像生成方式,它通過代token而不是擴散來實現,重要的是它實際上是在像素空間中進行推理。例如:讓它畫一個帶有空白井字棋格的記事本,然後告訴它先走一步,接著你走一步,如此循環。你還可以進行一些非常令人印象深刻的、保留資訊的轉換,比如改變繪畫風格,或者像“將白天變為夜晚”,或者“給他戴上一頂帽子”之類的操作。“我感覺這些模型在解析度方面相當受限,但在這個領域進一步的研究將讓我們能夠做出一些真正瘋狂的事情,比如讓模型分步驟完全用圖像建立一個應用程式,本質上是用文字設計整個應用程式,包括文字內容等,然後生成程式碼來重現它。這也意味著一個模型可以接替一個優秀的擴散模型,即使最初的生成效果不佳,它也可以在外部圖像上繼續“推理”。”最後,一旦這些模型的速度提升,你可以想像一個真正的生成式使用者介面,模型根據傳送給LLM的事件生成你正在使用的應用程式的下一幀(LLM可以像平時一樣使用工具、思考等)。然而,我也相信擴散模型可以以更快的方式完成其中的一些任務。甚至有網友曬出了一張被倒滿的酒杯的生成圖像來證明OpenAI攻克了很多業界不能突破的難題。今日即可訪問和可用性從今天開始,4o 圖像生成將作為 ChatGPT 中的默認圖像生成器向 Plus、Pro、Team 和 Free 使用者推出,Enterprise 和 Edu 即將推出。它也可以在 Sora 中使用。對於那些對 DALL·E 情有獨鍾的人來說,仍然可以通過專用的 DALL·E GPT 訪問它。沒錯,免費使用者也可以用,小編也嘗鮮了一把。同時,開發人員很快就能通過 API 使用 GPT-4o 生成圖像,並將在未來幾周內推出存取權。OpenAI在圖片生成領域不是最早的,前有StableDifussion,後有Midjourney,但大模型的世界就是這麼變幻莫測,OpenAI在圖片領域這次可以說是成功逆襲了。 (51CTO技術堆疊)