OpenAI在圖片領域站起來了!


26日凌晨,OpenAI推出了GPT4o圖像生成,可以說解決了此前Midjourney等擴散模型很難解決的問題,業內為之大為讚歎。


這是用手機拍攝的玻璃白板的廣角圖像,拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型 OpenAI 標誌的 T 恤。筆跡看起來很自然,但有點凌亂,我們可以看到攝影師的倒影。

現在,使用者建立和自訂圖像就像使用 GPT‑4o 聊天一樣簡單 - 只需描述需求,包括任何細節,例如縱橫比、使用十六進制程式碼的精確顏色或透明背景。


攝影師的自拍照,她轉身和他擊掌


不過,OpenAI表示,由於此模型可以建立更詳細的圖片,因此圖像渲染時間更長,通常長達一分鐘。


有用的圖像生成

當今的生成模型可以呈現超現實、令人驚嘆的場景,但卻無法處理人們用來分享和建立資訊的主要圖像。從徽標到圖表,圖像在加入指代共同語言和經驗的符號後,可以傳達精確的含義。

GPT‑4o 圖像生成擅長精準渲染文字、精確遵循提示以及利用 4o 固有的知識庫和聊天上下文(包括轉換上傳的圖像或將其用作視覺靈感)。這些功能讓您可以更輕鬆地建立您設想的圖像,幫助您通過視覺效果更有效地進行交流,並將圖像生成推進為一種精確而強大的實用工具。


增強功能:一圖勝千言

生成精準的文字,可程式碼編輯,強大的情景感知

據OpenAI官網介紹,根據在線圖像和文字的聯合分佈訓練模型,不僅學習圖像與語言之間的關係,還學習圖像與語言之間的關係。結合積極的後期訓練,生成的模型具有令人驚訝的視覺流暢性,能夠生成有用、一致且具有情境感知能力的圖像。

文字渲染

一張圖片勝過千言萬語,但有時在正確的位置生成幾個文字可以提升圖像的含義。4o 將精確的符號與圖像融合的能力將圖像生成轉變為視覺交流的工具。

多輪生成

由於圖像生成現在是 GPT-4o 的原生功能,您可以通過自然對話來最佳化圖像。GPT-4o 可以在聊天環境中基於圖像和文字進行建構,從而確保始終保持一致性。例如,如果您正在設計視訊遊戲角色,那麼在您進行最佳化和實驗的過程中,該角色的外觀在多次迭代中保持一致。


原始圖像


給這隻貓一頂偵探帽和一副單片眼鏡


將其變成使用 4k 遊戲引擎製作的 3A 視訊遊戲,並加入一些使用者介面作為神秘 RPG 的覆蓋,我們可以在頂部看到健康欄和小地圖,在底部看到具有一致圖像的咒語


更新為 16:9 比例的橫向圖像,在 UI 中加入更多咒語,並縮小視覺效果,以便我們以第三人稱視角看到貓穿過蒸汽朋克曼哈頓,創造出美麗的對比度和燈光,就像在最好的三 A 遊戲中一樣,配以冷色調


當玩家打開菜單時建立介面,我們會看到貓的角色資料及其裝備以及另一頁顯示活躍任務(並且它應該與我們在圖像中描述的宇宙世界建構有關係)

遵循指令

GPT‑4o 的圖像生成遵循詳細的提示,注重細節。其他系統在處理約 5-8 個對象時會遇到困難,而 GPT‑4o 可以處理多達 10-20 個不同的對象。對象與其特徵和關係的更緊密繫結可以實現更好的控制。

一張正方形圖片,包含一個 4 行 4 列的網格,網格上有 16 個對象,背景為白色。從左到右,從上到下。列表如下:
1. 一顆藍色的星星
2. 紅色三角形
3. 綠色正方形
4. 粉色圓圈
5. 橙色沙漏
6. 紫色無限符號
7. 黑白圓點領結
8. 扎染“42”
9. 一隻戴著黑色棒球帽的橙色貓
10. 一張帶有寶箱的地圖
11. 一雙活動眼珠
12. 一個豎起大拇指的表情符號
13. 一把剪刀
14. 一隻藍白相間的長頸鹿
15. 用草書寫的“OpenAI”一詞
16. 一道彩虹色的閃電


情境學習

GPT‑4o 可以分析和學習使用者上傳的圖像,將其細節無縫整合到其上下文中以指導圖像生成。


  • 使用這些圖像作為參考,繪製帶有三角形車輪的車輛的設計圖。
  • 標記前輪、後輪,並在圖表上寫上(小寫)
  • 三角輪車輛。英文專利。2025. OPENAI。


現在把它放到一張在紐約市拍攝的照片中。


世界知識原生圖像生成使 4o 能夠將其知識連結到文字和圖像之間,從而產生一個感覺更智能、更高效的模型。

示例:可以通過程式碼來修改圖像。



照片寫實主義和風格

通過對反映各種圖像風格的圖像進行訓練,模型可以令人信服地建立或轉換圖像。



一種新型的圖片生成方式

一位hackernews使用者表示:關於這種新型圖像生成方式,它通過代token而不是擴散來實現,重要的是它實際上是在像素空間中進行推理。例如:讓它畫一個帶有空白井字棋格的記事本,然後告訴它先走一步,接著你走一步,如此循環。

你還可以進行一些非常令人印象深刻的、保留資訊的轉換,比如改變繪畫風格,或者像“將白天變為夜晚”,或者“給他戴上一頂帽子”之類的操作。

“我感覺這些模型在解析度方面相當受限,但在這個領域進一步的研究將讓我們能夠做出一些真正瘋狂的事情,比如讓模型分步驟完全用圖像建立一個應用程式,本質上是用文字設計整個應用程式,包括文字內容等,然後生成程式碼來重現它。這也意味著一個模型可以接替一個優秀的擴散模型,即使最初的生成效果不佳,它也可以在外部圖像上繼續“推理”。”

最後,一旦這些模型的速度提升,你可以想像一個真正的生成式使用者介面,模型根據傳送給LLM的事件生成你正在使用的應用程式的下一幀(LLM可以像平時一樣使用工具、思考等)。然而,我也相信擴散模型可以以更快的方式完成其中的一些任務。

甚至有網友曬出了一張被倒滿的酒杯的生成圖像來證明OpenAI攻克了很多業界不能突破的難題。


今日即可訪問和可用性


從今天開始,4o 圖像生成將作為 ChatGPT 中的默認圖像生成器向 Plus、Pro、Team 和 Free 使用者推出,Enterprise 和 Edu 即將推出。它也可以在 Sora 中使用。對於那些對 DALL·E 情有獨鍾的人來說,仍然可以通過專用的 DALL·E GPT 訪問它。

沒錯,免費使用者也可以用,小編也嘗鮮了一把。

同時,開發人員很快就能通過 API 使用 GPT-4o 生成圖像,並將在未來幾周內推出存取權。

OpenAI在圖片生成領域不是最早的,前有StableDifussion,後有Midjourney,但大模型的世界就是這麼變幻莫測,OpenAI在圖片領域這次可以說是成功逆襲了。 (51CTO技術堆疊)