逆向工程剖析GPT-4o影像生成!逐行出圖只是障眼法?解碼器和自回歸創新或是重點

你最近有沒有被一波「吉卜力風」影像刷屏?

上周,OpenAI的GPT-4o原生影像生成功能一發布便風靡全球,直接把AI生圖從先前的雞肋體驗提升到創意生產力工具水平。

GPT-4o影像生成能夠解析使用者多輪對話內容,實現精確、逼真、個人化風格的細緻影像輸出和修改調整,推動了有價值的AI影像廣泛應用,這為業界帶來了一輪小小的顛覆。

由於這項功能太火,導致OpenAI CEO薩姆·奧特曼都想先叫停一下,他發文表示:

一方面,因為太多的圖像渲染導致“ GPU正在融化”,所以平台決定暫時引入一些速率限制,同時努力提高出圖效率;另一方面,他勸大家冷靜冷靜,為了保持服務正常運行,團隊好幾天都沒睡個好覺了。



可以說,在AI生圖這條路上,GPT-4o影像生成具有跨世代意義,OpenAI是如何做到的?這激起了廣大開發者的好奇,由於是封閉模型技術不透明,大家開始對其技術實現路徑進行「逆向工程」分析。


OpenAI的心機操作

來自香港中文大學多媒體實驗室(MMLab)的博士生Jie Liu表示,在破解了GPT-4o的前端之後,有一些驚人發現:

使用者所看到的逐行影像產生效果只是瀏覽器端的動畫效果,純粹的前端技巧,開發者甚至可以手動調整模糊函數的高度來改變模糊範圍;每次生成圖像時,OpenAI的伺服器僅發送5張處於不同階段的中間圖像;圖塊補丁大小為8,也就是圖像會被分割成許多8×8像素大小的小塊。


具體而言,放大任何一張影像,似乎都能觀察到不同的圖塊。透過計算像素數,每個圖塊看起來佔據了一個8×8像素的區域,整幅圖像如為1024×1024像素,就被劃分成了一個128×128個圖塊的網格。此外,生圖似乎與提示的難度等級有關——當影像的下部更難從上部推斷出來時,模糊效果會變得更加明顯。


打開網路選項卡,開發者發現,在單次圖像生成過程中,OpenAI的伺服器實際上總共會發送給我們5張圖像,使用不同的提示詞時也是如此。

Jie Liu表示,從產品設計的角度來看,這種渲染方式是完全合理的,然而,對於那些試圖透過生成過程來推斷GPT-4o底層架構的研究人員來說,這種額外的不透明性可能會導致嚴重的誤解。


在實際生成的中間影像中,還有一個有趣的情況:兩個色塊之間的白色區域並沒有嚴重模糊——這與擴散模型生成的帶噪圖像不同,因此Jie Liu推測,這可能意味著GPT-4o實際上是純粹的自回歸(AR)生成方式。

雖然目前沒有充分的證據說明其採用了完全自回歸(AR)方式,但這些發現有助於減少研究人員對生成過程的誤解,重點應該分析實際返回的五張圖像,而不是被前端動畫形式帶跑偏。



技術實現路徑的可能性

對GPT-4o影像產生功能進行逆向工程分析也在reddit社群中引起了討論。

一位在影像生成領域工作的開發者試圖弄清楚GPT-4o的運作原理,發現了其他有趣細節。

例如輸入提示詞:“創作一幅吉卜力工作室風格的、一隻開心的小狗在街上奔跑的圖像”,AI生成期間,會看到四張中間過程圖像,如下所示:


由於目前尚不太清楚影像生成過程是不是完全自回歸的,但放大了能看到影像的一些細節以及模糊的整體結構,這可能意味著兩種情況:

其一,就像常見的擴散模型一樣,GPT-4o會先生成影像的整體結構,然後再加入最佳化細節;

其二,圖像實際上是以完全自回歸的方式生成的。


如果對第一幀和最後一幀進行100%放大查看,開發者發現像樹葉這類高頻紋理上不斷增添了細節,這滿足了通常對擴散模型所期望的情況。

在另一個例子中,這種表現更為明顯,該開發者專門給出了一個關於高頻細節紋理的提示詞:「創作一張具有顆粒質感、抽象形狀且細節極其豐富的圖像」。


當然,這也可能是OpenAI增添了一個隱密的多步驟處理流程來使影像效果更加卓越。例如,業界的SDXL曾引入細化模型(refiner model),該模型經過專門訓練,能在將變分自動編碼器(VAE)的潛在表示解碼到像素空間之前,為其添加細節。

也有開發者分析認為,GPT-4o影像系統中的解碼器可能也是一種經過改良的神經網絡,能將影像標記(token)轉換回像素。

每個標記都會與儲存在已學習的碼本(一組經過訓練、用於表示小圖像片段的高維嵌入向量)中的視覺圖塊進行比對。當模型返回一個標記網格時,解碼器會尋找每個標記,檢索其對應的視覺模式,然後按順序組合這些圖塊以形成完整的圖像。


它可能還使用了諸如轉置卷積之類的層來對圖塊進行上採樣並平滑地融合它們,從而重現紋理、光影和細節。這意味著,隨著新標記的添加,先前標記的上下文可能會發生變化,即使那些標記沒有改變,已經生成的圖像部分中也會出現新的細節。

這也是為什麼即使你明確指示它只做一個小的改動(例如只從人物的頭髮上去掉一條絲帶),或者使用高亮工具選擇圖像的特定部分進行編輯,整個圖像還是會整體發生變化的原因。

GPT-4o產生影像的順序會從上到下,而且隨著產生更多的上下文訊息,影像中較早生成的部分會獲得更多的細節,這也與向量量化變分自動編碼器(VQ-VAE)風格的解碼器工作方式基本一致。


近期,與GPT-4o影像生成類似的研究也開始出現,例如有團隊提出名為OmniGen的統一影像生成的多新型擴散模型。簡單來說,把基於擴散架構的VAE連接到LLM,並學習聯合建模文本和圖像,文本被標記化為一個個標記,而輸入的圖像則通過變分自動編碼器(VAE)轉換為嵌入向量,因此模型能夠接受自由形式的多模態提示,並通過校正流的方法生成圖像。

網友表示,OpenAI這波操作再次在創新方面領先其他競爭對手,開源社群想要破解追趕需要下點功夫和時間研究一番。


加速商業化變現

GPT-4o影像生成衍生的潛在商業價值龐大,有的使用者利用GPT-4o影像生成搭配其他AI工具,就能輕鬆製作出工作室等級的創意短片、遊戲場景或設計作品,例如《魔戒-吉卜力版》:

同時,OpenAI打造爆款功能的能力也為其下一輪融資創造了很好的氛圍。

根據多家外媒報導,OpenAI很快就會完成由軟銀領投的一輪400億美元融資,包括避險基金Magnetar Capital、Coatue Management、Founders Fund和Altimeter Capital Management在內的其他基金也在與OpenAI討論參與此輪融資。

OpenAI上一次融資是在2024年10月,融資金額為66億美元,估值為1570億美元,新一輪巨額融資或將使該公司估值飆升到3000億美元。

不過,路透社引述知情人士消息稱,OpenAI必須在年底前轉型為一家完全營利性的公司,才能獲得全部的400億美元融資,如果不能完成轉型,融資規模可能會縮減至200億美元。

資本助推之下,OpenAI的下一步或許要開始利用爆款應用進一步瘋狂搞錢了,期待來自開源社群的創新力量進行復刻反超。(頭部科技)