李飛飛團隊新作:簡單調整生成順序,大幅提升像素級圖像生成質量

長期以來,AI生圖被一個經典矛盾困擾。

潛空間模型效率高,但細節有損耗;像素空間模型保真度高,卻容易結構混亂、速度慢。

要麼快要沒準,大家幾乎默認這是架構帶來的取捨問題,沒法徹底解決。

但擴散模型生圖,順序真的對嗎?

李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識,他們發現生成的質量瓶頸不在架構,而在順序

簡單說就像畫畫必須先打草稿再填色,AI也需要一個「先定結構、後填細節」的強制邏輯。

Latent Forcing僅通過重排生成軌跡,像素擴散模型不僅找回了效率,更在多項指標上刷新SOTA。

傳統方法瓶頸

在深入瞭解Latent Forcing之前,咱先來說說當前兩大方法的瓶頸。

傳統像素級擴散模型之所以畫圖會畫歪,是因為它在降噪過程中,高頻的紋理細節往往會干擾低頻的語義結構。

模型常常在還沒搞清楚物體的整體輪廓時,就被迫去預測局部的像素顏色,其實這在本質上就違背了視覺生成的自然邏輯。

為瞭解決這個問題,行業此前大多轉向潛空間。

它通過預訓練的tokenizer把圖像壓到低維空間,生成速度飛起。

但潛空間模型必須依賴一個預訓練的解碼器,但這不僅會引入重建誤差,也讓模型失去了端到端建模原始資料的能力。

於是李飛飛團隊思考——

能不能既保留像素級的無損精度,又獲得潛空間的結構引導?

先打個草稿

Latent Forcing的答案是——

對擴散軌跡重新排序

怎麼做的呢?

在不改變基礎Transformer架構的前提下,引入了雙時間變數機制。

在訓練和生成過程中,模型會同時處理像素和潛變數。不同的是,團隊為兩者定製了獨立的降噪節奏:

  • 潛變數先行:在生成初期,潛變數會率先完成降噪,在大尺度上確立圖像的語義骨架;
  • 像素填色:在結構確定後,像素部分再跟進進行精細化降噪。

這麼一看,潛變數就像是一個臨時的草稿本。

生成結束時,這個草稿本直接丟棄,最終輸出仍是100%無損的原始像素圖像,沒有任何decoder。

整個過程端到端、可擴展,幾乎不增加計算量(token數量不變,速度接近原生DiT)。

這種先latent後pixel的細微調整,在ImageNet榜單上展現了出色的表現。

在相同計算規模,訓練80個epochs的條件下,Latent Forcing在ImageNet-256任務中,條件生成的FID分數較此前最強的像素級模型JiT+REPA,從18.60降到9.76,接近腰斬。

在200個epoch的最終模型(ViT‑L 規模)下,Latent Forcing實現了條件生成FID 2.48(guided)、無條件生成FID 7.2(unguided)的分數。

創下像素空間擴散Transformer新的SOTA。

過去學術界普遍認為,必須通過更高倍率的失真壓縮才能換取好的FID表現。

Latent Forcing則用資料反駁了這一觀點——

在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。

Latent Forcing項目由李飛飛領銜。

第一作者Alan Baade是李飛飛的學生,史丹佛電腦系博士生,在擴散模型和生成建模方向有深入研究。

其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外,密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)