李飛飛團隊新作：簡單調整生成順序，大幅提升像素級圖像生成質量

2026/02/15

•

長期以來，AI生圖被一個經典矛盾困擾。

潛空間模型效率高，但細節有損耗；像素空間模型保真度高，卻容易結構混亂、速度慢。

要麼快要沒準，大家幾乎默認這是架構帶來的取捨問題，沒法徹底解決。

但擴散模型生圖，順序真的對嗎？

李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識，他們發現生成的質量瓶頸不在架構，而在順序。

簡單說就像畫畫必須先打草稿再填色，AI也需要一個「先定結構、後填細節」的強制邏輯。

Latent Forcing僅通過重排生成軌跡，像素擴散模型不僅找回了效率，更在多項指標上刷新SOTA。

傳統方法瓶頸

在深入瞭解Latent Forcing之前，咱先來說說當前兩大方法的瓶頸。

傳統像素級擴散模型之所以畫圖會畫歪，是因為它在降噪過程中，高頻的紋理細節往往會干擾低頻的語義結構。

模型常常在還沒搞清楚物體的整體輪廓時，就被迫去預測局部的像素顏色，其實這在本質上就違背了視覺生成的自然邏輯。

為瞭解決這個問題，行業此前大多轉向潛空間。

它通過預訓練的tokenizer把圖像壓到低維空間，生成速度飛起。

但潛空間模型必須依賴一個預訓練的解碼器，但這不僅會引入重建誤差，也讓模型失去了端到端建模原始資料的能力。

於是李飛飛團隊思考——

能不能既保留像素級的無損精度，又獲得潛空間的結構引導？

Latent Forcing的答案是——

對擴散軌跡重新排序。

怎麼做的呢？

在不改變基礎Transformer架構的前提下，引入了雙時間變數機制。

在訓練和生成過程中，模型會同時處理像素和潛變數。不同的是，團隊為兩者定製了獨立的降噪節奏：

這麼一看，潛變數就像是一個臨時的草稿本。

生成結束時，這個草稿本直接丟棄，最終輸出仍是100%無損的原始像素圖像，沒有任何decoder。

整個過程端到端、可擴展，幾乎不增加計算量（token數量不變，速度接近原生DiT）。

這種先latent後pixel的細微調整，在ImageNet榜單上展現了出色的表現。

在相同計算規模，訓練80個epochs的條件下，Latent Forcing在ImageNet-256任務中，條件生成的FID分數較此前最強的像素級模型JiT+REPA，從18.60降到9.76，接近腰斬。

在200個epoch的最終模型（ViT‑L 規模）下，Latent Forcing實現了條件生成FID 2.48（guided）、無條件生成FID 7.2（unguided）的分數。

創下像素空間擴散Transformer新的SOTA。

過去學術界普遍認為，必須通過更高倍率的失真壓縮才能換取好的FID表現。

Latent Forcing則用資料反駁了這一觀點——

在保持100%原始像素精度的情況下，我們依然能跑出超越有損模型的性能。

Latent Forcing項目由李飛飛領銜。

第一作者Alan Baade是李飛飛的學生，史丹佛電腦系博士生，在擴散模型和生成建模方向有深入研究。

其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外，密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)