Stable Diffusion 3深夜橫空出世！模型與Sora同架構，也能「理解」物理世界

2024/02/24

•

【新智元導讀】今日份炸彈又來了！深夜，Stability AI放出了Stable Diffusion 3.0，它採用了和爆火Sora同樣的DiT架構，畫面質量、文字渲染、複雜對象理解大提升，Midjourney、DALL-E 3都顯得黯然失色了。

最近，每天都有新炸彈，各家紛紛開大了。

昨天的炸彈，是Stable Diffusion 3。

AI生圖效果，再次到達全新里程碑！

Prompt：Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

提示（意譯版）：在一幅充滿史詩感的動漫畫面中，一位巫師屹立於夜幕籠罩的山巔之上，正用他的法杖向漆黑無垠的夜空中施展一道震撼宇宙的魔法。這道法術在夜空中綻放，化作由五彩繽紛的能量所構成的「Stable Diffusion 3」字樣，猶如夜空中最璀璨的星辰。

網友復刻版，同樣驚艷：

網友驚呼：這種prompt的一致性是我見過最好的！

這次的Stable Diffusion 3，在影像品質、多個物件、拼字能力方面，都得到了顯著提升。

甚至，它似乎還湧現了對物理世界的「理解」。

Prompt: A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.

提示（意譯版）：一匹馬優雅地站在一個五彩斑斕的球上，周圍是一片生氣勃勃的綠色草地。遠處，一座雄偉的山巍巍巒地矗立。

Prompt：Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat

提示：一個紅色的球體放在一個藍色的立方體上。在它們後面是一個綠色的三角形，在右邊是一隻狗，在左邊是一隻貓。

而DALL-E 3就相形見拙了。

關於Stable Diffusion 3.0的核心技術進展，CEO Emd總結了一份「太長不看版」摘要——

- 採用了與Sora類似的Diffusion Transformer技術，並結合了流匹配（Flow Matching）等多項技術改進。

- 透過利用Transformer的改進，不僅使得系統擴充性更強，還能處理多種類型的輸入資料。

- 將以開源形式發布，透過預覽版的測試來進一步提升系統的品質和安全性。

- 發佈時，將包含一套完整的工具。

- 基於最新硬體技術打造的新平台，可支援多種規模的版本。

- 支援生成影片、3D以及更多類型的內容創作。

- 需要更多的GPU來實現更強大的運算能力。

不得不說，最近這段時間，DiT實火！

目前，模型可選擇的參數範圍在800M到8B之間。

現在，已經可以在這裡加入候補名單，申請SD3的訪問權限了：https://stability.ai/stablediffusion3

Stable Diffusion 3，文字渲染能力超進化

依照prompt產生指定文字，一直以來都是文生圖模型的老大難問題。

由左至右：DeepFloyd IF、DALLE-2、Bing Image Creator、Midjourneyv5.2、SDXL v0.9（2023年7月）

但這次，SD3模型對於prompt理解得很好，在黑板上正確寫出了「go big or go home」。

而且畫面非常寫實，遠近位置、光影，都顯得極為自然。

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk.

提示（意譯版）：這部電影級視覺效果的照片，捕捉到了一個靜謐的教室瞬間，一顆鮮紅的蘋果靜靜地躺在桌子上，而在它背後的黑板上，則用醒目的粉筆字寫著－－「要嘛做大，要嘛回家」。

相比之下，Midjourney的圖是這樣的：

Gemini Advanced / Ultra的圖是這樣的：

DALL-E 3的圖是這樣的：

各種形式的文字渲染，SD3 都出色地完成了。

Prompt：Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.

提示：廚房桌上鋪著一塊精美的繡布，上面繡著「good night」字樣和一隻可愛的小老虎。旁邊，一支蠟燭靜靜燃燒，散發出柔和而略帶戲劇性的光影。

Prompt：Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.

提示：一台放在工作桌上的90年代的桌上型電腦，螢幕上寫著「welcome」。在背後的牆面上，有一幅醒目的塗鴉藝術作品，寫的是「SD3」。

Prompt: Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text "it's here!". In the background we see a big rain approaching.

提示：這是一幅充滿動漫特色的插畫，一個報亭坐落在一片綠意盎然的小山丘上，亭頂醒目地展示著「it's here!」的字樣。而在這個寧靜的場景背後，一場壯觀的暴雨即將來臨。

Prompt: Night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a huge road sign with the text "faster".

提示：在這幅夜幕下的攝影作品中，一輛標示「SD3」的運動賽車正在賽道上疾馳。背景裡，一塊巨大的路牌顯眼地展示著「faster」一詞。

Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.

提示：一張木桌上擺放著三個透明的玻璃瓶。從左到右，每個瓶子內分別充滿了鮮豔的紅色、藍色、綠色液體。瓶子上，用數字1、2、3進行了標記。

Prompt: Photo of a rectangular orange neon sign with the text "even more stable", the sign is on the wall in a metro station, subway speeding by in the background, perspective photo.

Stable Diffusion 3.0能在文字渲染能力上有顯著提升，是因為Stability AI在新模型中採用了全新技術－Transformer和新增的文字編碼功能。

CEO Emad Mostaque解釋說，因為上述原因，現在SD 3不僅能產生完整句子，還能保持風格的一致性。

太空人騎著粉紅芭蕾舞裙豬，除SD 3竟然全軍覆沒？

處理包含多個物件的Prompt的能力，也是考核AI生圖模型的一大關鍵指標。

下面這個prompt，著實難倒了一大片選手——

一幅太空人撐著粉紅色雨傘、騎著一隻穿著芭蕾舞短裙的豬的畫，豬旁邊的地上是一隻戴著高頂帽子的知更鳥，畫面的角落裡寫著「stable diffusion」。

這個prompt，要求模型正確理解物件的屬性、位置，以及正確呈現字體很小的文本，著實是一道難題。

如此要素拉滿的細節要求，SD3.0全部理解，並且精確地完成了！

太空人，粉紅色雨傘、穿著粉芭蕾舞裙的豬、戴高帽的知更鳥、角落裡的字，100%符合prompt的要求。這就顯示：模型很好地理解了prompt。

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

對於同一prompt，其他模型的表現就落後了。

DALL-E 3畫出的畫倒是過關了，但它把「Diffusion」拼錯了。

Bing的表現就更是離譜了，有的圖中芭蕾舞裙的顏色不對，有的知更鳥站在了豬腦袋上，有的更是畫面中飛滿了知更鳥。而「Stable Diffusion」更是錯得離譜。

Gemini Advanced這個差生的答案就更慘不忍睹了，除了拼字問題，畫也沒畫對。

下面出場的，就是以畫面品質精美著稱的優秀文生圖選手Midjourney了。

從畫面美感上說，MJ依然甩其他模型一條街，但是考試就是考試，「Stable Diffusion」，它也沒拼對。

總結下來，這一題唯一的滿分選手，就是Stable Diffusion 3！

和Sora同樣的Diffusion Transformer架構

所以，Stable Diffusion 3.0為何有如此突飛猛進的表現？

原因在於，它採用了全新的架構設計。

Stability AI的執行長Emad Mostaque表示——

「Stable Diffusion 3 採用了Diffusion Transformer架構，這是一種新型的架構設計，與OpenAI最近推出的Sora模型採用的架構相似。」

在先前的Stable Diffusion版本中，並未採用Transformer技術。

而Stable Diffusion 3.0則採用了全新的方法，引進了Diffusion Transformer 技術。如果你對最近的爆火的sora有所了解，肯定對這個技術已經耳熟能詳了。

Transformer技術是，目前生成式AI革命的核心，廣泛應用於文本生成模型。而影像生成技術，則主要基於Diffusion模型。

Sora作者之一William和謝賽寧，在這篇論文中共同提出了Sora的基礎架構。

論文網址：https://arxiv.org/abs/2212.09748

這篇詳細介紹DiTs的論文指出，這種基於擴散模型的新架構，可以用在影像patch上運行的Transformer取代了傳統的U-Net架構。

這樣，DiTs方法就可以更有效率地利用運算資源，並且在影像生成方面超越了其他擴散模型技術。

一篇因「缺乏創新性」而被CVPR 2023拒收的論文，竟成了Sora和Stable Diffusion 3.0的奠基之作，學術創新和工程創新的區別，著實引人深究。

Stable Diffusion 3.0 的另一個創新亮點，就是流匹配技術。

一篇關於流匹配的研究論文介紹了這一新方法，它可以用於訓練連續歸一化流（Continuous Normalizing Flows, CNFs），以便更準確地模擬複雜的資料分佈。

論文網址：https://arxiv.org/abs/2210.02747

研究表明，透過結合使用條件流匹配（Conditional Flow Matching, CFM）和最優傳輸路徑，可以實現更快的訓練速度、更有效率的樣本生成，並且在性能上超越傳統的擴散路徑方法。

其實，Stability AI一直在探索多種新穎的影像生成技術。

就在本月初，他們推出了一項名為Stable Cascade的新技術。

它基於一種名為Würstchen的先進架構，旨在提升生成影像的性能和精確度。

一大波整活來了

在影像品質上，SD 3.0也取得了令人震驚的進步。

「變色龍在黑色背景上的攝影棚照片特寫」，它產生的圖是這樣的。

Prompt：studio photograph closeup of a chameleon over a black background.

Gemini Advanced/Ultra生圖是這樣的。

Midjourney是這樣的。

因為題幹沒有區分度，所以大家表現差不多。

從更多的演示中可以看出，無論是在自然寫實風景，還是在漫畫、海報中，SD 3不僅做到了正確還原文字，還讓文字和畫面做到了很好的融合，一點都不突兀。

Prompt: Trees photographed under the Milky Way, the moon and twilight shine on the Valley. The full moon appears high in the sky and the twilight glow can still be seen.

再例如駭客任務中的Neo狗。