最近,這些「TED演講者」在外網火得一塌糊塗,堪稱病毒式傳播。
仔細看看,你能發現什麼問題嗎?
答案揭曉——這五個人中,沒有一個是真人!
線上尋人的小哥要哭了
如此逼真,幾乎毫無破綻,這種等級的生圖AI直接讓網友們驚掉下巴。
甚至連AI識別軟體,都認不出來這是AI生成的圖。
「看起來真實,難道不是因為本來就是真實的照片?」
「沒有一張是真人嗎?簡直令人毛骨悚然!」
網友銳評:這已經超越了恐怖谷,到達了「超真實谷」。
短短十幾個小時,分享這張圖片的帖子,在推上的觀看人數已經破了500萬。
隨後,作者也被扒了出來——他就是Stable Diffusion團隊的前成員Leo Kadieff。
他揭秘道:這些TEDx演講者,都是用最新的Flux真實版LoRA製作的。
以往的AI生圖,人眼多少都會看出違和感,而這次的圖片如此逼真,正是靠LoRA技術改進了模型,才大大增加了真實感。
並且,作者介紹說,這個工作流還有一個好處,就是大大簡化了複雜的提示詞。
這個消息,簡直讓提示詞苦手們狂喜。
這個小小的22MB檔案,就可以讓我們省去麻煩,不必再在每個提示詞中寫一堆與真實性相關的Token。
一句「一張RAW超現實主義照片,UHD,8k」,足矣。現實主義愛好者,絕對愛死了這個工具。
作者直言:我們還需要對現實模型進行微調嗎?
- 這些圖像是Flux+LoRA的原始輸出,未經過任何放大或後期處理
- 你需要對應的「RealismLora」檔案,以及ComfyUI工作流
Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main
ComfuUI:https://we.tl/t-zrC5tPFG17
從下面這兩幅圖中不難看出,用LoRA和不用LoRA的效果對比,果然十分明顯。
最初的提示詞如下:
一位女性在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 --style raw --v 6.1
可以看出,生成效果還不錯,但與Leo Kadieff生成的圖片差距依然很大。
接著,博主又進行了一些改進:
一位年輕女性微笑著在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 --style raw --v 6.1
並在經過多次生成之後,試出了最為接近的結果:
與此同時,隨著GoogleImagen 3公開可用,網友們也在第一時間拿著這套prompt進行了嘗試。
一時間,全網都掀起AI生圖的熱潮。
prompt:Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.
網友chrypnotoad表示,自己還沒見過那個AI能把阿喀琉斯之盾做得這麼好的!
能輕鬆hold住如此複雜的prompt,Imagen 3果然不能小覷。
知名博主「歸藏」在體驗之後表示:
生成的內容精準但圖片美觀度很差。只要涉及人物,你就得仔細斟酌提示詞寫法,不然大機率無法出圖。
好在,他們在提示詞的互動上做得很好:
LLM會分析提示詞類型,並且給出相關詞語你可以直接切換。
除了直接生成之外,Imagen 3還支援局部重繪功能,用畫筆和提示詞對圖片進行編輯。
當然,幾家頂流文生圖AI的PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1[pro]。
異色瞳的亞洲女性。
美洲原住民。
有美人痣的南亞婦女。
瘋狂的藝術家。
很遺憾,Google大概因為安全設定過於敏感,並不能生成這個prompt……
留著八字鬍的高加索老人。
趁著這股熱度,Runway創意總監Nicolas Neubert,還用自家的Gen-3 Alpha生成了一段視訊。
果然,AI圖片變成視訊後,效果依然槓槓的!
而這個帖子,也同樣引起了轟動。
網友讚歎道:從一年半前慘不忍睹的威爾·史密斯吃意面,到今天這個程度,進步可謂是瘋狂的。
同時,也有火眼金睛的網友發現,這個視訊依然有一些細微的bug。
比如人的舌頭不會動,牙齒有些彎曲、扁平,第4秒時左臂出現了奇怪的斑點,還有Google標誌處的bug,也非常明顯。
如果看得再仔細點,會發現所有的陰影都很不自然,比如麥克風的陰影。還有東西接觸的地方,很多線條是亂的。
嘴唇的動作也不自然。
眼睛看起來仍然沒有靈魂。
總的來說,相比於AI生圖,目前AI視訊的bug顯然要多得多。
背後的原因還是在於,AI根本不理解人類的舌頭、頭髮、眼睛究竟是什麼東西。接下來的AI,還是要學會人體解剖和物理學才行。
而且,在文生圖這塊,Runway就要差得多了。
說回到FLUX.1,其實在8月初的時候它就引起過一波熱議。
Stable Diffusion一作、Stabililty AI核心成員Robin Rombach下場創業,官宣成立Black Forest Labs。
祭出的首個產品FLUX.1系列模型,效果直接秒殺Midjourney、DALL-E和Stable Diffusion!
根據官博的介紹,FLUX.1在圖像細節、提示詞遵循、風格多樣性和場景複雜性方面都取得了SOTA。
尤其是FLUX.1[pro],經過測試在一眾文生圖模型中拔得頭籌。
視覺質量、提示詞遵循、尺寸/縱橫比變化、排版和輸出多樣性
ELO得分
為了在可訪問性和模型能力之間取得平衡,FLUX.1有三種變體:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]:
- FLUX.1 [pro]:FLUX.1的頂級版本,提供最先進的圖像生成,具有一流的提示詞跟隨能力、視覺質量、圖像細節和輸出多樣性。
- FLUX.1 [dev]是一個開放權重的指令蒸餾模型,用於非商業應用。由於是從FLUX.1 [pro]直接蒸餾而來,因此FLUX.1 [dev]不僅獲得了強大的質量和提示詞跟隨能力,而且比同規模的標準模型更加高效。
- FLUX.1 [schnell]是最快的模型,專為本地開發和個人使用而設計。(schnell在德語中就是快的意思)
值得一提的是,所有FLUX.1模型都基於多模態和平行擴散Transformer塊的混合架構,參數規模為120億。
其中,團隊通過建構流匹配(flow matching)改進了之前的擴散模型,並且通過結合旋轉位置嵌入(rotary positional embeddings)和平行注意力層提高了模型性能和改進硬體效率。
扒開Black Forest Labs首頁,可以看到團隊共有15位成員。
創始人正是老熟人Robin Rombach。
Stability AI曾收購了Robin的Latent Diffusion模型,並聘請他成為首席科學家。
在Google Scholar網站上,Robin Rombach參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經收穫了9000多次引用。
期間他領導了全球著名文生圖開放原始碼專案Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。
論文地址:https://arxiv.org/pdf/2112.10752
Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD論文作者,也是Black Forest Labs創業團隊的新成員。
除了Bjorn Ommer,可以說Robin將SD核心元老全都帶走了。
《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin離職前發表的最後一篇論文。
論文地址:https://arxiv.org/abs/2403.12015
值得一提的是,在這篇論文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也參與了其中。
除此以外,新團隊曾經的創新成果包括建立VQGAN和潛在擴散(Latent Diffusion)、用於圖像和視訊生成的SD模型(SD XL 、SVD)以及用於超快速即時圖像合成的對抗擴散蒸餾(Adversarial Diffusion Distillation)。
看來,AI生圖和視訊的進步速度,還在不斷加快。
再過一年,我們能看到的AI圖片和視訊,將是驚人的。 (新智元)