超越恐怖谷！全球500萬網友被騙，爆火TEDx演講者沒一個是真人？

2024/08/11

•

【新智元導讀】最近，這幾位TED演講者，在外網形成了病毒式傳播，然而，他們竟然全都不是真人？！答案揭曉後，五百萬網友簡直驚掉下巴。這5張圖裡，你能發現幾個bug？

最近，這些「TED演講者」在外網火得一塌糊塗，堪稱病毒式傳播。

仔細看看，你能發現什麼問題嗎？

答案揭曉——這五個人中，沒有一個是真人！

線上尋人的小哥要哭了

如此逼真，幾乎毫無破綻，這種等級的生圖AI直接讓網友們驚掉下巴。

甚至連AI識別軟體，都認不出來這是AI生成的圖。

「看起來真實，難道不是因為本來就是真實的照片？」

「沒有一張是真人嗎？簡直令人毛骨悚然！」

網友銳評：這已經超越了恐怖谷，到達了「超真實谷」。

短短十幾個小時，分享這張圖片的帖子，在推上的觀看人數已經破了500萬。

隨後，作者也被扒了出來——他就是Stable Diffusion團隊的前成員Leo Kadieff。

他揭秘道：這些TEDx演講者，都是用最新的Flux真實版LoRA製作的。

以往的AI生圖，人眼多少都會看出違和感，而這次的圖片如此逼真，正是靠LoRA技術改進了模型，才大大增加了真實感。

並且，作者介紹說，這個工作流還有一個好處，就是大大簡化了複雜的提示詞。

這個消息，簡直讓提示詞苦手們狂喜。

這個小小的22MB檔案，就可以讓我們省去麻煩，不必再在每個提示詞中寫一堆與真實性相關的Token。

一句「一張RAW超現實主義照片，UHD，8k」，足矣。現實主義愛好者，絕對愛死了這個工具。

作者直言：我們還需要對現實模型進行微調嗎？

- 這些圖像是Flux+LoRA的原始輸出，未經過任何放大或後期處理

- 你需要對應的「RealismLora」檔案，以及ComfyUI工作流

Lora：https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main

ComfuUI：https://we.tl/t-zrC5tPFG17

真實版LoRA，效果拔群

從下面這兩幅圖中不難看出，用LoRA和不用LoRA的效果對比，果然十分明顯。

網友已玩嗨

與此同時，「TED演講者」的分享者Kyrannio，也嘗試用Midjourney復刻了一波。

最初的提示詞如下：

一位女性在舞台上發言，來自Google，白色背景，企業標誌被模糊處理，科技會議 --style raw --v 6.1

可以看出，生成效果還不錯，但與Leo Kadieff生成的圖片差距依然很大。

接著，博主又進行了一些改進：

一位年輕女性微笑著在舞台上發言，來自Google，白色背景，企業標誌被模糊處理，科技會議 --style raw --v 6.1

並在經過多次生成之後，試出了最為接近的結果：

與此同時，隨著GoogleImagen 3公開可用，網友們也在第一時間拿著這套prompt進行了嘗試。

一時間，全網都掀起AI生圖的熱潮。

Imagen 3全員可用

沒錯，正如剛剛提到的，Google最強文生圖模型Imagen 3已經正式開放可用了。

prompt：Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.

網友chrypnotoad表示，自己還沒見過那個AI能把阿喀琉斯之盾做得這麼好的！

能輕鬆hold住如此複雜的prompt，Imagen 3果然不能小覷。

知名博主「歸藏」在體驗之後表示：

生成的內容精準但圖片美觀度很差。只要涉及人物，你就得仔細斟酌提示詞寫法，不然大機率無法出圖。

好在，他們在提示詞的互動上做得很好：

LLM會分析提示詞類型，並且給出相關詞語你可以直接切換。

除了直接生成之外，Imagen 3還支援局部重繪功能，用畫筆和提示詞對圖片進行編輯。

當然，幾家頂流文生圖AI的PK，肯定也少不了：Midjourney V6 vs Imagen 3 vs FLU.1[pro]。

異色瞳的亞洲女性。

美洲原住民。

有美人痣的南亞婦女。

瘋狂的藝術家。

很遺憾，Google大概因為安全設定過於敏感，並不能生成這個prompt……

留著八字鬍的高加索老人。

Runway也來蹭了一波，但…

趁著這股熱度，Runway創意總監Nicolas Neubert，還用自家的Gen-3 Alpha生成了一段視訊。

果然，AI圖片變成視訊後，效果依然槓槓的！

而這個帖子，也同樣引起了轟動。

網友讚歎道：從一年半前慘不忍睹的威爾·史密斯吃意面，到今天這個程度，進步可謂是瘋狂的。

同時，也有火眼金睛的網友發現，這個視訊依然有一些細微的bug。

比如人的舌頭不會動，牙齒有些彎曲、扁平，第4秒時左臂出現了奇怪的斑點，還有Google標誌處的bug，也非常明顯。

如果看得再仔細點，會發現所有的陰影都很不自然，比如麥克風的陰影。還有東西接觸的地方，很多線條是亂的。

嘴唇的動作也不自然。

眼睛看起來仍然沒有靈魂。

總的來說，相比於AI生圖，目前AI視訊的bug顯然要多得多。

背後的原因還是在於，AI根本不理解人類的舌頭、頭髮、眼睛究竟是什麼東西。接下來的AI，還是要學會人體解剖和物理學才行。

而且，在文生圖這塊，Runway就要差得多了。

SD一作攜原班人馬創業，一出手就是王炸

說回到FLUX.1，其實在8月初的時候它就引起過一波熱議。

Stable Diffusion一作、Stabililty AI核心成員Robin Rombach下場創業，官宣成立Black Forest Labs。

祭出的首個產品FLUX.1系列模型，效果直接秒殺Midjourney、DALL-E和Stable Diffusion！

根據官博的介紹，FLUX.1在圖像細節、提示詞遵循、風格多樣性和場景複雜性方面都取得了SOTA。

尤其是FLUX.1[pro]，經過測試在一眾文生圖模型中拔得頭籌。

視覺質量、提示詞遵循、尺寸/縱橫比變化、排版和輸出多樣性

ELO得分

為了在可訪問性和模型能力之間取得平衡，FLUX.1有三種變體：FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]：

- FLUX.1 [pro]：FLUX.1的頂級版本，提供最先進的圖像生成，具有一流的提示詞跟隨能力、視覺質量、圖像細節和輸出多樣性。

- FLUX.1 [dev]是一個開放權重的指令蒸餾模型，用於非商業應用。由於是從FLUX.1 [pro]直接蒸餾而來，因此FLUX.1 [dev]不僅獲得了強大的質量和提示詞跟隨能力，而且比同規模的標準模型更加高效。

- FLUX.1 [schnell]是最快的模型，專為本地開發和個人使用而設計。（schnell在德語中就是快的意思）

值得一提的是，所有FLUX.1模型都基於多模態和平行擴散Transformer塊的混合架構，參數規模為120億。

其中，團隊通過建構流匹配（flow matching）改進了之前的擴散模型，並且通過結合旋轉位置嵌入（rotary positional embeddings）和平行注意力層提高了模型性能和改進硬體效率。

團隊成員

扒開Black Forest Labs首頁，可以看到團隊共有15位成員。

創始人正是老熟人Robin Rombach。

Stability AI曾收購了Robin的Latent Diffusion模型，並聘請他成為首席科學家。

在Google Scholar網站上，Robin Rombach參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經收穫了9000多次引用。

期間他領導了全球著名文生圖開放原始碼專案Stable Diffusion系列，這也是全球下載最多、使用最廣的開源大模型之一。

論文地址：https://arxiv.org/pdf/2112.10752

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD論文作者，也是Black Forest Labs創業團隊的新成員。

除了Bjorn Ommer，可以說Robin將SD核心元老全都帶走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》，正收Robin離職前發表的最後一篇論文。

論文地址：https://arxiv.org/abs/2403.12015

值得一提的是，在這篇論文中，Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也參與了其中。

除此以外，新團隊曾經的創新成果包括建立VQGAN和潛在擴散（Latent Diffusion）、用於圖像和視訊生成的SD模型（SD XL 、SVD）以及用於超快速即時圖像合成的對抗擴散蒸餾（Adversarial Diffusion Distillation）。

看來，AI生圖和視訊的進步速度，還在不斷加快。

再過一年，我們能看到的AI圖片和視訊，將是驚人的。 (新智元)