超越恐怖谷!全球500萬網友被騙,爆火TEDx演講者沒一個是真人?


【新智元導讀】最近,這幾位TED演講者,在外網形成了病毒式傳播,然而,他們竟然全都不是真人?!答案揭曉後,五百萬網友簡直驚掉下巴。這5張圖裡,你能發現幾個bug?

最近,這些「TED演講者」在外網火得一塌糊塗,堪稱病毒式傳播。

仔細看看,你能發現什麼問題嗎?






答案揭曉——這五個人中,沒有一個是真人!


線上尋人的小哥要哭了

如此逼真,幾乎毫無破綻,這種等級的生圖AI直接讓網友們驚掉下巴。

甚至連AI識別軟體,都認不出來這是AI生成的圖。


「看起來真實,難道不是因為本來就是真實的照片?」


「沒有一張是真人嗎?簡直令人毛骨悚然!」


網友銳評:這已經超越了恐怖谷,到達了「超真實谷」。


短短十幾個小時,分享這張圖片的帖子,在推上的觀看人數已經破了500萬。


隨後,作者也被扒了出來——他就是Stable Diffusion團隊的前成員Leo Kadieff。

他揭秘道:這些TEDx演講者,都是用最新的Flux真實版LoRA製作的。

以往的AI生圖,人眼多少都會看出違和感,而這次的圖片如此逼真,正是靠LoRA技術改進了模型,才大大增加了真實感。

並且,作者介紹說,這個工作流還有一個好處,就是大大簡化了複雜的提示詞。

這個消息,簡直讓提示詞苦手們狂喜。

這個小小的22MB檔案,就可以讓我們省去麻煩,不必再在每個提示詞中寫一堆與真實性相關的Token。

一句「一張RAW超現實主義照片,UHD,8k」,足矣。現實主義愛好者,絕對愛死了這個工具。


作者直言:我們還需要對現實模型進行微調嗎?

- 這些圖像是Flux+LoRA的原始輸出,未經過任何放大或後期處理

- 你需要對應的「RealismLora」檔案,以及ComfyUI工作流


Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main

ComfuUI:https://we.tl/t-zrC5tPFG17

真實版LoRA,效果拔群

從下面這兩幅圖中不難看出,用LoRA和不用LoRA的效果對比,果然十分明顯。




網友已玩嗨

與此同時,「TED演講者」的分享者Kyrannio,也嘗試用Midjourney復刻了一波。


最初的提示詞如下:

一位女性在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 --style raw --v 6.1



可以看出,生成效果還不錯,但與Leo Kadieff生成的圖片差距依然很大。


接著,博主又進行了一些改進:

一位年輕女性微笑著在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 --style raw --v 6.1


並在經過多次生成之後,試出了最為接近的結果:




與此同時,隨著GoogleImagen 3公開可用,網友們也在第一時間拿著這套prompt進行了嘗試。

一時間,全網都掀起AI生圖的熱潮。




Imagen 3全員可用

沒錯,正如剛剛提到的,Google最強文生圖模型Imagen 3已經正式開放可用了。

prompt:Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.


來源:Risphere

網友chrypnotoad表示,自己還沒見過那個AI能把阿喀琉斯之盾做得這麼好的!


能輕鬆hold住如此複雜的prompt,Imagen 3果然不能小覷。


知名博主「歸藏」在體驗之後表示:

生成的內容精準但圖片美觀度很差。只要涉及人物,你就得仔細斟酌提示詞寫法,不然大機率無法出圖。

好在,他們在提示詞的互動上做得很好:

LLM會分析提示詞類型,並且給出相關詞語你可以直接切換。


來源:歸藏

除了直接生成之外,Imagen 3還支援局部重繪功能,用畫筆和提示詞對圖片進行編輯。


來源:歸藏

當然,幾家頂流文生圖AI的PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1[pro]。


異色瞳的亞洲女性。


美洲原住民。


有美人痣的南亞婦女。


瘋狂的藝術家。

很遺憾,Google大概因為安全設定過於敏感,並不能生成這個prompt……


留著八字鬍的高加索老人。


Runway也來蹭了一波,但…

趁著這股熱度,Runway創意總監Nicolas Neubert,還用自家的Gen-3 Alpha生成了一段視訊。


果然,AI圖片變成視訊後,效果依然槓槓的!


而這個帖子,也同樣引起了轟動。


網友讚歎道:從一年半前慘不忍睹的威爾·史密斯吃意面,到今天這個程度,進步可謂是瘋狂的。


同時,也有火眼金睛的網友發現,這個視訊依然有一些細微的bug。

比如人的舌頭不會動,牙齒有些彎曲、扁平,第4秒時左臂出現了奇怪的斑點,還有Google標誌處的bug,也非常明顯。



如果看得再仔細點,會發現所有的陰影都很不自然,比如麥克風的陰影。還有東西接觸的地方,很多線條是亂的。


嘴唇的動作也不自然。


眼睛看起來仍然沒有靈魂。


總的來說,相比於AI生圖,目前AI視訊的bug顯然要多得多。


背後的原因還是在於,AI根本不理解人類的舌頭、頭髮、眼睛究竟是什麼東西。接下來的AI,還是要學會人體解剖和物理學才行。


而且,在文生圖這塊,Runway就要差得多了。


SD一作攜原班人馬創業,一出手就是王炸

說回到FLUX.1,其實在8月初的時候它就引起過一波熱議。

Stable Diffusion一作、Stabililty AI核心成員Robin Rombach下場創業,官宣成立Black Forest Labs。

祭出的首個產品FLUX.1系列模型,效果直接秒殺Midjourney、DALL-E和Stable Diffusion!


根據官博的介紹,FLUX.1在圖像細節、提示詞遵循、風格多樣性和場景複雜性方面都取得了SOTA。

尤其是FLUX.1[pro],經過測試在一眾文生圖模型中拔得頭籌。


視覺質量、提示詞遵循、尺寸/縱橫比變化、排版和輸出多樣性


ELO得分

為了在可訪問性和模型能力之間取得平衡,FLUX.1有三種變體:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]:

- FLUX.1 [pro]:FLUX.1的頂級版本,提供最先進的圖像生成,具有一流的提示詞跟隨能力、視覺質量、圖像細節和輸出多樣性。

- FLUX.1 [dev]是一個開放權重的指令蒸餾模型,用於非商業應用。由於是從FLUX.1 [pro]直接蒸餾而來,因此FLUX.1 [dev]不僅獲得了強大的質量和提示詞跟隨能力,而且比同規模的標準模型更加高效。

- FLUX.1 [schnell]是最快的模型,專為本地開發和個人使用而設計。(schnell在德語中就是快的意思)


值得一提的是,所有FLUX.1模型都基於多模態和平行擴散Transformer塊的混合架構,參數規模為120億。

其中,團隊通過建構流匹配(flow matching)改進了之前的擴散模型,並且通過結合旋轉位置嵌入(rotary positional embeddings)和平行注意力層提高了模型性能和改進硬體效率。

團隊成員

扒開Black Forest Labs首頁,可以看到團隊共有15位成員。


創始人正是老熟人Robin Rombach。


Stability AI曾收購了Robin的Latent Diffusion模型,並聘請他成為首席科學家。

在Google Scholar網站上,Robin Rombach參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經收穫了9000多次引用。


期間他領導了全球著名文生圖開放原始碼專案Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。


論文地址:https://arxiv.org/pdf/2112.10752

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD論文作者,也是Black Forest Labs創業團隊的新成員。

除了Bjorn Ommer,可以說Robin將SD核心元老全都帶走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin離職前發表的最後一篇論文。


論文地址:https://arxiv.org/abs/2403.12015

值得一提的是,在這篇論文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也參與了其中。

除此以外,新團隊曾經的創新成果包括建立VQGAN和潛在擴散(Latent Diffusion)、用於圖像和視訊生成的SD模型(SD XL 、SVD)以及用於超快速即時圖像合成的對抗擴散蒸餾(Adversarial Diffusion Distillation)。

看來,AI生圖和視訊的進步速度,還在不斷加快。

再過一年,我們能看到的AI圖片和視訊,將是驚人的。 (新智元)