#Flux
聊一聊歐洲的AI公司
最近在學 ComfyUI,前幾天同事和我說,Flux 又出新的模型了——Flux 2 Klein,模型小,改圖能力很強。我拼寫的時候還以為他說的是 client,他糾正說 K-l-e-i-n,我一看,這不是德語裡面表示"小"的意思那個單詞嘛。他說 Flux 模型是由 Stable Diffusion 那個團隊的核心人員開發的。我看著"klein"這個單詞,猜想這是不是一家德國的團隊,就去查了查背後的故事,好傢伙,整個故事還是很精彩的。我們都知道,OpenAI 之前或者之後發佈的文生圖模型 DALL-E 2 和 DALL-E 3 都是閉源模型,之前很火的 Midjourney 也只能付費使用。但是 2022 年,大家的視野中出現了一個叫 Stability AI 的公司,這個公司發佈了一系列的 Stable Diffusion 模型,爆火全球。毫不誇張的說,Stable Diffusion 模型之於文生圖,類似於 ChatGPT 之於聊天模型。其中 22 年 10 月發佈的 SD1.5 以及 23 年 7 月發佈的 SDXL 是其中最最經典的模型,也是那個時期被使用最多的模型,那怕我一個新手開始學習 ComfyUI,回望文生圖的來時路,這兩個模型也是不能不學習的模型。這些模型的開源催生了很多的微調模型和 LoRA 外掛,極大地推動了文生圖整個行業的生態。故事的開始但是真正的故事要從 2021 年說起。那一年,德國慕尼黑大學的 CompVis 小組發了一篇論文《High-Resolution Image Synthesis with Latent Diffusion Models》,這篇論文的作者是 Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser 和 Björn Ommer。這篇論文裡開發出了 Latent Diffusion Model (LDM),只用了幾十個 GPU 訓練。這篇論文已經獲得了超過 29000 次引用。2022 年,Stability AI 給這個團隊提供了算力支援,改進模型,改進後的模型被改名為 Stable Diffusion,以 Stability AI 的名義推出,此後發佈的所有的模型都叫 Stable Diffusion,成為一個系列。所以,Stability AI的 CEO Emad Mostaque 的貢獻主要是商業化包裝和算力支援,但他在宣傳中把自己塑造成了技術締造者,這引起了原團隊的一些不滿。慕尼黑大學的 Ommer 教授曾表示:"據我所知,在我們發佈 Latent Diffusion 時,Stability AI 根本不知道這回事,他們是後來才跳上這架馬車。"(原文在此:"Stability, as far as I know, did not even know about this thing when we created it," Björn Ommer, the professor who led the research, tells Forbes. "They jumped on this wagon only later on." )後來,迫於資金壓力,Stability AI 想要商業化文生圖模型,不再想要發佈開源模型,但是技術團隊堅持開源。於是 2024年 3月,Stability AI 的核心技術團隊離職。2024 年 8 月,他們創立了黑森林實驗室(Black Forest Labs),黑森林實驗室團隊的核心成員包括上面那篇論文的所有作者。 這個實驗室在弗萊堡創立,這座城市就在著名的黑森林地區,著名的黑森林蛋糕就是那裡的。這個團隊發佈了 Flux 模型,Flux 的成績很耀眼,那個時候大家的使用逐漸從 SD1.5 和 SDXL 轉向了 Flux 模型。兩家公司的不同命運兩周之前我開始學習 ComfyUI 的時候,發現現在業界普遍在用阿里出的開源圖像模型,Flux 1 沒有那麼多人使用了,黑森林實驗室 11 月發佈的的 FLUX.2 [pro]、FLUX.2 [flex]、FLUX.2 [dev] 沒有同期發佈的 Z-Image-Turbo 效果好,但是他們 2026 年 1 月又發佈了 Flux 2 Klein,重新回到大家的視野。同時他們也拿到了很多融資,2025 年 12 月完成 3 億美元 B 輪融資,估值 32.5 億美元,累計融資 4.5 億美元,黑森林實驗室的商業模式是大客戶戰略,他們不燒錢做 C 端,專注 B2B API 服務,有一些大客戶比如 Meta、Adobe 和 xAI 等。而之前的 Stability AI 這個公司,現在的前景不容樂觀。2024 年 Q1 收入不足 500 萬美元,虧損超 3000 萬美元,欠債近 1 億美元,創始人已辭職,2025 年面臨嚴重現金流斷裂,正在進行重組引入外部資本。最前沿的研究裡,人才是最重要的。離開了 Stability AI,Rombach 團隊也能做出同樣好的成績,但是反觀 Stability AI,現在的發展就不行。Rombach 團隊支援開源,Flux 1 和 Flux2 開源,對於行業來說就是一個台階一個台階往上走,每個模型比之前的要好一點,讓人敬佩。(同樣感謝一直開放原始碼的國產模型。)同時黑森林實驗室的商業路線,既保證了開放原始碼的初心,又保證了盈利的可能性。歐洲的其他AI公司除了黑森林實驗室,歐洲還有幾家值得關注的 AI 公司。Mistral AI 是法國的大語言模型公司,做開源和閉源的 LLM。 他們發展勢頭最猛,2025 年 9 月完成 17 億歐元 C 輪融資,估值達 117 億歐元,ASML 投資 13 億歐元成為最大股東。2024 年收入 3000 萬美元,2025 年預計增至 6000 萬美元。HuggingFace 也是法國的做開源模型社區和開發者平台的公司,有點像 AI 界的 GitHub。 最新融資是 2023 年 8 月的 D 輪 2.35 億美元,目前估值 45 億美元(約 330 億人民幣)。它目前的挑戰是盈利路線不清晰,估值遠超營收,需要持續證明商業價值。DeepL 是德國的翻譯公司。 DeepL 的發展讓人驚訝,因為 LLM 出現之後,翻譯被認為是最容易被大模型替代的方向,沒想到 DeepL 能藉著大語言模型的浪潮打一個翻身仗。我感覺主要有兩個原因,一是 DeepL 在翻譯精準性、專業術語和語境理解方面比通用大語言模型效果要好,特別是德語、法語等的翻譯。二是歐洲企業對資料隱私極為敏感,DeepL 提供本地部署和嚴格的資料保護承諾,因而有大量的企業客戶。另外,還有來自德國柏林的 n8n,來自瑞典的 AI 程式設計平台 Lovable 等等。歐洲 AI公司的困境我之所以關注歐洲的 AI 發展,除了 AI 產品本身有趣,也是期待在歐洲這些國家能有一些 AI 的應用和突破,而不是死守著資料隱私法過日子。之前 Jina AI 被收購時,CEO 肖涵對德國和歐洲的AI 環境提出了很尖銳的批評。他說:"雖說強者不抱怨環境,可我覺得我另一個錯誤就是對歐洲和德國抱有太多的期待和幻想。直到 2024 年我來到美國灣區後,我發現自己在一個過分平庸的地方浪費了很多寶貴的時間。對於整個德國和歐洲社會的左和保守,對 AI 紙上談兵和杞人憂天,勞動法對創業者缺乏理解尊重,及對優秀人才的冷漠無視,這些都讓我在 2023 年後對歐洲和德國無比失望。"他還提到,2023 年在公司裡叫上幾個德國同事一起去做一些 lobby 遊說,希望多參與到歐洲議會和德國政界來獲取關注和資源,一年下來活動參加不少,進展為零。直到有一天他明白了,他們邀請他去參加這些議會完全是把他看做一個 Diversity Guest,他們不需要他的專業知識,只需要那張亞洲面孔。Jina AI 本身是一家很厲害的德國 AI 創業公司,現在已經被Elastic 收購了,但是創始人對德國和歐洲有這樣的評價,實在是令人惋惜。這幾年歐洲出現的能打的 AI 公司也確實很少,因為歐洲 AI 公司的挑戰是很多的——面臨算力成本高,沒有自己的雲基礎設施,市場規模小並且歐洲市場分散,人才流失嚴重(頂尖人才去了美國和英國),政府和法律缺乏支援和融資環境差等等問題。但話說回來,黑森林實驗室的故事也證明了德國學術界的技術實力還是很強的,Flux 系列絕對是第一梯隊的模型。問題不在於技術能力,而在於是否有土壤和文化支援吧。 (地球美好不)
字節開源新生圖模型:一個模型統一所有生圖任務,多主體融合效果SOTA
利用字節團隊魔改的FLUX模型,可以直接把多個參考主體放進一張圖了。字節團隊以FLUX為基礎模型,提出了新的生圖模型UNO,統一了圖像生成任務中不同輸入條件的處理。無論是單主體進行風格變換,還是不同物體的融合,UNO都能直接搞定。字節團隊認為,UNO主要解決的是參考驅動的圖像生成中的兩個主要挑戰——資料可擴展性和主體可擴展性。傳統方法在從單主體資料集擴展到多主體資料集時面臨困難,且大多數方法僅關注單主體生成,難以應用於多主體場景。為瞭解決這一問題,團隊提出了“模型-資料共同進化”的新範式,能夠在增強模型能力的同時,不斷豐富可用的訓練資料。多主體參考生圖測試中,UNO的DINO和CLIP得分均達到了SOTA水平。網友評價說,UNO看上去是一個巨大的飛躍,如果真的能搞定多主體參考,將會大幅激發定製化AI智能體的潛力。另外,團隊還在HuggingFace上提供了線上試玩,但前提是擁有HF的GPU額度。一個模型搞定單/多主體參考如開頭所述,UNO將單純的文生圖,以及單/多主體參考這些不同的任務都整合到了一個模型當中。具體來說,除了直接的文生圖之外,它可以把多張參考圖當中的物體進行組合。當然三個物體也照樣能很好地組合,官方提供的線上Demo當中最多可以上傳四張參考圖。也可以對參考主體中的人物特徵進行保持,生成不同場景的人物圖像。同時對於人物而言,也可以在保留基本特徵的條件下進行風格轉換,包括被GPT-4o帶火的吉卜力風也能拿捏。應用場景方面,官方給出了虛擬試穿和產品設計這兩組示例。對於UNO的單主體生成能力,團隊使用了DreamBench進行了測試,使用了三個主要指標——DINO分數、CLIP-I分數(這兩個用於評估主體相似度)和CLIP-T分數(用於評估文字忠實度)。多主體生成測試則採用了一個特別設計的測試集——從DreamBench中選取了30種不同的雙主體組合,包括非生物體和生物體的組合。最終,UNO的測試成績無論在單主體還是多主體任務中都處於領先水平。研究團隊還進行了使用者研究,邀請了30位評估者(包括領域專家和非專家)對300個圖像組合進行評估。結果,UNO在所有評估維度上都獲得了較高評分,特別是在主體相似度和文字忠實度方面的表現最為突出。此外,團隊還展示了UNO和一些SOTA級模型的效果對比,可以直觀感受一下區別。模型-資料共同進化UNO採用了這一種“模型-資料共同進化”的新範式,核心思想是用較弱的模型生成訓練資料,訓練更強的模型。在模型架構方面,UNO以開源模型FLUX.1 dev為基礎,繼承了其文生圖基礎能力和多模態注意力機制,採用了通用定製化模型框架。具體來說,該框架採用漸進式跨模態對齊策略,將訓練過程分為兩個連續階段——首先使用單主體資料對預訓練的文生圖(T2I)模型進行微調,使其獲得基本的主體到圖像轉換(S2I)能力;隨後引入多主體資料繼續訓練,增強模型處理複雜場景的能力。此外研究團隊提出了通用旋轉位置嵌入(UnoPE)技術,通過為文字和圖像標記分配特定的位置索引,來調控多模態標記之間的互動。UnoPE採用從噪聲圖像標記最大維度開始的對角線位置編碼方式,並通過調整位置索引範圍來防止生成圖像過度依賴參考圖像的空間結構,有效緩解了在擴展視覺主體控制時容易出現的屬性混淆問題。資料方面,團隊利用Diffusion Transformer固有的上下文生成能力建構了資料合成框架。團隊首先建構了一個包含365個頂層類別的分類樹,這些類別來自Object365資料集。在每個類別下,還包含了更細粒度的分類,涵蓋年齡、職業和著裝風格等維度。然後利用大模型在每個類別中生成豐富多樣的主體和場景描述,這些輸出與預定義的文字範本結合,可以為文生圖模型生成數百萬個文字提示。最終,研究團隊設計了一個漸進式的合成管道,從單主體生成開始,逐步過渡到多主體上下文生成。來自字節智能創作團隊論文顯示,UNO的作者字節智能創作團隊。據介紹,該團隊是字節的AI&多媒體技術中台,研究方向包括電腦視覺、音視訊編輯、特效處理等技術。之前字節提出的用於提升圖像生成模型“美感”的VMix,也是來自智能創作團隊,並且作者與這次的UNO基本相同。本次UNO的項目負責人是Fei Ding,是Vmix的通訊作者,之前還參與過Realcustom++、Dreamtuner等項目的工作。UNO的第一作者Shaojin Wu、通訊作者黃夢琪,之前也都參與過Vmix。黃夢琪目前是中科大博士在讀,2023年起至今一直在字節實習,預計今年畢業,導師是毛震東教授。另外,字節招聘網站顯示,智能創作團隊目前正在招聘AIGC技術專家、多模態演算法專家等崗位。 (量子位)