【DeepSeek】突發!DeepSeek除夕搞炸裂,開源多模態AI模型發佈,僅128顆輝達A100訓練1周,性能碾壓美國企業


剛剛,DeepSeek除夕放大招,這絕對是 AI 行業最難眠的一夜了。

1月28日凌晨,人工智慧社區Hugging Face顯示,DeepSeek剛剛發佈了開源多模態人工智慧模型Janus-Pro,擁有10億和70億參數規模。其中Janus-Pro-7B在GenEval和DPG-Bench基準測試中擊敗了OpenAI的DALL-E 3和Stable Diffusion。

簡單來說,這個模型既能讓AI讀圖(基於SigLIP-L),又能讓AI生圖(借鑑LlamaGen),分1.5B和7B兩個大小。要知道,GPT-4o的圖片生成多模態模型至今沒開放。

它到底有多麼厲害?給你看看DeepSeek給的案例。



它能解答圖片在杭州西湖,也能根據提示詞生成惟妙惟肖的圖片。

事實上,DeepSeek一直在研發多模態生成式AI模型。

2024年前後,該公司推出Janus,這是一種統一理解和生成的開源多模態模型(MLLM),它將視覺編碼解耦,以實現多模態理解和生成。

Janus 基於 DeepSeek-LLM-1.3b-base 建構,該庫在大約 500B 個文字標記的語料庫上進行訓練。對於多模態理解,它使用 SigLIP -L作為視覺編碼器,支援 384 x 384 圖像輸入。對於圖像生成,Janus 使用此處的標記器,下採樣率為 16。

2024年11月13日,JanusFlow 發佈,一種用於圖像生成的具有校正流的新型統一模型。

簡單來說,JanusFlow是一個功能強大的框架,它將圖像理解和生成統一到一個模型中。JanusFlow 引入了一種極簡架構,將自回歸語言模型與最先進的生成模型方法整流流相結合。我們的主要發現表明,整流流可以直接在大型語言模型框架內進行訓練,無需進行複雜的架構修改。

2025年開年,Janus全面升級到高級版Janus-Pro。

具體來說,Janus-Pro 是一種新穎的自回歸框架,它將多模態理解和生成統一起來,將視覺編碼解耦,以實現多模態理解和生成。它通過將視覺編碼解耦為單獨的路徑來解決以前方法的侷限性,同時仍然使用單一、統一的轉換器架構進行處理。

這種解耦不僅緩解了視覺編碼器在理解和生成中的角色衝突,還增強了框架的靈活性。

不過,Janus-Pro架構與Janus相同。總體體系結構的核心設計原理是將視覺編碼解析,以進行多模式的理解和生成。我們應用獨立的編碼方法將原始輸入轉換為功能,然後由統一自回歸Transformer處理。為了進行多模式理解,我們使用siglip 編碼器從圖像中提取高維語義特徵。將這些特徵從2-D網格平坦為1-D序列,並使用理解適配將這些圖像特徵對應到LLM的輸入空間中。對於視覺生成任務,我們使用的VQ令牌將圖像轉換為離散ID。將ID序列平坦為1-D之後,我們使用一代介面卡將與每個ID相對應的程式碼簿嵌入到LLM的輸入空間中。然後,我們將這些特徵序列加和形成多模式特徵序列,然後將其送入LLM進行處理。除了LLM中的內建預測頭外,我們還利用一個隨機初始化的預測頭來進行視覺生成任務中的圖像預測。整個模型遵循自回歸框架。

Janus-Pro 超越了之前的統一模型,並且達到或超過了特定任務模型的性能。Janus-Pro 的簡單性、高靈活性和有效性使其成為下一代統一多模態模型的有力候選者。

Janus-Pro 是基於 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 建構。

最重要的是訓練:我們在單個訓練步驟中根據指定的比率混合所有資料類型。我們的 Janus 使用 HAI-LLM [15] 進行訓練和評估,這是一個建構在 PyTorch 之上的輕量級且高效的分佈式訓練框架。整個訓練過程在 1.5B/7B 模型的 16/32 個節點的叢集上花費了大約 7/14 天,每個節點配備 8 個 Nvidia A100 (40GB) GPU。


對外展示的多個基準測試顯示,Janus-Pro 卓越的多模態理解能力,並顯著提高了文字到圖像的指令跟蹤性能。具體來說,Janus-Pro-7B在多模態理解基準MMBench 上取得了79.2的分數,超越了Janus (69.4)、TokenFlow (68.9)等最先進的統一多模態模型,和MetaMorph (75.2)。此外,在文字到圖像指令跟蹤排行榜 GenEval中,Janus-Pro-7B 得分為 0.80,優於 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。

Janus-Pro-7B 在 GenEval 上獲得了 80% 的總體精準率,這優於所有其他統一或僅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和DELLE-E 3 (67%)。這表明我們的方法具有更好的指令跟蹤能力。另外,Janus-Pro 在 DPG-Bench 上獲得了 84.19 的分數,超過了所有其他方法。這表明 Janus-Pro 擅長遵循密集的指令來生成文字到圖像。



目前,相關程式碼已經放在了GitHub當中。

https://github.com/deepseek-ai/Janus?tab=readme-ov-file

我們非常期待接下來DeepSeek能夠帶來優異的多模態(如文生圖、文生視訊)等功能和表現,這可能會讓OpenAI、Meta,甚至是輝達會更加恐慌。

最後的最後,還是要提醒,DeepSeek已經限制新使用者註冊了,也就是鎖區了,海外的朋友需要買虛擬號註冊:近期DeepSeek線上服務受到大規模惡意攻擊,為持續提供服務,暫時限制了+86手機號以外的註冊方式,已註冊使用者可以正常登錄,感謝理解和支援。 (鈦媒體AGI)