【DeepSeek】不過年?DeepSeek繼續整活,推出統一多模態理解與生成模型



這是停不下了,小編還要過年啊,DeepSeek 剛剛發佈了另一個開源人工智慧模型 Janus-Pro-7B,它是多模態模型(可以生成圖像),在 GenEval 和 DPG-Bench 基準測試中擊敗了 OpenAI 的 DALL-E 3 和 Stable Diffusion

重要的是,只有7B!普通電腦都能運行試試了!

主要特點與優勢

Janus-Pro 的核心創新在於其 解耦的視覺編碼 框架。傳統的多模態模型通常將視覺編碼功能同時用於理解和生成,這可能會導致性能瓶頸和任務衝突。Janus-Pro 通過將視覺編碼解耦到不同的路徑,克服了這一侷限性,同時仍然採用 統一的 Transformer 架構 進行處理。

這種解耦設計帶來了以下顯著優勢:

  •  增強靈活性: 模型在理解和生成任務之間更加靈活,能夠更好地適應不同的多模態應用場景
  •  卓越性能: Janus-Pro 不僅超越了以往的統一模型,還在特定任務上達到了甚至超過了專門模型的性能水平
  •  簡潔高效: 模型架構的簡潔性和高效性使其成為下一代多模態模型的理想選擇

性能表現

Janus-Pro 在多項基準測試中的出色表現:

多模態理解基準 : 在多模態理解方面,Janus-Pro 家族模型表現出優異的平均性能,顯著高於 LLaVA 家族等其他模型

  • 文字到圖像生成基準: 在 GenEval 和 DPG-Bench 基準測試中,Janus-Pro 7B 的精準率均超過 84%,與 SDXL、DALL-E 3 等知名模型處於同一水平,甚至更高


圖像生成示例

Janus-Pro 及其前身 Janus 在文字到圖像生成方面的對比。結果表明,Janus-Pro 在以下方面取得了顯著提升:

  •  更穩定的輸出: 對於簡短的提示詞,Janus-Pro 能夠生成更穩定的圖像結果
  •  更高的視覺質量: 生成的圖像具有更高的清晰度和視覺吸引力
  •  更豐富的細節: 圖像細節更加豐富,更貼近文字描述
  •  簡單的文字生成能力: Janus-Pro 增加了生成簡單文字的能力,例如示例中的 “Hello”


模型架構與技術細節

Janus-Pro 是一個統一的理解和生成多模態大型語言模型 (MLLM),它基於 DeepSeek-LLM-1.5b-base 或 DeepSeek-LLM-7b-base 建構

  •  視覺編碼器: 模型使用 SigLIP-L 作為視覺編碼器,支援 384x384 像素的圖像輸入。
  •  圖像生成 Tokenizer: Janus-Pro 使用來自 https://github.com/FoundationVision/LlamaGen 的 tokenizer,並採用 16 倍的下採樣率。

快速開始與使用

提供了 GitHub 倉庫的連結,使用者可以訪問倉庫獲取更詳細的程式碼、使用指南以及模型下載地址

https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus-pro

許可與引用

Janus-Pro 的程式碼倉庫採用 MIT 許可證,模型本身的使用受到 DeepSeek 模型許可證 的約束。

如果您在研究或應用中使用了 Janus-Pro 模型,按照以下格式進行引用:

@misc{chen2025januspro,
title={Janus-Pro: Unified Multimodal Understanding and Generatior},
author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng F},
year=2025},
}
(AI寒武紀)