【DeepSeek】不過年？DeepSeek繼續整活，推出統一多模態理解與生成模型

2025/01/28

•

這是停不下了，小編還要過年啊，DeepSeek 剛剛發佈了另一個開源人工智慧模型 Janus-Pro-7B，它是多模態模型（可以生成圖像），在 GenEval 和 DPG-Bench 基準測試中擊敗了 OpenAI 的 DALL-E 3 和 Stable Diffusion

重要的是，只有7B！普通電腦都能運行試試了！

主要特點與優勢

Janus-Pro 的核心創新在於其 解耦的視覺編碼 框架。傳統的多模態模型通常將視覺編碼功能同時用於理解和生成，這可能會導致性能瓶頸和任務衝突。Janus-Pro 通過將視覺編碼解耦到不同的路徑，克服了這一侷限性，同時仍然採用 統一的 Transformer 架構 進行處理。

這種解耦設計帶來了以下顯著優勢：

增強靈活性: 模型在理解和生成任務之間更加靈活，能夠更好地適應不同的多模態應用場景
卓越性能: Janus-Pro 不僅超越了以往的統一模型，還在特定任務上達到了甚至超過了專門模型的性能水平
簡潔高效: 模型架構的簡潔性和高效性使其成為下一代多模態模型的理想選擇

性能表現

Janus-Pro 在多項基準測試中的出色表現：

多模態理解基準 : 在多模態理解方面，Janus-Pro 家族模型表現出優異的平均性能，顯著高於 LLaVA 家族等其他模型

文字到圖像生成基準: 在 GenEval 和 DPG-Bench 基準測試中，Janus-Pro 7B 的精準率均超過 84%，與 SDXL、DALL-E 3 等知名模型處於同一水平，甚至更高

圖像生成示例

Janus-Pro 及其前身 Janus 在文字到圖像生成方面的對比。結果表明，Janus-Pro 在以下方面取得了顯著提升：

更穩定的輸出: 對於簡短的提示詞，Janus-Pro 能夠生成更穩定的圖像結果
更高的視覺質量: 生成的圖像具有更高的清晰度和視覺吸引力
更豐富的細節: 圖像細節更加豐富，更貼近文字描述
簡單的文字生成能力: Janus-Pro 增加了生成簡單文字的能力，例如示例中的 “Hello”

模型架構與技術細節

Janus-Pro 是一個統一的理解和生成多模態大型語言模型 (MLLM)，它基於 DeepSeek-LLM-1.5b-base 或 DeepSeek-LLM-7b-base 建構

視覺編碼器: 模型使用 SigLIP-L 作為視覺編碼器，支援 384x384 像素的圖像輸入。
圖像生成 Tokenizer: Janus-Pro 使用來自 https://github.com/FoundationVision/LlamaGen 的 tokenizer，並採用 16 倍的下採樣率。

快速開始與使用

提供了 GitHub 倉庫的連結，使用者可以訪問倉庫獲取更詳細的程式碼、使用指南以及模型下載地址

https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus-pro

許可與引用

Janus-Pro 的程式碼倉庫採用 MIT 許可證，模型本身的使用受到 DeepSeek 模型許可證 的約束。

如果您在研究或應用中使用了 Janus-Pro 模型，按照以下格式進行引用：

@misc{chen2025januspro,
title={Janus-Pro: Unified Multimodal Understanding and Generatior},
author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng F},
year=2025},
}

(AI寒武紀)