【DeepSeek】不過年?DeepSeek繼續整活,推出統一多模態理解與生成模型
這是停不下了,小編還要過年啊,DeepSeek 剛剛發佈了另一個開源人工智慧模型 Janus-Pro-7B,它是多模態模型(可以生成圖像),在 GenEval 和 DPG-Bench 基準測試中擊敗了 OpenAI 的 DALL-E 3 和 Stable Diffusion
重要的是,只有7B!普通電腦都能運行試試了!
主要特點與優勢
Janus-Pro 的核心創新在於其 解耦的視覺編碼 框架。傳統的多模態模型通常將視覺編碼功能同時用於理解和生成,這可能會導致性能瓶頸和任務衝突。Janus-Pro 通過將視覺編碼解耦到不同的路徑,克服了這一侷限性,同時仍然採用 統一的 Transformer 架構 進行處理。
這種解耦設計帶來了以下顯著優勢:
- 增強靈活性: 模型在理解和生成任務之間更加靈活,能夠更好地適應不同的多模態應用場景
- 卓越性能: Janus-Pro 不僅超越了以往的統一模型,還在特定任務上達到了甚至超過了專門模型的性能水平
- 簡潔高效: 模型架構的簡潔性和高效性使其成為下一代多模態模型的理想選擇
性能表現
Janus-Pro 在多項基準測試中的出色表現:
多模態理解基準 : 在多模態理解方面,Janus-Pro 家族模型表現出優異的平均性能,顯著高於 LLaVA 家族等其他模型
- 文字到圖像生成基準: 在 GenEval 和 DPG-Bench 基準測試中,Janus-Pro 7B 的精準率均超過 84%,與 SDXL、DALL-E 3 等知名模型處於同一水平,甚至更高
圖像生成示例
Janus-Pro 及其前身 Janus 在文字到圖像生成方面的對比。結果表明,Janus-Pro 在以下方面取得了顯著提升:
- 更穩定的輸出: 對於簡短的提示詞,Janus-Pro 能夠生成更穩定的圖像結果
- 更高的視覺質量: 生成的圖像具有更高的清晰度和視覺吸引力
- 更豐富的細節: 圖像細節更加豐富,更貼近文字描述
- 簡單的文字生成能力: Janus-Pro 增加了生成簡單文字的能力,例如示例中的 “Hello”
模型架構與技術細節
Janus-Pro 是一個統一的理解和生成多模態大型語言模型 (MLLM),它基於 DeepSeek-LLM-1.5b-base 或 DeepSeek-LLM-7b-base 建構
- 視覺編碼器: 模型使用 SigLIP-L 作為視覺編碼器,支援 384x384 像素的圖像輸入。
- 圖像生成 Tokenizer: Janus-Pro 使用來自
https://github.com/FoundationVision/LlamaGen的 tokenizer,並採用 16 倍的下採樣率。
快速開始與使用
提供了 GitHub 倉庫的連結,使用者可以訪問倉庫獲取更詳細的程式碼、使用指南以及模型下載地址
https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus-pro
許可與引用
Janus-Pro 的程式碼倉庫採用 MIT 許可證,模型本身的使用受到 DeepSeek 模型許可證 的約束。
如果您在研究或應用中使用了 Janus-Pro 模型,按照以下格式進行引用:
@misc{chen2025januspro,
title={Janus-Pro: Unified Multimodal Understanding and Generatior},
author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng F},
year=2025},
}(AI寒武紀)