【DeepSeek】除夕狂飆大招：開源多模態掀翻全場！256張A100訓兩周碾壓DALL-E 3

2025/01/28

•

【新智元導讀】DeepSeek除夕又放出重磅炸彈：多模態大一統開源模型Janus-Pro系列上線！其中，1.5B模型僅用了128顆輝達A100訓練一周，而7B也只是翻了個倍。

全世界矚目之際，DeepSeek在除夕又有了新的動作。

就在昨夜，DeepSeek正式發佈了集理解與生成於一體的多模態大模型Janus-Pro。

目前，相關程式碼和模型已完全開源。

Janus-Pro採用了創新性自回歸框架，並實現了多模態理解與生成的統一，是對去年發佈的前代模型Janus的全面升級。

它通過將視覺編碼解耦為獨立的通道，克服了先前方法的侷限性，同時仍然使用單一且統一的Transformer架構進行處理。這種解耦不僅緩解了視覺編碼器在理解和生成方面的固有角色衝突，還顯著提升了框架的靈活性。

結果顯示，升級後的Janus-Pro在多模態理解和文生圖能力上都實現了顯著突破，同時文生圖的穩定性也得到了提升。

與此同時，DeepSeek在訓練上一如既往地只用了非常少的算力——

1.5B和7B這兩款模型，分別在配備16/32個計算節點的叢集上進行，每個節點裝配8張Nvidia A100（40GB）GPU，總訓練時間約為7/14天。

網友實測

對於DeepSeek的又一個暴擊，外媒VentureBeat評論道：「Janus-Pro-7B的發佈，讓它的影響力再次得到擴大的同時，強化了這一敘事——DeepSeek作為創新者，已經顛覆了AI世界的既定秩序。」

網友們紛紛預言，DeepSeek Janus-Pro-7B模型對整個AI世界生態系統來說，又將造成巨震。

甚至1B模型可以直接在WebGPU的瀏覽器中就可以運行。本地運行模型，只需存取網站即可！

但在實際效果上，很多網友實測發現Janus-Pro的生圖效果並不總是很理想。

當然，也有實測效果比較好的例子

類似的，在圖像理解方面，表現也是有好有壞。

完整論文解讀

具體而言，Janus-Pro在以下三個方面進行了改進：（1）採用了最佳化後的訓練策略，（2）擴充了訓練資料集，以及（3）實現了模型規模的進一步擴展。

Janus作為一個創新性模型，最初在1B參數規模上完成了驗證。但由於訓練資料量受限且模型容量相對不足，導致它存在一些侷限性，主要表現在短提示詞圖像生成效果欠佳以及文字生圖質量不夠穩定等方面。

針對這些問題，DeepSeek團隊推出了升級版本Janus-Pro，在訓練策略、資料規模和模型容量三個維度上都實現了重要突破。

Janus-Pro 系列提供了1B和7B兩種參數規模的模型，充分展示了視覺編解碼方法的可擴展性。

多個基準測試的評估結果表明，Janus-Pro在多模態理解能力和文字生圖的指令執行性能方面都取得了顯著進展。

具體而言，Janus-Pro-7B在多模態理解基準測試MMBench上達到了79.2的評分，超越了包括Janus（69.4）、TokenFlow（68.9）和MetaMorph（75.2）在內的現有最優統一多模態模型。

在GenEval文字生圖指令執行能力排行榜上，Janus-Pro-7B獲得了0.80的高分，顯著優於Janus（0.61）、DALL-E 3（0.67）和Stable Diffusion 3 Medium（0.74）的表現。

模型架構

Janus-Pro架構的核心設計理念是，實現多模態理解和生成任務中視覺編碼的解耦。與Janus保持一致。

具體而言，研究者採用獨立的編碼方法將原始輸入轉換為特徵，隨後通過統一的自回歸Transformer進行處理。

Janus-Pro的架構

在多模態理解方面，研究者採用SigLIP編碼器，從圖像中提取高維語義特徵。

這些特徵首先從二維網格結構展平為一維序列，然後通過理解介面卡將圖像特徵對應到大語言模型的輸入空間。

在視覺生成任務中，他們使用VQ分詞器將圖像轉換為離散ID序列。將這些ID序列展平為一維後，通過生成介面卡將對應的碼本嵌入對應至大語言模型的輸入空間。

隨後，他們將上述特徵序列整合為統一的多模態特徵序列，輸入大語言模型進行處理。

除了利用大語言模型內建的預測頭外，研究者還在視覺生成任務中引入了一個隨機初始化的預測頭用於圖像預測。

整個模型採用自回歸框架。

最佳化訓練策略

Janus的前代版本採用了三階段訓練流程——

第一階段專注於介面卡和圖像頭的訓練；第二階段進行統一預訓練，期間除理解編碼器和生成編碼器外的所有元件參數都會更新；第三階段進行監督微調，在第二階段基礎上進一步解鎖理解編碼器的參數進行訓練。

然而，這種訓練策略存在某些問題。

在第二階段中，Janus參照PixArt的方法，將文字生圖能力的訓練分為兩個部分：首先使用ImageNet資料集進行訓練，以圖像類別名稱作為提示詞來生成圖像，目的是建構像素依賴關係；其次使用標準文字生圖資料進行訓練。

在具體實施中，第二階段將66.67%的文字生圖訓練步驟分配給了第一部分。

但通過深入實驗，研究者發現這種策略效果欠佳，且計算效率較低。為此，他們實施了兩項重要改進：

階段I延長訓練時間：增加第一階段的訓練步驟，確保充分利用ImageNet資料集。研究表明，即使在大語言模型參數固定的情況下，模型也能有效建立像素依賴關係，並根據類別名稱生成高品質圖像。
階段II集中重點訓練：在第二階段中，摒棄了ImageNet資料，轉而直接使用標準文字生圖資料來訓練模型，使其能夠基於詳細文字描述生成圖像。這種最佳化策略使第二階段能夠更高效地利用文字生圖資料，顯著提升了訓練效率和整體表現。

此外，研究者還對第三階段監督微調過程中的資料配比進行了調整，將多模態資料、純文字資料和文字生圖資料的比例從7:3:10最佳化為5:1:4。

通過適度降低文字生圖資料的佔比，可以發現，這種調整既保持了強大的視覺生成能力，又提升了多模態理解性能。

資料Scaling

在多模態理解和視覺生成兩個方面，團隊顯著擴充了Janus的訓練資料規模：

• 多模態理解

在第二階段預訓練中，他們參考了DeepSeekVL2的方法，新增了約9000萬個訓練樣本。這些樣本包括圖像描述資料集以及表格、圖表和文件理解資料集。

在第三階段監督微調中，他們進一步引入了DeepSeek-VL2的補充資料集，包括表情包理解、中文對話資料和對話體驗最佳化資料集等。

這些資料的引入大幅提升了模型的綜合能力，使其能夠更好地處理多樣化任務，並提供更優質的對話體驗。

• 視覺生成

研究者發現，Janus早期版本使用的真實資料存在質量不高、噪聲較大等問題，這往往導致文字生圖過程不穩定，生成的圖像美感欠佳。

為此，在 Janus-Pro 中，他們引入了約7200萬個人工合成的高品質美學資料樣本，使統一預訓練階段的真實資料與合成資料達到1:1的均衡比例。這些合成資料的提示詞來源於公開資源。

實驗結果表明，使用合成資料不僅加快了模型的收斂速度，還顯著提升了文字生圖的穩定性和圖像的美學質量。

模型Scaling

Janus的前代版本通過1.5B參數規模的大語言模型，驗證了視覺編碼解耦方法的有效性。在Janus-Pro中，研究者將模型規模擴展至7B參數量。

研究發現，在採用更大規模大語言模型後，無論是多模態理解還是視覺生成任務的損失值收斂速度都較小規模模型有了顯著提升。

這一結果進一步證實了該技術方案具有優秀的可擴展性。

Janus和Janus-Pro的超參數設定

對比SOTA

• 多模態理解性能

在表3中，研究者將本文提出的方法與當前最先進的統一模型和專用理解模型進行了對比。結果顯示，Janus-Pro實現了整體最優性能。

這主要得益於在多模態理解和生成任務中實現了視覺編碼的解耦，有效緩解了兩項任務間的衝突。即便與參數規模顯著更大的模型相比，Janus-Pro仍展現出強勁的競爭力。

例如，Janus-Pro-7B在除GQA外的所有基準測試中，都超越了TokenFlow-XL（13B）的表現。

• 視覺生成性能

研究者在GenEval和DPG-Bench兩個基準上，評估了視覺生成性能。

如表4所示，Janus-Pro-7B在GenEval測試中達到了80.0%的整體精準率，優於所有現有的統一模型和專用生成模型，包括Transfusion（63.0%）、SD3-Medium（74.0%）和DALL-E 3（67.0%）。

這一結果充分證明了，這一方法具有更強的指令執行能力。

此外，如表5所示，Janus-Pro在DPG-Bench測試中獲得了84.19分的優異成績，領先於所有其他方法。

這表明Janus-Pro在執行複雜的文字生圖指令方面具有卓越的表現。

定性分析

在圖4中，研究者展示了多模態理解的測試結果。實驗表明，Janus-Pro在處理不同場景下的輸入時展現出卓越的理解能力，充分體現了其強大的性能優勢。

在圖4的下半部分，研究者展示了一系列文字生圖的結果。

儘管輸出解析度僅為384×384，但Janus-Pro-7B生成的圖像仍然展現出高度的真實感和豐富的細節表現。

特別是在處理具有想像力和創造性的場景時，Janus-Pro-7B能夠準確理解提示詞中的語義資訊，並生成邏輯合理、內容連貫的圖像。

然而，Janus-Pro當前仍然存在一些侷限性。

在多模態理解方面，由於輸入解析度被限制在384×384，影響了模型在OCR等需要精細識別的任務上的表現。

在文字生圖方面，較低的解析度以及視覺Token編碼器引入的重建損失，導致生成的圖像雖然語義內容豐富，但在細節表現上仍有不足。

典型例子是當人臉區域在圖像中佔比較小時，往往會出現細節欠缺的情況。這些問題有望通過提升圖像解析度得到改善。 (新智元)