在Deepseek刷屏全球AI界,並讓華爾街對其進行緊張評估時,它又一次給全世界帶來了驚喜。
台北時間2025年1月28日凌晨,DeepSeek團隊發佈兩款多模態框架——Janus-Pro 和 JanusFlow。
這一次,我們想重點聊聊Janus-Pro。
Janus-Pro是一款統一多模態理解與生成的創新框架,是 Janus 的升級版本,它通過解耦視覺編碼的方式,極大提升了模型在不同任務中的適配性與性能。
它在圖像生成基準測試中表現卓越,超越了 OpenAI 的 “文生圖” 模型 DALL-E 3。此外,和之前的Janus系列一致,它同樣選擇開源。
其一共包含兩個參數模型,分別是 15 億參數的 JanusPro 1.5B 和 70 億參數的 JanusPro 7B。
讓我們先來看看Janus-Pro發佈後,矽谷的反應如何:
RundownAI負責人在X上發佈的新模型推文的討論足有230萬閱讀,再次引爆AI圈。
各路大神也紛紛轉載,知名行研機構“科比西信函(The Kobeissi Letter)”發佈的內容轉載閱讀超百萬,AI大V“Chubby”也第一時間羅列了該模型的技術細節。
這些討論中,最核心的關注點是對模型的測試表現和能力的驚嘆:Janus-Pro 7B直接在理解和生成兩方面都超越了LLaVA、Dalle 3和SD XL這樣的主流選手。
在閱讀DeepSeek發佈的相關技術報告時,我們發現一個關鍵點:它的思路與楊立昆和謝賽寧領銜的MetaMorph項目有異曲同工之妙。
只是,DeepSeek在這條路上嘗試得更徹底。
兩個在開源模型領域“執牛耳”的模型公司,打算攜手改變多模態大一統模型的範式。這一次,真的和楊立昆所說,是開源模型的勝利了。
多模態大一統模型的理念最早由Google提出,Gemini 便是這一理念的代表之作。其核心設計在於運用 Transformer 架構,將文字、圖像、音訊等多種模態的資料進行統一處理,實現對不同模態資訊的理解與生成。
這一創新架構突破了傳統模型在處理單一模態資料時的侷限性,開啟了多模態融合發展的新方向。
這樣,同一個模型就既可以“讀懂圖片”,又可以“生成圖片”。
這和當時Stable Diffusion、Dalle這類主流文生圖模型完全不同,這些模型都需要另一套模型去理解文字,它們只管生成。這需要維護多個完整模型,佔用更多儲存空間和計算資源,而且模型之間無法共享學習到的知識。
而像GPT-4V(OpenAI 開發的多模態大模型,也屬於多模態大一統模型的範疇)等,則只能理解圖像、轉譯為文字,但無法生成。
既然大一統多模態模型這麼好,能既理解圖像,又生成圖像,為什麼到今天OpenAI還在用GPT4V+Dalle這樣的流水線模型處理理解和生成呢?
因為大一統多模態模型既難訓練,效果又不好。
比如Deepseek最初也採用了統一的Transformer架構來處理文生圖任務。理論上,這種方法很優雅:同一個模型,採用一個多模態的編碼器,既理解文字輸入,又負責生成圖像。
但實踐中,他們發現這種設計存在嚴重的性能瓶頸。
比如來自智譜的CogVLM,它就用了單一的ViT 解碼器,試圖將輸入圖像經過patch化處理後,打包成一個統一的視覺任務編碼器,讓它去處理視覺理解和視覺生成,之後通過特徵融合來協調不同任務。
然而,因為這種單解碼器的複雜度,在高解析度圖像生成時,統一模型的計算複雜度呈指數級增長,需要海量多模態資料,且訓練過程難以收斂。
更糟的是,模型在最佳化文字理解時往往會損害圖像生成能力,反之亦然。這種能力干擾(capacity interference)成為了統一架構的致命傷。
簡單來說,就是讓一個解碼器又以美術評論家的身份寫評論,又要它化身畫家創作新作品,結果就是,兩者它都做得很一般。
Meta的研究者在MetaMorph項目中也不約而同地進行了一次轉化:他們都放棄了"編碼器大一統"的設計理念,轉而採用“專門化”的方案。
雖然沒有單一編碼器優雅,但依然可以在同一個Transformer架構中完成,還是“大一統”裡的“小分工”。
簡單來講,他們給模型組態了兩個不同的編碼器,這就像兩隻眼睛一樣。
在DeepSeek的Janus Pro中,第一隻"眼睛"(SigLIP編碼器)專門負責理解圖像,它能提取圖像的高層語義特徵,並關注圖像的整體含義和場景關係。它就像一個經驗豐富的藝術評論家,能夠快速抓住畫作的要點。
第二隻"眼睛"(VQ tokenizer編碼器)則專門用於創作,將圖像轉換為離散的 token 序列,像畫家一樣關注細節的處理。
這兩個"眼睛"雖然各司其職,但它們共享同一個"大腦"(Transformer),雖然兩個眼睛獨立的在工作,但在這個大腦中,DeepSeek 給Transformer加上了圖像理解的注意力頭,讓它們的知識能夠融合。
與DeepSeek從頭開始訓練不同,Meta是直接在已有的語言模型上,加上視覺注意力頭和視覺編碼,經過約20萬張圖文對的微調訓練,成功“喚醒”了大語言模型自有的圖像理解能力。
靠著雙頭編碼器,因為有足夠的視覺理解,輸出的是文字和視覺兩種token。因此再加上一個擴散模型就可以生成圖像了。
而DeepSeek則更進一步,在圖像方面就用了生成和理解兩個解碼器。讓這個多頭框架,實現了圖像生成和理解的大一統。
不再執著於統一的編碼模式。這聽起來似乎很簡單,但這個想法卻顛覆了過去的傳統。
過去的大一統模型是受人腦啟發,認為通用智能應該有統一的資訊處理機制。他們期望通過統一架構發現模態間的深層聯絡希望實現真正的跨模態理解,而不是表面的特徵對應。然而他們低估了Transformer本身的能力,就算有不同的資訊處理器,Transformer依然可以在其內容達成容和理解。
DeepSeek對此的命名也很有趣:Janus-Pro中Janus是一名古羅馬雙面神,擁有兩個頭。寓意滿滿。
對於DeepSeek來講,架構的更新從來不是唯一的創新。他們能實現相對較低的成本去訓練模型,很大程度上也是對於訓練的嚴格掌控。
在Janus-Pro的訓練上,DeepSeek採用了三段式的方法,每一段都有大膽的嘗試。
第一階段:鎖參數也能提升性能
傳統認知中,多模態AI訓練的第一階段只被視為預熱。在這個階段,模型通過預訓練視覺編碼器來學習基礎的視覺特徵提取能力,僅佔用總訓練時間的15%左右。
但DeepSeek研究團隊的最新發現顛覆了這一認知。他們發現一個反直覺的現象:即使將大語言模型(LLM)的參數完全鎖定,僅通過訓練介面卡,模型就能夠掌握複雜的像素依賴關係。這種方法不僅大幅降低了訓練成本和複雜度,還帶來了顯著的性能提升。
基於這一發現,研究團隊將第一階段的訓練時間延長到總時長的25-30%。結果表明,模型的基礎視覺理解能力得到了質的飛躍。
第二階段:棄用ImageNet,擁抱真實
在多模態AI訓練中,第二階段“模態對齊階段”一直被視為核心環節。傳統方法在這個階段會同時訓練視覺和語言模型,致力於實現兩種模態之間的對齊。這個過程通常會消耗超過50%的訓練時間,佔用大量計算資源。
長期以來,ImageNet資料集在視覺模型訓練中扮演著"安全毯"的角色 - 幾乎所有視覺模型都要在其上進行訓練。在傳統訓練流程中,高達67%的訓練步數都用在了ImageNet上。
但DeepSeek團隊做出了一個顛覆性的決定:完全放棄在第二階段使用ImageNet。這個決定基於一個關鍵觀察:ImageNet的資料分佈與實際應用場景存在顯著差異,導致大量訓練實際上是無效的,造成了嚴重的資源浪費。
取而代之的是直接使用真實的文生圖資料進行訓練。這個改變帶來了顯著成效:訓練時間減少40%、生成質量提升35%、模型對真實場景的適應性大幅提升。
這就像是讓孩子直接在真實環境中學習,而不是侷限於模擬環境。這種方法不僅更高效,也更符合實際應用需求。
第三階段:東方的神秘配比,達到最高效果
在多模態模型訓練中,第三階段的任務特定微調一直被視為"點睛之筆"。這個階段通過使用任務相關的資料集來微調模型參數,對模型的最終表現起著關鍵作用。
近期,DeepSeek團隊在這一階段取得了突破性進展。傳統方法中,多模態資料、純文字資料和文生圖資料的配比通常是7:3:10。而通過大量實驗,DeepSeek發現了更優的配比方案:將這三類資料調整為5:1:4的比例。
在文生圖資料部分,團隊創新性地引入了合成美學資料,與真實資料形成1:1的配比。之所以增加文生圖合成資料的佔比,是因為用了這種方法後,模型不僅收斂更快,生成結果也更加穩定。最重要的是輸出圖像的美學質量得到顯著提升。
在這三個階段中,DeepSeek都用開創性的訓練方法極限提效。因此Janus-Pro-7B 模型僅僅用了32個節點、256張A100、14天的時間就完成了訓練。
極低的訓練成本,7B的小身材,換來的卻是能力的絕殺,而且是理解、生成雙殺。
從基準測試來看,Janus-Pro-7B的表現令人印象深刻。在多模態理解基準MMBench上,它獲得了79.2分的成績,超越了此前的最佳水平,包括Janus(69.4分)、TokenFlow(68.9分)和MetaMorph(75.2分)。
在圖像生成評測上,Janus-Pro-7B在GenEval基準測試中達到0.80分,大幅領先於DALL-E 3(0.67分)和Stable Diffusion 3 Medium(0.74分)。
從實際使用上看,DeepSeek的Janus-Pro多模態理解和圖像生成能力確實可圈可點。
在多模態理解方面,論文展示了三個範例,首先是地標識別能力。模型能精準識別杭州西湖的三潭印月景區,不僅能描述眼前的景象,還能理解其深層的文化內涵和歷史意義。
其次是文字理解能力。面對一塊寫有"Serving Soul since Twenty Twelve"的黑板,模型不僅精準識別了主要文字,還注意到了周邊的細節資訊。
第三是上下文理解能力。在解讀Tom and Jerry主題蛋糕時,模型展現出對動畫角色設定、造型特點的深入理解,並能精準描述蛋糕上的設計元素。
而在圖像生成方面,模型展示了八個不同場景的生成效果,涵蓋了現實與想像兩個維度。這些生成案例雖然輸出解析度僅為384×384,但每一幅畫面都展現出細緻的細節和精準的語義理解。
Deep Seek的Janus-Pro-7B通過這些測試資料首次證明了"理解"和"生成"這兩個分離的任務可以在一個統一框架下達到各自的最優狀態。
有趣的是,雖然傳統統一模型聲稱受人腦啟發,但卻忽視了人腦最基本的解剖學特性 - 功能分區與整合的辯證關係。
在漫長的進化歷程中,人腦形成了高度專業化的左右半球分工。左腦主導語言處理、邏輯分析和序列思維,右腦則專注於空間感知、藝術創造和整體認知。這種分工並非簡單的功能隔離,而是通過胼胝體這一關鍵結構實現資訊的深度整合,最終形成統一而完整的認知體驗。
在此背景下,Janus Pro的架構設計彷彿就是在向人腦學習。其圖像理解編碼器專注於語義理解和特徵提取,類似於左腦的分析功能;圖像生成編碼器負責創造性的圖像生成,對應了右腦的藝術創造能力;而Transformer則扮演了類似胼胝體的角色,將兩路資訊進行深度統合。
更加相信胼胝體,相信Transformer的統合力,也許才是大一統模型進一步發展的關鍵思路。 (騰訊科技)