【DeepSeek】滾燙Deepseek一夜刀掉輝達4兆，除夕開源多模態新模型：7B超越DALL-E 3和StableDiffusion

2025/01/28

•

DeepSeek大爆出圈，現在連夜發佈新模型——

多模態Janus-Pro-7B，發佈即開源。

在GenEval和DPG-Bench基準測試中擊敗了DALL-E 3和Stable Diffusion。

想必大家這幾天完全被DeepSeek刷屏了吧。

它長時間霸榜熱搜第一，甚至AI第一股輝達直接被幹崩了——最大跌幅近17%，一夜蒸發5890億美元（約合人民幣4.24兆元），創下美股單日跌幅最大紀錄。

而Deepseek神話還在繼續，春節假期中全國人民都開始體驗了，Deepseek伺服器還一度卡到當機。

值得一提，同一夜，阿里旗下大模型通義千問Qwen也更新了自己的開源家族：

視覺語言模型Qwen2.5-VL，包括3B、7B 和 72B三種尺寸。

真~今夜杭州都不睡，起舞競速大模型。

DeepSeek連夜發佈新模型

先來看看DeepSeek新模型，這其實是此前Janus、JanusFlow的高級版本和延續。

一作為博士畢業於北大的陳小康。

具體來說，它基於DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base建構的，是一個統一理解和生成的多模態大模型。整個模型採用自回歸框架。

它通過將視覺編碼解耦為單獨的路徑來解決以前方法的侷限性，同時仍然使用單一、統一的轉換器架構進行處理。

這種解耦不僅緩解了視覺編碼器在理解和生成中的角色衝突，還增強了框架的靈活性。

對於多模態理解，它使用SigLIP-L作為視覺編碼器，支援 384 x 384 圖像輸入。對於圖像生成，Janus-Pro使用LIamaGen中的VQ標記器，將圖像轉換為離散的ID，下採樣率為16。

ID序列被扁平化為一維後，他們使用生成介面卡將每個ID對應的程式碼庫嵌入對應到 LLM 的輸入空間中。然後，將這些特徵序列連接起來，形成一個多模態特徵序列，隨後將其輸入 LLM 進行處理。

除了 LLM 內建的預測頭，還在視覺生成任務中使用隨機初始化的預測頭進行圖像預測。

相較於前一個版本Janus的三個訓練階段，團隊發現這一訓練策略並不理想，會大大降低計算效率。

對此，他們做了兩處大的修改。

第一階段Stage I的長時間訓練：增加了第一階段的訓練步驟，以便在 ImageNet 資料集上進行充分的訓練。研究結果表明，即使在 LLM 參數固定的情況下，模型也能有效地模擬像素依賴性，並根據類別名稱生成合理的圖像。
第二階段Stage II:的集中訓練：在第二階段，放棄了 ImageNet 資料，直接利用常規文字到圖像資料來訓練模型，以生成基於密集描述的圖像。

此外在第三階段的監督微調過程中，還調整了不同類型資料集的資料比例，將多模態資料、純文字資料和文字圖像資料的比例從 7:3:10 調整為 5:1:4。

通過略微降低文字到圖像資料的比例發現，這一調整可以讓在保持強大的視覺生成能力的同時，提高多模態理解性能。

最終結果顯示，實現了與現有視覺理解生成SOTA模型持平的水準。

△GenEval基準

△DPG-Bench基準

與上一個版本 Janus相比，它可以為簡短提示提供更穩定的輸出，具有更好的視覺質量、更豐富的細節以及生成簡單文字的能力。

更多多模態理解和視覺生成能力的定性結果。

DeepSeek征服全球使用者

想必這兩天一定是被DeepSeek刷屏了——

是科技圈非科技圈、七大姑八大姨都擱那討論的程度。

像同為杭州六小龍的遊戲科學，其創始人CEO、《黑神話：悟空》製作人也專門發微博支援：頂級科技成果，六大突破。

還有DeepSeek自稱MOSS，也被流浪地球導演郭帆注意到了。

好好好，DeepSeek是不是直接預訂下一部主角了（Doge）。

而這故事的一開始，正是前幾天剛剛開放原始碼的推理模型R1，以其低廉的成本、免費的使用以及完全不輸o1的性能，征服了全球使用者，直接引發行業地震。

僅僅花費560萬美元訓練的R1，相當於Meta GenAI團隊任一高管的薪資，在很多AI基準測試中已經達到甚至超越OpenAI o1模型。

而且DeepSeek是真的免費，而ChatGPT雖然在免費榜上，但要是想解鎖它的完全體，還是要掏上200美元。

於是乎，大家開始紛紛轉向DeepSeek來“建構一切”，也就迅速登頂美區蘋果應用程式商店免費App排行第一，超越了ChatGPT和Meta的Threads等熱門應用。

使用者量的激增也導致DeepSeek伺服器多次當機，官方不得不緊急維護。

而聚焦於行業內，大家對於DeepSeek的關注，在於如何在有限的資源成本情況下，實現與OpenAI持平的水準。

相比於國外動輒百億千億美元成本、幾十上百萬張卡這種粗放的模式，用DeepSeek很多技術細節都放在如何降低成本開銷上。

比如蒸餾。R1總共開源了6個在R1資料上的蒸餾小模型，蒸餾版Qwen-1.5B都能在部分任務上超過GPT-4o。

還有就是純強化學習，拋棄SFT環節，通過數千次的強化學習來提升模型的推理能力，然後在AIME 2024上的得分與OpenAI-o1-0912的表現相當。

也正因為這樣，讓人不免想到OpenAI前幾天砸5000億美元建資料中心以及輝達長時間以來在高端GPU的壟斷地位。

拿5000億美元建資料中心，是有必要的嗎？

大規模的AI算力投資，是有必要的嗎？

這樣的討論，在資本市場得到了響應。美股開盤後，輝達股價暴跌17%，創下自2020年3月以來最大跌幅，市值蒸發近6000億美元，老黃自己的個人財富一夜之間也縮水了超130億美元。

博通、AMD等晶片巨頭也紛紛大幅下跌。

對此，輝達公開回應稱，DeepSeek是一項卓越的人工智慧進展，也是測試時擴展的絕佳範例。DeepSeek的研究展示了如何運用該技術，借助廣泛可用的模型以及完全符合出口管制規定的算力，建立新模型。推理過程需要大量輝達 GPU和高性能網路。如今我們有三條擴展定律：持續適用的預訓練和後訓練定律，以及新的測試時擴展定律。

同樣被動搖的還有Meta、OpenAI。

Meta內部甚至成立了專門的研究小組，試圖剖析DeepSeek的技術細節，以改進其Llama系列模型，並且新年計畫中預算4000億起步搞AI，年底AI算力將達130萬卡。

奧特曼也緊急透露新模型o3-mini即將免費上線ChatGPT的消息，試圖挽回一點市場熱度。

現在有了新模型發佈，關於DeepSeek的討論還在繼續。

DeepSeek新版本疑似很快發佈，時間是2025年2月25日。

杭州昨夜不眠

同一個夜晚，同一個杭州。

就在DeepSeek新模型發佈不久，Qwen也更新了自己的開源家族：

Qwen2.5-VL。

這個標題怎麼有三體那味了。

它有3B、7B 和 72B三種尺寸，可以支援視覺理解事物、Agent、理解長視訊並且捕捉事件，結構化輸出等等。

（詳情內容可以參考下一篇推文）

ps，最後，繼杭州六小龍之後，廣東AI三傑也出現了。

（杭州六小龍分別是遊戲科學、DeepSeek、宇樹科技、雲深處科技、強腦科技和群核科技）

他們分別是湛江人梁文鋒（DeepSeek創始人），汕頭人楊植麟（月之暗面、Kimi創始人）以及AI學術大佬廣州人何愷明。 (量子位)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者