DeepSeek 這是要搞一波大的了?
一條關於 DeepSeek 新模型的消息在 AI 圈裡炸開了鍋。
什麼?DeepSeek-R2
,混合專家模型,5.2 PB 訓練資料,1.2 兆總參數,780 億動態啟動參數,最最炸裂的是,R2 的訓練和推理成本比 GPT-4
還要低 97.3%?!
上面這條在 X 平台瘋傳的帖子,經我調查,源頭來自一個叫“韭研公社”的投資平台。
根據“韭研公社”的爆料,DeepSeek-R2
模型採用混合專家 3.0(Hybrid MoE 3.0)架構,總參數規模達到驚人的 1.2 兆,其中動態啟動 780 億;單位 token 推理成本比起 GPT-4 Turbo
下降 97.3%,硬體適配上實現了昇騰 910B 晶片叢集 82% 的高利用率,算力接近 A100 叢集。
然而,先別急著開香檳,爆料的真實性仍待 DeepSeek 官方確認。
“熱心”的外國網友甚至根據這則爆料製作出了下面這份 DeepSeek-R2
概念股(DeepSeek R2 Concept Stocks)的盤點圖。
一個字,絕!
中文翻譯版在這裡。
此外,無獨有偶,Hugging Face(抱抱臉)CEO Clément Delangue 也在幾小時前發佈了一條耐人尋味的“謎語”帖。
帖子內容僅有三個 👀 小表情,以及 DeepSeek 在 Hugging Face 的倉庫連結(按照慣例,DeepSeek 的開源模型會第一時間發佈在 Hugging Face 倉庫)。
該說不說,留給 DeepSeek 的時間不多了。
距離轟動全球的 DeepSeek-R1
模型發佈已經過去了 3 個月。
在這期間,有太多比 R1 強的新模型湧現:北美“御三家”有近期剛發佈的 o3
+ o4-mini
、曾一度霸榜且免費的 Gemini 2.5 Pro
、程式碼之王 Claude 3.7 Sonnet
,以及背靠大金主馬斯克的 Grok 3
。
大模型排行榜的前幾位已經看不到 DeepSeek 的身影。
坦白說,這條坊間的傳言有幾分真幾分假,沒人知道。
但即使只有一半的資料是真的,也足以引起轟動了。
這個五一假期,AI 圈註定不平靜。 (AI資訊Gap)