爆料!DeepSeek R2即將發佈:1.2兆參數,成本暴跌97%,真王炸,還是空歡喜?
DeepSeek 這是要搞一波大的了?

一條關於 DeepSeek 新模型的消息在 AI 圈裡炸開了鍋。

什麼?DeepSeek-R2,混合專家模型,5.2 PB 訓練資料,1.2 兆總參數,780 億動態啟動參數,最最炸裂的是,R2 的訓練和推理成本比 GPT-4 還要低 97.3%?!

上面這條在 X 平台瘋傳的帖子,經我調查,源頭來自一個叫“韭研公社”的投資平台。

根據“韭研公社”的爆料,DeepSeek-R2 模型採用混合專家 3.0(Hybrid MoE 3.0)架構,總參數規模達到驚人的 1.2 兆,其中動態啟動 780 億;單位 token 推理成本比起 GPT-4 Turbo 下降 97.3%,硬體適配上實現了昇騰 910B 晶片叢集 82% 的高利用率,算力接近 A100 叢集。

然而,先別急著開香檳,爆料的真實性仍待 DeepSeek 官方確認。

“熱心”的外國網友甚至根據這則爆料製作出了下面這份 DeepSeek-R2 概念股(DeepSeek R2 Concept Stocks)的盤點圖。

一個字,絕!

中文翻譯版在這裡。

此外,無獨有偶,Hugging Face(抱抱臉)CEO Clément Delangue 也在幾小時前發佈了一條耐人尋味的“謎語”帖。

帖子內容僅有三個 👀 小表情,以及 DeepSeek 在 Hugging Face 的倉庫連結(按照慣例,DeepSeek 的開源模型會第一時間發佈在 Hugging Face 倉庫)。

該說不說,留給 DeepSeek 的時間不多了。

距離轟動全球的 DeepSeek-R1 模型發佈已經過去了 3 個月。

在這期間,有太多比 R1 強的新模型湧現:北美“御三家”有近期剛發佈的 o3 + o4-mini、曾一度霸榜且免費的 Gemini 2.5 Pro、程式碼之王 Claude 3.7 Sonnet,以及背靠大金主馬斯克的 Grok 3

大模型排行榜的前幾位已經看不到 DeepSeek 的身影。

結語

坦白說,這條坊間的傳言有幾分真幾分假,沒人知道。

但即使只有一半的資料是真的,也足以引起轟動了。

這個五一假期,AI 圈註定不平靜。 (AI資訊Gap)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題