DeepSeek R2要來了！大摩率先曝光，參數翻倍、推理成本暴降88%

2025/06/07

•

DeepSeek R2模型終於有新消息了！

最近，頂級投行摩根士丹利發佈了一則研報，提前曝光了DeepSeek即將發佈的全新一代模型——R2。

這篇研報篇幅不長，但資訊龐大。話不多說！快跟著烏鴉君一起來看看。

這次R2的核心變化有兩個：參數翻倍和成本下降。

先說前者，R2 模型的體積直接飆升到1.2兆參數，是之前R1 的兩倍多，活躍參數也從370億漲到了780億，推理時呼叫更多“腦細胞”，意味著模型思考得更深，輸出質量自然也水漲船高。

這種思路，其實和Google 的Gemini、Anthropic 的Claude 類似——透過增加每次呼叫中參與運算的參數量來增強推理品質。例如，Gemini 2.5 Pro使用的Token比R1-0528多30%。

雖然這會提升計算成本，但對於終端使用者來說，換來的是更聰明、更會「想事」的模型，價值了。

另一個大變動是，模型成本更便宜了。

根據大摩消息，R2的每百萬Token輸入成本只有0.07美元，比R1的0.15-0.16美元下降了一半還多；輸出成本更厲害，從原先R1模型的其每百萬Token2.19美元，大幅下降到0.27美元。

這個價格遠低於OpenAI的GPT-4o等最先進的模型。 GPT-4o的API定價為輸入每1百萬個Token2.50美元，輸出每1百萬個Token 10.00美元。

也就是說，R2的價格比GPT-4o等最先進的模型便宜了97%。

對新創公司、開發者、企業來說，這無疑是巨大誘惑：不僅推理效果強，還能把使用成本打到地板價，商業化空間大大拓寬。

除了參數和價格，R2還有三大升級亮點：

1）多語言推理和程式碼產生能力大幅提升。據說，DeepSeek正在優先提升R2的編碼能力，以及英語以外語言的能力，以擴大該模型對全球受眾的潛在影響和適用性；

2）引進了更有效率的MoE混合專家架構，推理效率更高，活化參數選擇更聰明。該架構將人工智慧模型分成獨立的子網，這些子網路根據輸入選擇性地啟動。這種方法可以顯著降低預訓練的計算成本，並實現更快的推理效能；

3）多模態支援更強，視覺能力也比之前更上一個台階；

簡單來說，R2不僅“想得更深”，還能“看得更清楚”。

在效能提升的同時，DeepSeek也正在擺脫對H100的依賴，實現本土算力突破。

據大摩透露，這次DeepSeek 並沒有依賴傳統的NVIDIA H100 晶片，而是用上了華為的升騰910B晶片叢集。雖然生態上華為仍追不上輝達，但這已經是國產晶片參與大模型實戰的重要突破了。

DeepSeek正在努力建立一個本地硬體供應鏈，以減少對美國製造的晶片的依賴。時至今日，R2模型背後已經形成了一個強大的本土供應鏈體系。

目前，DeepSeek的模型家族主要有三大產品：

V系列（V1~V4）：一般大模型，全面涵蓋推理、效率、Agent能力；

R系列（R1 → R2）：專注深度推理、數學、工具鏈整合等能力；

Prover-V2：一個為數學產生專門最佳化的模型；

其中，DeepSeek-Prover-V2於今年4月發佈的新模型。 Prover-V2並非通用的模型，而是一個高度專業化的數學證明模型，基於DeepSeek V3，採用了改進的MoE架構和壓縮的kV快取以減少記憶體消耗。

撇開新發佈的數學證明模型，DeepSeek的大模型升級路線主要有條：

V4：作為通用模型主線的全面迭代，強調推理表現、效率與Agent 化能力的提升；

R2：作為Reasoner 專線的強化升級，對標OpenAI的o3後續迭代模型和Gemini 2.5 Pro 0605&正式版&未來的Gemini 3，進一步提升數理+工具鏈+多步驟推理表現；

從過去看，DeepSeek的模型迭代節奏比較固定，基本上遵循「2小1大」的規律：即每兩個月會有一個小版本更新，接著進行一個大版本換代。

以通用模型V1為例，V1是在2023年11月發佈，V2的發佈時間是2024年5月，而V3的發佈時間則到了2024年12月。依照這個節奏，2025年6、7月份，DeepSeek會有一個比較大的版本更迭。

就在R2發佈前不久（同樣是5月29日），DeepSeek也發佈了一個沒改版本號但改得不小的強化版—— R1-0528。

雖然架構沒動，但這個版本引入了強化學習訓練（RLHF），推理深度明顯加強。官方評估顯示：花了9,900萬個token完成評測任務，比原來的R1多了40%，思考更深、過程更複雜，表現當然更好。

成績單也很漂亮：

AIME 2024（數學競賽）：+21分

LiveCodeBench（程式碼產生）：+15分

GPQA Diamond（科學推理）：+10分

Humanity's Last Exam（知識推理）：+6分

使用者回饋也很正面，特別是在邏輯、程式設計和互動能力上提升顯著。

這次R1-0528 升級得這麼猛，很多人開始懷疑：這是不是傳說中的R2？不過目前官方並沒有正面回應，這個說法還沒實錘。

雖然大摩說R2快來了，但以DeepSeek 一貫的節奏推測，真正的R2 估計還得再等等。這波升級，更像是「壓線偷跑」的大版本最佳化，而不是正代更新。（烏鴉智能說）