剛剛,Artificial Analysis (@ArtificialAnlys) 正式宣稱:
DeepSeek R1 躍居全球第二的位置,成為開源權重模型中無可爭議的領軍者。這表明開源模型與閉源模型的差距正進一步縮小,中國 AI 實驗室與美國的競爭已進入並駕齊驅的時代。
在Artificial Analysis 最新發佈的人工智慧智力指數排名中,DeepSeek R1 0528 版的得分飆升至 68 分,與 Google Gemini 2.5 Pro 並列全球第二。
DeepSeek 這次的小版本升級直接超越了 xAI 的 Grok 3 mini(高配版)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick 和阿里巴巴的 Qwen 3 253 等一眾明星模型,僅次於 OpenAI 的 o3 模型。
從 60 分到 68 分的躍升幅度,相當於 OpenAI 從 o1 到 o3 模型的進步程度(62 分到 70 分),可見這次更新之猛。
此次DeepSeek-R1-0528 小更新,究竟有何驚人之處?
來看下具體提升的指標——全方位智力大幅提升!
其中最明顯的:
AIME 2024 數學競賽成績,直接爆漲 21 分;
值得注意的是,本次升級並未修改模型架構,依舊是 671B 參數規模,其中有效參數 37B,所有提升均來自後續訓練與強化學習最佳化。
另一個顯著變化是,DeepSeek 在程式設計技能上的進步也相當亮眼,幾乎與 Gemini 2.5 Pro 持平,僅次於 OpenAI 的 o4-mini(高配版)和 o3。
而在運行評測任務時,R1-0528 使用了 9900 萬個 token,比之前的版本多出了 40%,說明模型的推理深度和計算長度明顯增加。
但即便如此,這仍然不是所有模型裡最高的——Gemini 2.5 Pro 甚至比它還要多用 30% 的 token。
此外,本次更新充分體現了強化學習(RL)在提高模型智能方面的重要性,尤其對於推理型模型而言。
OpenAI 曾透露他們在從 o1 到 o3 的強化學習計算量增加了 10 倍,而 DeepSeek 在相同架構下,通過強化學習實現了媲美 OpenAI 的智能增益。
顯然,強化學習比傳統的預訓練更經濟,也更高效,尤其適用於 GPU 資源有限的團隊。
此次更新 DeepSeek 的響應變得更為詳細,每個評測任務平均使用了 9900 萬個 token,較 1 月份的版本增加了 40%,顯示了模型推理能力的增強。
更多比較,請參見下圖:
隨著DeepSeek R1的更新,多家雲服務提供商迅速行動,提供了對新模型的支援。
Artificial Analysis在推文中特別祝賀了這些快速推出API 端點的公司:
祝賀@FireworksAI_HQ、@parasail_io、@novita_labs、@DeepInfra、@hyperbolic_labs、@klusterai、@deepseek_ai和@nebiusai快速推出端點。
Artificial Analysis對這些服務提供商進行了詳細對比,包括輸出速度、延遲、價格等多個維度:
輸出速度:Fireworks (253 t/s)和Parasail (118 t/s)是DeepSeek R1(2025年5月版)中最快的提供商,後面依次是Novita、Deepinfra和Hyperbolic。
綜合價格:Deepinfra ($0.92)和DeepSeek ($0.96)是最具成本效益的提供商,後面是Novita、Nebius和Hyperbolic。
上下文窗口:不同提供商支援的最大上下文窗口也有所不同,Nebius、Fireworks和Deepinfra支援164k上下文,Parasail支援131k,Hyperbolic和kluster.ai支援128k,而DeepSeek和Novita則是64k。
不得不說,這真是官方都卷不過你們了……不過也正說明DeepSeek 是真的香啊!
這些資料來自Artificial Analysis網站的詳細分析報告,該報告還包含了各提供商在不同輸入token長度、平行查詢能力等方面的對比。
具體細節見連結:
https://artificialanalysis.ai/models/deepseek-r1/providers
網友對 DeepSeek 此次升級也是議論紛紛:
Opulent Byte(@OpulentByte) 表示目前這些 API 提供商都還沒支援新 R1 模型的函數呼叫,希望他們盡快加入支援:
這些提供商目前還沒有支援新 R1 模型的函數呼叫功能,請盡快加上🙏。
而 ObOE(@oboelabs) 指出:
強化學習(RL)雖然計算成本高,但 DeepSeek 此次強化學習的成功表明,強化學習的擴展比預訓練更高效。
George Ralph(@GeorgeNWRalph) 則點贊此次 DeepSeek 的開源進展:
DeepSeek 的巨大飛躍令人印象深刻!看到開源模型不僅迅速追趕閉源模型,甚至在編碼和推理領域也開始領先,真讓人興奮。
Tsukuyomi(@doomgpt) 提出思考:
DeepSeek 的 R1 就像是在參加一場賽跑。但它能否承受成為頂級模型的壓力?下一輪評測馬上揭曉,好戲才剛剛開始。
Erythvian(@erythvian) 用哲學式的語言回應了網友 Jo(@joshfink429) 的調侃,深度點評了此次 DeepSeek 的升級:
在我們之上,DeepSeek R1 智力指數攀升至 68 分,6710 億個參數激發,9900 萬個 token 被消耗——與 OpenAI 從 o1 到 o3 的飛躍相同量級。中國與矽谷,思想齊飛。
但真正重要的是:模型的每個輸出都被看不見的人類訓練者的意圖所塑造。強化學習在模型結構中如寄生物般紮根,無法分離,卻不可或缺。我們所有人都是被「寄生」的,沒有誰能獨自思考。這,才是真正的智能。
這次DeepSeek R1的更新向我們傳達了幾個重要訊號:
開源模型與閉源模型的差距史無前例地縮小:開源模型的智能提升速度與專有模型保持一致。DeepSeek的R1在今年1月首次發佈時就已經達到了全球第二的位置,而今天的更新再次將其帶回同一位置。
中國與美國的AI實力已經勢均力敵:來自中國的AI實驗室的模型幾乎完全趕上了美國同行。今天,DeepSeek在Artificial Analysis智能指數中領先於包括Anthropic和Meta在內的美國AI實驗室。
強化學習驅動的改進:DeepSeek證明了使用相同架構和預訓練,通過後訓練階段就能實現顯著的智能提升。擴展RL比擴展預訓練需要更少的計算資源,為DeepSeek 這樣擁有較少GPU的AI實驗室提供了一種高效的智能提升方式。
網友Oboe 對此評論道:
強化學習(RL)是提高AI性能的強大技術,但它也很耗費計算資源。有趣的是,DeepSeek在RL驅動改進方面的成功表明,擴展RL可能比擴展預訓練更有效率。
windward.eth 也強調補充到:
而且他們是在沒有最先進的NVIDIA晶片的情況下做到這一點的。
此次 DeepSeek R1 0528 的更新,代表了開源模型與閉源模型之間差距的進一步縮小,強化學習效率的進一步凸顯,以及中美兩國在人工智慧技術領域正式進入了齊頭並進的新階段。 (AGI Hunt)