新版DeepSeek-R1正式開源！直逼o3程式設計強到離譜，一手實測來了

2025/05/29

•

新版DeepSeek-R1重磅開源，凌晨已放出權重！此次模型性能幾乎與o4-mini（Medium）相當，程式設計實測超越Claude 4 Sonnet。網友紛紛驚嘆：開源又一次勝利了。

臨近端午假期，DeepSeek果然又開始搞事。

就在今天凌晨，新版DeepSeek-R1正式開源了！

DeepSeek-R1-0528模型權重已上傳到HuggingFace，不過模型卡暫未更新。

項目地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

時隔4個月，DeepSeek-R1完成了超進化，編碼能力強到離譜，而且思考時間更長了。

據稱，新模型基於DeepSeek-V3-0324訓練（參數為660B）。

經典物理模擬測試中，DeepSeek-R1新舊版本的對比

在LiveCodeBench基準上，DeepSeek-R1-0528性能幾乎與o3-mini（High）和o4-mini（Medium)實力相當，一舉超越了Gemini 2.5 Flash。

有網友稱讚，DeepSeek-R1能夠像o3一樣糾正思維鏈，並且像Claude一樣創造性進行世界建構。

可以說，這是屬於開源模型的巨大勝利！

不用R2，直接對標SOTA

此次，DeepSeek-R1-0528更新核心亮點，網友做了一個濃縮版的總結：

能像Google模型一樣深度推理
文字生成最佳化：更自然，格式更佳
獨特的推理風格：不僅快，而且更縝密
支援長時思考：單任務處理時長可達30-60分鐘

思考時間更長，成為了全網討論最多的一點。有網友實測後，R1思考時長超過了25分鐘。

另外，這似乎是唯一一個能持續正確做對「9.9 - 9.11是多少」的模型。

程式設計能力強到爆

網友實測顯示，新版DeepSeek-R1在程式設計方面簡直不可思議！

AI圈大佬「karminski-牙醫」用同一個prompt測試了DeepSeek-R1-0528和Claude 4 Sonnet後發現。

不管是光線照射在牆上形成的漫反射，還是球在撞擊後的運動方向，亦或是控製麵板的美觀程度，這一把R1穩贏。

網友Alex的測試也顯示出，DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。

網友Haider.則是讓模型建構一個單詞評分系統。R1簡要思考後，就立刻出了關於程式碼和工作測試的兩個檔案，第一次運行就完美無瑕。

此前，o3是唯一能完成這個任務的模型。而如今，R1堪稱是完成這個任務的最佳模型。

注意，R1的表現之所以如此驚人，是因為它返回的兩個檔案在第一次都能運行良好，不用編輯，不用重試，這極其少見。

因為此前的大多數模型，要麼會在邊緣情況下終端，要麼會做得太複雜，要麼缺少適當的測試覆蓋率。

和Gemini高能PK

還有人將DeepSeek-R1與Gemini 2.5 Pro進行了對標。同一個提示下，它們各自的表現如何？

首先是深度研究的能力，給出「研究微劑量服用裸蓋菇素對長期認知的影響，需引用學術來源」提示。

這一把Gemini的響應更快，引用了可靠的研究文獻，並且答案結構清晰。

再來看看它們搜尋+對比能力如何？提示模型用即時來源列出全民基本收入（UBI）的五大優點和缺點。

這時，Gemini 2.5 Pro和DeepSeek R1表現都不錯，打成平手。

Prompt: List top 5 pros/cons of Universal Basic Income using live sources.

再讓模型為AI SaaS工具制定TikTok增長策略，兩款模型再次打成平局。

在智能體任務規劃方面，讓Gemini和DeepSeek一同設計一個完整的市場調研智能體，包含工具鏈、使用者角色和流程交接，結果是Gemini生成一張資訊圖，而DeepSeek稍遜一籌。

由此，大家對DeepSeek-R2的期待值也是拉滿了。

一手實測來了

新版DeepSeek-R1的能力經過我們實測，雖然是一次「小版本」更新，但是性能得到了「史詩級」的加強。

尤其是程式設計能力，感覺已經超過或者足以媲美Claude 4和Gemini 2.5 Pro，可以說所有提示都是「一把過」，不需要任何修改！並且可以在網頁端直接運行，展示效果。

首先是製作一個「新智元」字型在宇宙中旋轉的3D動畫，完成度相當之高。

對於簡單任務，DeepSeek-R1的思考時間明顯縮短，不再像以前對簡單任務也瘋狂思考。

設計一個新智元的官方網站，對於這種相對容易的任務，DeepSeek-R1-0528隻需要10s的思考時間。

能夠明顯感覺到，這次DeepSeek-R1新版本的思考過程更加穩定。

以模擬一個太陽系運行為例，還要求行星比例大小與實際相同，能看到DeepSeek-R1-0528的思考過程已經趨近於「完美」。

最後，再給DeepSeek-R1-0528上點強度，要求演示籃球落地後的彈跳過程，並且要完美遵循現實中物理規律。

最終DeepSeek的成果還貼心的設計了參數控製麵板，以及速度方向指示，是真的很強，以上所有程式碼都是提示之後一遍過，沒有任何的Debug過程。

對於類似「華容道」的多步驟思考問題，DeepSeek-R1-0528的表現也非常完美，

比如「一位農夫要帶一隻狐狸、一隻鵝和一袋豆子過河。船每次只能載他和一樣物品。如果農夫不在場，狐狸會吃掉鵝，鵝會吃掉豆子。請問農夫該如何安排過河，才能確保所有物品安全？」這種複雜推理問題，DeepSeek-R1還可以給出核心問題所在。

最令我感到震驚的是，這次的「思考」能力似乎進行了秘密加強。

我給他了一個非常無厘頭的族譜問題：「我的媽媽的爸爸的兒子的侄女的孫子的爺爺的舅舅的外孫女的姑姑，是我的誰，你能畫出關係族譜圖嗎?」

以下過程經過3倍加速，可以看到DeepSeek-R1真的在通過數學的符號化方式在進行思考。

並且最後還真讓他分析出了結果，簡直震驚！這麼長的思考鏈條都沒有斷。

另外值得一提的是，這次的思考過程並沒有遇到服務算力不夠的情況，看來DeepSeek有針對性的提高了算力，畢竟現在是模型剛發佈後的高峰「測評」期。 (新智元)