新版DeepSeek-R1正式開源!直逼o3程式設計強到離譜,一手實測來了

新版DeepSeek-R1重磅開源,凌晨已放出權重!此次模型性能幾乎與o4-mini(Medium)相當,程式設計實測超越Claude 4 Sonnet。網友紛紛驚嘆:開源又一次勝利了。

臨近端午假期,DeepSeek果然又開始搞事。

就在今天凌晨,新版DeepSeek-R1正式開源了!

DeepSeek-R1-0528模型權重已上傳到HuggingFace,不過模型卡暫未更新。

項目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

時隔4個月,DeepSeek-R1完成了超進化,編碼能力強到離譜,而且思考時間更長了。

據稱,新模型基於DeepSeek-V3-0324訓練(參數為660B)。

經典物理模擬測試中,DeepSeek-R1新舊版本的對比

在LiveCodeBench基準上,DeepSeek-R1-0528性能幾乎與o3-mini(High)和o4-mini(Medium)實力相當,一舉超越了Gemini 2.5 Flash。

有網友稱讚,DeepSeek-R1能夠像o3一樣糾正思維鏈,並且像Claude一樣創造性進行世界建構。

可以說,這是屬於開源模型的巨大勝利!

不用R2,直接對標SOTA

此次,DeepSeek-R1-0528更新核心亮點,網友做了一個濃縮版的總結:

  • 能像Google模型一樣深度推理
  • 文字生成最佳化:更自然,格式更佳
  • 獨特的推理風格:不僅快,而且更縝密
  • 支援長時思考:單任務處理時長可達30-60分鐘

思考時間更長,成為了全網討論最多的一點。有網友實測後,R1思考時長超過了25分鐘。

另外,這似乎是唯一一個能持續正確做對「9.9 - 9.11是多少」的模型。

程式設計能力強到爆

網友實測顯示,新版DeepSeek-R1在程式設計方面簡直不可思議!

AI圈大佬「karminski-牙醫」用同一個prompt測試了DeepSeek-R1-0528和Claude 4 Sonnet後發現。

不管是光線照射在牆上形成的漫反射,還是球在撞擊後的運動方向,亦或是控製麵板的美觀程度,這一把R1穩贏。


網友Alex的測試也顯示出,DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。



網友Haider.則是讓模型建構一個單詞評分系統。R1簡要思考後,就立刻出了關於程式碼和工作測試的兩個檔案,第一次運行就完美無瑕。

此前,o3是唯一能完成這個任務的模型。而如今,R1堪稱是完成這個任務的最佳模型。

注意,R1的表現之所以如此驚人,是因為它返回的兩個檔案在第一次都能運行良好,不用編輯,不用重試,這極其少見。

因為此前的大多數模型,要麼會在邊緣情況下終端,要麼會做得太複雜,要麼缺少適當的測試覆蓋率。

和Gemini高能PK

還有人將DeepSeek-R1與Gemini 2.5 Pro進行了對標。同一個提示下,它們各自的表現如何?

首先是深度研究的能力,給出「研究微劑量服用裸蓋菇素對長期認知的影響,需引用學術來源」提示。

這一把Gemini的響應更快,引用了可靠的研究文獻,並且答案結構清晰。

再來看看它們搜尋+對比能力如何?提示模型用即時來源列出全民基本收入(UBI)的五大優點和缺點。

這時,Gemini 2.5 Pro和DeepSeek R1表現都不錯,打成平手。


Prompt: List top 5 pros/cons of Universal Basic Income using live sources.

再讓模型為AI SaaS工具制定TikTok增長策略,兩款模型再次打成平局。

在智能體任務規劃方面,讓Gemini和DeepSeek一同設計一個完整的市場調研智能體,包含工具鏈、使用者角色和流程交接,結果是Gemini生成一張資訊圖,而DeepSeek稍遜一籌。

由此,大家對DeepSeek-R2的期待值也是拉滿了。

一手實測來了

新版DeepSeek-R1的能力經過我們實測,雖然是一次「小版本」更新,但是性能得到了「史詩級」的加強。

尤其是程式設計能力,感覺已經超過或者足以媲美Claude 4和Gemini 2.5 Pro,可以說所有提示都是「一把過」,不需要任何修改!並且可以在網頁端直接運行,展示效果。

首先是製作一個「新智元」字型在宇宙中旋轉的3D動畫,完成度相當之高。

對於簡單任務,DeepSeek-R1的思考時間明顯縮短,不再像以前對簡單任務也瘋狂思考。

設計一個新智元的官方網站,對於這種相對容易的任務,DeepSeek-R1-0528隻需要10s的思考時間。

能夠明顯感覺到,這次DeepSeek-R1新版本的思考過程更加穩定。

以模擬一個太陽系運行為例,還要求行星比例大小與實際相同,能看到DeepSeek-R1-0528的思考過程已經趨近於「完美」。

最後,再給DeepSeek-R1-0528上點強度,要求演示籃球落地後的彈跳過程,並且要完美遵循現實中物理規律。

最終DeepSeek的成果還貼心的設計了參數控製麵板,以及速度方向指示,是真的很強,以上所有程式碼都是提示之後一遍過,沒有任何的Debug過程。

對於類似「華容道」的多步驟思考問題,DeepSeek-R1-0528的表現也非常完美,

比如「一位農夫要帶一隻狐狸、一隻鵝和一袋豆子過河。船每次只能載他和一樣物品。如果農夫不在場,狐狸會吃掉鵝,鵝會吃掉豆子。請問農夫該如何安排過河,才能確保所有物品安全?」這種複雜推理問題,DeepSeek-R1還可以給出核心問題所在。

最令我感到震驚的是,這次的「思考」能力似乎進行了秘密加強。

我給他了一個非常無厘頭的族譜問題:「我的媽媽的爸爸的兒子的侄女的孫子的爺爺的舅舅的外孫女的姑姑,是我的誰,你能畫出關係族譜圖嗎?」

以下過程經過3倍加速,可以看到DeepSeek-R1真的在通過數學的符號化方式在進行思考。

並且最後還真讓他分析出了結果,簡直震驚!這麼長的思考鏈條都沒有斷。

另外值得一提的是,這次的思考過程並沒有遇到服務算力不夠的情況,看來DeepSeek有針對性的提高了算力,畢竟現在是模型剛發佈後的高峰「測評」期。 (新智元)