這一夜,中國AI徹底翻身了:DeepSeek R1讓全世界刮目相看 | 深度評測

這一張圖,改變了中國的歷史!

01 程式碼生成能力:一次成功,完勝Claude 3.7

先說程式碼層面的表現。熟悉我的朋友都知道,黃叔之前寫過一本AI程式設計藍皮書,裡面有大量的實戰案例,基本都是用Claude 3.5、3.7跑出來的。

即使是一些相對簡單的案例,比如:

- 給老外起中文名的AI網頁

- 善思flomo瀏覽器外掛

用Windsurf+Claude 3.5的組合,往往都需要偵錯幾次,出現各種小bug才能最終搞定。

但是!新DeepSeek R1直接一次成功!

我測試了給川普起中文名的功能,R1居然給出了"推特神獸"、"川普大帝"這樣的神翻譯,簡直笑死我了!


還有flomo瀏覽器外掛,R1也是一次性生成成功,而且可以直接一鍵同步到flomo,完全沒有任何問題:

正當我準備繼續測試更多功能的時候,晚上10點多,API就掛了...看來大家都在瘋狂測試啊!

當然,R1也不是完美無缺

當然,黃叔必須得說一句,新R1在Coding能力的全面性上還是有欠缺的,體現在:

客觀地說,新R1在程式設計能力的全面性上還是有些不足:

1. 思考過程太冗長:R1需要很長的thinking過程來彌補推理能力,導致響應速度比較慢:

2. 缺少多模態能力:不能像Claude那樣通過截圖來描述程式碼錯誤,偵錯起來比較麻煩

但即便如此,新R1在程式碼生成方面已經穩穩站在了Claude 3.7和Claude 4之間的水平!

02 前端設計審美:已達Claude 4水準

這裡第一張圖我們先不說明那個是Claude4.0生成的,那個是Deepseek R1生成的,大家可以看一下兩份設計圖,能否像之前Claude3.7對比其他模型那樣一眼完成識別。

揭曉答案:

繼續,我測試更多的UI介面設計:



大家可以自行對比!

在雜誌風格卡片的測試中,我用自己的文章《2個月漲粉10000+,多篇文章閱讀過萬!黃叔是如何在AI浪潮中找到清晰方向的?》作為素材。

有趣的是,新R1甚至在某些方面略勝一籌!

比如我在提示詞中明確要求使用偏棕色的背景色,R1嚴格按照要求執行,而Claude 4雖然設計質量很高,但在提示詞遵從度上有些偏差。

就像老闆給員工佈置任務,員工完成得很好,但和老闆想要的不太一樣——這種情況我在開發其他產品時也遇到過。

當然這種情況還是少數,更多情況下可以很好的完成要求,就像下面這樣:

這兩個卡片是用我另一篇文章《我用了一個月Dia瀏覽器,已經徹底拋棄了Chrome!》生成的,左側卡片在提示詞的雜誌感要求方面更強一些,右側卡片在提示詞要求的其他細節如背景元素等方面略勝一籌。

繼續換個風格看一下,這次我們用日本平面設計風格:

特別值得一提的是,在測試日本平面設計風格時,我只是簡單地在提示詞中寫了"日本平面設計風格":

DeepSeek R1在推理過程中,竟然先詳細分析了"日本平面設計風格到底是什麼風格",然後才輸出設計稿!

這種自主學習和推理的能力,真的讓人刮目相看。

下面是一個美漫風格的卡片:

這兩張卡片對比下來左側的明顯更符合美漫風格,設計質量也更好,這裡不知道是不是因為Claude 4的訓練資料更多的是英文資料所以對美漫風理解更深刻?有懂的朋友歡迎留言確認一下是否有這方面的影響。

最後是一張二次元科幻風的卡片對比:

這個案例Claude4.0在顏色搭配和光影效果上做的更好一些,新R1相對簡單了一些,使用單色還是比較難體現出科幻的氛圍和光影感。

經過和一位設計師朋友的深度討論,我們得出了一個重要結論:

頂級AI模型的前端設計能力,已經進入了需要專業設計師才能區分質量差異的階段!

對於我這樣的非設計師來說,第一感覺就是"差不多"、"都挺好",已經很難評價Claude 4和新DeepSeek R1的輸出質量了。

再結合新R1在功能程式碼上的巨大進步,這真的要出大事了!

頂級模型的前端設計能力,已經進入了一個需要專業設計師去區分設計質量的階段!再結合新R1在功能程式碼上的進步,真的出大事了!

03 為什麼說這改變了中國的歷史?

從多個評測案例來看,新DeepSeek R1確實接近Claude 4的水平。這一點我和歸藏以及其他朋友交流後,大家都比較認同。

退一步說,即使只是達到Claude 3.7的水平,這也已經超級牛逼了!

國產AI的歷史性突破

黃叔一直有個觀點:今年國內大模型在程式設計能力上會追平Claude 3.5的水準。

如果真的實現了,那意味著:

無需魔法:國內使用者可以直接使用

價格低廉:成本優勢明顯

本土化服務:更適合中國使用者需求

這樣的組合,一定會引爆國內AI市場!因為程式設計的價值實在太大了!

真沒想到,還沒到6月份,甚至是在輝達發財報的前夜,中國之光DeepSeek就用一個"小"更新,直接擊穿了所有人的預期!

這種感覺就像是:你以為自己在追趕,結果一不小心就超車了!

寫在最後

哎,這個世界變化真的太快了!再保守就要錯過更多機會了。 (AI產品黃叔)