DeepSeek重磅升級,影響太大,沖上熱搜

沉默了兩個月後,DeepSeek出手就是王炸。

在端午節來臨前夕,DeepSeek悄悄完成了一次小版升級,目前版本為DeepSeek-R1-0528。

迄今為止,DeepSeek最震動世界的動作還是1月發佈R1。而之後DeepSeek的熱度就開始下降,使用率也有所回落,並引發了一些質疑。

今年3月,DeepSeek放出了 DeepSeek-V3-0324 模型。時隔兩個月,DeepSeek再次進行模型更新。

我們不禁好奇,這次更新又會帶給我們怎樣的驚喜?

圖源:微博

1. 四大實用升級,一般人也能使用

根據DeepSeek官方公告,DeepSeek-R1-0528使用2024年12月所發佈的DeepSeek V3 Base模型作為基座,但在後訓練過程中投入了更多算力,顯著提升模型的思維深度與推理能力。

這次更新,DeepSeek主要升級了幾個十分實用的功能。

第一,DeepSeek的思考能力深化。

根據官方介紹,更新後的 R1 模型在數學、程式設計與通用邏輯等多個基準評估中取得了當前國內所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。

圖源:DeepSeek官網


最左邊那欄是測試集,可以看到DeepSeek-R1-0528 在各項評測集上均取得了優異表現。

並且,相較於舊版 R1,新版模型在複雜推理任務中的表現有了顯著提升。例如在 AIME 2025 測試中,新版模型精準率由舊版的 70% 提升至 87.5%。

舉個例子,DeepSeek-R1-0528現在也能做對數字新難題「9.9-9.11=?」了。

圖源:DeepSeek

要知道,這種看似簡單的數學題目能難倒o3、Gemini 2.5 pro、Claude 4等一眾頂流大模型。

另外,這次更新中,上下文長度擴展至164K tokens,支援單任務最長60分鐘的深度思考,這意味著處理複雜任務的能力提升了。

DeepSeek表示,DeepSeek-R1-0528的思維鏈對於學術界推理模型的研究和工業界針對小模型的發展都將具有重要意義。

第一,新版 DeepSeek R1 針對「幻覺」問題進行了最佳化。

「 AI幻覺」(AIHallucination)這個現象,表現為模型輸出與輸入無關、違反事實或邏輯的內容,例如虛構事實、編造引用、錯誤資料等。

在一定測試樣本中,AI輸出包含幻覺內容的比例就是幻覺率。

我相信不少人在網路上都看過這樣的吐槽:本來想要藉助DeepSeek寫文章,結果發現它給的參考文獻根本不存在!

這就是AI幻覺。

AI幻覺常見表現就是捏造不存在的研究論文或作者,或提供錯誤的歷史事件、日期或科學結論,以及產生與上下文無關的矛盾回答。

原因有三個面向:訓練資料雜訊或偏差;模型過度依賴統計模式而非真實理解;提示模糊或引導不當。

總而言之,幻覺率是評估AI可靠性的重要指標。

而舊版相比,更新後的模型在改寫潤飾、總結摘要、閱讀理解等場景中,幻覺率降低了 45~50% 左右,能夠有效地提供更為準確、可靠的結果。

不得不說,這是很實用的一大進步。

第二,新版 DeepSeek R1在創意寫作、代碼生角色扮演等功能上有了極大的優化。

在舊版 R1 的基礎上,更新後的 R1 模型針對議論文、小說、散文等文體進行了進一步優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。

圖源:DeepSeek官網

而在程式評估中,R1-0528與OpenAI的o3-high版本表現接近,部分任務甚至超越Claude 4 Sonnet等頂尖模型。

例如,產生帶有動畫效果的天氣卡代碼時,R1的設計細節和互動動畫完成度都優於Claude。

圖源:微博
圖源:微博

第四,DeepSeek-R1-0528 支援工具呼叫(不支援在 thinking 中進行工具呼叫)。

根據官方介紹,目前模型 Tau-Bench 測評成績為 airline 53.5% / retail 63.9%,與 OpenAI o1-high 相當,但與 o3-High 以及 Claude 4 Sonnet 仍有差距。

圖源:DeepSeek官網

總結一下,根據中國經濟網報導,升級主要有四個面向。

首先,響應品質優化。

對複雜推理、多步驟計算更準確;長文理解與產生更連貫、邏輯更清晰;數學、程式設計等專業性輸出更可靠。

其次,響應速度小幅提升。

在網頁端、App、API 介面中回應更敏捷,尤其在處理超長文字輸入時,延遲有所降低(約提升 10%~20%)。

再次,對話穩定性增強。

情境記憶較穩定,尤其在超長對話中,並且減少偶爾「遺忘設定」或「偏離」的情況。

最後,API 和介面相容性保持穩定。

如公告所說:API 呼叫方式、參數、返回結構完全不變,使用者無需調整現有整合,即可無縫使用新版本。

換句話說,日常生活中,現在的DeepSeek-R1-0528 已經足夠應對大多數問題,而在學習和工作中,DeepSeek-R1-0528的可靠性大大提升、使用體驗也變好了。

2. 強如DeepSeek,叫板國外AI大模型

在現在這個人人都在卷AI的時候,DeepSeek還保留著獨特的優勢。

首先,在開源策略上,更新後的DeepSeek-R1依然選擇開源。

DeepSeek採用MIT協議開源,允許免費商用,甚至不用公開自己的修改程式碼,大大降低了AI應用門檻。

其次,DeepSeek成本優勢顯著,開發者狂喜。

其API價格僅為OpenAI o1的1/50(輸入token)至1/27(輸出token),也就是同樣處理字數的文字,用R1需要的成本比用OpenAI低很多,

因此,在性價比方面,DeepSeek稱第二,沒人敢稱第一。

最後,DeepSeek與國內應用市場的適合度很高。

目前DeepSeek已經接入許多應用,例如華為小藝、騰訊元寶等,有著廣泛的使用者基礎。

且國產硬體,如華為升騰910B晶片已完成適配,支援本地化部署,徹底擺脫對輝達的依賴。

然而,DeepSeek還有許多可以最佳化的空間。

圖源:微博

一方面,評估顯示,R1在程式設計能力上與o3-high接近,數學推理優於Gemini 2.5 Pro,但工具呼叫能力仍有差距。

另一方面,暫不支援圖片、語音等多模態輸入,在日常使用上有限制。

另外,在創意寫作、多輪對話等場景,R1和頂級模型仍有差距。儘管幻覺率降低,模型在長文字對話中仍可能出現邏輯錯誤,並且部分使用者反饋服務響應存在延遲,“伺服器繁忙,請稍後重試”恐怕也是人們對DeepSeek的重要印象之一。

圖源:微博

3.

迄今為止,DeepSeek最震動世界的動作還是1月發佈R1。

3月DeepSeek放出的 DeepSeek-V3-0324 模型,主要最佳化了程式碼方面的功能。此模型全面超越 Claude-3.7-Sonnet,在數學、程式碼類相關評測集上超過 GPT-4.5。

而當前,市場最關心的還是R2模型發佈。

4月初,DeepSeek聯手清華大學發佈一篇論文,提出名為自我原則點評調優(SPCT)的新學習方。同時,研究者引入了元獎勵模型(meta RM),進一步提升推理擴展效能。

上述論文引發了DeepSeek的R2是否很快面世的猜測。

而這次版本升級,再次激起了人們對R2的期待。

有人認為,這次的小版升級可能意味著,R2還遠遠沒有準備好推出。

也有人認為,這次最佳化這麼多功能都只是一次“小版本升級”,那麼R2如果出來,其影響力想必不會輸給R1。

圖源:微博

DeepSeek-R1的升級像一場靜水深流的變革——它沒有渲染「顛覆世界」的野心,卻用更長的思考時間、更低的犯錯率、更貼近普通人的成本,悄悄改寫了「強者恆強」的AI敘事。

這次,我們看到的不是參數競賽的喧囂,也不是資本遊戲的狂歡,而是一個樸素的真相:真正的進步,往往藏在「夠用就好」的克制裡。

科技的光芒,本來就該照進這些具體而微的生活褶皺裡。 (科技頭版)