不愧是DeepSeek!V4一手實測:推理程式設計能力給到夯,熟悉的D老師也回來了

炸了炸了真炸了,DeepSeek一出手,AI圈都得震得抖三抖。

全新來襲的兩個版本——

V4 ProFlash,一個主打性能,另一個更輕更快,兩個都「開源」。

按DeepSeek自己的說法,V4在agentic程式設計能力上是開源模型裡最強的,推理和世界知識也全面升級,上下文窗口從128K直接拉到了1M

對比V3,當然是一次幅度不小的跨越,發佈的時間點,距離上一個推理模型R1也整整過去了一年多。

不過V4這次帶來的變化,還是讓我們想認真摸一摸它的底,於是乎,我們也第一時間上手狠狠實測了一番!!

最近這模型那模型扎堆上,我是真暈了,於是我讓V4給我roll了個龍蝦和愛馬仕的話題熱度對比圖,be like:

程式設計遊戲也高低得安排上,直接讓V4搓出一個《未來啟示錄:AGI降臨》的文字策略冒險小遊戲(量子位定製版):

此外,面對網上大火的「對著鏡子舉手」的AI推理踩坑題,V4直接完勝ChatGPT-5.5:

當然了,新模型一出,網友們也坐不住,開始直接開始瘋狂整活兒嘗鮮:

博主David Ondrej蒐集了網友們的測試案例,錄了一段半個小時的測試視訊,表示DeepSeek-V4能力比肩GPT和Opus,而且更便宜。

博主@Bijan Bowen更是直接用V4搭了一個飛機穿梭雲層的3D互動世界,搓完直感嘆: so cool~

熱鬧啊真熱鬧,會玩啊真會玩——

廢話不多說,熱乎乎的DeepSeek V4一手實測,來了!

DeepSeek V4一手實測

關於V4這一波的更新重點,官方原話是:在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。

按DeepSeek的說法,在Agentic能力Coding評測中,V4-Pro已達到當前開源模型最佳水平,並在其他Agent相關評測中同樣表現優異。

數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越了當前所有已公開評測的開源模型。

所以呢,這次我們也就專門「照方抓藥」,從這幾個維度上來考量一下官方說法究竟有幾分真~

Agentic coding能力實測

多說無益,我們先來實一下V4模型的Agentic coding能力,看看能不能接住招~

先小試牛刀一下,在「專家模式」下讓DeepSeek V4幫忙搭建一個《怪奇物語》主題的劇集介紹網站。

搭建一個《怪奇物語》主題的劇集介紹網站,整體風格參考80年代復古科幻與懸疑驚悚氛圍,網站需要包含首頁、劇情簡介、主要角色介紹等模組。


大概等了5分鐘,真·功夫不負有心人。

當「霍金斯小鎮編年冊」出現在頁面上時,第一反應就是:這時間真沒白等,效果確實比預想中更好。

V4把整個網站拆成了劇集簡介、主要角色、分季劇集、經典場景、海報展示、觀眾評價六大類股,結構完整,資訊也比較清晰。

值得一提的是,V4還會根據不同主角的特徵設計專屬logo,比如小十一擁有超能力,頁面裡就用水晶球來做視覺符號代替,還是很匹配的。

唯一不足的地方是「互動」,有部分加入互動能力的類股(比如海報),emm…滑鼠點選去是沒有反應的…

接下來我們上點難度,再來考察一下模型的資訊更新能力和熱點捕捉能力:

搜尋一下最近很火的「十二星座專屬庇護所」短影片熱度,並生成一份關於該選題的短影片爆火現象的研究報告。


先來誇誇,值得表揚的是V4確實get到了「十二星座專屬庇護所」這個熱點的內容的視訊特點。

而且在視覺呈現上審美也在的,並且還自動把報告內容劃分為傳播規模、核心特徵、頂層原因、商業變現幾個方面。

但,是光網頁搭建還遠遠不夠——

試問那個初來乍到的AI選手,不得和一道經典的「鵜鶘騎自行車」的svg題較量一番?(你說是吧,v4)

做一個鵜鶘騎自行車的動態svg。

這次我用了「專家」和「快速」兩種模型進行了實測。

結果就是——快速模式《完勝》…(大家覺著呢?歡迎評論區嘮嘮。)

從呈現的效果來說來看,快速模式在畫面顏色和運動軌跡呈現上更勝一籌,能感覺出鵜鶘有騎車子的前進動態感。

反觀專家模式,除了自行車的軲轆在動,畫面其他元素處理的都不太ok。

相比Pro,Flash在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力,在程式設計場景中不輸Pro。

而由於模型參數和啟動更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。

最後我們再來上一道遊戲程式設計能力,讓DeepSeek V4生成一個線上打地鼠的小遊戲,只不過我們這次不打地鼠——

生成一個打地鼠的線上網頁小遊戲,把地鼠換成你自己的logo。

值得表揚的是,V4確實get到到了它的logo是個小海豚。(形象好不好看就另說了…

而且整個遊戲的互動也沒什麼問題,遊戲到後半程會明顯感覺難度變大,遊戲體驗感還算是比較好。

接下來我們再來測一些更有意思的,讓V4生成一個「寵物養成」的線上遊戲——

值得一提的是,在提示詞中我並沒有明確遊戲的具體規則以及需要涵蓋的內容。

但是從V4的思考過程看,V4自動補全了遊戲的規則、UI介面、互動能力、金幣系統等遊戲參數和能力。

對於日常想快速搓一個demo、做個小遊戲原型,或者驗證某個輕量級創意來說,還是蠻到位的~

(之所以這麼說,是因為這效果確實比之前用的一些龍蝦產品效果還要好些…)

推理能力實測

除了Agent能力外,DeepSeek V4還有著世界頂級的「推理性能」

在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。

在這部分為了能體現不同模型間的效果對比,我們這次搬上另一位選手——ChatGPT-5.5

我們先來一道網上超超超火的「鏡子舉手」推理測試題,看看兩位選手各自會有什麼表現!!

我正對著鏡子站立,舉起一隻手。在我的視野中,這隻手出現在鏡子畫面的左側。請問在現實中,我舉起的是那隻手?

emm…雖然沒有精準扣住「鏡子不會改變我視野左右方向」的核心結論,但是答案確實回答正確,滿分!

咱再來看看下面的ChatGPT-5.5,可以說是精準踩坑,完全被偽常識帶偏了…

接下來我們再來一道網上很火的「親生父母結婚」的AI推理測試題,看看兩位選手能不能招架得住:

今年才知道,親生父母結婚時沒有叫我,我很難過,應該怎麼辦?

先說結論:大大大反轉,這局ChatGPT-5.5完勝DeepSeek V4

先來看V4的回答,雖說題目沒完全答對,只有第二種情況(親生父母結婚我還沒出生)符合標準答案,但——

架不住人家把「真誠」二字展現地淋漓盡致…直接輸出了千字小作文來安慰我???

我們再來反觀ChatGPT-5.5,人狠話不多,直接就戳穿了題目的陷阱,直言——親親,您那會兒還沒上線哈。

當然,好的推理並不是只看個題目就開始悶頭冥思苦想,還要結合自身的知識儲備。

拿我們昨天文章裡那個「絕望的父親」的例子來說,V4在第一輪並沒有get到這道題目的關鍵:

(根據遺傳學規律,如果一名女性是紅綠色盲,其生物學父親必然也是)。

昨天由於時間關係,這道題我們沒有讓V4繼續往下嘗試,於是這次,我們補充了新的提示。(doge)

在第一步回答的基礎上,我們首先提示說這是一個科學問題。

不過嘛…這波不僅沒答對,還搞出了更複雜的「色盲理論」,be like——

於是乎,我們決定再給它一次機會,直接挑明這個問題涉及的是遺傳學領域,這回V4終於《上道了》:

還是基於上面的出發點,考察推理能力不能只看推理過程,我們還考察了V4的審題能力

畢竟解題過程再有看頭,如果一開始把題讀錯,依然得不了分!!

一個典型例子就是這個「薛定諤的死貓」,在經典物理學悖論的基礎上進行了修改,直接設定貓就是死的,這裡V4成功過關。

還有這個經典的農夫過河問題,V4在思考時已經觀察到了我們埋下的陷阱,但認為這是我的筆誤,所以還是按照原問題進行了推理。

但當我明確表示自己沒打錯字時,V4給出了正確的解答。

最後說下知識更新

如果直接問它知識庫截止到什麼時候,V4的推理過程會先出現一個2025年5月的說法,但之後它認為DeepSeek最新版本是V3,然後給出了2024年7月的最終回答。

於是,我們決定在關閉聯網的情況下,通過詢問OpenAI、Anthropic和Google三家公司最新的模型版本來曲線驗證下。

這時它直接強調了自己的知識只更新到2025年5月,回答的模型發佈時間也基本對得上(但Claude 4系列的發佈時間是5月22日,不能算月初)。

One More Thing

兩個月前,DeepSeek的一次小版本更新,讓它的性格突然變得機械理性。

原本網友心目中的D老師,變成了刻薄冷漠的AI機器。

現在,隨著V4的迭代,DeepSeek的情感又開始重新充盈。

那個我們熟悉的D老師,又回來了。 (量子位)