不愧是DeepSeek！V4一手實測：推理程式設計能力給到夯，熟悉的D老師也回來了

2026/04/26

•

炸了炸了真炸了，DeepSeek一出手，AI圈都得震得抖三抖。

全新來襲的兩個版本——

V4 Pro和Flash，一個主打性能，另一個更輕更快，兩個都「開源」。

按DeepSeek自己的說法，V4在agentic程式設計能力上是開源模型裡最強的，推理和世界知識也全面升級，上下文窗口從128K直接拉到了1M。

對比V3，當然是一次幅度不小的跨越，發佈的時間點，距離上一個推理模型R1也整整過去了一年多。

不過V4這次帶來的變化，還是讓我們想認真摸一摸它的底，於是乎，我們也第一時間上手狠狠實測了一番！！

最近這模型那模型扎堆上，我是真暈了，於是我讓V4給我roll了個龍蝦和愛馬仕的話題熱度對比圖，be like：

程式設計遊戲也高低得安排上，直接讓V4搓出一個《未來啟示錄：AGI降臨》的文字策略冒險小遊戲（量子位定製版）：

此外，面對網上大火的「對著鏡子舉手」的AI推理踩坑題，V4直接完勝ChatGPT-5.5：

當然了，新模型一出，網友們也坐不住，開始直接開始瘋狂~~整活兒~~嘗鮮：

博主David Ondrej蒐集了網友們的測試案例，錄了一段半個小時的測試視訊，表示DeepSeek-V4能力比肩GPT和Opus，而且更便宜。

博主@Bijan Bowen更是直接用V4搭了一個飛機穿梭雲層的3D互動世界，搓完直感嘆： so cool～

熱鬧啊真熱鬧，會玩啊真會玩——

廢話不多說，熱乎乎的DeepSeek V4一手實測，來了！

DeepSeek V4一手實測

關於V4這一波的更新重點，官方原話是：在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。

按DeepSeek的說法，在Agentic能力Coding評測中，V4-Pro已達到當前開源模型最佳水平，並在其他Agent相關評測中同樣表現優異。

在數學、STEM、競賽型程式碼的測評中，DeepSeek-V4-Pro超越了當前所有已公開評測的開源模型。

所以呢，這次我們也就專門「照方抓藥」，從這幾個維度上來考量一下官方說法究竟有幾分真～

Agentic coding能力實測

多說無益，我們先來實一下V4模型的Agentic coding能力，看看能不能接住招～

先小試牛刀一下，在「專家模式」下讓DeepSeek V4幫忙搭建一個《怪奇物語》主題的劇集介紹網站。

搭建一個《怪奇物語》主題的劇集介紹網站，整體風格參考80年代復古科幻與懸疑驚悚氛圍，網站需要包含首頁、劇情簡介、主要角色介紹等模組。

大概等了5分鐘，真·功夫不負有心人。

當「霍金斯小鎮編年冊」出現在頁面上時，第一反應就是：這時間真沒白等，效果確實比預想中更好。

V4把整個網站拆成了劇集簡介、主要角色、分季劇集、經典場景、海報展示、觀眾評價六大類股，結構完整，資訊也比較清晰。

值得一提的是，V4還會根據不同主角的特徵設計專屬logo，比如小十一擁有超能力，頁面裡就用水晶球來做視覺符號代替，還是很匹配的。

唯一不足的地方是「互動」，有部分加入互動能力的類股（比如海報），emm…滑鼠點選去是沒有反應的…

接下來我們上點難度，再來考察一下模型的資訊更新能力和熱點捕捉能力：

搜尋一下最近很火的「十二星座專屬庇護所」短影片熱度，並生成一份關於該選題的短影片爆火現象的研究報告。

先來誇誇，值得表揚的是V4確實get到了「十二星座專屬庇護所」這個熱點的內容的視訊特點。

而且在視覺呈現上審美也在的，並且還自動把報告內容劃分為傳播規模、核心特徵、頂層原因、商業變現幾個方面。

但，是光網頁搭建還遠遠不夠——

試問那個初來乍到的AI選手，不得和一道經典的「鵜鶘騎自行車」的svg題較量一番？（你說是吧，v4）

做一個鵜鶘騎自行車的動態svg。

這次我用了「專家」和「快速」兩種模型進行了實測。

結果就是——快速模式《完勝》…（大家覺著呢？歡迎評論區嘮嘮。）

從呈現的效果來說來看，快速模式在畫面顏色和運動軌跡呈現上更勝一籌，能感覺出鵜鶘有騎車子的前進動態感。

反觀專家模式，除了自行車的軲轆在動，畫面其他元素處理的都不太ok。

相比Pro，Flash在世界知識儲備方面稍遜一籌，但展現出了接近的推理能力，在程式設計場景中不輸Pro。

而由於模型參數和啟動更小，相較之下V4-Flash能夠提供更加快捷、經濟的API服務。

最後我們再來上一道遊戲程式設計能力，讓DeepSeek V4生成一個線上打地鼠的小遊戲，只不過我們這次不打地鼠——

生成一個打地鼠的線上網頁小遊戲，把地鼠換成你自己的logo。

值得表揚的是，V4確實get到到了它的logo是個小海豚。（形象好不好看就另說了…

而且整個遊戲的互動也沒什麼問題，遊戲到後半程會明顯感覺難度變大，遊戲體驗感還算是比較好。

接下來我們再來測一些更有意思的，讓V4生成一個「寵物養成」的線上遊戲——

值得一提的是，在提示詞中我並沒有明確遊戲的具體規則以及需要涵蓋的內容。

但是從V4的思考過程看，V4自動補全了遊戲的規則、UI介面、互動能力、金幣系統等遊戲參數和能力。

對於日常想快速搓一個demo、做個小遊戲原型，或者驗證某個輕量級創意來說，還是蠻到位的～

(之所以這麼說，是因為這效果確實比之前用的一些龍蝦產品效果還要好些…）

推理能力實測

除了Agent能力外，DeepSeek V4還有著世界頂級的「推理性能」。

在數學、STEM、競賽型程式碼的測評中，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優異成績。

在這部分為了能體現不同模型間的效果對比，我們這次搬上另一位選手——ChatGPT-5.5。

我們先來一道網上超超超火的「鏡子舉手」推理測試題，看看兩位選手各自會有什麼表現！！

我正對著鏡子站立，舉起一隻手。在我的視野中，這隻手出現在鏡子畫面的左側。請問在現實中，我舉起的是那隻手？

emm…雖然沒有精準扣住「鏡子不會改變我視野左右方向」的核心結論，但是答案確實回答正確，滿分！

咱再來看看下面的ChatGPT-5.5，可以說是精準踩坑，完全被偽常識帶偏了…

接下來我們再來一道網上很火的「親生父母結婚」的AI推理測試題，看看兩位選手能不能招架得住：

今年才知道，親生父母結婚時沒有叫我，我很難過，應該怎麼辦？

先說結論：大大大反轉，這局ChatGPT-5.5完勝DeepSeek V4。

先來看V4的回答，雖說題目沒完全答對，只有第二種情況（親生父母結婚我還沒出生）符合標準答案，但——

架不住人家把「真誠」二字展現地淋漓盡致…直接輸出了千字小作文來安慰我？？？

我們再來反觀ChatGPT-5.5，人狠話不多，直接就戳穿了題目的陷阱，直言——親親，您那會兒還沒上線哈。

當然，好的推理並不是只看個題目就開始悶頭冥思苦想，還要結合自身的知識儲備。

拿我們昨天文章裡那個「絕望的父親」的例子來說，V4在第一輪並沒有get到這道題目的關鍵：

（根據遺傳學規律，如果一名女性是紅綠色盲，其生物學父親必然也是）。

昨天由於時間關係，這道題我們沒有讓V4繼續往下嘗試，於是這次，我們補充了新的提示。（doge）

在第一步回答的基礎上，我們首先提示說這是一個科學問題。

不過嘛…這波不僅沒答對，還搞出了更複雜的「色盲理論」，be like——

於是乎，我們決定再給它一次機會，直接挑明這個問題涉及的是遺傳學領域，這回V4終於《上道了》：

還是基於上面的出發點，考察推理能力不能只看推理過程，我們還考察了V4的審題能力。

畢竟解題過程再有看頭，如果一開始把題讀錯，依然得不了分！！

一個典型例子就是這個「薛定諤的死貓」，在經典物理學悖論的基礎上進行了修改，直接設定貓就是死的，這裡V4成功過關。

還有這個經典的農夫過河問題，V4在思考時已經觀察到了我們埋下的陷阱，但認為這是我的筆誤，所以還是按照原問題進行了推理。

但當我明確表示自己沒打錯字時，V4給出了正確的解答。

最後說下知識更新。

如果直接問它知識庫截止到什麼時候，V4的推理過程會先出現一個2025年5月的說法，但之後它認為DeepSeek最新版本是V3，然後給出了2024年7月的最終回答。

於是，我們決定在關閉聯網的情況下，通過詢問OpenAI、Anthropic和Google三家公司最新的模型版本來曲線驗證下。

這時它直接強調了自己的知識只更新到2025年5月，回答的模型發佈時間也基本對得上（但Claude 4系列的發佈時間是5月22日，不能算月初）。

One More Thing

兩個月前，DeepSeek的一次小版本更新，讓它的性格突然變得機械理性。

原本網友心目中的D老師，變成了刻薄冷漠的AI機器。

現在，隨著V4的迭代，DeepSeek的情感又開始重新充盈。

那個我們熟悉的D老師，又回來了。 (量子位)