炸了炸了真炸了,DeepSeek一出手,AI圈都得震得抖三抖。全新來襲的兩個版本——V4 Pro和Flash,一個主打性能,另一個更輕更快,兩個都「開源」。按DeepSeek自己的說法,V4在agentic程式設計能力上是開源模型裡最強的,推理和世界知識也全面升級,上下文窗口從128K直接拉到了1M。對比V3,當然是一次幅度不小的跨越,發佈的時間點,距離上一個推理模型R1也整整過去了一年多。不過V4這次帶來的變化,還是讓我們想認真摸一摸它的底,於是乎,我們也第一時間上手狠狠實測了一番!!最近這模型那模型扎堆上,我是真暈了,於是我讓V4給我roll了個龍蝦和愛馬仕的話題熱度對比圖,be like:程式設計遊戲也高低得安排上,直接讓V4搓出一個《未來啟示錄:AGI降臨》的文字策略冒險小遊戲(量子位定製版):此外,面對網上大火的「對著鏡子舉手」的AI推理踩坑題,V4直接完勝ChatGPT-5.5:當然了,新模型一出,網友們也坐不住,開始直接開始瘋狂整活兒嘗鮮:博主David Ondrej蒐集了網友們的測試案例,錄了一段半個小時的測試視訊,表示DeepSeek-V4能力比肩GPT和Opus,而且更便宜。博主@Bijan Bowen更是直接用V4搭了一個飛機穿梭雲層的3D互動世界,搓完直感嘆: so cool~熱鬧啊真熱鬧,會玩啊真會玩——廢話不多說,熱乎乎的DeepSeek V4一手實測,來了!DeepSeek V4一手實測關於V4這一波的更新重點,官方原話是:在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。按DeepSeek的說法,在Agentic能力Coding評測中,V4-Pro已達到當前開源模型最佳水平,並在其他Agent相關評測中同樣表現優異。在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越了當前所有已公開評測的開源模型。所以呢,這次我們也就專門「照方抓藥」,從這幾個維度上來考量一下官方說法究竟有幾分真~Agentic coding能力實測多說無益,我們先來實一下V4模型的Agentic coding能力,看看能不能接住招~先小試牛刀一下,在「專家模式」下讓DeepSeek V4幫忙搭建一個《怪奇物語》主題的劇集介紹網站。搭建一個《怪奇物語》主題的劇集介紹網站,整體風格參考80年代復古科幻與懸疑驚悚氛圍,網站需要包含首頁、劇情簡介、主要角色介紹等模組。大概等了5分鐘,真·功夫不負有心人。當「霍金斯小鎮編年冊」出現在頁面上時,第一反應就是:這時間真沒白等,效果確實比預想中更好。V4把整個網站拆成了劇集簡介、主要角色、分季劇集、經典場景、海報展示、觀眾評價六大類股,結構完整,資訊也比較清晰。值得一提的是,V4還會根據不同主角的特徵設計專屬logo,比如小十一擁有超能力,頁面裡就用水晶球來做視覺符號代替,還是很匹配的。唯一不足的地方是「互動」,有部分加入互動能力的類股(比如海報),emm…滑鼠點選去是沒有反應的…接下來我們上點難度,再來考察一下模型的資訊更新能力和熱點捕捉能力:搜尋一下最近很火的「十二星座專屬庇護所」短影片熱度,並生成一份關於該選題的短影片爆火現象的研究報告。先來誇誇,值得表揚的是V4確實get到了「十二星座專屬庇護所」這個熱點的內容的視訊特點。而且在視覺呈現上審美也在的,並且還自動把報告內容劃分為傳播規模、核心特徵、頂層原因、商業變現幾個方面。但,是光網頁搭建還遠遠不夠——試問那個初來乍到的AI選手,不得和一道經典的「鵜鶘騎自行車」的svg題較量一番?(你說是吧,v4)做一個鵜鶘騎自行車的動態svg。這次我用了「專家」和「快速」兩種模型進行了實測。結果就是——快速模式《完勝》…(大家覺著呢?歡迎評論區嘮嘮。)從呈現的效果來說來看,快速模式在畫面顏色和運動軌跡呈現上更勝一籌,能感覺出鵜鶘有騎車子的前進動態感。反觀專家模式,除了自行車的軲轆在動,畫面其他元素處理的都不太ok。相比Pro,Flash在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力,在程式設計場景中不輸Pro。而由於模型參數和啟動更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。最後我們再來上一道遊戲程式設計能力,讓DeepSeek V4生成一個線上打地鼠的小遊戲,只不過我們這次不打地鼠——生成一個打地鼠的線上網頁小遊戲,把地鼠換成你自己的logo。值得表揚的是,V4確實get到到了它的logo是個小海豚。(形象好不好看就另說了…而且整個遊戲的互動也沒什麼問題,遊戲到後半程會明顯感覺難度變大,遊戲體驗感還算是比較好。接下來我們再來測一些更有意思的,讓V4生成一個「寵物養成」的線上遊戲——值得一提的是,在提示詞中我並沒有明確遊戲的具體規則以及需要涵蓋的內容。但是從V4的思考過程看,V4自動補全了遊戲的規則、UI介面、互動能力、金幣系統等遊戲參數和能力。對於日常想快速搓一個demo、做個小遊戲原型,或者驗證某個輕量級創意來說,還是蠻到位的~(之所以這麼說,是因為這效果確實比之前用的一些龍蝦產品效果還要好些…)推理能力實測除了Agent能力外,DeepSeek V4還有著世界頂級的「推理性能」。在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。在這部分為了能體現不同模型間的效果對比,我們這次搬上另一位選手——ChatGPT-5.5。我們先來一道網上超超超火的「鏡子舉手」推理測試題,看看兩位選手各自會有什麼表現!!我正對著鏡子站立,舉起一隻手。在我的視野中,這隻手出現在鏡子畫面的左側。請問在現實中,我舉起的是那隻手?emm…雖然沒有精準扣住「鏡子不會改變我視野左右方向」的核心結論,但是答案確實回答正確,滿分!咱再來看看下面的ChatGPT-5.5,可以說是精準踩坑,完全被偽常識帶偏了…接下來我們再來一道網上很火的「親生父母結婚」的AI推理測試題,看看兩位選手能不能招架得住:今年才知道,親生父母結婚時沒有叫我,我很難過,應該怎麼辦?先說結論:大大大反轉,這局ChatGPT-5.5完勝DeepSeek V4。先來看V4的回答,雖說題目沒完全答對,只有第二種情況(親生父母結婚我還沒出生)符合標準答案,但——架不住人家把「真誠」二字展現地淋漓盡致…直接輸出了千字小作文來安慰我???我們再來反觀ChatGPT-5.5,人狠話不多,直接就戳穿了題目的陷阱,直言——親親,您那會兒還沒上線哈。當然,好的推理並不是只看個題目就開始悶頭冥思苦想,還要結合自身的知識儲備。拿我們昨天文章裡那個「絕望的父親」的例子來說,V4在第一輪並沒有get到這道題目的關鍵:(根據遺傳學規律,如果一名女性是紅綠色盲,其生物學父親必然也是)。昨天由於時間關係,這道題我們沒有讓V4繼續往下嘗試,於是這次,我們補充了新的提示。(doge)在第一步回答的基礎上,我們首先提示說這是一個科學問題。不過嘛…這波不僅沒答對,還搞出了更複雜的「色盲理論」,be like——於是乎,我們決定再給它一次機會,直接挑明這個問題涉及的是遺傳學領域,這回V4終於《上道了》:還是基於上面的出發點,考察推理能力不能只看推理過程,我們還考察了V4的審題能力。畢竟解題過程再有看頭,如果一開始把題讀錯,依然得不了分!!一個典型例子就是這個「薛定諤的死貓」,在經典物理學悖論的基礎上進行了修改,直接設定貓就是死的,這裡V4成功過關。還有這個經典的農夫過河問題,V4在思考時已經觀察到了我們埋下的陷阱,但認為這是我的筆誤,所以還是按照原問題進行了推理。但當我明確表示自己沒打錯字時,V4給出了正確的解答。最後說下知識更新。如果直接問它知識庫截止到什麼時候,V4的推理過程會先出現一個2025年5月的說法,但之後它認為DeepSeek最新版本是V3,然後給出了2024年7月的最終回答。於是,我們決定在關閉聯網的情況下,通過詢問OpenAI、Anthropic和Google三家公司最新的模型版本來曲線驗證下。這時它直接強調了自己的知識只更新到2025年5月,回答的模型發佈時間也基本對得上(但Claude 4系列的發佈時間是5月22日,不能算月初)。One More Thing兩個月前,DeepSeek的一次小版本更新,讓它的性格突然變得機械理性。原本網友心目中的D老師,變成了刻薄冷漠的AI機器。現在,隨著V4的迭代,DeepSeek的情感又開始重新充盈。那個我們熟悉的D老師,又回來了。 (量子位)