#推理程式設計 | 熱門關鍵字 | 鉅亨號

炸了炸了真炸了，DeepSeek一出手，AI圈都得震得抖三抖。全新來襲的兩個版本——V4 Pro和Flash，一個主打性能，另一個更輕更快，兩個都「開源」。按DeepSeek自己的說法，V4在agentic程式設計能力上是開源模型裡最強的，推理和世界知識也全面升級，上下文窗口從128K直接拉到了1M。對比V3，當然是一次幅度不小的跨越，發佈的時間點，距離上一個推理模型R1也整整過去了一年多。不過V4這次帶來的變化，還是讓我們想認真摸一摸它的底，於是乎，我們也第一時間上手狠狠實測了一番！！最近這模型那模型扎堆上，我是真暈了，於是我讓V4給我roll了個龍蝦和愛馬仕的話題熱度對比圖，be like：程式設計遊戲也高低得安排上，直接讓V4搓出一個《未來啟示錄：AGI降臨》的文字策略冒險小遊戲（量子位定製版）：此外，面對網上大火的「對著鏡子舉手」的AI推理踩坑題，V4直接完勝ChatGPT-5.5：當然了，新模型一出，網友們也坐不住，開始直接開始瘋狂整活兒嘗鮮：博主David Ondrej蒐集了網友們的測試案例，錄了一段半個小時的測試視訊，表示DeepSeek-V4能力比肩GPT和Opus，而且更便宜。博主@Bijan Bowen更是直接用V4搭了一個飛機穿梭雲層的3D互動世界，搓完直感嘆： so cool～熱鬧啊真熱鬧，會玩啊真會玩——廢話不多說，熱乎乎的DeepSeek V4一手實測，來了！DeepSeek V4一手實測關於V4這一波的更新重點，官方原話是：在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。按DeepSeek的說法，在Agentic能力Coding評測中，V4-Pro已達到當前開源模型最佳水平，並在其他Agent相關評測中同樣表現優異。在數學、STEM、競賽型程式碼的測評中，DeepSeek-V4-Pro超越了當前所有已公開評測的開源模型。所以呢，這次我們也就專門「照方抓藥」，從這幾個維度上來考量一下官方說法究竟有幾分真～Agentic coding能力實測多說無益，我們先來實一下V4模型的Agentic coding能力，看看能不能接住招～先小試牛刀一下，在「專家模式」下讓DeepSeek V4幫忙搭建一個《怪奇物語》主題的劇集介紹網站。搭建一個《怪奇物語》主題的劇集介紹網站，整體風格參考80年代復古科幻與懸疑驚悚氛圍，網站需要包含首頁、劇情簡介、主要角色介紹等模組。大概等了5分鐘，真·功夫不負有心人。當「霍金斯小鎮編年冊」出現在頁面上時，第一反應就是：這時間真沒白等，效果確實比預想中更好。V4把整個網站拆成了劇集簡介、主要角色、分季劇集、經典場景、海報展示、觀眾評價六大類股，結構完整，資訊也比較清晰。值得一提的是，V4還會根據不同主角的特徵設計專屬logo，比如小十一擁有超能力，頁面裡就用水晶球來做視覺符號代替，還是很匹配的。唯一不足的地方是「互動」，有部分加入互動能力的類股（比如海報），emm…滑鼠點選去是沒有反應的…接下來我們上點難度，再來考察一下模型的資訊更新能力和熱點捕捉能力：搜尋一下最近很火的「十二星座專屬庇護所」短影片熱度，並生成一份關於該選題的短影片爆火現象的研究報告。先來誇誇，值得表揚的是V4確實get到了「十二星座專屬庇護所」這個熱點的內容的視訊特點。而且在視覺呈現上審美也在的，並且還自動把報告內容劃分為傳播規模、核心特徵、頂層原因、商業變現幾個方面。但，是光網頁搭建還遠遠不夠——試問那個初來乍到的AI選手，不得和一道經典的「鵜鶘騎自行車」的svg題較量一番？（你說是吧，v4）做一個鵜鶘騎自行車的動態svg。這次我用了「專家」和「快速」兩種模型進行了實測。結果就是——快速模式《完勝》…（大家覺著呢？歡迎評論區嘮嘮。）從呈現的效果來說來看，快速模式在畫面顏色和運動軌跡呈現上更勝一籌，能感覺出鵜鶘有騎車子的前進動態感。反觀專家模式，除了自行車的軲轆在動，畫面其他元素處理的都不太ok。相比Pro，Flash在世界知識儲備方面稍遜一籌，但展現出了接近的推理能力，在程式設計場景中不輸Pro。而由於模型參數和啟動更小，相較之下V4-Flash能夠提供更加快捷、經濟的API服務。最後我們再來上一道遊戲程式設計能力，讓DeepSeek V4生成一個線上打地鼠的小遊戲，只不過我們這次不打地鼠——生成一個打地鼠的線上網頁小遊戲，把地鼠換成你自己的logo。值得表揚的是，V4確實get到到了它的logo是個小海豚。（形象好不好看就另說了…而且整個遊戲的互動也沒什麼問題，遊戲到後半程會明顯感覺難度變大，遊戲體驗感還算是比較好。接下來我們再來測一些更有意思的，讓V4生成一個「寵物養成」的線上遊戲——值得一提的是，在提示詞中我並沒有明確遊戲的具體規則以及需要涵蓋的內容。但是從V4的思考過程看，V4自動補全了遊戲的規則、UI介面、互動能力、金幣系統等遊戲參數和能力。對於日常想快速搓一個demo、做個小遊戲原型，或者驗證某個輕量級創意來說，還是蠻到位的～(之所以這麼說，是因為這效果確實比之前用的一些龍蝦產品效果還要好些…）推理能力實測除了Agent能力外，DeepSeek V4還有著世界頂級的「推理性能」。在數學、STEM、競賽型程式碼的測評中，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優異成績。在這部分為了能體現不同模型間的效果對比，我們這次搬上另一位選手——ChatGPT-5.5。我們先來一道網上超超超火的「鏡子舉手」推理測試題，看看兩位選手各自會有什麼表現！！我正對著鏡子站立，舉起一隻手。在我的視野中，這隻手出現在鏡子畫面的左側。請問在現實中，我舉起的是那隻手？emm…雖然沒有精準扣住「鏡子不會改變我視野左右方向」的核心結論，但是答案確實回答正確，滿分！咱再來看看下面的ChatGPT-5.5，可以說是精準踩坑，完全被偽常識帶偏了…接下來我們再來一道網上很火的「親生父母結婚」的AI推理測試題，看看兩位選手能不能招架得住：今年才知道，親生父母結婚時沒有叫我，我很難過，應該怎麼辦？先說結論：大大大反轉，這局ChatGPT-5.5完勝DeepSeek V4。先來看V4的回答，雖說題目沒完全答對，只有第二種情況（親生父母結婚我還沒出生）符合標準答案，但——架不住人家把「真誠」二字展現地淋漓盡致…直接輸出了千字小作文來安慰我？？？我們再來反觀ChatGPT-5.5，人狠話不多，直接就戳穿了題目的陷阱，直言——親親，您那會兒還沒上線哈。當然，好的推理並不是只看個題目就開始悶頭冥思苦想，還要結合自身的知識儲備。拿我們昨天文章裡那個「絕望的父親」的例子來說，V4在第一輪並沒有get到這道題目的關鍵：（根據遺傳學規律，如果一名女性是紅綠色盲，其生物學父親必然也是）。昨天由於時間關係，這道題我們沒有讓V4繼續往下嘗試，於是這次，我們補充了新的提示。（doge）在第一步回答的基礎上，我們首先提示說這是一個科學問題。不過嘛…這波不僅沒答對，還搞出了更複雜的「色盲理論」，be like——於是乎，我們決定再給它一次機會，直接挑明這個問題涉及的是遺傳學領域，這回V4終於《上道了》：還是基於上面的出發點，考察推理能力不能只看推理過程，我們還考察了V4的審題能力。畢竟解題過程再有看頭，如果一開始把題讀錯，依然得不了分！！一個典型例子就是這個「薛定諤的死貓」，在經典物理學悖論的基礎上進行了修改，直接設定貓就是死的，這裡V4成功過關。還有這個經典的農夫過河問題，V4在思考時已經觀察到了我們埋下的陷阱，但認為這是我的筆誤，所以還是按照原問題進行了推理。但當我明確表示自己沒打錯字時，V4給出了正確的解答。最後說下知識更新。如果直接問它知識庫截止到什麼時候，V4的推理過程會先出現一個2025年5月的說法，但之後它認為DeepSeek最新版本是V3，然後給出了2024年7月的最終回答。於是，我們決定在關閉聯網的情況下，通過詢問OpenAI、Anthropic和Google三家公司最新的模型版本來曲線驗證下。這時它直接強調了自己的知識只更新到2025年5月，回答的模型發佈時間也基本對得上（但Claude 4系列的發佈時間是5月22日，不能算月初）。One More Thing兩個月前，DeepSeek的一次小版本更新，讓它的性格突然變得機械理性。原本網友心目中的D老師，變成了刻薄冷漠的AI機器。現在，隨著V4的迭代，DeepSeek的情感又開始重新充盈。那個我們熟悉的D老師，又回來了。 (量子位)