DeepSeek V4 投研能力實測：夯爆了！

2026/04/25

•

千呼萬喚始出來，DeepSeek V4終於來了，我們 AlphaEngine 的小夥伴連夜對V4的投研實戰性能進行了全面細緻的測評，直接說結論：V4夯爆了！

（1）深度測評DeepSeek V4投研能力的真實段位

為了系統化評估大模型的投研實戰能力，我們在過去數年間持續收集、整理了一套"投研錯題集"：IRB（Investment Research Benchmark）。

目前，IRB 已成為金融投研場景的權威 AI 測評基準，涵蓋財務分析、定量推理、陷阱識別等 18 個核心領域，並從相關性、有用性、流暢性、連貫性、一致性和忠實度 6 大維度進行人機雙盲評分。

我們基於 IRB 對 DeepSeek V4 進行了全面測評，讓 DeepSeek V4 Pro 與 Gemini 3.1 Pro 在真實投研問題上正面對決。結果：DeepSeek V4 以壓倒性優勢勝出，勝率超過 80%。

完整 86 頁測評報告請聯絡銷售獲取。以下精選 3 道典型題目，逐一拆解兩款模型的表現差異。

題目一：IGO 鋰礦公司股價暴跌歸因

這是一道典型的個股異動歸因題——"IGO 為什麼今天跌那麼多？"

兩款模型都圍繞核心資產 Greenbushes 建構了營運指標對比表格，但資訊密度存在明顯差異。

DeepSeek V4 建構了產量、成本、售價的三維對比矩陣，精確引用摩根大通、摩根士丹利、花旗、Jefferies 四家投行的預期資料與實際值偏差。

這種"多空對照 + 事後驗證"的分析框架，幫助投資者快速抓住關鍵：即便是最悲觀的賣方（摩根士丹利，目標價 7.50），其 3Q 產量預期也在約 400kt，而實際僅 351kt——這個巨大缺口，就是引發拋售的直接觸發點。

更值得關注的是結論部分。V4 給出了一個高度凝練的判斷：

"市場正在對 IGO 進行從'高成本成長型鋰企'到'營運困境型資產'的估值邏輯切換。"

隨後V4引用了摩根大通的 DCF 估值細節來支撐這一判斷："JPM 的 DCF 估值中，Nova 和 Kwinana 價值為零，幾乎所有價值都來自 Greenbushes 鋰礦的 25% 股權。因此，核心引擎 Greenbushes 的熄火，對 IGO 的估值是毀滅性的。"定性判斷與定量估值細節的深度咬合，讓結論具備了真正的說服力。

題目二：血製品龍頭出海研究

這是一道高度複雜的產業研究任務：使用者一口氣拋出 5 個遞進式子問題，涵蓋血製品出海的產品結構、目標市場、成敗歸因、商業模式與投資建議，對模型的產業認知深度、多維度組織能力和投研判斷力提出了極高要求。

面對"為什麼血製品出海做得不好"這一關鍵子問題，DeepSeek V4 沒有簡單羅列原因，而是創造性地提煉出了血製品出海的 "不可能三角"：血漿資源充足、國內需求滿足、法規註冊完善三者之間存在結構性矛盾。

這個框架將零散的制約因素抽象為一個可復用的戰略分析工具，讓使用者瞬間理解出海困局的底層本質：在國內采漿量僅 1.5 萬噸（美國超 5 萬噸）的硬約束下，出口本質上是"從緊平衡中擠出的剩餘產能"的變現。

Gemini 雖然也提到了類似的制約因素，但以線性列舉的方式呈現，缺乏這種結構化抽象的能力。

題目三：買方調研方案設計

使用者是一位固收研究員，需要圍繞領導下達的調研要求（聚焦化債、地產去化），為廣州科學城和珠海橫琴設計一套系統化的實地調研框架。這類任務考驗的不是資料檢索能力，而是對買方工作流的理解深度，能否產出一份"拿來即用"的調研作戰手冊。

V4 在開篇即建構了一張 "表象層 → 中間層 → 深層本質"的三層穿透表格：從"樓盤去化率"穿透至"償債現金流來源是否穩定"，從"產業園出租率"穿透至"人口與就業底座"，從"庫存規模"穿透至"土地抵押估值下行引發隱性債務顯性化"。

隨後，V4 將方案拆解為“事前案頭研究”和“實地調研框架”兩個明確階段。案頭階段，先基於上下文資料對兩地進行系統性"預診斷"，提煉關鍵發現：科學城產業園出租率分化、橫琴"四新"產業增加值佔比 47.1% 但總量尚小。實地階段，再圍繞這些假設設計驗證性問題。

這恰恰還原了買方調研最核心的工作流：先做案頭、形成假設、再帶著假設去實地驗證或證偽。

Gemini 則直接跳入調研框架設計，缺少"案頭預研"這一關鍵環節，導致調研問題的針對性明顯不足。

（2）V4在預訓練和後訓練上的關鍵創新

預訓練：原生百萬上下文的"四步閉環"

DeepSeek V4 實現原生 1M 上下文窗口，靠的不是某個單點突破，而是預訓練階段環環相扣的四步閉環：

第一步：混合注意力架構破解算力瓶頸。以 CSA（壓縮稀疏注意力）+ HCA（重度壓縮注意力）的混合架構，從根本上解決超長序列帶來的算力與視訊記憶體瓶頸。

第二步：兩階段 CP 平行突破分佈式瓶頸。通過兩階段上下文平行機制，解決多卡分佈式訓練中的通訊與調度瓶頸。

第三步：高品質長文件拼接資料。精心構造長文件拼接資料集，為模型提供充足的長距離依賴學習訊號。

第四步：4K → 1M 漸進式擴長。在預訓練過程中從 4K 逐步擴展至 1M，平滑過渡，避免長度外推帶來的性能斷崖。

四步環環相扣，缺一不可。架構解決"能不能算"，平行解決"能不能分佈式算"，資料解決"拿什麼學"，漸進擴長解決"怎麼穩定學"，這是一套完整且精巧的工程閉環。

後訓練：從混合強化學習到"先分後合"的範式躍遷

更值得關注的是後訓練階段發生的重大範式轉變：V4 徹底放棄了混合強化學習（Mixed RL）融合路線，轉而採用"先培養領域專家，再同策略蒸餾（On-Policy Distillation, OPD）"的兩階段新範式。

第一階段：分而治之。獨立訓練數學、程式碼、Agent、指令跟隨等多個領域專家模型，每個專家通過 SFT + GRPO 強化學習在各自領域打磨至最優。

第二階段：合而為一。通過 OPD 將所有專家的知識蒸餾進一個統一的學生模型。

這裡的關鍵在於"On-Policy"：訓練軌跡由學生模型自身生成，而非教師模型生成。

其核心邏輯是，學生在自己的生成軌跡上，根據當前任務語境自動對齊到相關領域的專家：遇到數學問題就向數學專家學習，遇到程式設計任務就向程式碼專家學習。

通過 logit 層面的對齊，將物理上分散在不同專家權重中的知識整合到統一的參數空間，從根本上避免了傳統權重合併或混合 RL 中常見的能力衝突與性能退化問題。

（3）立即體驗 DeepSeek V4 帶來的全新AI投研體驗

如果你已經是 AlphaEngine 使用者，現在就可以親身體驗 DeepSeek V4 的威力。

如果您使用的是AlphaEngine桌面端，可以在 AlphaClaw 的模型選擇介面切換至 DeepSeek V4 Pro。

如果您使用的是AlphaEngine網頁端，可以在FinGPT問答窗口選擇V4模型。

還沒有 AlphaEngine？登錄 www.alphaengine.top 即可使用（僅限機構投資者）。

DeepSeek V4 的發佈，不僅是國產模型能力的新高峰，更是國產算力生態的"成人禮"：V4 首發即與昇騰、寒武紀完成 Day 0 深度適配。 (Alpha Engineer)