千呼萬喚始出來,DeepSeek V4終於來了,我們 AlphaEngine 的小夥伴連夜對V4的投研實戰性能進行了全面細緻的測評,直接說結論:V4夯爆了!
(1)深度測評DeepSeek V4投研能力的真實段位
為了系統化評估大模型的投研實戰能力,我們在過去數年間持續收集、整理了一套"投研錯題集":IRB(Investment Research Benchmark)。
目前,IRB 已成為金融投研場景的權威 AI 測評基準,涵蓋財務分析、定量推理、陷阱識別等 18 個核心領域,並從相關性、有用性、流暢性、連貫性、一致性和忠實度 6 大維度 進行人機雙盲評分。
我們基於 IRB 對 DeepSeek V4 進行了全面測評,讓 DeepSeek V4 Pro 與 Gemini 3.1 Pro 在真實投研問題上正面對決。結果:DeepSeek V4 以壓倒性優勢勝出,勝率超過 80%。
完整 86 頁測評報告請聯絡銷售獲取。以下精選 3 道典型題目,逐一拆解兩款模型的表現差異。
題目一:IGO 鋰礦公司股價暴跌歸因
這是一道典型的個股異動歸因題——"IGO 為什麼今天跌那麼多?"
兩款模型都圍繞核心資產 Greenbushes 建構了營運指標對比表格,但資訊密度存在明顯差異。
DeepSeek V4 建構了產量、成本、售價的三維對比矩陣,精確引用摩根大通、摩根士丹利、花旗、Jefferies 四家投行的預期資料與實際值偏差。
這種"多空對照 + 事後驗證"的分析框架,幫助投資者快速抓住關鍵:即便是最悲觀的賣方(摩根士丹利,目標價 7.50),其 3Q 產量預期也在約 400kt,而實際僅 351kt——這個巨大缺口,就是引發拋售的直接觸發點。
更值得關注的是結論部分。V4 給出了一個高度凝練的判斷:
"市場正在對 IGO 進行從'高成本成長型鋰企'到'營運困境型資產'的估值邏輯切換。"
隨後V4引用了摩根大通的 DCF 估值細節來支撐這一判斷:"JPM 的 DCF 估值中,Nova 和 Kwinana 價值為零,幾乎所有價值都來自 Greenbushes 鋰礦的 25% 股權。因此,核心引擎 Greenbushes 的熄火,對 IGO 的估值是毀滅性的。"定性判斷與定量估值細節的深度咬合,讓結論具備了真正的說服力。
題目二:血製品龍頭出海研究
這是一道高度複雜的產業研究任務:使用者一口氣拋出 5 個遞進式子問題,涵蓋血製品出海的產品結構、目標市場、成敗歸因、商業模式與投資建議,對模型的產業認知深度、多維度組織能力和投研判斷力提出了極高要求。
面對"為什麼血製品出海做得不好"這一關鍵子問題,DeepSeek V4 沒有簡單羅列原因,而是創造性地提煉出了血製品出海的 "不可能三角":血漿資源充足、國內需求滿足、法規註冊完善三者之間存在結構性矛盾。
這個框架將零散的制約因素抽象為一個可復用的戰略分析工具,讓使用者瞬間理解出海困局的底層本質:在國內采漿量僅 1.5 萬噸(美國超 5 萬噸)的硬約束下,出口本質上是"從緊平衡中擠出的剩餘產能"的變現。
Gemini 雖然也提到了類似的制約因素,但以線性列舉的方式呈現,缺乏這種結構化抽象的能力。
題目三:買方調研方案設計
使用者是一位固收研究員,需要圍繞領導下達的調研要求(聚焦化債、地產去化),為廣州科學城和珠海橫琴設計一套系統化的實地調研框架。這類任務考驗的不是資料檢索能力,而是對買方工作流的理解深度,能否產出一份"拿來即用"的調研作戰手冊。
V4 在開篇即建構了一張 "表象層 → 中間層 → 深層本質"的三層穿透表格:從"樓盤去化率"穿透至"償債現金流來源是否穩定",從"產業園出租率"穿透至"人口與就業底座",從"庫存規模"穿透至"土地抵押估值下行引發隱性債務顯性化"。
隨後,V4 將方案拆解為“事前案頭研究”和“實地調研框架”兩個明確階段。案頭階段,先基於上下文資料對兩地進行系統性"預診斷",提煉關鍵發現:科學城產業園出租率分化、橫琴"四新"產業增加值佔比 47.1% 但總量尚小。實地階段,再圍繞這些假設設計驗證性問題。
這恰恰還原了買方調研最核心的工作流:先做案頭、形成假設、再帶著假設去實地驗證或證偽。
Gemini 則直接跳入調研框架設計,缺少"案頭預研"這一關鍵環節,導致調研問題的針對性明顯不足。
(2)V4在預訓練和後訓練上的關鍵創新
預訓練:原生百萬上下文的"四步閉環"
DeepSeek V4 實現原生 1M 上下文窗口,靠的不是某個單點突破,而是預訓練階段環環相扣的四步閉環:
第一步:混合注意力架構破解算力瓶頸。以 CSA(壓縮稀疏注意力)+ HCA(重度壓縮注意力)的混合架構,從根本上解決超長序列帶來的算力與視訊記憶體瓶頸。
第二步:兩階段 CP 平行突破分佈式瓶頸。通過兩階段上下文平行機制,解決多卡分佈式訓練中的通訊與調度瓶頸。
第三步:高品質長文件拼接資料。精心構造長文件拼接資料集,為模型提供充足的長距離依賴學習訊號。
第四步:4K → 1M 漸進式擴長。在預訓練過程中從 4K 逐步擴展至 1M,平滑過渡,避免長度外推帶來的性能斷崖。
四步環環相扣,缺一不可。架構解決"能不能算",平行解決"能不能分佈式算",資料解決"拿什麼學",漸進擴長解決"怎麼穩定學",這是一套完整且精巧的工程閉環。
後訓練:從混合強化學習到"先分後合"的範式躍遷
更值得關注的是後訓練階段發生的重大範式轉變:V4 徹底放棄了混合強化學習(Mixed RL)融合路線,轉而採用"先培養領域專家,再同策略蒸餾(On-Policy Distillation, OPD)"的兩階段新範式。
第一階段:分而治之。 獨立訓練數學、程式碼、Agent、指令跟隨等多個領域專家模型,每個專家通過 SFT + GRPO 強化學習在各自領域打磨至最優。
第二階段:合而為一。 通過 OPD 將所有專家的知識蒸餾進一個統一的學生模型。
這裡的關鍵在於"On-Policy":訓練軌跡由學生模型自身生成,而非教師模型生成。
其核心邏輯是,學生在自己的生成軌跡上,根據當前任務語境自動對齊到相關領域的專家:遇到數學問題就向數學專家學習,遇到程式設計任務就向程式碼專家學習。
通過 logit 層面的對齊,將物理上分散在不同專家權重中的知識整合到統一的參數空間,從根本上避免了傳統權重合併或混合 RL 中常見的能力衝突與性能退化問題。
(3)立即體驗 DeepSeek V4 帶來的全新AI投研體驗
如果你已經是 AlphaEngine 使用者,現在就可以親身體驗 DeepSeek V4 的威力。
如果您使用的是AlphaEngine桌面端,可以在 AlphaClaw 的模型選擇介面切換至 DeepSeek V4 Pro。
如果您使用的是AlphaEngine網頁端,可以在FinGPT問答窗口選擇V4模型。
還沒有 AlphaEngine?登錄 www.alphaengine.top 即可使用(僅限機構投資者)。
DeepSeek V4 的發佈,不僅是國產模型能力的新高峰,更是國產算力生態的"成人禮":V4 首發即與昇騰、寒武紀完成 Day 0 深度適配。 (Alpha Engineer)
