在社交平台上,「AI 幫我選基金,結果賺了 8%」、「AI 自動炒股,秒殺巴菲特?」之類的帖子不時刷屏,炒股機器人、對話式理財助手有關的 Agent 也不斷湧現。
AI 彷彿成了新時代的理財顧問。 但當你真的準備把自己的錢交給它時,一個更現實的問題擺在眼前:
它真的懂金融嗎?
炒股、風控、合規,這些任務不是「回答問題」那麼簡單,而是要理解業務邏輯、完成任務鏈條,還不能出錯。
7 月 28 日,在世界人工智慧大會上,螞蟻集團旗下的科技子公司螞蟻數科給出了新的答案:正式發佈金融推理大模型 Agentar-Fin-R1。
這不僅僅是一個新模型,更是一個為銀行、證券、保險等金融場景量身打造的「專業中樞」,主打「可靠、可控、可最佳化」 。
Agentar-Fin-R1 基於 Qwen3 研發,在 FinEval1.0、FinanceIQ 等權威金融大模型評測基準上超越 Deepseek-R1 等同尺寸開源通用大模型以及金融大模型。
在通用大模型已高度同質化的今天,為什麼還要再造一個金融大模型?
螞蟻的回答是:要解決真實金融任務,需要更強的金融專業性、推理能力以及安全合規能力。
過去一年,隨著大模型向各行各業滲透,金融成為少數對模型能力提出複雜要求的行業,既要專業知識深、也要邏輯推理強,同時還必須合規、安全、低幻覺。
「通用大模型和產業之間仍存在知識鴻溝,尤其在金融領域。」螞蟻數科 CEO 趙聞飆在大會上表示,建構專業金融大模型,是推動金融智能體真正落地的必由之路。這不僅是科技挑戰,更直接關係金融機構在未來的智能競爭中是否擁有核心抓手。
為了填補這一鴻溝,Agentar-Fin-R1 從「出生」開始就沉浸在金融世界裡。
研發團隊為其建構了一套業內極為全面和專業的金融資料語料。一個覆蓋了銀行、證券、保險、基金、信託等全場景的金融任務體系,包含 6 大類、66 個細分場景,構成了業內最系統、最真實的金融資料集。
更特別的是,訓練中還引入「原則類合成資料」,讓模型天然遵守金融監管紅線,比如資料合規、身份校驗、反洗錢等細節。
基於這套框架,模型在千億級的金融專業資料語料中進行訓練,並通過可信資料合成技術及專家標註的金融長思維鏈(CoT)來打磨處理複雜任務的能力,真正做到「天生懂金融,出廠即專家」 。
但對於想要應用 AI 的金融機構來說,成本和效率是兩大核心關切。
Agentar-Fin-R1 採用了創新的加權訓練演算法,這就像一個聰明的學習方法,能夠動態地發現模型的薄弱環節並針對性地進行強化。
這樣做的好處是,在後續的業務應用中,可以顯著減少二次微調所需的資料和算力,有效降低了企業部署大模型的門檻和成本。
更重要的是,它還是一個能夠自主進化的大模型。金融市場瞬息萬變,新的政策、產品層出不窮。
依靠動態更新的金融任務體系和加權訓練機制,Agentar-Fin-R1 可以不斷吸收最新的金融政策、監管條例和市場變化,發現自身盲點並補齊能力短板,確保其知識和能力始終跟上行業變化的腳步,在真實業務中不斷變強。
首先,Agentar-Fin-R1 在通用能力上就表現出較高水準。如 32B 版本在MATH上獲得93.80分,在GPQA上獲得68.18分,這些性能水平與具有相當參數量的通用推理模型相匹配或超越。
而金融能力表現則更是突出,在兩大金融基準測試 FinEval1.0 和 FinanceIQ 上,32B 模型全面超越 DeepSeek-R1、GPT-o1 等高參數通用模型,不僅精準率高、穩定性強,在合規與幻覺抑制能力上也明顯更穩。
不僅如此,螞蟻數科還牽頭打造了一個專門為金融智能體評測的新基準,Finova,涵蓋智能體能力、複雜推理能力和安全合規三大維度。這個評測由螞蟻與工行、寧波銀行、北金所、上海人工智慧行業協會等共同制定,並已在 GitHub 上開源。
在 Finova 的評測中,Agentar-Fin-R1-32B 拿下了最高分,甚至超越了參數規模達 671B 的 DeepSeek-R1。這不僅說明專業模型在特定行業的巨大優勢,也意味著未來金融模型的競爭,將轉向「誰能把推理做得更專業」。
目前,Agentar-Fin-R1 推出了 32B 和 8B 兩種參數版本,此外還有基於百靈大模型的 MOE 架構模型以及 14B 和 72B 的非推理版本,以滿足不同機構和場景的部署需求。
從為上海某銀行打造「對話即服務」的 AI 手機銀行,推動老年客戶滿意度顯著提升,月活使用者同比增長 25%;到累計服務 100% 的國有和股份制銀行,螞蟻數科正加速將大模型技術落地到真實的金融場景中。
正如趙聞飆所說,未來,金融大模型的應用深度將成為金融機構競爭力的關鍵要素。而 Agentar-Fin-R1 的出現,無疑為這場競賽增添了一個重量級的專業選手。 (APPSO)