#推理大模型
【WAIC 2025】最懂管錢的AI?這個剛剛發佈的金融推理大模型,專業測試超DeepSeek
在社交平台上,「AI 幫我選基金,結果賺了 8%」、「AI 自動炒股,秒殺巴菲特?」之類的帖子不時刷屏,炒股機器人、對話式理財助手有關的 Agent 也不斷湧現。AI 彷彿成了新時代的理財顧問。 但當你真的準備把自己的錢交給它時,一個更現實的問題擺在眼前:它真的懂金融嗎?炒股、風控、合規,這些任務不是「回答問題」那麼簡單,而是要理解業務邏輯、完成任務鏈條,還不能出錯。7 月 28 日,在世界人工智慧大會上,螞蟻集團旗下的科技子公司螞蟻數科給出了新的答案:正式發佈金融推理大模型 Agentar-Fin-R1。這不僅僅是一個新模型,更是一個為銀行、證券、保險等金融場景量身打造的「專業中樞」,主打「可靠、可控、可最佳化」 。Agentar-Fin-R1 基於 Qwen3 研發,在 FinEval1.0、FinanceIQ 等權威金融大模型評測基準上超越 Deepseek-R1 等同尺寸開源通用大模型以及金融大模型。在通用大模型已高度同質化的今天,為什麼還要再造一個金融大模型?螞蟻的回答是:要解決真實金融任務,需要更強的金融專業性、推理能力以及安全合規能力。業內最系統、最真實的真實資料集過去一年,隨著大模型向各行各業滲透,金融成為少數對模型能力提出複雜要求的行業,既要專業知識深、也要邏輯推理強,同時還必須合規、安全、低幻覺。「通用大模型和產業之間仍存在知識鴻溝,尤其在金融領域。」螞蟻數科 CEO 趙聞飆在大會上表示,建構專業金融大模型,是推動金融智能體真正落地的必由之路。這不僅是科技挑戰,更直接關係金融機構在未來的智能競爭中是否擁有核心抓手。為了填補這一鴻溝,Agentar-Fin-R1 從「出生」開始就沉浸在金融世界裡。研發團隊為其建構了一套業內極為全面和專業的金融資料語料。一個覆蓋了銀行、證券、保險、基金、信託等全場景的金融任務體系,包含 6 大類、66 個細分場景,構成了業內最系統、最真實的金融資料集。更特別的是,訓練中還引入「原則類合成資料」,讓模型天然遵守金融監管紅線,比如資料合規、身份校驗、反洗錢等細節。Agentar-Fin-R1 資料合成流程基於這套框架,模型在千億級的金融專業資料語料中進行訓練,並通過可信資料合成技術及專家標註的金融長思維鏈(CoT)來打磨處理複雜任務的能力,真正做到「天生懂金融,出廠即專家」 。具備「金融環境感知能力」的模型結構但對於想要應用 AI 的金融機構來說,成本和效率是兩大核心關切。Agentar-Fin-R1 採用了創新的加權訓練演算法,這就像一個聰明的學習方法,能夠動態地發現模型的薄弱環節並針對性地進行強化。這樣做的好處是,在後續的業務應用中,可以顯著減少二次微調所需的資料和算力,有效降低了企業部署大模型的門檻和成本。Agentar-Fin-R1 開發流程更重要的是,它還是一個能夠自主進化的大模型。金融市場瞬息萬變,新的政策、產品層出不窮。依靠動態更新的金融任務體系和加權訓練機制,Agentar-Fin-R1 可以不斷吸收最新的金融政策、監管條例和市場變化,發現自身盲點並補齊能力短板,確保其知識和能力始終跟上行業變化的腳步,在真實業務中不斷變強。32B 參數的模型超過了 671B首先,Agentar-Fin-R1 在通用能力上就表現出較高水準。如 32B 版本在MATH上獲得93.80分,在GPQA上獲得68.18分,這些性能水平與具有相當參數量的通用推理模型相匹配或超越。Agentar-Fin-R1 和 Qwen3 模型(8B 和 32B 版本)在金融基準測試和一般推理基準測試(MATH:MATH-500,GPQA:GPQA-diamond)上的性能比較。而金融能力表現則更是突出,在兩大金融基準測試 FinEval1.0 和 FinanceIQ 上,32B 模型全面超越 DeepSeek-R1、GPT-o1 等高參數通用模型,不僅精準率高、穩定性強,在合規與幻覺抑制能力上也明顯更穩。Agentar-Fin-R1-32B 在多個專業評估測試集上表現均是最佳不僅如此,螞蟻數科還牽頭打造了一個專門為金融智能體評測的新基準,Finova,涵蓋智能體能力、複雜推理能力和安全合規三大維度。這個評測由螞蟻與工行、寧波銀行、北金所、上海人工智慧行業協會等共同制定,並已在 GitHub 上開源。在 Finova 的評測中,Agentar-Fin-R1-32B 拿下了最高分,甚至超越了參數規模達 671B 的 DeepSeek-R1。這不僅說明專業模型在特定行業的巨大優勢,也意味著未來金融模型的競爭,將轉向「誰能把推理做得更專業」。Finova 基準的全面概覽圖,由三個組成部分構成:代理能力、複雜推理以及安全與合規。目前,Agentar-Fin-R1 推出了 32B 和 8B 兩種參數版本,此外還有基於百靈大模型的 MOE 架構模型以及 14B 和 72B 的非推理版本,以滿足不同機構和場景的部署需求。從為上海某銀行打造「對話即服務」的 AI 手機銀行,推動老年客戶滿意度顯著提升,月活使用者同比增長 25%;到累計服務 100% 的國有和股份制銀行,螞蟻數科正加速將大模型技術落地到真實的金融場景中。正如趙聞飆所說,未來,金融大模型的應用深度將成為金融機構競爭力的關鍵要素。而 Agentar-Fin-R1 的出現,無疑為這場競賽增添了一個重量級的專業選手。 (APPSO)
小米首個推理大模型突然開源!股價上漲近5%
性能超OpenAI o1-mini,26頁技術報告公開。智東西4月30日報導,今日,小米開源其首個推理大模型Xiaomi MiMo。其中經強化學習訓練形成的MiMo-7B-RL模型,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分超過了OpenAI的閉源推理模型o1-mini和阿里Qwen開源推理模型QwQ-32B-Preview。在相同強化學習訓練資料情況下,MiMo-7B-RL在數學和程式碼推理任務上均表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。MiMo是新成立不久的小米大模型Core團隊的初步嘗試,4款MiMo-7B模型(基礎模型、SFT模型、基於基礎模型訓練的強化學習模型、基於SFT模型訓練的強化學習模型)均開源至Hugging Face。程式碼庫採用Apache2.0許可證授權。開源地址:https://huggingface.co/XiaomiMiMo小米大模型Core團隊已公開MiMo的26頁技術報告。技術報告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf受此消息提振,截至午間休市,小米集團今日股價上漲4.74%,總市值1.29兆港元(約合人民幣1.21兆元)。01.預訓練+後訓練,聯動提升推理能力MiMo系列模型從零開始訓練,其推理能力的提升由預訓練和後訓練階段中資料和演算法等多層面的創新聯合驅動,包括:預訓練:核心是讓模型見過更多推理模式資料:著重挖掘富推理語料,併合成約200B tokens推理資料。訓練:採用三階段資料混合策略,逐步提升訓練難度,MiMo-7B-Base在約25T tokens上進行預訓練;受DeepSeek-V3啟發,將多token預測作為額外的訓練目標,以增強模型性能並加速推理。▲使用MiMo-7B實現多token預測:在預訓練期間使用單個MTP層,推理階段可使用多個MTP層以獲得額外的加速後訓練:核心是高效穩定的強化學習演算法和框架演算法:提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling 策略,以穩定強化學習訓練。資料:精選了13萬道數學和程式碼題作為強化學習訓練資料,可供基於規則的驗證器進行驗證。每道題都經過仔細的清理和難度評估,以確保質量。僅採用基於規則的精準率獎勵機制,以避免潛在的獎勵駭客攻擊。框架:設計了Seamless Rollout系統,整合了連續部署、非同步獎勵計算和提前終止功能,以最大限度地減少GPU空閒時間,使得強化學習訓練加速2.29倍,驗證加速1.96倍。▲MiMo-7B-RL Seamless Rollout引擎概覽02. 7B強化學習模型,性能超過阿里32B模型和OpenAI o1-mini小米大模型Core團隊將MiMo-7B-Base與Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等規模相當的開源基礎模型進行了比較,所有模型評估都共享相同的評估設定。結果如圖所示,MiMo-7B-Base在所有基準和評估的k值取得了高於其他對比模型的pass@k分數。隨著k增加,MiMo-7B-Base與其他模型的分數差距穩步拉大,特別是在LiveCodeBench上。在評估語言推理模型的BBH基準測試上,MiMo-7B-Base的分數為75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基準測試結果展示出MiMo-7B-Base在解決研究生水平問題方面的出色表現。在閱讀理解基準測試DROP上,該模型的表現優於其他對比模型。在程式碼和數學推理任務中,MiMo-7B-Base的多項分數超過Llama-3.1-8B、Gemma-2-9B。MiMo-7B-Base在支援的32K上下文長度內實現了近乎完美的NIAH檢索性能,並在需要長上下文推理的任務中表現出色,多數情況下分數都超過了Qwen2.5-7B。這些結果驗證了其在預訓練期間將多樣化資料與高品質推理模式相結合的策略的有效性。▲RULER上的長上下文理解結果MiMo-7B-RL在多項通用基準測試接近或超過擁有32B參數規模的QwQ-32B Preview模型,數學和程式碼性能更是全面領先。在數學基準測試AIME 2025測試、程式碼基準測試LiveCodeBench v6中,MiMo-7B-RL的得分均超過OpenAI o1-mini。MiMo-7B系列4款大模型的多項數學和程式碼測試對比如下:03. 結語:今年大模型的三大熱潮,小米MiMo一舉覆蓋今年,在DeepSeek爆紅後,開源和推理迅速成為大模型領域的熱門風向。如今低調許久的小米也正式加入這一戰局。作為國產手機頭部企業之一,小米這次開放原始碼的四款模型參數規模只有7B,小到可以滿足在端側裝置上本地運行的需求,貼合了大模型的另一大趨勢——從卷參數規模轉向追求經濟高效。通過在預訓練和後訓練過程中的多項創新聯動,MiMo-7B-Base在數學、程式碼和通用任務上都展現了出色的推理能力。這項研究可以為開發更強大的推理模型提供參考。 (智東西)