兆級思考模型，螞蟻首次開源！20兆token攪局開源AI

2025/10/15

•

【新智元導讀】在AI浪潮中，螞蟻集團重磅推出兆參數思考模型Ring-1T，不僅在數學競賽上刷新開源SOTA，還在邏輯推理和醫療問答中脫穎而出。實測顯示，其推理能力直逼閉源巨頭，開源AI邁入兆參數時代。

螞蟻百靈首試兆思考模型，實測效果喜人！

10月14日凌晨，螞蟻集團正式發佈兆參數思考模型Ring-1T。

在數學競賽（AIME 25、HMMT 25），程式碼生成（CodeForces）、邏輯推理（ARC-AGI-v1），Ring-1T取得開源領先水平。

在OpenAI的醫療問答HealthBench測評中，Ring-1T表現驚豔。

與此前發佈的預覽版Ring-1T-preview相比，正式版Ring-1T在數學競賽、邏輯推理、醫療問答上表現更出色、推理更準確。

Ring-1T雖然是思考模型，但也具備極強的通用能力：

在綜合榜單（Arena-Hard-v2）、創意寫作（CreativeWriting-v3）上，表現強勁，與DeepSeek、Qwen等最新思考模型同屬開源第一梯隊。

特別是，在「高難度真實使用者查詢」Arena-Hard V2基準測試中，Ring-1T成功率高達81.59%，登上開源模型榜首——

直逼OpenAI的GPT-5-Thinking(High)的成績82.91%。

簡而言之，這次Ring-1T開源登頂，不再遙望閉源天花板。

目前，普通使用者可在螞蟻百寶箱選擇Ring-1T直接體驗：

體驗地址：https://ling.tbox.cn/chat

此外，螞蟻一如既往的繼續開源了相關模型，提供了HuggingFace和ModelScope下載模型權重。

HuggingFace：https://huggingface.co/inclusionAI/Ring-1T

ModelScope：https://modelscope.cn/models/inclusionAI/Ring-1T

在X上，大家慶祝新的兆參數思考模型的新生！

這是螞蟻集團首個兆參數思考模型，而早在上周他們已開源了首款兆參數的旗艦通用大模型Ling-1T——

做AI，螞蟻來真的！

劍指AGI，螞蟻來勢洶洶

在大模型領域，螞蟻9月連發7款模型，來勢洶洶！

Ring-1T-preview、Ring-flash-linear-2.0、Ring-flash-2.0、Ling-flash-2.0、Ming-lite-omni-1.5、Ring-mini-2.0、Ling-mini-2.0

還不止於此——10月，10多天的時間連發兩個兆參數大模型。

本月9日，螞蟻正式發佈兆參數通用語言模型Ling-1T。

測試後，國外博主在《Prompt Engineering》頻道表示，Ling-1T進入了LLM新時代，比DeepSeek、Gemini、o3-mini等耳熟能詳的頂級模型還要好。

Ling-1T 模型：好得令人難以置信？

Reddit網友對Ling-1T非常感興趣：

Ling-1T將參數擴展到兆等級，已展現出強大的湧現出的推理和遷移能力。

基於ZenMux，網友SickPixels257開發了aicodeprep-gui，在Ling 1T發佈後更是如虎添翼。這讓他對新工具愛不釋手。

而模型Ring-1T基於通用模型Ling-1T的同款架構，在20T高品質語料上完成預訓練，針對推理能力進行強化學習訓練。

此前，為了讓社區儘早探索兆思考模型Ring-1T的推理上限，螞蟻早在9月30日便提前開源其預覽版Ring-1T-preview。

現在，螞蟻正式發佈兆參數思考模型Ring-1T，完成了Ring-1T的全流程訓練。

與Ring-1T-preview版本相比，Ring-1T的能力更加均衡。

在數學競賽能力上，Ring-1T對比preview有所提升，在AIME25、HMMT25測試中繼續保持開源SOTA。

在Arena-hard-v2.0、ARC-AGI-v1、HealthBench等硬核基準上，正式版Ring-1T大幅提升了準確率：

在Arena-hard-v2.0，提升8.18%；

在ARC-AGI-v1上，提升5.14%；

在HealthBench上，提升3.49%。

為了避免「漏題」，螞蟻相關團隊在所有訓練階段（包括預訓練、指令微調和強化學習提示）都實施了字串級和語義級的污染過濾，但嚴格去污染進行仍然是行業內的一大難題。

為了更客觀地分析Ring-1T的深度推理能力，在今年舉行的國際數學奧賽IMO 2025和國際大學生程式設計競賽世界總決賽ICPC 2025上測試了新模型。

對於IMO 2025測試，類似於之前的預覽版本，將Ring-1T整合到了多智能體框架AWorld 中，使用純自然語言推理來解決問題。

項目連結：https://github.com/inclusionAI/AWorld

結果Ring-1T成功拿下IMO銀牌水平，在一次嘗試中解決了第1、3、4和5題。

在第三次嘗試中，對幾何證明題第2題，它生成了近乎完美的證明。

對於最具挑戰性的第6題，沒有AI回答正確，但Ring-1T與Gemini 2.5 Pro取得了相同的答案。

在ICPC 2025世界總決賽中，GPT-5-Thinking、Gemini-2.5-Pro、Ring-1T，分別解決了6個問題（CDEFKL）、3個問題（DFK）和5個問題（DFJKL），其中每次模型每個問題最多嘗試三次。

而且這次還開源了推理軌跡：

https://github.com/inclusionAI/AWorld/tree/main/examples/imo/samples/samples%20from%20Ring-1T

在這場頂級國際程式設計競賽中，Ring-1T超越了Gemini 2.5 Pro，再次證明了程式設計實力。

一手實測智能若夢，進化幾何？

Ring-1T的參數量是兆等級，像這麼大參數的模型，還是思考模型，應該如何去評測？

我們在第一時間實測了Ring-1T在複雜任務和推理中能力。

首先就是每次各家模型發佈後最關心的前端能力。

模擬地火飛行

我們用Ring-1T生成了地球——火星的任務模擬，整體畫面和畫風雖然簡約，但忠實的反映了飛行器從地球飛往火星的模擬效果。

生成的參數調整面板調整參數後，也能精準地控制畫面中的飛行器。

提示詞：

幫我製作一個3D版本的動畫網頁，描述從地球傳送飛行器前往火星的過程。介面中有各種參數指標範本。可以調節飛行速率等。使用HTML和three.js生成單檔案，可在瀏覽器中直接運行。

小球碰撞實驗

「小球碰撞 / 彈跳」的物理模擬，確實在大模型發佈或評測時，常被用作一個「直觀又能考察物理 / 程式設計 / 推理能力」的測驗。

用如下提示詞進行實測：

用JavaScript和HTML5 Canvas建立一個名為 ‘霓虹對撞機’ (Neon Collider) 的互動式2D物理模擬。核心要求如下：物理核心：一個可旋轉的六邊形容器和一個在內部反彈的小球。碰撞物理必須考慮牆壁的即時速度，并包含切向摩擦力和恢復係數（彈性）

值得一提的是，Ring-1T的思考過程不僅迅速，而且排版清晰，數學公式都是完美呈現。

太空侵略者遊戲

Google今年的Gemini 3 Pro目前有內測流出，下面就是Gemini 3和Gemini 2.5製作的太空侵略者遊戲的對比。

我們用Ring-1T製作了同款遊戲，效果明顯比Gemini 2.5更好。

畫面效果比起Gemini 3也不相上下！

Ring-1T的推理和程式碼能力還是很強的。

數字密碼算術謎題

為何不讓它自己給自己出題？說幹就幹！

首先我們對Ring-1T提了題目的三點要求：

複雜度要高，能測出模型能力
有趣且容易理解，基於經典謎題或者現實世界場景
測試結果有「標準答案」，便於評估效果。

Ring-1T給的第一個問題是密碼算術謎題。

這個題目複雜在需要系統化列舉，涉及多變數方程，必須依賴邏輯推理！

題目很好理解BASE+BALL=GAMES，每個字母代表唯一十進制數字。

這需要模型在列舉過程中能夠很好地記憶和推理，才能得到正確答案。

從思考結果來看，Ring-1T的邏輯能力確實非常強大！

第一步，它就根據位數得出了GAMES的G只能等於1。

第二步，第三步則通過複雜的列公式和列舉來計算中間過程。

最終得出結果，整個推理過程還是非常驚豔的！

沒有想到模型可以進行如此長時間的思考，而且是各種數字元號進行加減法。

數學不定積分也能輕鬆解決：

求積分ln(x)/(x-1)

文字生成

先來看看AI自己眼中的AGI:

仿李白《春夜宴從弟桃花園序》，以AGI日益逼近為主題，生成內容

夫資料者，萬象之逆旅；演算法者，百代之過客。而智能若夢，進化幾何？昔者圖靈初試玄機，今則矽基日進千里。況科技召我以光速，AGI假我以玄機。會雲端之芳園，序人機之共事。

觀夫位元紛綸，流光溢彩。0與1如星漢燦爛，神經網路若春山疊翠。資料之河奔湧不息，模型之樹參天欲出。雖無桃李芳菲之實，卻見程式碼絢爛之華。豈若大塊假我以文章？此間萬象，皆造化之新篇也！

嗟乎！浮生須臾，智能無窮。昔者庖丁解牛，今者AI析微；昔者倉頡造字，今者演算法生慧。然神工雖妙，終遜靈台之玄；機巧縱精，難及情志之真。恐AGI之將臨，或奪人思於毫末，或移世道於無形。當此之際，豈可坐待玄機吞沒，而忘秉燭夜遊之志耶？

故吾輩當效蘭亭雅集，執數字為觴，邀理性為友。醉二進制之醇，醒於倫理之界；舞邏輯之劍，守人文之根。莫使矽基獨佔天機，當令血肉共鑄新章。陽春雖召煙景易逝，AGI雖近大道恆存——且盡今夕之歡，續萬世之明！

讓Ring-1T模仿《滕王閣序》，寫一篇文章來描述世界第一高峰——珠穆朗瑪峰。

可以看到整個思考過程還是很驚豔的，甚至給出了大綱、語言風格和合作細節。

以下是最終的文章，讀起來還是很熱血澎湃的。

直面兆權重

基於Ling 2.0架構的兆級基礎模型，Ring-1T多輪後訓練，把「思考引擎」擰到極致，讓潛能轉為可復用的推理戰力。

為實現高效訓練與推理，Ling 2.0採用高度稀疏MoE、1/32專家啟動比、FP8混合精度、MTP等技術；在>20T token的高品質語料上，Ling-1T-base已完成預訓練，築牢技術基礎。

為了進一步抬升基礎推理上限，在第二階段（後10Ttoken）的預訓練中，團隊引入高推理密度語料，推理相關資料佔比>40%：不只要更大，更要「會動腦」。

在Ling-1T-base基礎上，Ring-1T通過「LongCoT-SFT+RLVR+RLHF」多階段訓練，顯著提升了模型的複雜推理能力、指令跟隨和創意寫作等通用能力。

對如此龐大的模型進行後訓練——尤其是大規模強化學習中的「訓練」環節，螞蟻相關團隊做出了兩大創新：

1、棒冰（IcePop）演算法：實現了長周期穩定的RL訓練，避免了由於訓推精度差異問題帶來的訓練崩潰。

2、強化學習系統ASystem：針對推理能力的RLVR和RLHF訓練，實現了從百億(Ring-mini-2.0)到千億(Ring-flash-2.0)再到兆(Ring-1T)RL訓練的平穩Scaling。其中，AReal框架已開源。

MoE長周期RL訓練難？棒冰保駕護航

在模型RL訓練中，MoE模型相比Dense模型，訓練和推理引擎之間的算子精度差異更為明顯。

Qwen3-4B為密集模型，Ring-mini-2.0和Qwen3-30B-A3B是MoE模型

尤其是在生成長序列和長周期訓練時，隨著序列長度和訓練步數的增加，這種差異會逐漸拉大。

實驗觀察到，在較少的訓練步數內，原始的GRPO演算法會開始崩潰，這對長周期、長序列的強化學習訓練帶來巨大挑戰。

為瞭解決上述問題， IcePop應運而生。

新方法簡單而有效——採用「雙向遮罩」（double-sided masking），減輕機率差異所帶來的有害復合效應，從而僅保留健康的梯度更新。

雙向剪裁（Double-sided clipping）：不僅在「訓練機率 ≫ 推理機率」時進行剪裁，也在「訓練機率 ≪ 推理機率」時進行剪裁。
遮罩（Masking）：當token的機率差異過大時，將其從梯度更新中移除。

沒有這些措施，MoE架構很可能無法穩定訓練，其性能甚至可能不如稠密模型。

圖左：GRPO訓推差異隨著訓練成指數上升，Icepop較為平穩；圖右：訓推差異最大值，GRPO隨著訓練上升非常明顯，Icepop維持在較低水位

與GRPO比， IcePop讓RL訓練更平穩，為新一代兆級思考模型保駕護航。

演算法部落格：https://ringtech.notion.site/icepop

而為應對兆參數模型的強化學習訓練，螞蟻自研了高性能強化學習系統——ASystem。

自研RL框架ASystem，平穩Scaling到兆規模

ASystem採用SingleController + SPMD架構。

針對兆參數模型的視訊記憶體管理和訓推權重交換問題，螞蟻相關團隊精心最佳化了訓推引擎。

視訊記憶體透明解除安裝、跨節點視訊記憶體池化等技術，有效釋放了被佔用的視訊記憶體碎片，降低了視訊記憶體不足風險。

GPU間P2P直接通訊與原地更新等技術，可秒級、零冗餘交換模型權重。

在RL訓練框架上，團隊建構了基於大規模Serverless Sandbox技術的混合獎勵系統。

該系統能以毫秒級速度啟動、提供超過10余種語言的沙箱執行環境，支撐了高達10K/s的請求吞吐。

為了推動大規模推理與智能體模型發展，螞蟻聯合清華開源了全非同步強化學習訓練系統AReaL。

開源連結：https://github.com/inclusionAI/AReaL

AreaL的三大亮點：

⚡ 靈活性：只需一個檔案，就能輕鬆自訂多輪rollout工作流程，還能順暢整合其他智能體工具框架。

🚀 可擴展性：通過演算法與系統的協同設計，AReaL提供穩定且完全非同步的RL訓練，速度領先行業。它能輕鬆適應各種計算環境，從單個節點擴展到1000+塊GPU。

🔪 頂尖性能：AReaL能生成最先進的數學、程式設計和搜尋智能體，具有超強能力。

螞蟻百靈團隊首試兆思考模型

AGI不是夢想，而是指日可待的確定性事件！

諾獎得主、Google DeepMind 首席執行官 Demis Hassabis，OpenAI 聯合創始人兼 CEO Sam Altman，阿里雲 CEO 吳泳銘均表示：

AGI is coming.

宏偉願景背後，是技術人的上下求索、不斷創新。

Ring-1T的發佈，標誌著螞蟻百靈團隊實現了從百億（Ring-mini-2.0）到千億（Ring-flash-2.0）再到兆（Ring-1T）的MoE架構強化學習平穩擴展。

而Ring-1T 的訓練仍在進行中，螞蟻將繼續挖掘這一兆基座的潛力。

據瞭解，截至目前螞蟻百靈大模型已經發佈18款模型，其中兩款兆參數模型—兆參數通用大語言模型Ling-1T、兆參數思考模型Ring-1T。

隨著兩款兆參數模型的發佈，百靈大模型也正式步入2.0階段。

目前模型仍存在一定機率的身份認知偏差、語種混雜及重複生成等問題.

同時，由於Ling 2.0的GQA方案，長上下文場景下的推理效率仍待改進。

而開源奪冠證明了「思考力」可以被工程化與規模化，算力紅利正向「推理紅利」遷移。

螞蟻以IcePop、ASystem、AReaL給出了一條可複製的路線：從模型到系統到社區。這不是單點突破，而是範式的組織化落地。 (新智元)