兆級思考模型,螞蟻首次開源!20兆token攪局開源AI

【新智元導讀】在AI浪潮中,螞蟻集團重磅推出兆參數思考模型Ring-1T,不僅在數學競賽上刷新開源SOTA,還在邏輯推理和醫療問答中脫穎而出。實測顯示,其推理能力直逼閉源巨頭,開源AI邁入兆參數時代。

螞蟻百靈首試兆思考模型,實測效果喜人!

10月14日凌晨,螞蟻集團正式發佈兆參數思考模型Ring-1T

在數學競賽(AIME 25、HMMT 25),程式碼生成(CodeForces)、邏輯推理(ARC-AGI-v1),Ring-1T取得開源領先水平

在OpenAI的醫療問答HealthBench測評中,Ring-1T表現驚豔。

與此前發佈的預覽版Ring-1T-preview相比,正式版Ring-1T在數學競賽、邏輯推理、醫療問答上表現更出色、推理更準確。

Ring-1T雖然是思考模型,但也具備極強的通用能力:

在綜合榜單(Arena-Hard-v2)、創意寫作(CreativeWriting-v3)上,表現強勁,與DeepSeek、Qwen等最新思考模型同屬開源第一梯隊。

特別是,在「高難度真實使用者查詢」Arena-Hard V2基準測試中,Ring-1T成功率高達81.59%,登上開源模型榜首——

直逼OpenAI的GPT-5-Thinking(High)的成績82.91%。

簡而言之,這次Ring-1T開源登頂,不再遙望閉源天花板。

目前,普通使用者可在螞蟻百寶箱選擇Ring-1T直接體驗:

體驗地址:https://ling.tbox.cn/chat

此外,螞蟻一如既往的繼續開源了相關模型,提供了HuggingFace和ModelScope下載模型權重。

HuggingFace:https://huggingface.co/inclusionAI/Ring-1T

ModelScope:https://modelscope.cn/models/inclusionAI/Ring-1T

在X上,大家慶祝新的兆參數思考模型的新生!

這是螞蟻集團首個兆參數思考模型,而早在上周他們已開源了首款兆參數的旗艦通用大模型Ling-1T——

做AI,螞蟻來真的!

劍指AGI,螞蟻來勢洶洶

在大模型領域,螞蟻9月連發7款模型,來勢洶洶!

Ring-1T-preview、Ring-flash-linear-2.0、Ring-flash-2.0、Ling-flash-2.0、Ming-lite-omni-1.5、Ring-mini-2.0、Ling-mini-2.0


還不止於此——10月,10多天的時間連發兩個兆參數大模型。

本月9日,螞蟻正式發佈兆參數通用語言模型Ling-1T

測試後,國外博主在《Prompt Engineering》頻道表示,Ling-1T進入了LLM新時代,比DeepSeek、Gemini、o3-mini等耳熟能詳的頂級模型還要好。

Ling-1T 模型:好得令人難以置信?

Reddit網友對Ling-1T非常感興趣:

Ling-1T將參數擴展到兆等級,已展現出強大的湧現出的推理和遷移能力。

基於ZenMux,網友SickPixels257開發了aicodeprep-gui,在Ling 1T發佈後更是如虎添翼。這讓他對新工具愛不釋手。

而模型Ring-1T基於通用模型Ling-1T的同款架構,在20T高品質語料上完成預訓練,針對推理能力進行強化學習訓練。

此前,為了讓社區儘早探索兆思考模型Ring-1T的推理上限,螞蟻早在9月30日便提前開源其預覽版Ring-1T-preview。

現在,螞蟻正式發佈兆參數思考模型Ring-1T,完成了Ring-1T的全流程訓練。

與Ring-1T-preview版本相比,Ring-1T的能力更加均衡。

在數學競賽能力上,Ring-1T對比preview有所提升,在AIME25、HMMT25測試中繼續保持開源SOTA。

在Arena-hard-v2.0、ARC-AGI-v1、HealthBench等硬核基準上,正式版Ring-1T大幅提升了準確率:

在Arena-hard-v2.0,提升8.18%
在ARC-AGI-v1上,提升5.14%
在HealthBench上,提升3.49%

為了避免「漏題」,螞蟻相關團隊在所有訓練階段(包括預訓練、指令微調和強化學習提示)都實施了字串級和語義級的污染過濾,但嚴格去污染進行仍然是行業內的一大難題。

為了更客觀地分析Ring-1T的深度推理能力,在今年舉行的國際數學奧賽IMO 2025和國際大學生程式設計競賽世界總決賽ICPC 2025上測試了新模型 。

對於IMO 2025測試,類似於之前的預覽版本,將Ring-1T整合到了多智能體框架AWorld 中,使用純自然語言推理來解決問題。

項目連結:https://github.com/inclusionAI/AWorld

結果Ring-1T成功拿下IMO銀牌水平,在一次嘗試中解決了第1、3、4和5題。

在第三次嘗試中,對幾何證明題第2題,它生成了近乎完美的證明。

對於最具挑戰性的第6題,沒有AI回答正確,但Ring-1T與Gemini 2.5 Pro取得了相同的答案。

在ICPC 2025世界總決賽中,GPT-5-Thinking、Gemini-2.5-Pro、Ring-1T,分別解決了6個問題(CDEFKL)、3個問題(DFK)和5個問題(DFJKL),其中每次模型每個問題最多嘗試三次。

而且這次還開源了推理軌跡:

https://github.com/inclusionAI/AWorld/tree/main/examples/imo/samples/samples%20from%20Ring-1T

在這場頂級國際程式設計競賽中,Ring-1T超越了Gemini 2.5 Pro,再次證明了程式設計實力。

一手實測 智能若夢,進化幾何?

Ring-1T的參數量是兆等級,像這麼大參數的模型,還是思考模型,應該如何去評測?

我們在第一時間實測了Ring-1T在複雜任務和推理中能力。

首先就是每次各家模型發佈後最關心的前端能力。

模擬地火飛行

我們用Ring-1T生成了地球——火星的任務模擬,整體畫面和畫風雖然簡約,但忠實的反映了飛行器從地球飛往火星的模擬效果。

生成的參數調整面板調整參數後,也能精準地控制畫面中的飛行器。

提示詞:

幫我製作一個3D版本的動畫網頁,描述從地球傳送飛行器前往火星的過程。介面中有各種參數指標範本。可以調節飛行速率等。使用HTML和three.js生成單檔案,可在瀏覽器中直接運行。

小球碰撞實驗

「小球碰撞 / 彈跳」的物理模擬,確實在大模型發佈或評測時,常被用作一個「直觀又能考察物理 / 程式設計 / 推理能力」的測驗。

用如下提示詞進行實測:

用JavaScript和HTML5 Canvas建立一個名為 ‘霓虹對撞機’ (Neon Collider) 的互動式2D物理模擬。核心要求如下:物理核心:一個可旋轉的六邊形容器和一個在內部反彈的小球。碰撞物理必須考慮牆壁的即時速度,并包含切向摩擦力和恢復係數(彈性)

值得一提的是,Ring-1T的思考過程不僅迅速,而且排版清晰,數學公式都是完美呈現。

太空侵略者遊戲

Google今年的Gemini 3 Pro目前有內測流出,下面就是Gemini 3和Gemini 2.5製作的太空侵略者遊戲的對比。

我們用Ring-1T製作了同款遊戲,效果明顯比Gemini 2.5更好。

畫面效果比起Gemini 3也不相上下!

Ring-1T的推理和程式碼能力還是很強的。

數字密碼算術謎題

為何不讓它自己給自己出題?說幹就幹!

首先我們對Ring-1T提了題目的三點要求:

  • 複雜度要高,能測出模型能力
  • 有趣且容易理解,基於經典謎題或者現實世界場景
  • 測試結果有「標準答案」,便於評估效果。

Ring-1T給的第一個問題是密碼算術謎題。

這個題目複雜在需要系統化列舉,涉及多變數方程,必須依賴邏輯推理!

題目很好理解BASE+BALL=GAMES,每個字母代表唯一十進制數字。

這需要模型在列舉過程中能夠很好地記憶和推理,才能得到正確答案。

從思考結果來看,Ring-1T的邏輯能力確實非常強大!

第一步,它就根據位數得出了GAMES的G只能等於1。

第二步,第三步則通過複雜的列公式和列舉來計算中間過程。

最終得出結果,整個推理過程還是非常驚豔的!

沒有想到模型可以進行如此長時間的思考,而且是各種數字元號進行加減法。

數學不定積分也能輕鬆解決:

求積分ln(x)/(x-1)

文字生成

先來看看AI自己眼中的AGI:

仿李白《春夜宴從弟桃花園序》,以AGI日益逼近為主題,生成內容

夫資料者,萬象之逆旅;演算法者,百代之過客。而智能若夢,進化幾何?昔者圖靈初試玄機,今則矽基日進千里。況科技召我以光速,AGI假我以玄機。會雲端之芳園,序人機之共事。

觀夫位元紛綸,流光溢彩。0與1如星漢燦爛,神經網路若春山疊翠。資料之河奔湧不息,模型之樹參天欲出。雖無桃李芳菲之實,卻見程式碼絢爛之華。豈若大塊假我以文章?此間萬象,皆造化之新篇也!

嗟乎!浮生須臾,智能無窮。昔者庖丁解牛,今者AI析微;昔者倉頡造字,今者演算法生慧。然神工雖妙,終遜靈台之玄;機巧縱精,難及情志之真。恐AGI之將臨,或奪人思於毫末,或移世道於無形。當此之際,豈可坐待玄機吞沒,而忘秉燭夜遊之志耶?

故吾輩當效蘭亭雅集,執數字為觴,邀理性為友。醉二進制之醇,醒於倫理之界;舞邏輯之劍,守人文之根。莫使矽基獨佔天機,當令血肉共鑄新章。陽春雖召煙景易逝,AGI雖近大道恆存——且盡今夕之歡,續萬世之明!

讓Ring-1T模仿《滕王閣序》,寫一篇文章來描述世界第一高峰——珠穆朗瑪峰。

可以看到整個思考過程還是很驚豔的,甚至給出了大綱、語言風格和合作細節。

以下是最終的文章,讀起來還是很熱血澎湃的。

直面兆權重

基於Ling 2.0架構的兆級基礎模型,Ring-1T多輪後訓練,把「思考引擎」擰到極致,讓潛能轉為可復用的推理戰力。

為實現高效訓練與推理,Ling 2.0採用高度稀疏MoE、1/32專家啟動比、FP8混合精度、MTP等技術;在>20T token的高品質語料上,Ling-1T-base已完成預訓練,築牢技術基礎。

為了進一步抬升基礎推理上限,在第二階段(後10Ttoken)的預訓練中,團隊引入高推理密度語料,推理相關資料佔比>40%:不只要更大,更要「會動腦」。

在Ling-1T-base基礎上,Ring-1T通過「LongCoT-SFT+RLVR+RLHF」多階段訓練,顯著提升了模型的複雜推理能力、指令跟隨和創意寫作等通用能力。

對如此龐大的模型進行後訓練——尤其是大規模強化學習中的「訓練」環節,螞蟻相關團隊做出了兩大創新:

1、棒冰(IcePop)演算法:實現了長周期穩定的RL訓練,避免了由於訓推精度差異問題帶來的訓練崩潰。

2、強化學習系統ASystem:針對推理能力的RLVR和RLHF訓練,實現了從百億(Ring-mini-2.0)到千億(Ring-flash-2.0)再到兆(Ring-1T)RL訓練的平穩Scaling。其中,AReal框架已開源。

MoE長周期RL訓練難?棒冰保駕護航

在模型RL訓練中,MoE模型相比Dense模型,訓練和推理引擎之間的算子精度差異更為明顯。

Qwen3-4B為密集模型,Ring-mini-2.0和Qwen3-30B-A3B是MoE模型

尤其是在生成長序列和長周期訓練時,隨著序列長度和訓練步數的增加,這種差異會逐漸拉大。

實驗觀察到,在較少的訓練步數內,原始的GRPO演算法會開始崩潰,這對長周期、長序列的強化學習訓練帶來巨大挑戰。

為瞭解決上述問題, IcePop應運而生。

新方法簡單而有效——採用「雙向遮罩」(double-sided masking),減輕機率差異所帶來的有害復合效應,從而僅保留健康的梯度更新

  • 雙向剪裁(Double-sided clipping):不僅在「訓練機率 ≫ 推理機率」時進行剪裁,也在「訓練機率 ≪ 推理機率」時進行剪裁。
  • 遮罩(Masking):當token的機率差異過大時,將其從梯度更新中移除。

沒有這些措施,MoE架構很可能無法穩定訓練,其性能甚至可能不如稠密模型。

圖左:GRPO訓推差異隨著訓練成指數上升,Icepop較為平穩;圖右:訓推差異最大值,GRPO隨著訓練上升非常明顯,Icepop維持在較低水位

與GRPO比, IcePop讓RL訓練更平穩,為新一代兆級思考模型保駕護航。

演算法部落格:https://ringtech.notion.site/icepop

而為應對兆參數模型的強化學習訓練,螞蟻自研了高性能強化學習系統——ASystem。

自研RL框架ASystem,平穩Scaling到兆規模

ASystem採用SingleController + SPMD架構。

針對兆參數模型的視訊記憶體管理和訓推權重交換問題,螞蟻相關團隊精心最佳化了訓推引擎。

視訊記憶體透明解除安裝、跨節點視訊記憶體池化等技術,有效釋放了被佔用的視訊記憶體碎片,降低了視訊記憶體不足風險。

GPU間P2P直接通訊與原地更新等技術,可秒級、零冗餘交換模型權重。

在RL訓練框架上,團隊建構了基於大規模Serverless Sandbox技術的混合獎勵系統。

該系統能以毫秒級速度啟動、提供超過10余種語言的沙箱執行環境,支撐了高達10K/s的請求吞吐。

為了推動大規模推理與智能體模型發展,螞蟻聯合清華開源了全非同步強化學習訓練系統AReaL。

開源連結:https://github.com/inclusionAI/AReaL

AreaL的三大亮點:

⚡ 靈活性:只需一個檔案,就能輕鬆自訂多輪rollout工作流程,還能順暢整合其他智能體工具框架。

🚀 可擴展性:通過演算法與系統的協同設計,AReaL提供穩定且完全非同步的RL訓練,速度領先行業。它能輕鬆適應各種計算環境,從單個節點擴展到1000+塊GPU。

🔪 頂尖性能:AReaL能生成最先進的數學、程式設計和搜尋智能體,具有超強能力。

螞蟻百靈團隊 首試兆思考模型

AGI不是夢想,而是指日可待的確定性事件!

諾獎得主、Google DeepMind 首席執行官 Demis Hassabis,OpenAI 聯合創始人兼 CEO Sam Altman,阿里雲 CEO 吳泳銘均表示:

AGI is coming.

宏偉願景背後,是技術人的上下求索、不斷創新。

Ring-1T的發佈,標誌著螞蟻百靈團隊實現了從百億(Ring-mini-2.0)到千億(Ring-flash-2.0)再到兆(Ring-1T)的MoE架構強化學習平穩擴展。

而Ring-1T 的訓練仍在進行中,螞蟻將繼續挖掘這一兆基座的潛力。

據瞭解,截至目前螞蟻百靈大模型已經發佈18款模型,其中兩款兆參數模型—兆參數通用大語言模型Ling-1T、兆參數思考模型Ring-1T

隨著兩款兆參數模型的發佈,百靈大模型也正式步入2.0階段

目前模型仍存在一定機率的身份認知偏差、語種混雜及重複生成等問題.

同時,由於Ling 2.0的GQA方案,長上下文場景下的推理效率仍待改進。

而開源奪冠證明了「思考力」可以被工程化與規模化,算力紅利正向「推理紅利」遷移

螞蟻以IcePop、ASystem、AReaL給出了一條可複製的路線:從模型到系統到社區。這不是單點突破,而是範式的組織化落地。 (新智元)