【新智元導讀】在AI浪潮中,螞蟻集團重磅推出兆參數思考模型Ring-1T,不僅在數學競賽上刷新開源SOTA,還在邏輯推理和醫療問答中脫穎而出。實測顯示,其推理能力直逼閉源巨頭,開源AI邁入兆參數時代。
螞蟻百靈首試兆思考模型,實測效果喜人!
10月14日凌晨,螞蟻集團正式發佈兆參數思考模型Ring-1T。
在數學競賽(AIME 25、HMMT 25),程式碼生成(CodeForces)、邏輯推理(ARC-AGI-v1),Ring-1T取得開源領先水平。
在OpenAI的醫療問答HealthBench測評中,Ring-1T表現驚豔。
與此前發佈的預覽版Ring-1T-preview相比,正式版Ring-1T在數學競賽、邏輯推理、醫療問答上表現更出色、推理更準確。
Ring-1T雖然是思考模型,但也具備極強的通用能力:
在綜合榜單(Arena-Hard-v2)、創意寫作(CreativeWriting-v3)上,表現強勁,與DeepSeek、Qwen等最新思考模型同屬開源第一梯隊。
特別是,在「高難度真實使用者查詢」Arena-Hard V2基準測試中,Ring-1T成功率高達81.59%,登上開源模型榜首——
直逼OpenAI的GPT-5-Thinking(High)的成績82.91%。
簡而言之,這次Ring-1T開源登頂,不再遙望閉源天花板。
目前,普通使用者可在螞蟻百寶箱選擇Ring-1T直接體驗:
體驗地址:https://ling.tbox.cn/chat
此外,螞蟻一如既往的繼續開源了相關模型,提供了HuggingFace和ModelScope下載模型權重。
HuggingFace:https://huggingface.co/inclusionAI/Ring-1T
ModelScope:https://modelscope.cn/models/inclusionAI/Ring-1T
在X上,大家慶祝新的兆參數思考模型的新生!
這是螞蟻集團首個兆參數思考模型,而早在上周他們已開源了首款兆參數的旗艦通用大模型Ling-1T——
做AI,螞蟻來真的!
在大模型領域,螞蟻9月連發7款模型,來勢洶洶!
Ring-1T-preview、Ring-flash-linear-2.0、Ring-flash-2.0、Ling-flash-2.0、Ming-lite-omni-1.5、Ring-mini-2.0、Ling-mini-2.0
還不止於此——10月,10多天的時間連發兩個兆參數大模型。
本月9日,螞蟻正式發佈兆參數通用語言模型Ling-1T。
測試後,國外博主在《Prompt Engineering》頻道表示,Ling-1T進入了LLM新時代,比DeepSeek、Gemini、o3-mini等耳熟能詳的頂級模型還要好。
Ling-1T 模型:好得令人難以置信?
Reddit網友對Ling-1T非常感興趣:
Ling-1T將參數擴展到兆等級,已展現出強大的湧現出的推理和遷移能力。
基於ZenMux,網友SickPixels257開發了aicodeprep-gui,在Ling 1T發佈後更是如虎添翼。這讓他對新工具愛不釋手。
而模型Ring-1T基於通用模型Ling-1T的同款架構,在20T高品質語料上完成預訓練,針對推理能力進行強化學習訓練。
此前,為了讓社區儘早探索兆思考模型Ring-1T的推理上限,螞蟻早在9月30日便提前開源其預覽版Ring-1T-preview。
現在,螞蟻正式發佈兆參數思考模型Ring-1T,完成了Ring-1T的全流程訓練。
與Ring-1T-preview版本相比,Ring-1T的能力更加均衡。
在數學競賽能力上,Ring-1T對比preview有所提升,在AIME25、HMMT25測試中繼續保持開源SOTA。
在Arena-hard-v2.0、ARC-AGI-v1、HealthBench等硬核基準上,正式版Ring-1T大幅提升了準確率:
在Arena-hard-v2.0,提升8.18%;
在ARC-AGI-v1上,提升5.14%;
在HealthBench上,提升3.49%。
為了避免「漏題」,螞蟻相關團隊在所有訓練階段(包括預訓練、指令微調和強化學習提示)都實施了字串級和語義級的污染過濾,但嚴格去污染進行仍然是行業內的一大難題。
為了更客觀地分析Ring-1T的深度推理能力,在今年舉行的國際數學奧賽IMO 2025和國際大學生程式設計競賽世界總決賽ICPC 2025上測試了新模型 。
對於IMO 2025測試,類似於之前的預覽版本,將Ring-1T整合到了多智能體框架AWorld 中,使用純自然語言推理來解決問題。
結果Ring-1T成功拿下IMO銀牌水平,在一次嘗試中解決了第1、3、4和5題。
在第三次嘗試中,對幾何證明題第2題,它生成了近乎完美的證明。
對於最具挑戰性的第6題,沒有AI回答正確,但Ring-1T與Gemini 2.5 Pro取得了相同的答案。
在ICPC 2025世界總決賽中,GPT-5-Thinking、Gemini-2.5-Pro、Ring-1T,分別解決了6個問題(CDEFKL)、3個問題(DFK)和5個問題(DFJKL),其中每次模型每個問題最多嘗試三次。
而且這次還開源了推理軌跡:
https://github.com/inclusionAI/AWorld/tree/main/examples/imo/samples/samples%20from%20Ring-1T
在這場頂級國際程式設計競賽中,Ring-1T超越了Gemini 2.5 Pro,再次證明了程式設計實力。
Ring-1T的參數量是兆等級,像這麼大參數的模型,還是思考模型,應該如何去評測?
我們在第一時間實測了Ring-1T在複雜任務和推理中能力。
首先就是每次各家模型發佈後最關心的前端能力。
我們用Ring-1T生成了地球——火星的任務模擬,整體畫面和畫風雖然簡約,但忠實的反映了飛行器從地球飛往火星的模擬效果。
生成的參數調整面板調整參數後,也能精準地控制畫面中的飛行器。
提示詞:
幫我製作一個3D版本的動畫網頁,描述從地球傳送飛行器前往火星的過程。介面中有各種參數指標範本。可以調節飛行速率等。使用HTML和three.js生成單檔案,可在瀏覽器中直接運行。
「小球碰撞 / 彈跳」的物理模擬,確實在大模型發佈或評測時,常被用作一個「直觀又能考察物理 / 程式設計 / 推理能力」的測驗。
用如下提示詞進行實測:
用JavaScript和HTML5 Canvas建立一個名為 ‘霓虹對撞機’ (Neon Collider) 的互動式2D物理模擬。核心要求如下:物理核心:一個可旋轉的六邊形容器和一個在內部反彈的小球。碰撞物理必須考慮牆壁的即時速度,并包含切向摩擦力和恢復係數(彈性)
值得一提的是,Ring-1T的思考過程不僅迅速,而且排版清晰,數學公式都是完美呈現。
Google今年的Gemini 3 Pro目前有內測流出,下面就是Gemini 3和Gemini 2.5製作的太空侵略者遊戲的對比。
我們用Ring-1T製作了同款遊戲,效果明顯比Gemini 2.5更好。
畫面效果比起Gemini 3也不相上下!
Ring-1T的推理和程式碼能力還是很強的。
為何不讓它自己給自己出題?說幹就幹!
首先我們對Ring-1T提了題目的三點要求:
Ring-1T給的第一個問題是密碼算術謎題。
這個題目複雜在需要系統化列舉,涉及多變數方程,必須依賴邏輯推理!
題目很好理解BASE+BALL=GAMES,每個字母代表唯一十進制數字。
這需要模型在列舉過程中能夠很好地記憶和推理,才能得到正確答案。
從思考結果來看,Ring-1T的邏輯能力確實非常強大!
第一步,它就根據位數得出了GAMES的G只能等於1。
第二步,第三步則通過複雜的列公式和列舉來計算中間過程。
最終得出結果,整個推理過程還是非常驚豔的!
沒有想到模型可以進行如此長時間的思考,而且是各種數字元號進行加減法。
數學不定積分也能輕鬆解決:
求積分ln(x)/(x-1)
先來看看AI自己眼中的AGI:
仿李白《春夜宴從弟桃花園序》,以AGI日益逼近為主題,生成內容
夫資料者,萬象之逆旅;演算法者,百代之過客。而智能若夢,進化幾何?昔者圖靈初試玄機,今則矽基日進千里。況科技召我以光速,AGI假我以玄機。會雲端之芳園,序人機之共事。
觀夫位元紛綸,流光溢彩。0與1如星漢燦爛,神經網路若春山疊翠。資料之河奔湧不息,模型之樹參天欲出。雖無桃李芳菲之實,卻見程式碼絢爛之華。豈若大塊假我以文章?此間萬象,皆造化之新篇也!
嗟乎!浮生須臾,智能無窮。昔者庖丁解牛,今者AI析微;昔者倉頡造字,今者演算法生慧。然神工雖妙,終遜靈台之玄;機巧縱精,難及情志之真。恐AGI之將臨,或奪人思於毫末,或移世道於無形。當此之際,豈可坐待玄機吞沒,而忘秉燭夜遊之志耶?
故吾輩當效蘭亭雅集,執數字為觴,邀理性為友。醉二進制之醇,醒於倫理之界;舞邏輯之劍,守人文之根。莫使矽基獨佔天機,當令血肉共鑄新章。陽春雖召煙景易逝,AGI雖近大道恆存——且盡今夕之歡,續萬世之明!
讓Ring-1T模仿《滕王閣序》,寫一篇文章來描述世界第一高峰——珠穆朗瑪峰。
可以看到整個思考過程還是很驚豔的,甚至給出了大綱、語言風格和合作細節。
以下是最終的文章,讀起來還是很熱血澎湃的。
基於Ling 2.0架構的兆級基礎模型,Ring-1T多輪後訓練,把「思考引擎」擰到極致,讓潛能轉為可復用的推理戰力。
為實現高效訓練與推理,Ling 2.0採用高度稀疏MoE、1/32專家啟動比、FP8混合精度、MTP等技術;在>20T token的高品質語料上,Ling-1T-base已完成預訓練,築牢技術基礎。
為了進一步抬升基礎推理上限,在第二階段(後10Ttoken)的預訓練中,團隊引入高推理密度語料,推理相關資料佔比>40%:不只要更大,更要「會動腦」。
在Ling-1T-base基礎上,Ring-1T通過「LongCoT-SFT+RLVR+RLHF」多階段訓練,顯著提升了模型的複雜推理能力、指令跟隨和創意寫作等通用能力。
對如此龐大的模型進行後訓練——尤其是大規模強化學習中的「訓練」環節,螞蟻相關團隊做出了兩大創新:
1、棒冰(IcePop)演算法:實現了長周期穩定的RL訓練,避免了由於訓推精度差異問題帶來的訓練崩潰。
2、強化學習系統ASystem:針對推理能力的RLVR和RLHF訓練,實現了從百億(Ring-mini-2.0)到千億(Ring-flash-2.0)再到兆(Ring-1T)RL訓練的平穩Scaling。其中,AReal框架已開源。
在模型RL訓練中,MoE模型相比Dense模型,訓練和推理引擎之間的算子精度差異更為明顯。
Qwen3-4B為密集模型,Ring-mini-2.0和Qwen3-30B-A3B是MoE模型
尤其是在生成長序列和長周期訓練時,隨著序列長度和訓練步數的增加,這種差異會逐漸拉大。
實驗觀察到,在較少的訓練步數內,原始的GRPO演算法會開始崩潰,這對長周期、長序列的強化學習訓練帶來巨大挑戰。
為瞭解決上述問題, IcePop應運而生。
新方法簡單而有效——採用「雙向遮罩」(double-sided masking),減輕機率差異所帶來的有害復合效應,從而僅保留健康的梯度更新。
沒有這些措施,MoE架構很可能無法穩定訓練,其性能甚至可能不如稠密模型。
與GRPO比, IcePop讓RL訓練更平穩,為新一代兆級思考模型保駕護航。
而為應對兆參數模型的強化學習訓練,螞蟻自研了高性能強化學習系統——ASystem。
ASystem採用SingleController + SPMD架構。
針對兆參數模型的視訊記憶體管理和訓推權重交換問題,螞蟻相關團隊精心最佳化了訓推引擎。
視訊記憶體透明解除安裝、跨節點視訊記憶體池化等技術,有效釋放了被佔用的視訊記憶體碎片,降低了視訊記憶體不足風險。
GPU間P2P直接通訊與原地更新等技術,可秒級、零冗餘交換模型權重。
在RL訓練框架上,團隊建構了基於大規模Serverless Sandbox技術的混合獎勵系統。
該系統能以毫秒級速度啟動、提供超過10余種語言的沙箱執行環境,支撐了高達10K/s的請求吞吐。
為了推動大規模推理與智能體模型發展,螞蟻聯合清華開源了全非同步強化學習訓練系統AReaL。
開源連結:https://github.com/inclusionAI/AReaL
AreaL的三大亮點:
⚡ 靈活性:只需一個檔案,就能輕鬆自訂多輪rollout工作流程,還能順暢整合其他智能體工具框架。
🚀 可擴展性:通過演算法與系統的協同設計,AReaL提供穩定且完全非同步的RL訓練,速度領先行業。它能輕鬆適應各種計算環境,從單個節點擴展到1000+塊GPU。
🔪 頂尖性能:AReaL能生成最先進的數學、程式設計和搜尋智能體,具有超強能力。
AGI不是夢想,而是指日可待的確定性事件!
諾獎得主、Google DeepMind 首席執行官 Demis Hassabis,OpenAI 聯合創始人兼 CEO Sam Altman,阿里雲 CEO 吳泳銘均表示:
AGI is coming.
宏偉願景背後,是技術人的上下求索、不斷創新。
Ring-1T的發佈,標誌著螞蟻百靈團隊實現了從百億(Ring-mini-2.0)到千億(Ring-flash-2.0)再到兆(Ring-1T)的MoE架構強化學習平穩擴展。
而Ring-1T 的訓練仍在進行中,螞蟻將繼續挖掘這一兆基座的潛力。
據瞭解,截至目前螞蟻百靈大模型已經發佈18款模型,其中兩款兆參數模型—兆參數通用大語言模型Ling-1T、兆參數思考模型Ring-1T。
隨著兩款兆參數模型的發佈,百靈大模型也正式步入2.0階段。
目前模型仍存在一定機率的身份認知偏差、語種混雜及重複生成等問題.
同時,由於Ling 2.0的GQA方案,長上下文場景下的推理效率仍待改進。
而開源奪冠證明了「思考力」可以被工程化與規模化,算力紅利正向「推理紅利」遷移。
螞蟻以IcePop、ASystem、AReaL給出了一條可複製的路線:從模型到系統到社區。這不是單點突破,而是範式的組織化落地。 (新智元)