騰訊正式推出混元-T1：業界首個Transformer-Mamba 推理大模型

2025/03/22

•

剛剛騰訊正式推出了推理模型 混元-T1 ！它基於3月初發佈的業界首個超大規模Hybrid-Transformer-Mamba MoE 大模型TurboS 快思考基座打造！

簡單來說，基於TurboS的T1就是為瞭解決大模型推理的痛點而生的：

根據騰訊官方公告後訓練階段，96.7%的算力都砸在強化學習上了！目標只有一個：極致提升模型的推理能力！對齊人類偏好！

為了練好T1的“腦子🧠”，混元團隊也是下了血本：

世界級理科難題喂飽：數學、邏輯推理、科學、程式碼...各種硬派難題，從基礎到複雜，應有盡有！也結合真實回饋，確保模型“真材實料”

「課程學習」+「上下文長度階梯式擴展」：就像給學生上課一樣，難度循序漸進，同時逐步提升模型的「閱讀理解」能力，讓模型更有效率地利用tokens進行推理

經典RL策略加持，訓練更穩：資料重播、階段性策略重設... 這些經典RL「秘籍」讓模型訓練穩定性提升 50%以上！穩紮穩打，才能步步為營！

Self-rewarding + Reward Model 雙管齊下，更懂人類心意：用早期版本的T1-preview 給模型打分，再結合reward model 回饋，引導模型自我提升！結果就是：回覆內容更豐富，資訊更有效率！更貼心，更懂你！

混元-T1 在各種權威benchmark 上，例如MMLU-pro、CEval、AIME、Zebra Logic 等等，中英文知識和競賽級數理邏輯推理指標，基本持平甚至略超DeepSeek R1！

在內部人工體驗集評估中，中文文案創作、文字摘要、Agent 能力等方面，T1 還略有優勢！

我用製作賽朋克貪吃蛇遊戲來測試了一下T1，表現一般（順便說一句，製作賽朋克貪吃蛇遊戲是我測試所有推理模型比如DeepSeek R1，Grok 3，Claude 3.7，o1,o3 mini,Gemini 2.0 thinking 最常用一個測試題）

測試地址：

https://llm.hunyuan.tencent.com/#/chat/hy-t1

大家看看實測效果

這是測試結果：

大家可以自己去體驗：直接點閱讀原文

參考：

https://llm.hunyuan.tencent.com/#/blog/hy-t1 （AI寒武紀）