騰訊正式推出混元-T1:業界首個Transformer-Mamba 推理大模型


剛剛騰訊正式推出了推理模型 混元-T1  !它基於3月初發佈的業界首個超大規模Hybrid-Transformer-Mamba MoE 大模型TurboS 快思考基座打造!

簡單來說,基於TurboS的T1就是為瞭解決大模型推理的痛點而生的:

  • 長文理解能力: TurboS 能有效捕捉長文字訊息,告別「上下文遺失」的尷尬,長距離依賴問題也輕鬆搞定!
  • Mamba架構加持,速度起飛: Mamba 架構專門最佳化了長序列處理,運算效率超高!相同條件下,解碼速度直接快2倍

96.7%算力All in 強化學習

根據騰訊官方公告後訓練階段,96.7%的算力都砸在強化學習上了!目標只有一個:極致提升模型的推理能力!對齊人類偏好!

為了練好T1的“腦子🧠”, 混元團隊也是下了血本:

世界級理科難題喂飽: 數學、邏輯推理、科學、程式碼...各種硬派難題,從基礎到複雜,應有盡有!也結合真實回饋,確保模型“真材實料”

「課程學習」+「上下文長度階梯式擴展」: 就像給學生上課一樣,難度循序漸進,同時逐步提升模型的「閱讀理解」能力,讓模型更有效率地利用tokens進行推理

經典RL策略加持,訓練更穩:資料重播、階段性策略重設... 這些經典RL「秘籍」讓模型訓練穩定性提升 50%以上!穩紮穩打,才能步步為營!

Self-rewarding + Reward Model 雙管齊下,更懂人類心意: 用早期版本的T1-preview 給模型打分,再結合reward model 回饋,引導模型自我提升!結果就是:回覆內容更豐富,資訊更有效率!更貼心,更懂你!

🏆 性能:對標R1,部分能力還略勝一籌

混元-T1 在各種權威benchmark 上,例如MMLU-pro、CEval、AIME、Zebra Logic 等等,中英文知識和競賽級數理邏輯推理指標,基本持平甚至略超DeepSeek R1!

在內部人工體驗集評估中,中文文案創作、文字摘要、Agent 能力等方面,T1 還略有優勢!

實測

我用製作賽朋克貪吃蛇遊戲來測試了一下T1,表現一般(順便說一句,製作賽朋克貪吃蛇遊戲是我測試所有推理模型比如DeepSeek R1,Grok 3,Claude 3.7,o1,o3 mini,Gemini 2.0 thinking 最常用一個測試題)

測試地址:

https://llm.hunyuan.tencent.com/#/chat/hy-t1

大家看看實測效果

這是測試結果:

大家可以自己去體驗:直接點閱讀原文

參考:

https://llm.hunyuan.tencent.com/#/blog/hy-t1 (AI寒武紀)