騰訊思考模型來了,摒棄純Transformer架構。
智東西3月22日報導,昨夜,騰訊正式將混元大模型系列的深度思考模型升級為混元-T1正式版。
T1是騰訊自研的強推理模型,吐字速度達到60~80token/s,在實際生成效果表現中遠快於DeepSeek-R1。
模型的前身是,今年2月中旬混元團隊在騰訊元寶APP上線的基於混元中等規模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。
相較於T1-Preview,T1正式版基於騰訊混元3月初發佈的業界首個超大規模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,透過大規模後訓練擴展了推理能力,並進一步對齊人類偏好,這也是工業界首次將混合Mamba架構無損應用於超大型推理模型。
T1在多個公開資料集的評測結果顯示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數學、邏輯推理指標上基本持平或略超R1。
目前,T1已在騰訊雲官網上線,輸入價格為每百萬tokens 1元,輸出價格為每百萬tokens 4元,輸出價格為DeepSeek標準時段的1/4,與DeepSeek優惠時段一致。
體驗地址:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
Hugging Face地址:
https://huggingface.co/spaces/tencent/Hunyuan-T1
GitHub網址:
https://github.com/Tencent/llm.hunyuan.T1
4月1-2日,智東西聯合主辦的2025中國生成式AI大會(北京站)將舉行。 35+位嘉賓/企業已確認,將圍繞DeepSeek、大模型與推理模型、具身智能、AI智能體與GenAI應用帶來分享和討論。更多嘉賓陸續揭曉。歡迎報名~
在知識問答場景,騰訊混元研究團隊展現了T1和DeepSeek生成效果的比較。
第一個提示詞是「醋酸乙酯能與水混合嗎」。可以看到T1和DeepSeek-R1整體生成結果的長度、結果都相近,不過T1的生成速度明顯更快。
第二大考驗難題是關於理科數學推理,這問題中對於模型的限制條件更多,其思考過程更長。從輸出結果來看,T1和DeepSeek-R1產生的結論一致,速度還是T1更快。
第三大難題考驗的是複雜指令跟隨能力。讓T1對出下聯,提示詞中給出的上聯是「深深淺淺溪流水」。這其中的困難在於,模型要遵循一致的三點水偏旁、前四個字是AABB結構。 T1的思考過程中,精準分析出了上聯的特點,並在經過多次錯誤嘗試後給出了答案:「洋洋灑灑波濤湧」。
第四大難題是通用任務,其提示詞為開放問題“生成一個朋友圈文案,主題是漫漫人生路”,這之中並沒有給出明確的風格指令要求,屬於開放性問題。
T1還可以作為生產力工具,提升使用者的工作效率,下一個Demo演示的是T1長文總結摘要的能力。
提示詞時「針對微軟收購暴雪的4000字左右新聞報導,要求T1總結一下文章內容」。在產出結果中,T1不僅總結了文章的主要內容,也提煉出新聞報導中的多個關鍵數字。
最後一個示範是關於模型的角色扮演能力。提示詞為「請扮演李白,語氣符合李白特徵,猜一個字謎:告狀無效」。 T1的思考過程重點分析了字謎,得出結果為「皓」後,按照李白的口吻輸出了答案並賦詩一首。
混元-T1除了在各類公開Benchmark、如MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識及競賽級數學、邏輯推理指標上基本持平或略超R1外,在騰訊內部人工體驗集評估上也能對標,其中文創指令遵循、文字摘要、Agent能力方面略勝於R1。
在測試基座模型對於廣泛知識理解的記憶和泛化能力的資料集MMLU-PRO上,T1得分僅次於o1,在CEval、AIME、Zebra Logic等中英文知識及競賽級數學、邏輯推理的公開基準測試中,T1的表現與R1基本持平或略超R1。
從技術角度來看,混元T1正式版沿襲了混元Turbo S的創新架構,採用Hybrid-Mamba-Transformer融合模式,這也是產業界首次將混合Mamba架構無損應用於超大型推理模型。這項架構能降低傳統Transformer架構的運算複雜度,減少KV-Cache記憶體佔用,降低訓練和推理成本。
在長文字推理方面,TurboS的長文捕捉能力可以有效解決長文推理中的上下文遺失和長距離資訊依賴難題。 Mamba架構可專門最佳化長序列處理能力,並透過高效計算方式在保證長文字資訊捕捉能力的同時,降低運算資源的消耗,使得模型相同部署條件下、解碼速度快2倍。
模型後訓練階段,騰訊混元研究團隊將96.7%的算力投入強化學習訓練,重點在於純推理能力的提升以及對齊人類偏好的最佳化。
資料方面,T1的高品質Prompt收集主要集中於複雜指令多樣性和不同難度分級的資料。研究人員基於世界理科難題,收集了涵蓋數學/邏輯推理/科學/程式碼等的資料集,包含從基礎數學推理到複雜科學問題解決的問題,然後結合ground- truth的真實回饋,確保模型在面對各種推理任務時的表現。
訓練方案上,T1採用課程學習的方式逐步提升資料難度,同時階梯式擴展模型上下文長度,使得模型推理能力提升的同時學會高效利用token進行推理。
研究者在訓練策略方面,參考了經典強化學習的資料重播、階段性策略重設等策略,提升了模型訓練長期穩定性50%以上。
在對齊人類偏好階段,其採用self-rewarding(基於T1- preview 的早期版本對模型輸出進行綜合評價、評分)+reward mode的統一獎勵系統回饋方案,指導模型進行自我提升。
騰訊混元模型系列今年進入快速迭代期,其陸續推出騰訊混元深度思考模型T1和自研快思考模型Turbo S。先前,混元Turbo S在技術突破方面實現了首字時延降低44%,並已應用於騰訊元寶等騰訊內部產品。
這次發佈的騰訊混元深度思考模型T1預覽版也早已上線騰訊元寶,可以看出,騰訊內部業務和場景已經全面接入混元系列大模型能力,如騰訊元寶、騰訊雲、QQ、微信讀書、騰訊新聞、騰訊客服等。
在此基礎上,騰訊混元團隊正在探索新的研究思路,找到降低大模型幻覺、降低訓練成本等的新解題思路。 (智東西)