#混元T1 | 熱門關鍵字 | 鉅亨號

剛剛騰訊正式推出了推理模型混元-T1 ！它基於3月初發佈的業界首個超大規模Hybrid-Transformer-Mamba MoE 大模型TurboS 快思考基座打造！簡單來說，基於TurboS的T1就是為瞭解決大模型推理的痛點而生的：長文理解能力： TurboS 能有效捕捉長文字訊息，告別「上下文遺失」的尷尬，長距離依賴問題也輕鬆搞定！Mamba架構加持，速度起飛： Mamba 架構專門最佳化了長序列處理，運算效率超高！相同條件下，解碼速度直接快2倍96.7%算力All in 強化學習根據騰訊官方公告後訓練階段，96.7%的算力都砸在強化學習上了！目標只有一個：極致提升模型的推理能力！對齊人類偏好！為了練好T1的“腦子🧠”，混元團隊也是下了血本：世界級理科難題喂飽：數學、邏輯推理、科學、程式碼...各種硬派難題，從基礎到複雜，應有盡有！也結合真實回饋，確保模型“真材實料”「課程學習」+「上下文長度階梯式擴展」：就像給學生上課一樣，難度循序漸進，同時逐步提升模型的「閱讀理解」能力，讓模型更有效率地利用tokens進行推理經典RL策略加持，訓練更穩：資料重播、階段性策略重設... 這些經典RL「秘籍」讓模型訓練穩定性提升 50%以上！穩紮穩打，才能步步為營！Self-rewarding + Reward Model 雙管齊下，更懂人類心意：用早期版本的T1-preview 給模型打分，再結合reward model 回饋，引導模型自我提升！結果就是：回覆內容更豐富，資訊更有效率！更貼心，更懂你！🏆 性能：對標R1，部分能力還略勝一籌混元-T1 在各種權威benchmark 上，例如MMLU-pro、CEval、AIME、Zebra Logic 等等，中英文知識和競賽級數理邏輯推理指標，基本持平甚至略超DeepSeek R1！在內部人工體驗集評估中，中文文案創作、文字摘要、Agent 能力等方面，T1 還略有優勢！實測我用製作賽朋克貪吃蛇遊戲來測試了一下T1，表現一般（順便說一句，製作賽朋克貪吃蛇遊戲是我測試所有推理模型比如DeepSeek R1，Grok 3，Claude 3.7，o1,o3 mini,Gemini 2.0 thinking 最常用一個測試題）測試地址：https://llm.hunyuan.tencent.com/#/chat/hy-t1大家看看實測效果這是測試結果：大家可以自己去體驗：直接點閱讀原文參考：https://llm.hunyuan.tencent.com/#/blog/hy-t1 （AI寒武紀）

2025/03/22

•

棄用Transformer！混元T1正式版推出，公開對壘DeepSeek：速度快幻覺少!

深夜，騰訊開直播發佈了T1的正式版。騰訊在架構上大膽棄用了Transformer，首個基於混合Mamba架構的超大型推理模型就誕生了！這樣做有啥好處呢：簡單地說，混合Mamba架構通過降低計算複雜度、快取佔用，同時發揮其在處理長序列和捕捉複雜上下文方面的優勢，成功應對了大規模強化學習訓練的挑戰，顯著提升了系統的整體效率和吞吐量。還實現了實現了訓練跟推理成本的雙重下降！從此，模型無論是思考還是生成答案都快到起飛！官方也是非常自信地宣佈：T1性能達到超一流水平，僅次OpenAI o1！先來放個體驗地址：https://llm.hunyuan.tencent.com/#/chat/hy-t1對壘DeepSeek，T1速度快、情緒智商高、幻覺少！騰訊T1選擇深夜直播的目的很明顯：衝向國際化！因此，在這場直播的前半段，也是相當頻繁地以目前海內外爆火的DeepSeek為標竿。首先，在回答品質基本上打平的情況下，T1的速度達到了DeepSeek的兩倍：再做一個條件推理題目時，T1早早就進行了交卷。除了生成速度之外，T1在處理複雜指令上，也進行了改進。在demo的演示中，小哥出了上聯“深深淺淺溪流水”，進行思考後T1對了“洋洋灑灑江河滿”。（雖然也不是最工整的對子，但已經相當出色）。其次，T1在回答問題的文風上做了最佳化，使其回答更具通用性。團隊成員介紹說，我們觀察到某些推理模型像理工男，喜歡用高深的硬科技詞彙…。混元T1則對此進行調整，雖然同樣擅長理工科的長推理，但在文科方面表現得比較中性，更適合通用任務和常識性任務。“高深的硬科技詞彙”，DeepSeek:你直接報我名得了。上圖：DeepSeek偏愛「量子糾纏」等術語最後，T1也針對目前大模型飽受詬病的幻覺問題做了最佳化，摘要幻覺率顯著低於行業水平，成為一大亮點。「推理模型雖然看上去思考了很多，但就會產生更多的幻覺，有時候是無中生有，有時是張冠李戴。」混元T1針對這方面做了重點最佳化。小哥們表示，用T1來解讀研報非常香，簡直是打工人的福音。技術天團解密：T1的超高性能從何而來既然直播請到了技術團隊，那肯定得解析下T1為何有這麼多的獨到之處。團隊成員將其概述為以下三點：1. 強大的通用模型基座T1基於混元Turbo S通用模型基座，通過大規模高品質資料訓練，在預訓練階段打下堅實基礎。2. 創新的後訓練資料策略在後訓練階段，T1採用獨特的指令激發策略，專注於高品質Prompt和Response資料的取得。通過複雜指令的多樣性和難度分級系統，確保指令的豐富性和層次性。同時，透過約束模型為每個Prompt產生Checklist，篩選出滿足多樣化約束的指令，防止指令分佈不均勻。3. 嚴格的資料品質把控T1在資料品質方面採取了嚴格措施。首先，透過資料品質檢測Pipeline（指的是依照特定順序執行的品質檢測步驟或操作流程），結合傳統演算法和大模型檢測方法，確保訓練資料的基礎品質，避免低階錯誤。其次，針對長思維鏈資料中的幻覺和邏輯錯誤問題，訓練了一個Critic（批判）模型進行嚴格把控。該模型能夠識別和檢測資料中的雜訊問題，確保訓練資料的精確性和可靠性，從而提升模型在複雜任務中的表現。不僅如此，團隊還發現了一個非常有趣的現象，即從理科訓練獲得的推理能力是可以透過能力遷移到文科和其他領域的。因此，團隊刻意讓模型去進行能力遷移，透過將早期版本融入獎勵系統指導正式版本迭代，提升通用能力。極致工程化，應對超大型推理模型的三大挑戰不僅是技術創新，T1團隊在工程化方面也做了很多任務作。團隊成員介紹說，超大型推理模型目前面臨著「三座大山」：計算資源的效率挑戰、高頻寬帶來的通訊挑戰、叢集規模擴大之後，在規模擴展和穩定性方面的挑戰。針對這些讓人頭疼的問題，T1團隊做了什麼：1. 提升計算資源利用率，最佳化通訊效率通過最佳化，T1在萬卡訓練任務中，計算資源利用率處於行業領先水準。同時，突破了分佈式訓練和推理的通訊瓶頸，有效提升了端到端儲存，使得訓練效率提升了2.6倍，推理成本降低了約70%。2. 保障服務穩定性在大規模GPU叢集中，騰訊實現了萬卡線性擴展，加速比達到99%，服務穩定性達到99.5%，故障率僅為行業平均的三分之一。3. 自研框架與元件為高性能保駕護航的安全平台主要包括兩個元件：訓練元件（安全PDM）：針對低端算力和視訊記憶體限制，騰訊自主研發了大規模訓練框架，通過統一記憶體視訊記憶體管理和多維平行最佳化，顯著提升了訓練的可擴展性。推理元件（安全HCF）：支援兆級的MOE大模型部署，具備多種平行策略、投機採樣、量化和稀疏化壓縮策略。此外，還支援PD分離部署策略，以充分利用高低階顯示卡組合的效能。4. 多模態場景的應用Angel平台已經在多個大模型場景中廣泛應用，包括多模態、語音、3D、視訊等，展現了其高性能和高穩定性的優勢。寫在最後在寫這篇文章的時候，小編也忍不住體驗了一把T1，的確切速度拉滿。在我測試的這個案例中，T1生成速度飛起的同時，思考的維度全面、資訊給的更加豐富。問題：為什麼義大利麵是低GI食物？相信在這個周末，T1會擁有很多的實例測試，我們就能更加理解首款混合Mamba架構推理模型的真正實力了。或許，T1的這波投石問路，會讓接下來有更多非Transformer的模型湧現出來呢？（51CTO技術堆疊）

2025/03/22

•已編輯

騰訊逆襲！發佈混元T1正式版，實戰不輸DeepSeek-R1，便宜3/4

騰訊思考模型來了，摒棄純Transformer架構。智東西3月22日報導，昨夜，騰訊正式將混元大模型系列的深度思考模型升級為混元-T1正式版。T1是騰訊自研的強推理模型，吐字速度達到60~80token/s，在實際生成效果表現中遠快於DeepSeek-R1。模型的前身是，今年2月中旬混元團隊在騰訊元寶APP上線的基於混元中等規模底座的混元T1-Preview（Hunyuan-Thinker-1-Preview）推理模型。相較於T1-Preview，T1正式版基於騰訊混元3月初發佈的業界首個超大規模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座，透過大規模後訓練擴展了推理能力，並進一步對齊人類偏好，這也是工業界首次將混合Mamba架構無損應用於超大型推理模型。T1在多個公開資料集的評測結果顯示，在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數學、邏輯推理指標上基本持平或略超R1。目前，T1已在騰訊雲官網上線，輸入價格為每百萬tokens 1元，輸出價格為每百萬tokens 4元，輸出價格為DeepSeek標準時段的1/4，與DeepSeek優惠時段一致。▲DeepSeek API價格體驗地址：https://llm.hunyuan.tencent.com/#/chat/hy-t1Hugging Face地址：https://huggingface.co/spaces/tencent/Hunyuan-T1GitHub網址：https://github.com/Tencent/llm.hunyuan.T14月1-2日，智東西聯合主辦的2025中國生成式AI大會（北京站）將舉行。 35+位嘉賓/企業已確認，將圍繞DeepSeek、大模型與推理模型、具身智能、AI智能體與GenAI應用帶來分享和討論。更多嘉賓陸續揭曉。歡迎報名～01 . 生成速度超DeepSeek-R1複雜指令、長文摘要、角色扮演均能勝任在知識問答場景，騰訊混元研究團隊展現了T1和DeepSeek生成效果的比較。第一個提示詞是「醋酸乙酯能與水混合嗎」。可以看到T1和DeepSeek-R1整體生成結果的長度、結果都相近，不過T1的生成速度明顯更快。第二大考驗難題是關於理科數學推理，這問題中對於模型的限制條件更多，其思考過程更長。從輸出結果來看，T1和DeepSeek-R1產生的結論一致，速度還是T1更快。第三大難題考驗的是複雜指令跟隨能力。讓T1對出下聯，提示詞中給出的上聯是「深深淺淺溪流水」。這其中的困難在於，模型要遵循一致的三點水偏旁、前四個字是AABB結構。 T1的思考過程中，精準分析出了上聯的特點，並在經過多次錯誤嘗試後給出了答案：「洋洋灑灑波濤湧」。第四大難題是通用任務，其提示詞為開放問題“生成一個朋友圈文案，主題是漫漫人生路”，這之中並沒有給出明確的風格指令要求，屬於開放性問題。T1還可以作為生產力工具，提升使用者的工作效率，下一個Demo演示的是T1長文總結摘要的能力。提示詞時「針對微軟收購暴雪的4000字左右新聞報導，要求T1總結一下文章內容」。在產出結果中，T1不僅總結了文章的主要內容，也提煉出新聞報導中的多個關鍵數字。最後一個示範是關於模型的角色扮演能力。提示詞為「請扮演李白，語氣符合李白特徵，猜一個字謎：告狀無效」。 T1的思考過程重點分析了字謎，得出結果為「皓」後，按照李白的口吻輸出了答案並賦詩一首。02 . 多項測試集結果對標R1沿用混元Turbo S創新架構混元-T1除了在各類公開Benchmark、如MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識及競賽級數學、邏輯推理指標上基本持平或略超R1外，在騰訊內部人工體驗集評估上也能對標，其中文創指令遵循、文字摘要、Agent能力方面略勝於R1。在測試基座模型對於廣泛知識理解的記憶和泛化能力的資料集MMLU-PRO上，T1得分僅次於o1，在CEval、AIME、Zebra Logic等中英文知識及競賽級數學、邏輯推理的公開基準測試中，T1的表現與R1基本持平或略超R1。從技術角度來看，混元T1正式版沿襲了混元Turbo S的創新架構，採用Hybrid-Mamba-Transformer融合模式，這也是產業界首次將混合Mamba架構無損應用於超大型推理模型。這項架構能降低傳統Transformer架構的運算複雜度，減少KV-Cache記憶體佔用，降低訓練和推理成本。在長文字推理方面，TurboS的長文捕捉能力可以有效解決長文推理中的上下文遺失和長距離資訊依賴難題。 Mamba架構可專門最佳化長序列處理能力，並透過高效計算方式在保證長文字資訊捕捉能力的同時，降低運算資源的消耗，使得模型相同部署條件下、解碼速度快2倍。模型後訓練階段，騰訊混元研究團隊將96.7%的算力投入強化學習訓練，重點在於純推理能力的提升以及對齊人類偏好的最佳化。資料方面，T1的高品質Prompt收集主要集中於複雜指令多樣性和不同難度分級的資料。研究人員基於世界理科難題，收集了涵蓋數學/邏輯推理/科學/程式碼等的資料集，包含從基礎數學推理到複雜科學問題解決的問題，然後結合ground- truth的真實回饋，確保模型在面對各種推理任務時的表現。訓練方案上，T1採用課程學習的方式逐步提升資料難度，同時階梯式擴展模型上下文長度，使得模型推理能力提升的同時學會高效利用token進行推理。研究者在訓練策略方面，參考了經典強化學習的資料重播、階段性策略重設等策略，提升了模型訓練長期穩定性50%以上。在對齊人類偏好階段，其採用self-rewarding（基於T1- preview 的早期版本對模型輸出進行綜合評價、評分）+reward mode的統一獎勵系統回饋方案，指導模型進行自我提升。03 . 結語：騰訊混元模型迭代加速騰訊混元模型系列今年進入快速迭代期，其陸續推出騰訊混元深度思考模型T1和自研快思考模型Turbo S。先前，混元Turbo S在技術突破方面實現了首字時延降低44%，並已應用於騰訊元寶等騰訊內部產品。這次發佈的騰訊混元深度思考模型T1預覽版也早已上線騰訊元寶，可以看出，騰訊內部業務和場景已經全面接入混元系列大模型能力，如騰訊元寶、騰訊雲、QQ、微信讀書、騰訊新聞、騰訊客服等。在此基礎上，騰訊混元團隊正在探索新的研究思路，找到降低大模型幻覺、降低訓練成本等的新解題思路。（智東西）