深夜,騰訊開直播發佈了T1的正式版。
騰訊在架構上大膽棄用了Transformer,首個基於混合Mamba架構的超大型推理模型就誕生了!
這樣做有啥好處呢:簡單地說,混合Mamba架構通過降低計算複雜度、快取佔用,同時發揮其在處理長序列和捕捉複雜上下文方面的優勢,成功應對了大規模強化學習訓練的挑戰,顯著提升了系統的整體效率和吞吐量。還實現了實現了訓練跟推理成本的雙重下降!
從此,模型無論是思考還是生成答案都快到起飛!
官方也是非常自信地宣佈:T1性能達到超一流水平,僅次OpenAI o1!
先來放個體驗地址:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
對壘DeepSeek,T1速度快、情緒智商高、幻覺少!
騰訊T1選擇深夜直播的目的很明顯:衝向國際化!
因此,在這場直播的前半段,也是相當頻繁地以目前海內外爆火的DeepSeek為標竿。
首先,在回答品質基本上打平的情況下,T1的速度達到了DeepSeek的兩倍:
再做一個條件推理題目時,T1早早就進行了交卷。
除了生成速度之外,T1在處理複雜指令上,也進行了改進。在demo的演示中,小哥出了上聯“深深淺淺溪流水”,進行思考後T1對了“洋洋灑灑江河滿”。 (雖然也不是最工整的對子,但已經相當出色)。
其次,T1在回答問題的文風上做了最佳化,使其回答更具通用性。
團隊成員介紹說,我們觀察到某些推理模型像理工男,喜歡用高深的硬科技詞彙…。混元T1則對此進行調整,雖然同樣擅長理工科的長推理,但在文科方面表現得比較中性,更適合通用任務和常識性任務。
“高深的硬科技詞彙”,DeepSeek:你直接報我名得了。
最後,T1也針對目前大模型飽受詬病的幻覺問題做了最佳化,摘要幻覺率顯著低於行業水平,成為一大亮點。
「推理模型雖然看上去思考了很多,但就會產生更多的幻覺,有時候是無中生有,有時是張冠李戴。」混元T1針對這方面做了重點最佳化。
小哥們表示,用T1來解讀研報非常香,簡直是打工人的福音。
既然直播請到了技術團隊,那肯定得解析下T1為何有這麼多的獨到之處。
團隊成員將其概述為以下三點:
1. 強大的通用模型基座
T1基於混元Turbo S通用模型基座,通過大規模高品質資料訓練,在預訓練階段打下堅實基礎。
2. 創新的後訓練資料策略
在後訓練階段,T1採用獨特的指令激發策略,專注於高品質Prompt和Response資料的取得。通過複雜指令的多樣性和難度分級系統,確保指令的豐富性和層次性。同時,透過約束模型為每個Prompt產生Checklist,篩選出滿足多樣化約束的指令,防止指令分佈不均勻。
3. 嚴格的資料品質把控
T1在資料品質方面採取了嚴格措施。首先,透過資料品質檢測Pipeline(指的是依照特定順序執行的品質檢測步驟或操作流程),結合傳統演算法和大模型檢測方法,確保訓練資料的基礎品質,避免低階錯誤。其次,針對長思維鏈資料中的幻覺和邏輯錯誤問題,訓練了一個Critic(批判)模型進行嚴格把控。該模型能夠識別和檢測資料中的雜訊問題,確保訓練資料的精確性和可靠性,從而提升模型在複雜任務中的表現。
不僅如此,團隊還發現了一個非常有趣的現象,即從理科訓練獲得的推理能力是可以透過能力遷移到文科和其他領域的。
因此,團隊刻意讓模型去進行能力遷移,透過將早期版本融入獎勵系統指導正式版本迭代,提升通用能力。
不僅是技術創新,T1團隊在工程化方面也做了很多任務作。
團隊成員介紹說,超大型推理模型目前面臨著「三座大山」:計算資源的效率挑戰、高頻寬帶來的通訊挑戰、叢集規模擴大之後,在規模擴展和穩定性方面的挑戰。
針對這些讓人頭疼的問題,T1團隊做了什麼:
1. 提升計算資源利用率,最佳化通訊效率
通過最佳化,T1在萬卡訓練任務中,計算資源利用率處於行業領先水準。同時,突破了分佈式訓練和推理的通訊瓶頸,有效提升了端到端儲存,使得訓練效率提升了2.6倍,推理成本降低了約70%。
2. 保障服務穩定性
在大規模GPU叢集中,騰訊實現了萬卡線性擴展,加速比達到99%,服務穩定性達到99.5%,故障率僅為行業平均的三分之一。
3. 自研框架與元件
為高性能保駕護航的安全平台主要包括兩個元件:
訓練元件(安全PDM):針對低端算力和視訊記憶體限制,騰訊自主研發了大規模訓練框架,通過統一記憶體視訊記憶體管理和多維平行最佳化,顯著提升了訓練的可擴展性。
推理元件(安全HCF):支援兆級的MOE大模型部署,具備多種平行策略、投機採樣、量化和稀疏化壓縮策略。此外,還支援PD分離部署策略,以充分利用高低階顯示卡組合的效能。
4. 多模態場景的應用
Angel平台已經在多個大模型場景中廣泛應用,包括多模態、語音、3D、視訊等,展現了其高性能和高穩定性的優勢。
在寫這篇文章的時候,小編也忍不住體驗了一把T1,的確切速度拉滿。
在我測試的這個案例中,T1生成速度飛起的同時,思考的維度全面、資訊給的更加豐富。
問題:為什麼義大利麵是低GI食物?
相信在這個周末,T1會擁有很多的實例測試,我們就能更加理解首款混合Mamba架構推理模型的真正實力了。
或許,T1的這波投石問路,會讓接下來有更多非Transformer的模型湧現出來呢? (51CTO技術堆疊)