#騰訊混元
騰訊一口氣開源4款模型!手機就能跑,還增強了agent能力
騰訊混元小模型全家桶開源:4款齊發,單卡部署,微信讀書、會議已用上。智東西8月4日報導,今天,騰訊混元一口氣開源4款小尺寸模型,參數分別為0.5B、1.8B、4B、7B,消費級顯示卡即可運行。在性能上,Hunyuan 7B在不僅在數學能力上超越了OpenAI o1-mini和Qwen3-8B,在除IFEVal榜單外,均超越OpenAI o1-mini。模型原生上下文256k,可以一次讀完3本《哈利波特》。目前已在微信讀書、騰訊會議等多個騰訊應用中落地。這4款小尺寸模型單卡就可以部署,適用於筆記型電腦、手機、智能座艙、智能家居等低功耗場景,且支援垂直領域低成本微調。目前,4個模型均在Github和Hugging Face等開源社區上線,Arm、高通、Intel、聯發科技等多個消費級終端晶片平台也都宣佈支援部署。01.數學能力超越Qwen3-8B能一口氣讀3本《哈利波特》騰訊新開放原始碼的4個模型屬於融合推理模型,並且具備快思考和慢思考兩種模式。其中快思考模式提供簡潔、高效的輸出;而慢思考涉及解決複雜問題,具備更全面的推理步驟。效果上,4個模型均實現了跟業界同尺寸模型的對標,其中Hunyuan 7B在數學推理測試DROP上取得85.9分的成績,在AIME2024和AIME2025兩個數學榜單上得分分別為81.1分和75.3分,均排名第一,超過OpenAI o1-mini和Qwen3-8B。對比Hunyuan 0.5B、1.8B和4B,在推理能力BBH測評中,1.8B的模型的成績只與4B的成績相差0.9分,推理能力不相上下。這四個模型的亮點在於agent和長文能力,跟此前開放原始碼的Hunyuan-A13B模型一樣,騰訊團隊在技術上通過資料建構和強化學習獎勵訊號設計,提升了模型在任務規劃、工具呼叫和複雜決策以及反思等agent能力上的表現,讓模型實際應用中可以更好地完成深度搜尋、Excel操作、旅行攻略規劃等任務。此外,模型原生長上下文窗口達到了256k,意味著模型可以一次性記住並處理相當於40萬中文漢字或50萬英文單詞的超長內容,相當於一口氣讀完3本《哈利波特》,並且能記住所有人物關係、劇情細節,還能根據這些內容討論後續故事發展。部署上,4個模型均只需單卡即可部署,部分PC、手機、平板等裝置可直接接入。並且,模型具有較強的開放性,主流推理框架(例如,SGLang,vLLM and TensorRT-LLM)和多種量化格式均能夠支援。02.已應用到微信讀書智能座艙和金融AI助手等應用層面,這4款小尺寸模型都能夠滿足從端側到雲端、從通用到專業的多樣化需求,並且已經在騰訊多個業務中應用。例如,依託模型原生的超長上下文能力,騰訊會議AI小助手、微信讀書AI問書AI助手均實現對完整會議內容、整本書籍的一次性理解和處理。在端側應用上,騰訊手機管家利用小尺寸模型提升垃圾簡訊識別精準率,實現毫秒級攔截,保護使用者隱私;騰訊智能座艙助手通過雙模型協作架構解決車載環境痛點,充分發揮模型低功耗、高效推理的特性。在高並行場景中,搜狗輸入法基於模型的多模態聯合訓練機制使嘈雜環境下提升識別精準率;騰訊地圖採用多模型架構,利用意圖分類和推理能力提升了使用者互動體驗;微信輸入法「問AI」基於模型實現輸入框與AI即問即答的無縫銜接。在垂直行業應用中,金融AI助手通過Prompt最佳化和少量資料微調實現超95%意圖識別精準率。依託模型的理解能力,騰訊遊戲翻譯和QQ飛車手游NPC,在多語言理解能力、方言翻譯和智能對話方面,有明顯最佳化,這些能力在專業客服、內容出海以及電商直播等場景有較大應用潛力。03.騰訊開源活躍覆蓋多模態最近,全球開源領域異常熱鬧,中國大模型表現搶眼。騰訊混元大語言模型也在持續推進開源,其開源模型已覆蓋文字、圖像、視訊和3D生成等多個模態。在大語言模型領域,騰訊混元此前陸續開源了啟動參數量達52B的Hunyuan large和混合推理MoE(混合專家)模型Hunyuan-A13B,這些模型憑藉架構上的創新以及在性能和效果上的不錯表現,在開源社區受到廣泛關注。多模態方面,混元還開放了完整多模態生成能力及工具集外掛,陸續開源了文生圖、視訊生成和3D生成能力,提供接近商業模型性能的開源基座,方便社區基於業務和使用場景定製,圖像、視訊衍生模型數量達到3000個。上周,騰訊發佈並開源混元3D世界模型1.0,這一模型一經發佈即迅速登上Hugging Face趨勢榜第二,下載量飆到近9k,混元3D世界模型技術報告還拿下了Hugging Face論文熱榜第一。04.結語:騰訊開源、應用兩手抓當前全球AI開源生態持續升溫,各大科技公司都在加碼模型開源,騰訊此次動作是其開源戰略的延續。騰訊混元此次開源4款小尺寸模型,覆蓋了從0.5B到7B的參數範圍,為不同算力需求的場景提供了適配方案,為AI開發者社區提供了更多選擇。 (智東西)
騰訊混元AI重大調整,將有大事發生
馬化騰敢想敢做。騰訊重構混元大模型研發體系據瞭解,近日,騰訊對其混元大模型研發體系進行了全面重構,主要是圍繞算力、演算法和資料三大核心類股展開,通過最佳化團隊部署和加碼研發投入,推動混元大模型的持續發展。調整後,騰訊成立了兩個新的部門:大語言模型部和多模態模型部,分別負責探索大語言模型和多模態大模型的前沿技術,持續迭代基礎模型,提升模型能力。同時,騰訊將進一步加強大模型資料能力和平台底座建設。其中,資料平台部專注大模型資料全流程管理與建設,機器學習平台部則聚焦機器學習與巨量資料融合平台建設,為 AI 模型訓練推理、巨量資料業務提供全面高效的 PaaS 平台底座,共同支撐騰訊混元大模型的技術研發。圖源:每日經濟新聞公眾號顯然,騰訊想要對底層技術瓶頸進行系統性突破,對混元大模型研發體系進行調整有利於整合資源,最佳化研發流程,進一步提升騰訊在AI領域的長期技術作戰能力。值得一提的是,最近一段時間以來,騰訊在AI領域的組織架構調整動作不斷——先是騰訊元寶從‌TEG(技術工程事業群)‌劃歸至‌CSIG(雲與產業事業群)‌;然後是QQ瀏覽器、搜狗輸入法、ima等原屬‌PCG(平台與內容事業群)‌的產品線及團隊,整體遷移至CSIG。完成這一系列調整後,騰訊建立起了一個包含元寶、ima、QQ瀏覽器、搜狗輸入法四大產品線的AI產品矩陣——其中,元寶是大模型時代的應用入口及標配的AI助手;ima則是提供智能辦公場景解決方案的工具產品;QQ瀏覽器是AI搜尋與資訊流重構的智能搜尋;搜狗輸入法則是自然語言互動的前端入口。通過將分散在三大事業群(TEG/PCG/CSIG)的AI產品資源集中於CSIG,騰訊形成了層級分明的"入口-工具-搜尋-互動"產品閉環,同時強化了大模型與雲服務的底層技術聯動。這些舉動說明,騰訊在AI領域的佈局不斷提速,步伐日益加快。值得一提的是,騰訊2024年四季度及年度財報顯示,騰訊研發投入再次創下歷史新高,達到707億元;2018年至今累計研發投入超過3403億元。圖源:百度騰訊總裁劉熾平在財報電話會上表示,隨著AI能力和價值的逐步顯現,騰訊加大了AI投資,以滿足內部業務需求、訓練基礎模型,並支援日益增長的推理需求。伴隨著投入研發資金的加碼,騰訊的AI戰略正在加速落地。顯然,騰訊對於AI這塊“兵家必爭之地”也是勢在必得。混元大模型的產品混元是騰訊自研的通用大模型,支援文字、圖像、視訊和3D等多種模態內容的理解與生成。圖源:百度其發展時間不過短短幾年,卻已經經過了多次技術迭代和業務發展整合——2023年9月,混元大模型正式發佈,成為國內首批全面開放的通用大模型。這是騰訊基於市場需求分析啟動的項目,也是對AI市場的初步探索,混元初期聚焦文字生成能力開發。此後,混元大模型開始不斷進行技術迭代,整合多模態技術,新增圖像創作、視訊轉譯等能力,持續最佳化推理能力。今年以來,混元大模型的技術迭代速度更是顯著加快,相繼推出快思考模型Turbo S和深度思考模型T1,在視訊生成和3D生成領域也推出多個新版本模型。混元3D生成、視訊生成、DiT文生圖及千億參數MoE語言模型等模型均已對外開源,GitHub總Star數超過2.9萬。目前為止,騰訊混元大模型已在 700 多個內部場景中部署,促進了多個業務領域的增長——混元深度融入騰訊各業務線,廣泛應用於微信、QQ、騰訊元寶、騰訊會議、騰訊文件等核心產品,提升騰訊內部產品的智能化水平,並通過騰訊雲向外輸出模型能力,幫助企業和開發者創新提效。圖源:百度不難看出,混元大模型對於騰訊而言可謂是AI業務的核心,所以騰訊加大投入力度、調整組織結構等舉措都是為了助推混元大模型的發展,從而反哺騰訊自身其他業務的發展。正如騰訊董事會主席兼首席執行官馬化騰所言,“我們相信這些加大的投資,會通過提升廣告業務的效率及遊戲的生命周期而帶來持續的回報,並隨著我們個人AI應用的加速普及和更多企業採用我們的AI服務,創造更長遠的價值。”值得注意的是,雖然騰訊有著自研的混元大模型,但是騰訊也在積極擁抱Deepseek——騰訊的系列產品是最早一批擁抱DeepSeek的產品,元寶、ima、QQ瀏覽器、騰訊文件、騰訊地圖、QQ音樂等,均宣佈同時支援混元大模型與DeepSeek模型“雙引擎”,微信搜尋也上線了“AI搜尋”功能並接入DeepSeek-R1。圖源:百度不難看出,騰訊正在積極推進“核心技術自研+擁抱先進開源”的多模型策略,以應對市場的不同需求,從而助推自身技術和實力的進步與發展。除此之外,騰訊還在大力招聘AI人才,2025年啟動三年新增‌2.8萬校招實習崗位‌計畫,技術類崗位佔比超60%,覆蓋AI演算法、大模型研發、雲端運算、遊戲引擎與數字內容等70余種崗位。圖源:騰訊微信公眾號顯然,騰訊的目的是想儲備技術人才。一方面,可以通過定向培養演算法工程師、多模態研發人才,直接參與核心項目研發來加速‌混元大模型技術迭代;另一方面,還可以應對字節跳動Seed Edge、阿里通義千問等競品的技術競爭,搶佔AI人才金字塔尖。畢竟,在AI市場中,各大企業都在紛紛發力,以圖搶佔市場先機和未來發展。AI市場競爭激烈就當今AI市場而言,競爭日漸激烈,尤其是各個科技大廠之間你追我趕互不相讓,都希望搶佔AI的高地——就阿里而言,去年12月,阿里‌啟動組織架構調整,將通義千問大模型與夸克業務合併組建"AItoC"戰略類股。通過這一調整,阿里明確了消費級AI產品戰略方向,加速AI技術向C端應用場景的滲透。今年3月,阿里推出了新夸克——新夸克基於阿里通義的推理與多模態大模型,由舊夸克全面升級為無邊界的“AI超級框”。顯然,夸克的升級體現了阿里準備在AI應用側發力的決心。有趣的是,今年阿里雲也啟動近五年最大規模AI校園招聘,重點招募大模型、多模態、AI Infra等領域人才,技術崗佔比超70%。圖源:阿里巴巴集團招聘微信公眾號不難看出,阿里也希望在AI方面儲備更多人才,從而不斷推動AI技術的發展。就字節跳動而言,前不久,字節跳動也整合了AI研發力量,將集團級核心研究部門AI Lab整體併入大模型部門Seed。與此同時,為了應對新一輪大模型競爭,字節跳動籌建了獨立於原有組織架構的 Flow和Seed,前者做AI產品,後者做大模型研發。顯而易見,字節跳動的組織調整是為了最佳化效率,強化底層技術能力,從而在市場中更具競爭力。值得注意的是,Seed自成立後就在不斷吸納來自字節內外的人才,並且開啟了Top Seed人才計畫,持續招募頂尖人才加入團隊。圖源:字節跳動招聘微信公眾號這一舉動和騰訊、阿里的目的一致,都是為了吸引更多人才來提升自身AI技術,從而搶佔AI市場份額。綜上可見,科技大廠們對於AI市場的戰略雖然不完全一致,但都離不開降本增效和人才儲備這兩個部分。畢竟,AI來源於人,若想要更好地服務於人,自然需要更多的人才來最佳化AI。在未來,AI的使用體驗或將會成為影響使用者選擇的重要因素,對此,技術、場景和生態都缺一不可,因此,AI市場的競爭或許還將不斷深入,誰能存活到最後讓人拭目以待。 (科技頭版)
騰訊正式推出混元-T1:業界首個Transformer-Mamba 推理大模型
剛剛騰訊正式推出了推理模型 混元-T1  !它基於3月初發佈的業界首個超大規模Hybrid-Transformer-Mamba MoE 大模型TurboS 快思考基座打造!簡單來說,基於TurboS的T1就是為瞭解決大模型推理的痛點而生的:長文理解能力: TurboS 能有效捕捉長文字訊息,告別「上下文遺失」的尷尬,長距離依賴問題也輕鬆搞定!Mamba架構加持,速度起飛: Mamba 架構專門最佳化了長序列處理,運算效率超高!相同條件下,解碼速度直接快2倍96.7%算力All in 強化學習根據騰訊官方公告後訓練階段,96.7%的算力都砸在強化學習上了!目標只有一個:極致提升模型的推理能力!對齊人類偏好!為了練好T1的“腦子🧠”, 混元團隊也是下了血本:世界級理科難題喂飽: 數學、邏輯推理、科學、程式碼...各種硬派難題,從基礎到複雜,應有盡有!也結合真實回饋,確保模型“真材實料”「課程學習」+「上下文長度階梯式擴展」: 就像給學生上課一樣,難度循序漸進,同時逐步提升模型的「閱讀理解」能力,讓模型更有效率地利用tokens進行推理經典RL策略加持,訓練更穩:資料重播、階段性策略重設... 這些經典RL「秘籍」讓模型訓練穩定性提升 50%以上!穩紮穩打,才能步步為營!Self-rewarding + Reward Model 雙管齊下,更懂人類心意: 用早期版本的T1-preview 給模型打分,再結合reward model 回饋,引導模型自我提升!結果就是:回覆內容更豐富,資訊更有效率!更貼心,更懂你!🏆 性能:對標R1,部分能力還略勝一籌混元-T1 在各種權威benchmark 上,例如MMLU-pro、CEval、AIME、Zebra Logic 等等,中英文知識和競賽級數理邏輯推理指標,基本持平甚至略超DeepSeek R1!在內部人工體驗集評估中,中文文案創作、文字摘要、Agent 能力等方面,T1 還略有優勢!實測我用製作賽朋克貪吃蛇遊戲來測試了一下T1,表現一般(順便說一句,製作賽朋克貪吃蛇遊戲是我測試所有推理模型比如DeepSeek R1,Grok 3,Claude 3.7,o1,o3 mini,Gemini 2.0 thinking 最常用一個測試題)測試地址:https://llm.hunyuan.tencent.com/#/chat/hy-t1大家看看實測效果這是測試結果:大家可以自己去體驗:直接點閱讀原文參考:https://llm.hunyuan.tencent.com/#/blog/hy-t1 (AI寒武紀)
棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!
深夜,騰訊開直播發佈了T1的正式版。騰訊在架構上大膽棄用了Transformer,首個基於混合Mamba架構的超大型推理模型就誕生了!這樣做有啥好處呢:簡單地說,混合Mamba架構通過降低計算複雜度、快取佔用,同時發揮其在處理長序列和捕捉複雜上下文方面的優勢,成功應對了大規模強化學習訓練的挑戰,顯著提升了系統的整體效率和吞吐量。還實現了實現了訓練跟推理成本的雙重下降!從此,模型無論是思考還是生成答案都快到起飛!官方也是非常自信地宣佈:T1性能達到超一流水平,僅次OpenAI o1!先來放個體​​驗地址:https://llm.hunyuan.tencent.com/#/chat/hy-t1對壘DeepSeek,T1速度快、情緒智商高、幻覺少!騰訊T1選擇深夜直播的目的很明顯:衝向國際化!因此,在這場直播的前半段,也是相當頻繁地以目前海內外爆火的DeepSeek為標竿。首先,在回答品質基本上打平的情況下,T1的速度達到了DeepSeek的兩倍:再做一個條件推理題目時,T1早早就進行了交卷。除了生成速度之外,T1在處理複雜指令上,也進行了改進。在demo的演示中,小哥出了上聯“深深淺淺溪流水”,進行思考後T1對了“洋洋灑灑江河滿”。 (雖然也不是最工整的對子,但已經相當出色)。其次,T1在回答問題的文風上做了最佳化,使其回答更具通用性。團隊成員介紹說,我們觀察到某些推理模型像理工男,喜歡用高深的硬科技詞彙…。混元T1則對此進行調整,雖然同樣擅長理工科的長推理,但在文科方面表現得比較中性,更適合通用任務和常識性任務。“高深的硬科技詞彙”,DeepSeek:你直接報我名得了。上圖:DeepSeek偏愛「量子糾纏」等術語最後,T1也針對目前大模型飽受詬病的幻覺問題做了最佳化,摘要幻覺率顯著低於行業水平,成為一大亮點。「推理模型雖然看上去思考了很多,但就會產生更多的幻覺,有時候是無中生有,有時是張冠李戴。」混元T1針對這方面做了重點最佳化。小哥們表示,用T1來解讀研報非常香,簡直是打工人的福音。技術天團解密:T1的超高性能從何而來既然直播請到了技術團隊,那肯定得解析下T1為何有這麼多的獨到之處。團隊成員將其概述為以下三點:1. 強大的通用模型基座T1基於混元Turbo S通用模型基座,通過大規模高品質資料訓練,在預訓練階段打下堅實基礎。2. 創新的後訓練資料策略在後訓練階段,T1採用獨特的指令激發策略,專注於高品質Prompt和Response資料的取得。通過複雜指令的多樣性和難度分級系統,確保指令的豐富性和層次性。同時,透過約束模型為每個Prompt產生Checklist,篩選出滿足多樣化約束的指令,防止指令分佈不均勻。3. 嚴格的資料品質把控T1在資料品質方面採取了嚴格措施。首先,透過資料品質檢測Pipeline(指的是依照特定順序執行的品質檢測步驟或操作流程),結合傳統演算法和大模型檢測方法,確保訓練資料的基礎品質,避免低階錯誤。其次,針對長思維鏈資料中的幻覺和邏輯錯誤問題,訓練了一個Critic(批判)模型進行嚴格把控。該模型能夠識別和檢測資料中的雜訊問題,確保訓練資料的精確性和可靠性,從而提升模型在複雜任務中的表現。不僅如此,團隊還發現了一個非常有趣的現象,即從理科訓練獲得的推理能力是可以透過能力遷移到文科和其他領域的。因此,團隊刻意讓模型去進行能力遷移,透過將早期版本融入獎勵系統指導正式版本迭代,提升通用能力。極致工程化,應對超大型推理模型的三大挑戰不僅是技術創新,T1團隊在工程化方面也做了很多任務作。團隊成員介紹說,超大型推理模型目前面臨著「三座大山」:計算資源的效率挑戰、高頻寬帶來的通訊挑戰、叢集規模擴大之後,在規模擴展和穩定性方面的挑戰。針對這些讓人頭疼的問題,T1團隊做了什麼:1. 提升計算資源利用率,最佳化通訊效率通過最佳化,T1在萬卡訓練任務中,計算資源利用率處於行業領先水準。同時,突破了分佈式訓練和推理的通訊瓶頸,有效提升了端到端儲存,使得訓練效率提升了2.6倍,推理成本降低了約70%。2. 保障服務穩定性在大規模GPU叢集中,騰訊實現了萬卡線性擴展,加速比達到99%,服務穩定性達到99.5%,故障率僅為行業平均的三分之一。3. 自研框架與元件為高性能保駕護航的安全平台主要包括兩個元件:訓練元件(安全PDM):針對低端算力和視訊記憶體限制,騰訊自主研發了大規模訓練框架,通過統一記憶體視訊記憶體管理和多維平行最佳化,顯著提升了訓練的可擴展性。推理元件(安全HCF):支援兆級的MOE大模型部署,具備多種平行策略、投機採樣、量化和稀疏化壓縮策略。此外,還支援PD分離部署策略,以充分利用高低階顯示卡組合的效能。4. 多模態場景的應用Angel平台已經在多個大模型場景中廣泛應用,包括多模態、語音、3D、視訊等,展現了其高性能和高穩定性的優勢。寫在最後在寫這篇文章的時候,小編也忍不住體驗了一把T1,的確切速度拉滿。在我測試的這個案例中,T1生成速度飛起的同時,思考的維度全面、資訊給的更加豐富。問題:為什麼義大利麵是低GI食物?相信在這個周末,T1會擁有很多的實例測試,我們就能更加理解首款混合Mamba架構推理模型的真正實力了。或許,T1的這波投石問路,會讓接下來有更多非Transformer的模型湧現出來呢? (51CTO技術堆疊)
騰訊逆襲!發佈混元T1正式版,實戰不輸DeepSeek-R1,便宜3/4
騰訊思考模型來了,摒棄純Transformer架構。智東西3月22日報導,昨夜,騰訊正式將混元大模型系列的深度思考模型升級為混元-T1正式版。T1是騰訊自研的強推理模型,吐字速度達到60~80token/s,在實際生成效果表現中遠快於DeepSeek-R1。模型的前身是,今年2月中旬混元團隊在騰訊元寶APP上線的基於混元中等規模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。相較於T1-Preview,T1正式版基於騰訊混元3月初發佈的業界首個超大規模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,透過大規模後訓練擴展了推理能力,並進一步對齊人類偏好,這也是工業界首次將混合Mamba架構無損應用於超大型推理模型。T1在多個公開資料集的評測結果顯示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數學、邏輯推理指標上基本持平或略超R1。目前,T1已在騰訊雲官網上線,輸入價格為每百萬tokens 1元,輸出價格為每百萬tokens 4元,輸出價格為DeepSeek標準時段的1/4,與DeepSeek優惠時段一致。▲DeepSeek API價格體驗地址:https://llm.hunyuan.tencent.com/#/chat/hy-t1Hugging Face地址:https://huggingface.co/spaces/tencent/Hunyuan-T1GitHub網址:https://github.com/Tencent/llm.hunyuan.T14月1-2日,智東西聯合主辦的2025中國生成式AI大會(北京站)將舉行。 35+位嘉賓/企業已確認,將圍繞DeepSeek、大模型與推理模型、具身智能、AI智能體與GenAI應用帶來分享和討論。更多嘉賓陸續揭曉。歡迎報名~01 . 生成速度超DeepSeek-R1複雜指令、長文摘要、角色扮演均能勝任在知識問答場景,騰訊混元研究團隊展現了T1和DeepSeek生成效果的比較。第一個提示詞是「醋酸乙酯能與水混合嗎」。可以看到T1和DeepSeek-R1整體生成結果的長度、結果都相近,不過T1的生成速度明顯更快。第二大考驗難題是關於理科數學推理,這問題中對於模型的限制條件更多,其思考過程更長。從輸出結果來看,T1和DeepSeek-R1產生的結論一致,速度還是T1更快。第三大難題考驗的是複雜指令跟隨能力。讓T1對出下聯,提示詞中給出的上聯是「深深淺淺溪流水」。這其中的困難在於,模型要遵循一致的三點水偏旁、前四個字是AABB結構。 T1的思考過程中,精準分析出了上聯的特點,並在經過多次錯誤嘗試後給出了答案:「洋洋灑灑波濤湧」。第四大難題是通用任務,其提示詞為開放問題“生成一個朋友圈文案,主題是漫漫人生路”,這之中並沒有給出明確的風格指令要求,屬於開放性問題。T1還可以作為生產力工具,提升使用者的工作效率,下一個Demo演示的是T1長文總結摘要的能力。提示詞時「針對微軟收購暴雪的4000字左右新聞報導,要求T1總結一下文章內容」。在產出結果中,T1不僅總結了文章的主要內容,也提煉出新聞報導中的多個關鍵數字。最後一個示範是關於模型的角色扮演能力。提示詞為「請扮演李白,語氣符合李白特徵,猜一個字謎:告狀無效」。 T1的思考過程重點分析了字謎,得出結果為「皓」後,按照李白的口吻輸出了答案並賦詩一首。02 . 多項測試集結果對標R1沿用混元Turbo S創新架構混元-T1除了在各類公開Benchmark、如MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識及競賽級數學、邏輯推理指標上基本持平或略超R1外,在騰訊內部人工體驗集評估上也能對標,其中文創指令遵循、文字摘要、Agent能力方面略勝於R1。在測試基座模型對於廣泛知識理解的記憶和泛化能力的資料集MMLU-PRO上,T1得分僅次於o1,在CEval、AIME、Zebra Logic等中英文知識及競賽級數學、邏輯推理的公開基準測試中,T1的表現與R1基本持平或略超R1。從技術角度來看,混元T1正式版沿襲了混元Turbo S的創新架構,採用Hybrid-Mamba-Transformer融合模式,這也是產業界首次將混合Mamba架構無損應用於超大型推理模型。這項架構能降低傳統Transformer架構的運算複雜度,減少KV-Cache記憶體佔用,降低訓練和推理成本。在長文字推理方面,TurboS的長文捕捉能力可以有效解決長文推理中的上下文遺失和長距離資訊依賴難題。 Mamba架構可專門最佳化長序列處理能力,並透過高效計算方式在保證長文字資訊捕捉能力的同時,降低運算資源的消耗,使得模型相同部署條件下、解碼速度快2倍。模型後訓練階段,騰訊混元研究團隊將96.7%的算力投入強化學習訓練,重點在於純推理能力的提升以及對齊人類偏好的最佳化。資料方面,T1的高品質Prompt收集主要集中於複雜指令多樣性和不同難度分級的資料。研究人員基於世界理科難題,收集了涵蓋數學/邏輯推理/科學/程式碼等的資料集,包含從基礎數學推理到複雜科學問題解決的問題,然後結合ground- truth的真實回饋,確保模型在面對各種推理任務時的表現。訓練方案上,T1採用課程學習的方式逐步提升資料難度,同時階梯式擴展模型上下文長度,使得模型推理能力提升的同時學會高效利用token進行推理。研究者在訓練策略方面,參考了經典強化學習的資料重播、階段性策略重設等策略,提升了模型訓練長期穩定性50%以上。在對齊人類偏好階段,其採用self-rewarding(基於T1- preview 的早期版本對模型輸出進行綜合評價、評分)+reward mode的統一獎勵系統回饋方案,指導模型進行自我提升。03 . 結語:騰訊混元模型迭代加速騰訊混元模型系列今年進入快速迭代期,其陸續推出騰訊混元深度思考模型T1和自研快思考模型Turbo S。先前,混元Turbo S在技術突破方面實現了首字時延降低44%,並已應用於騰訊元寶等騰訊內部產品。這次發佈的騰訊混元深度思考模型T1預覽版也早已上線騰訊元寶,可以看出,騰訊內部業務和場景已經全面接入混元系列大模型能力,如騰訊元寶、騰訊雲、QQ、微信讀書、騰訊新聞、騰訊客服等。在此基礎上,騰訊混元團隊正在探索新的研究思路,找到降低大模型幻覺、降低訓練成本等的新解題思路。 (智東西)