#混元大模型 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#混元大模型

騰訊AI野心狂飆

7月以來，騰訊加快AI處理程序。從人事變動看，騰訊AI研發正從分散探索轉向集中統籌，以應對大模型競賽中日益緊迫的效率與迭代要求。7月23日，騰訊宣佈將混元大語言模型部門與多模態模型部門合併，組建基礎模型部，由首席AI科學家姚順雨統一負責。產品端同步提速。7月17日，騰訊雲WorkBuddy與李未可科技達成戰略合作，發佈首款接入WorkBuddy的X-AI記憶眼鏡，切入硬體生態；7月18日，WorkBuddy獨立App上線，覆蓋iOS、Android、鴻蒙三端。7月22日，騰訊旗下創意智能體Miora全量上線。據第三方報告，2026年6月WorkBuddy月訪問量已突破2000萬，居國內桌面端AI原生辦公智能體平台首位。短短數周內，騰訊幾乎在AI賽道上同時扣動了扳機。但騰訊的AI野心與資本的耐心之間，正在上演一場微妙的博弈。

騰訊混元深夜上新，再次開源

騰訊混元大模型迎來重要升級。就在剛剛，CVPR2025（電腦視覺領域頂會之一）上，騰訊宣佈混元3D 2.1大模型對外開源，這是首個全鏈路開放原始碼的工業級3D生成大模型，達到了行業領先水平。目前，混元3D模式在Hugging Face（知名的開源社區和技術平台）下載量已超過180萬，開源效果受到全球開發者認可。在此基礎上，混元3D 2.1模型進一步升級並繼續開源。先看效果。上傳一張首飾盒的圖片：模型生成的3D首飾盒，紋理清晰，質感細膩，光影保持一致性。混元3D模型生成的首飾盒效果遊戲裡的角色、電影中的道具、線上商城的產品模型，都用新模型可以生成3D版。相較於混元3D 2.0模型，新模型既優化了幾何生成的質量，也開放了PBR（基於物理的渲染）材質生成大模型，進一步提升3D資產的質感和光影表現，告別“塑料感”。打個比方，幾何學是3D模型的“骨骼”，定義了模型的形態、輪廓與細節精度；紋理是3D模型的“皮膚”，還原模型表面的顏色、光澤和細節表現。混元3D模型生成的青銅面具鼎效果對比看到，新模型優化了細節建模，使網格精度更高，具備更好的拓撲一致性，為後續紋理對應提供了基礎；還可生成基礎顏色、金屬度、法線、粗糙度等貼圖，支援皮革、木質、金屬、陶瓷等多種複雜材質的高品質渲染。混元3D模型生成的青花瓷白馬效果相較傳統RGB 貼圖技術，PBR技術透過模擬光線與材質的物理互動，提升模型在不同光照環境下的視覺一致性。在使用者盲測中，混元3D 2.1模型的PBR紋理相較於RGB貼圖，質感勝出率高達78%。混元3D 2.1 模型與主流3D 模型紋理效果對比這種物理真實性不僅滿足電影、遊戲等高要求渲染場景的需求，也為工業設計、虛擬模擬和數字孿生提供了可靠3D資產，不僅“好看”，而且工業級“好用”。除了效果全面升級，開發門檻也降低了。全鏈路開源。混元3D 2.1模型從模型權重、訓練程式碼，到資料處理流程上全鏈路開源。這對開發者來說，無疑是個好消息：可以自由地進行微調、二次訓練或優化，滿足各種定製化需求，也為學術研究提供了平台。部署友好。混元3D 2.1模型適配於消費級顯示卡，在個人電腦也能“跑”，還在Github 等開源地址提供了詳細部署和使用教學，幫助企業、中小團隊及個人開發者輕鬆上手。在實際應用中，輕遊夢工坊（騰訊旗下無程式碼遊戲編輯器）使用混元3D在多條美術管線完成提效，道具管線製作周期由2天/個降低至0.2天/個。騰訊混元堅定擁抱開源，旗下圖像、影片、3D、文字等多種模態基礎模型已全面開源。2024年11月：發佈初代3D生成模型並開源。2025年01月：2.0模型在文字一致性與幾何精確度上超越主流模型。2025年03月：一次開源5款3D生成模型，實現秒數資產生成。2025年05月：V2.5模型精度提升超10倍，邁入超高畫質時代。2025年06月：首個全鏈路開放原始碼的工業級3D生成大模型。騰訊混元將持續透過開源協作，解決傳統3D建模耗時、成本高、資料稀缺等產業痛點，共同打造更繁榮的3D開源生態。（騰訊）

騰訊混元視訊生成工具今日開源，人物不會“變臉” 物體不會“漂移”

2025年5月9日上午，騰訊正式推出並開源全新的多模態客制化影片產生工具HunyuanCustom。模型基於混元視訊生成大模型（HunyuanVideo）打造，在主體一致性效果超過現有的開源方案。HunyuanCustom融合了文字、影像、音訊、視訊等多模態輸入生視訊的能力，是一款具備高度控制力和生成品質的智慧視訊創作工具。HunyuanCustom模型能實現單主體視訊生成、多主體視訊產生、單主體視訊配音、視訊局部編輯等能力，其產生的視訊與使用者輸入的參考主體能保持高度一致。其中，單主體生成能力已開源並在混元官網（https://hunyuan.tencent.com/）上線，使用者可以在「模型廣場-圖生視訊-參考生視訊」中體驗，其他能力將於5月內陸續對外開源。有了HunyuanCustom，使用者只需上傳一張包含目標人物或物件的圖片，並提供一句文字描述（例如「他正在遛狗」），HunyuanCustom 就能辨識出圖片中的身份訊息，並在完全不同的動作、服飾與場景中產生連貫自然的影片內容。除了單主體以外，這個能力同樣能實現多主體視訊的生成，使用者提供一張人物和一張物體的照片（比如一包薯片和一名男子的照片），並輸入文字描述（比如“一名男子正在游泳池旁邊，手裡拿著薯片進行展示”），即可能讓這兩個主體按要求出現在視訊裡。此外，HunyuanCustom 不止於圖像和文字的配合，還具備強大的擴展能力。在音訊驅動（單主體）模式下，使用者可以上傳人物影像並配上音訊語音，模型便可產生人物在任意場景中說話、唱歌或進行其他音訊和視訊同步表演的效果，廣泛適用於數位人直播、虛擬客服、教育演示等場景。在視訊驅動模式下，HunyuanCustom 支援將圖片中的人物或物體自然地替換或插入任意視訊片段中，進行創意植入或場景擴展，輕鬆實現視訊重構與內容增強。先前大部分的影片生成模型主要能實現文生影片和圖生影片。文生影片每次均根據本文提示詞重新生成，很難持續保持人物和場景的一致性。而影像生成視訊模型主要實現的是「讓圖片動起來」。例如，上傳一張人物照片，最終生成的影片通常只能在照片的原始服飾、姿態和場景下做出一些固定表情或動作，服裝、背景和姿態幾乎無法修改。但在部分場景下，創作者希望保持人物一致的情況下，改變人物所在的環境和動作。先前的視訊生成模型無法實現，多模態視訊生成模型HunyuanCustom則可以很好地滿足創作者的需求，透過引入身份增強機制和多模態融合模組，真正實現了「圖像提供身份，文字定義一切」。HunyuanCustom可以滿足影片創作者、短片部落客、電商從業人員、廣告創意人等不同使用者和場景的需求。例如，在廣告場景中，可以快速變換商品背景、模特兒可以快速換衣服；在電商和客服場景中，可以快速低成本製作出生動的數位人商品介紹視訊，或者製作特定穿著的數位人客服視訊；在影視場景中，快速製作短劇和小故事短影片。HunyuanCustom 在「可控性」和「一致性」上表現出色。「可控性」指HunyuanCustom具有較強的控制訊號跟隨能力，包括遵循來自文字、參考主體影像和語音等多種模態訊號的控制，可較好地產生使用者需要物件、場景和動作。這主要得益於混元強大的多模態理解與文字驅動機制。透過業界領先的主體一致性建模能力，HunyuanCustom 在單人、非人物體、多主體互動等多種場景，都能保持身份特徵在視訊全程的一致性與連貫性。人物不會“變臉”，物體不會“漂移”。同時，HunyuanCustom 具備極高的影片產生品質。得益於騰訊混元影片大模型的強大能力，該模型在人物細節還原、動作流暢性、光影真實度等方面都達到業界領先水準。無論是產生虛擬數位人、打造品牌廣告視訊，或是進行創意視覺表達，HunyuanCustom都能提供高水準輸出。（元透社）

騰訊混元AI重大調整，將有大事發生

馬化騰敢想敢做。騰訊重構混元大模型研發體系據瞭解，近日，騰訊對其混元大模型研發體系進行了全面重構，主要是圍繞算力、演算法和資料三大核心類股展開，通過最佳化團隊部署和加碼研發投入，推動混元大模型的持續發展。調整後，騰訊成立了兩個新的部門：大語言模型部和多模態模型部，分別負責探索大語言模型和多模態大模型的前沿技術，持續迭代基礎模型，提升模型能力。同時，騰訊將進一步加強大模型資料能力和平台底座建設。其中，資料平台部專注大模型資料全流程管理與建設，機器學習平台部則聚焦機器學習與巨量資料融合平台建設，為 AI 模型訓練推理、巨量資料業務提供全面高效的 PaaS 平台底座，共同支撐騰訊混元大模型的技術研發。圖源：每日經濟新聞公眾號顯然，騰訊想要對底層技術瓶頸進行系統性突破，對混元大模型研發體系進行調整有利於整合資源，最佳化研發流程，進一步提升騰訊在AI領域的長期技術作戰能力。值得一提的是，最近一段時間以來，騰訊在AI領域的組織架構調整動作不斷——先是騰訊元寶從‌TEG（技術工程事業群）‌劃歸至‌CSIG（雲與產業事業群）‌；然後是QQ瀏覽器、搜狗輸入法、ima等原屬‌PCG（平台與內容事業群）‌的產品線及團隊，整體遷移至CSIG。完成這一系列調整後，騰訊建立起了一個包含元寶、ima、QQ瀏覽器、搜狗輸入法四大產品線的AI產品矩陣——其中，元寶是大模型時代的應用入口及標配的AI助手；ima則是提供智能辦公場景解決方案的工具產品；QQ瀏覽器是AI搜尋與資訊流重構的智能搜尋；搜狗輸入法則是自然語言互動的前端入口。通過將分散在三大事業群（TEG/PCG/CSIG）的AI產品資源集中於CSIG，騰訊形成了層級分明的"入口-工具-搜尋-互動"產品閉環，同時強化了大模型與雲服務的底層技術聯動。這些舉動說明，騰訊在AI領域的佈局不斷提速，步伐日益加快。值得一提的是，騰訊2024年四季度及年度財報顯示，騰訊研發投入再次創下歷史新高，達到707億元；2018年至今累計研發投入超過3403億元。圖源：百度騰訊總裁劉熾平在財報電話會上表示，隨著AI能力和價值的逐步顯現，騰訊加大了AI投資，以滿足內部業務需求、訓練基礎模型，並支援日益增長的推理需求。伴隨著投入研發資金的加碼，騰訊的AI戰略正在加速落地。顯然，騰訊對於AI這塊“兵家必爭之地”也是勢在必得。混元大模型的產品混元是騰訊自研的通用大模型，支援文字、圖像、視訊和3D等多種模態內容的理解與生成。圖源：百度其發展時間不過短短幾年，卻已經經過了多次技術迭代和業務發展整合——2023年9月，混元大模型正式發佈，成為國內首批全面開放的通用大模型。這是騰訊基於市場需求分析啟動的項目，也是對AI市場的初步探索，混元初期聚焦文字生成能力開發。此後，混元大模型開始不斷進行技術迭代，整合多模態技術，新增圖像創作、視訊轉譯等能力，持續最佳化推理能力。今年以來，混元大模型的技術迭代速度更是顯著加快，相繼推出快思考模型Turbo S和深度思考模型T1，在視訊生成和3D生成領域也推出多個新版本模型。混元3D生成、視訊生成、DiT文生圖及千億參數MoE語言模型等模型均已對外開源，GitHub總Star數超過2.9萬。目前為止，騰訊混元大模型已在 700 多個內部場景中部署，促進了多個業務領域的增長——混元深度融入騰訊各業務線，廣泛應用於微信、QQ、騰訊元寶、騰訊會議、騰訊文件等核心產品，提升騰訊內部產品的智能化水平，並通過騰訊雲向外輸出模型能力，幫助企業和開發者創新提效。圖源：百度不難看出，混元大模型對於騰訊而言可謂是AI業務的核心，所以騰訊加大投入力度、調整組織結構等舉措都是為了助推混元大模型的發展，從而反哺騰訊自身其他業務的發展。正如騰訊董事會主席兼首席執行官馬化騰所言，“我們相信這些加大的投資，會通過提升廣告業務的效率及遊戲的生命周期而帶來持續的回報，並隨著我們個人AI應用的加速普及和更多企業採用我們的AI服務，創造更長遠的價值。”值得注意的是，雖然騰訊有著自研的混元大模型，但是騰訊也在積極擁抱Deepseek——騰訊的系列產品是最早一批擁抱DeepSeek的產品，元寶、ima、QQ瀏覽器、騰訊文件、騰訊地圖、QQ音樂等，均宣佈同時支援混元大模型與DeepSeek模型“雙引擎”，微信搜尋也上線了“AI搜尋”功能並接入DeepSeek-R1。圖源：百度不難看出，騰訊正在積極推進“核心技術自研+擁抱先進開源”的多模型策略，以應對市場的不同需求，從而助推自身技術和實力的進步與發展。除此之外，騰訊還在大力招聘AI人才，2025年啟動三年新增‌2.8萬校招實習崗位‌計畫，技術類崗位佔比超60%，覆蓋AI演算法、大模型研發、雲端運算、遊戲引擎與數字內容等70余種崗位。圖源：騰訊微信公眾號顯然，騰訊的目的是想儲備技術人才。一方面，可以通過定向培養演算法工程師、多模態研發人才，直接參與核心項目研發來加速‌混元大模型技術迭代；另一方面，還可以應對字節跳動Seed Edge、阿里通義千問等競品的技術競爭，搶佔AI人才金字塔尖。畢竟，在AI市場中，各大企業都在紛紛發力，以圖搶佔市場先機和未來發展。AI市場競爭激烈就當今AI市場而言，競爭日漸激烈，尤其是各個科技大廠之間你追我趕互不相讓，都希望搶佔AI的高地——就阿里而言，去年12月，阿里‌啟動組織架構調整，將通義千問大模型與夸克業務合併組建"AItoC"戰略類股。通過這一調整，阿里明確了消費級AI產品戰略方向，加速AI技術向C端應用場景的滲透。今年3月，阿里推出了新夸克——新夸克基於阿里通義的推理與多模態大模型，由舊夸克全面升級為無邊界的“AI超級框”。顯然，夸克的升級體現了阿里準備在AI應用側發力的決心。有趣的是，今年阿里雲也啟動近五年最大規模AI校園招聘，重點招募大模型、多模態、AI Infra等領域人才，技術崗佔比超70%。圖源：阿里巴巴集團招聘微信公眾號不難看出，阿里也希望在AI方面儲備更多人才，從而不斷推動AI技術的發展。就字節跳動而言，前不久，字節跳動也整合了AI研發力量，將集團級核心研究部門AI Lab整體併入大模型部門Seed。與此同時，為了應對新一輪大模型競爭，字節跳動籌建了獨立於原有組織架構的 Flow和Seed，前者做AI產品，後者做大模型研發。顯而易見，字節跳動的組織調整是為了最佳化效率，強化底層技術能力，從而在市場中更具競爭力。值得注意的是，Seed自成立後就在不斷吸納來自字節內外的人才，並且開啟了Top Seed人才計畫，持續招募頂尖人才加入團隊。圖源：字節跳動招聘微信公眾號這一舉動和騰訊、阿里的目的一致，都是為了吸引更多人才來提升自身AI技術，從而搶佔AI市場份額。綜上可見，科技大廠們對於AI市場的戰略雖然不完全一致，但都離不開降本增效和人才儲備這兩個部分。畢竟，AI來源於人，若想要更好地服務於人，自然需要更多的人才來最佳化AI。在未來，AI的使用體驗或將會成為影響使用者選擇的重要因素，對此，技術、場景和生態都缺一不可，因此，AI市場的競爭或許還將不斷深入，誰能存活到最後讓人拭目以待。 (科技頭版)

騰訊官宣！混元大模型正式亮相

又一家企業旗下的大模型正式亮相，這次是市值達數万億元的互聯網平台企業騰訊。騰訊混元大模型正式亮相 9月7日，在2023騰訊全球數字生態大會上，騰訊混元大模型正式亮相，並宣布通過騰訊雲對外開放。據了解，混元大模型將作為騰訊雲MaaS服務的底座，客戶不僅可以直接通過API調用混元，也可以將混元作為基底模型，為不同產業場景構建專屬應用。