#混元大模型
騰訊混元深夜上新,再次開源
騰訊混元大模型迎來重要升級。就在剛剛,CVPR2025(電腦視覺領域頂會之一)上,騰訊宣佈混元3D 2.1大模型對外開源,這是首個全鏈路開放原始碼的工業級3D生成大模型,達到了行業領先水平。目前,混元3D模式在Hugging Face(知名的開源社區和技術平台)下載量已超過180萬,開源效果受到全球開發者認可。在此基礎上,混元3D 2.1模型進一步升級並繼續開源。先看效果。上傳一張首飾盒的圖片:模型生成的3D首飾盒,紋理清晰,質感細膩,光影保持一致性。混元3D模型生成的首飾盒效果遊戲裡的角色、電影中的道具、線上商城的產品模型,都用新模型可以生成3D版。相較於混元3D 2.0模型,新模型既優化了幾何生成的質量,也開放了PBR(基於物理的渲染)材質生成大模型,進一步提升3D資產的質感和光影表現,告別“塑料感”。打個比方,幾何學是3D模型的“骨骼”,定義了模型的形態、輪廓與細節精度;紋理是3D模型的“皮膚”,還原模型表面的顏色、光澤和細節表現。混元3D模型生成的青銅面具鼎效果對比看到,新模型優化了細節建模,使網格精度更高,具備更好的拓撲一致性,為後續紋理對應提供了基礎;還可生成基礎顏色、金屬度、法線、粗糙度等貼圖,支援皮革、木質、金屬、陶瓷等多種複雜材質的高品質渲染。混元3D模型生成的青花瓷白馬效果相較傳統RGB 貼圖技術,PBR技術透過模擬光線與材質的物理互動,提升模型在不同光照環境下的視覺一致性。在使用者盲測中,混元3D 2.1模型的PBR紋理相較於RGB貼圖,質感勝出率高達78%。混元3D 2.1 模型與主流3D 模型紋理效果對比這種物理真實性不僅滿足電影、遊戲等高要求渲染場景的需求,也為工業設計、虛擬模擬和數字孿生提供了可靠3D資產,不僅“好看”,而且工業級“好用”。除了效果全面升級,開發門檻也降低了。全鏈路開源。混元3D 2.1模型從模型權重、訓練程式碼,到資料處理流程上全鏈路開源。這對開發者來說,無疑是個好消息:可以自由地進行微調、二次訓練或優化,滿足各種定製化需求,也為學術研究提供了平台。部署友好。混元3D 2.1模型適配於消費級顯示卡,在個人電腦也能“跑”,還在Github 等開源地址提供了詳細部署和使用教學,幫助企業、中小團隊及個人開發者輕鬆上手。在實際應用中,輕遊夢工坊(騰訊旗下無程式碼遊戲編輯器)使用混元3D在多條美術管線完成提效,道具管線製作周期由2天/個降低至0.2天/個。騰訊混元堅定擁抱開源,旗下圖像、影片、3D、文字等多種模態基礎模型已全面開源。2024年11月:發佈初代3D生成模型並開源。2025年01月:2.0模型在文字一致性與幾何精確度上超越主流模型。2025年03月:一次開源5款3D生成模型,實現秒數資產生成。2025年05月:V2.5模型精度提升超10倍​​,邁入超高畫質時代。2025年06月:首個全鏈路開放原始碼的工業級3D生成大模型。騰訊混元將持續透過開源協作,解決傳統3D建模耗時、成本高、資料稀缺等產業痛點,共同打造更繁榮的3D開源生態。 (騰訊)
騰訊混元視訊生成工具今日開源,人物不會“變臉” 物體不會“漂移”
2025年5月9日上午,騰訊正式推出並開源全新的多模態客制化影片產生工具HunyuanCustom。模型基於混元視訊生成大模型(HunyuanVideo)打造,在主體一致性效果超過現有的開源方案。HunyuanCustom融合了文字、影像、音訊、視訊等多模態輸入生視訊的能力,是一款具備高度控制力和生成品質的智慧視訊創作工具。HunyuanCustom模型能實現單主體視訊生成、多主體視訊產生、單主體視訊配音、視訊局部編輯等能力,其產生的視訊與使用者輸入的參考主體能保持高度一致。其中,單主體生成能力已開源並在混元官網(https://hunyuan.tencent.com/)上線,使用者可以在「模型廣場-圖生視訊-參考生視訊」中體驗,其他能力將於5月內陸續對外開源。有了HunyuanCustom,使用者只需上傳一張包含目標人物或物件的圖片,並提供一句文字描述(例如「他正在遛狗」),HunyuanCustom 就能辨識出圖片中的身份訊息,並在完全不同的動作、服飾與場景中產生連貫自然的影片內容。除了單主體以外,這個能力同樣能實現多主體視訊的生成,使用者提供一張人物和一張物體的照片(比如一包薯片和一名男子的照片),並輸入文字描述(比如“一名男子正在游泳池旁邊,手裡拿著薯片進行展示”),即可能讓這兩個主體按要求出現在視訊裡。此外,HunyuanCustom 不止於圖像和文字的配合,還具備強大的擴展能力。在音訊驅動(單主體)模式下,使用者可以上傳人物影像並配上音訊語音,模型便可產生人物在任意場景中說話、唱歌或進行其他音訊和視訊同步表演的效果,廣泛適用於數位人直播、虛擬客服、教育演示等場景。在視訊驅動模式下,HunyuanCustom 支援將圖片中的人物或物體自然地替換或插入任意視訊片段中,進行創意植入或場景擴展,輕鬆實現視訊重構與內容增強。先前大部分的影片生成模型主要能實現文生影片和圖生影片。文生影片每次均根據本文提示詞重新生成,很難持續保持人物和場景的一致性。而影像生成視訊模型主要實現的是「讓圖片動起來」。例如,上傳一張人物照片,最終生成的影片通常只能在照片的原始服飾、姿態和場景下做出一些固定表情或動作,服裝、背景和姿態幾乎無法修改。但在部分場景下,創作者希望保持人物一致的情況下,改變人物所在的環境和動作。先前的視訊生成模型無法實現,多模態視訊生成模型HunyuanCustom則可以很好地滿足創作者的需求,透過引入身份增強機制和多模態融合模組,真正實現了「圖像提供身份,文字定義一切」。HunyuanCustom可以滿足影片創作者、短片部落客、電商從業人員、廣告創意人等不同使用者和場景的需求。例如,在廣告場景中,可以快速變換商品背景、模特兒可以快速換衣服;在電商和客服場景中,可以快速低成本製作出生動的數位人商品介紹視訊,或者製作特定穿著的數位人客服視訊;在影視場景中,快速製作短劇和小故事短影片。HunyuanCustom 在「可控性」和「一致性」上表現出色。 「可控性」指HunyuanCustom具有較強的控制訊號跟隨能力,包括遵循來自文字、參考主體影像和語音等多種模態訊號的控制,可較好地產生使用者需要物件、場景和動作。這主要得益於混元強大的多模態理解與文字驅動機制。透過業界領先的主體一致性建模能力,HunyuanCustom 在單人、非人物體、多主體互動等多種場景,都能保持身份特徵在視訊全程的一致性與連貫性。人物不會“變臉”,物體不會“漂移”。同時,HunyuanCustom 具備極高的影片產生品質。得益於騰訊混元影片大模型的強大能力,該模型在人物細節還原、動作流暢性、光影真實度等方面都達到業界領先水準。無論是產生虛擬數位人、打造品牌廣告視訊,或是進行創意視覺表達,HunyuanCustom都能提供高水準輸出。 (元透社)
騰訊混元AI重大調整,將有大事發生
馬化騰敢想敢做。騰訊重構混元大模型研發體系據瞭解,近日,騰訊對其混元大模型研發體系進行了全面重構,主要是圍繞算力、演算法和資料三大核心類股展開,通過最佳化團隊部署和加碼研發投入,推動混元大模型的持續發展。調整後,騰訊成立了兩個新的部門:大語言模型部和多模態模型部,分別負責探索大語言模型和多模態大模型的前沿技術,持續迭代基礎模型,提升模型能力。同時,騰訊將進一步加強大模型資料能力和平台底座建設。其中,資料平台部專注大模型資料全流程管理與建設,機器學習平台部則聚焦機器學習與巨量資料融合平台建設,為 AI 模型訓練推理、巨量資料業務提供全面高效的 PaaS 平台底座,共同支撐騰訊混元大模型的技術研發。圖源:每日經濟新聞公眾號顯然,騰訊想要對底層技術瓶頸進行系統性突破,對混元大模型研發體系進行調整有利於整合資源,最佳化研發流程,進一步提升騰訊在AI領域的長期技術作戰能力。值得一提的是,最近一段時間以來,騰訊在AI領域的組織架構調整動作不斷——先是騰訊元寶從‌TEG(技術工程事業群)‌劃歸至‌CSIG(雲與產業事業群)‌;然後是QQ瀏覽器、搜狗輸入法、ima等原屬‌PCG(平台與內容事業群)‌的產品線及團隊,整體遷移至CSIG。完成這一系列調整後,騰訊建立起了一個包含元寶、ima、QQ瀏覽器、搜狗輸入法四大產品線的AI產品矩陣——其中,元寶是大模型時代的應用入口及標配的AI助手;ima則是提供智能辦公場景解決方案的工具產品;QQ瀏覽器是AI搜尋與資訊流重構的智能搜尋;搜狗輸入法則是自然語言互動的前端入口。通過將分散在三大事業群(TEG/PCG/CSIG)的AI產品資源集中於CSIG,騰訊形成了層級分明的"入口-工具-搜尋-互動"產品閉環,同時強化了大模型與雲服務的底層技術聯動。這些舉動說明,騰訊在AI領域的佈局不斷提速,步伐日益加快。值得一提的是,騰訊2024年四季度及年度財報顯示,騰訊研發投入再次創下歷史新高,達到707億元;2018年至今累計研發投入超過3403億元。圖源:百度騰訊總裁劉熾平在財報電話會上表示,隨著AI能力和價值的逐步顯現,騰訊加大了AI投資,以滿足內部業務需求、訓練基礎模型,並支援日益增長的推理需求。伴隨著投入研發資金的加碼,騰訊的AI戰略正在加速落地。顯然,騰訊對於AI這塊“兵家必爭之地”也是勢在必得。混元大模型的產品混元是騰訊自研的通用大模型,支援文字、圖像、視訊和3D等多種模態內容的理解與生成。圖源:百度其發展時間不過短短幾年,卻已經經過了多次技術迭代和業務發展整合——2023年9月,混元大模型正式發佈,成為國內首批全面開放的通用大模型。這是騰訊基於市場需求分析啟動的項目,也是對AI市場的初步探索,混元初期聚焦文字生成能力開發。此後,混元大模型開始不斷進行技術迭代,整合多模態技術,新增圖像創作、視訊轉譯等能力,持續最佳化推理能力。今年以來,混元大模型的技術迭代速度更是顯著加快,相繼推出快思考模型Turbo S和深度思考模型T1,在視訊生成和3D生成領域也推出多個新版本模型。混元3D生成、視訊生成、DiT文生圖及千億參數MoE語言模型等模型均已對外開源,GitHub總Star數超過2.9萬。目前為止,騰訊混元大模型已在 700 多個內部場景中部署,促進了多個業務領域的增長——混元深度融入騰訊各業務線,廣泛應用於微信、QQ、騰訊元寶、騰訊會議、騰訊文件等核心產品,提升騰訊內部產品的智能化水平,並通過騰訊雲向外輸出模型能力,幫助企業和開發者創新提效。圖源:百度不難看出,混元大模型對於騰訊而言可謂是AI業務的核心,所以騰訊加大投入力度、調整組織結構等舉措都是為了助推混元大模型的發展,從而反哺騰訊自身其他業務的發展。正如騰訊董事會主席兼首席執行官馬化騰所言,“我們相信這些加大的投資,會通過提升廣告業務的效率及遊戲的生命周期而帶來持續的回報,並隨著我們個人AI應用的加速普及和更多企業採用我們的AI服務,創造更長遠的價值。”值得注意的是,雖然騰訊有著自研的混元大模型,但是騰訊也在積極擁抱Deepseek——騰訊的系列產品是最早一批擁抱DeepSeek的產品,元寶、ima、QQ瀏覽器、騰訊文件、騰訊地圖、QQ音樂等,均宣佈同時支援混元大模型與DeepSeek模型“雙引擎”,微信搜尋也上線了“AI搜尋”功能並接入DeepSeek-R1。圖源:百度不難看出,騰訊正在積極推進“核心技術自研+擁抱先進開源”的多模型策略,以應對市場的不同需求,從而助推自身技術和實力的進步與發展。除此之外,騰訊還在大力招聘AI人才,2025年啟動三年新增‌2.8萬校招實習崗位‌計畫,技術類崗位佔比超60%,覆蓋AI演算法、大模型研發、雲端運算、遊戲引擎與數字內容等70余種崗位。圖源:騰訊微信公眾號顯然,騰訊的目的是想儲備技術人才。一方面,可以通過定向培養演算法工程師、多模態研發人才,直接參與核心項目研發來加速‌混元大模型技術迭代;另一方面,還可以應對字節跳動Seed Edge、阿里通義千問等競品的技術競爭,搶佔AI人才金字塔尖。畢竟,在AI市場中,各大企業都在紛紛發力,以圖搶佔市場先機和未來發展。AI市場競爭激烈就當今AI市場而言,競爭日漸激烈,尤其是各個科技大廠之間你追我趕互不相讓,都希望搶佔AI的高地——就阿里而言,去年12月,阿里‌啟動組織架構調整,將通義千問大模型與夸克業務合併組建"AItoC"戰略類股。通過這一調整,阿里明確了消費級AI產品戰略方向,加速AI技術向C端應用場景的滲透。今年3月,阿里推出了新夸克——新夸克基於阿里通義的推理與多模態大模型,由舊夸克全面升級為無邊界的“AI超級框”。顯然,夸克的升級體現了阿里準備在AI應用側發力的決心。有趣的是,今年阿里雲也啟動近五年最大規模AI校園招聘,重點招募大模型、多模態、AI Infra等領域人才,技術崗佔比超70%。圖源:阿里巴巴集團招聘微信公眾號不難看出,阿里也希望在AI方面儲備更多人才,從而不斷推動AI技術的發展。就字節跳動而言,前不久,字節跳動也整合了AI研發力量,將集團級核心研究部門AI Lab整體併入大模型部門Seed。與此同時,為了應對新一輪大模型競爭,字節跳動籌建了獨立於原有組織架構的 Flow和Seed,前者做AI產品,後者做大模型研發。顯而易見,字節跳動的組織調整是為了最佳化效率,強化底層技術能力,從而在市場中更具競爭力。值得注意的是,Seed自成立後就在不斷吸納來自字節內外的人才,並且開啟了Top Seed人才計畫,持續招募頂尖人才加入團隊。圖源:字節跳動招聘微信公眾號這一舉動和騰訊、阿里的目的一致,都是為了吸引更多人才來提升自身AI技術,從而搶佔AI市場份額。綜上可見,科技大廠們對於AI市場的戰略雖然不完全一致,但都離不開降本增效和人才儲備這兩個部分。畢竟,AI來源於人,若想要更好地服務於人,自然需要更多的人才來最佳化AI。在未來,AI的使用體驗或將會成為影響使用者選擇的重要因素,對此,技術、場景和生態都缺一不可,因此,AI市場的競爭或許還將不斷深入,誰能存活到最後讓人拭目以待。 (科技頭版)