#模型開源
最佳VLA模型GigaBrain-0開源:世界模型驅動10倍資料,真機碾壓SOTA
中國國內首個利用世界模型生成資料實現真機泛化的端到端VLA具身基礎模型GigaBrain-0重磅發佈。近日,在湖北武漢東湖高新區,極佳視界與湖北人形機器人創新中心完成戰略合作簽約,並聯合發佈端到端VLA「具身基礎模型」GigaBrain-0。這是國內首個利用「世界模型」生成資料實現真機泛化的視覺-語言-動作(VLA)基礎模型,旨在通過世界模型為中心,無論在資料側還是模型側,徹底改變通用機器人大腦的開發方式。GigaBrain-0擁有當前最先進的VLA模型架構,同時支援圖像、點雲、文字、本體狀態的輸入,輸出結構化的任務規劃和運動規劃,並在大規模的資料上完成預訓練,可以實現更精準的移動導航和長序列的複雜操作。搭配極佳視界自研「世界模型平台GigaWorld」,建構最完整的具身資料體系,可以快速實現多種本體上複雜的機器人移動操作任務。後續GigaBrain-0將全面開源。項目連結: https://gigabrain0.github.io/論文連結: https://arxiv.org/pdf/2510.1943001. 核心演算法架構升級針對當前機器人操作中的精準度不足和推理能力不足的問題,GigaBrain-0重點提升了3D空間感知能力和結構化的推理能力,通過引入這兩項關鍵能力,GigaBrain-0可以完成更精準的移動導航和更長序列的複雜操作,具備更強泛化性,全球首次通過一腦多形、一段式端到端全身控制模型、一鏡到底完成衣物整理類複雜、柔性、長程移動操作任務!1. 3D空間感知能力:加入Depth輸入,更精準的移動導航GigaBrain-0通過加入深度資訊的輸入,提升了物體3D位置和空間3D佈局的感知能力,這兩點對於精確的雙臂操作和精確的移動導航至關重要。2. 結構化推理能力:更穩定的長程、複雜任務表現GigaBrain-0通過引入子目標拆解和機械臂末端軌跡輸出,改進了自身在開放場景中的任務規劃和運動規劃能力,極大提升了複雜、長程任務的成功率:子目標拆解:模型在推理過程中,可以同時輸出子任務的自然語言描述,讓GigaBrain-0對於長程任務的分解更合理。末端軌跡輸出:模型在推理過程中,增加了機械臂末端執行器運動路徑在圖像平面上2D投影的輸出,增強GigaBrain-0整體的全域動作規劃能力。02. 全球首個「世界模型」驅動的最全資料體系世界模型無論在資料側還是模型側,對於具身智能都有極其關鍵的價值。極佳視界通過「世界模型」為中心,打造了全球首個最全具身智能資料體系,具體包括:Sim2Real Transfer Data: 利用Isaac Sim等模擬環境合成多樣化的機器人運算元據,通過GigaWorld的Sim2Real變換,實現逼真的外觀渲染,同時保留原始場景幾何和動作語義。Real2Real Transfer Data: 將真實世界機器人採集的視訊重新渲染成外觀幾何上不同但物理上合理的變體,通過文字提示來控制前景及背景的材質、表面紋理、光照條件,同時保持機器人動作和互動的一致性。這有效地將真實資料的多樣性提高了約10倍。View Transfer Data: 利用GigaWorld的3D空間場景重建能力,將單個真實採集的資料片段生成新視角的資料片段。Video Generation Data: GigaWorld可以根據單個輸入圖像和不同的文字提示生成多樣化的具身機器人操作視訊,並通過逆動力學模型推斷出相應的機器人動作序列,合成訓練資料。Human Transfer Data: 通過視訊變換和運動學重新導向,將大規模第一人稱視訊中的人手取代為機械臂,生成穩定且可由機器人執行的動作序列。我們在多個任務上驗證了世界模型生成資料對於具身機器人真機操作任務的價值,結果表明通過增加世界模型生成的資料進行預訓練和後訓練,GigaBrain-0的真機操作成功率可以持續提升,並且全球首次實現了連續柔性複雜長程操作的開放世界泛化。同時,通過混合世界模型生產的資料和真機採集資料,GigaBrain-0可以快速完成特定本體上的任務適配和泛化。通過「世界模型」驅動的具身最全資料體系,極佳視界將持續迭代具身大模型,加速走向物理世界通用智能。03. 高效的一腦多形跨本體適配極佳視界聯合湖北人形機器人創新中心共同完成大規模預訓練資料的採集,資料覆蓋了工業、商業、辦公、家居、實驗室這5類場景,細分為超市、酒店大堂、咖啡店、奶茶店、便利店、餐廳、倉庫搬運、工業流水線、茶水間、住宅、公寓家居、會議室、辦公室工位、實驗室這14個具體場景。結合場景豐富的預訓練資料和先進的模型架構,GigaBrain-0擁有優秀的任務規劃能力,進一步借助「極佳世界模型平台」,極佳視界可以在不同的本體上快速實現複雜的機器人操作任務。極佳視界聯合湖北人形機器人創新中心,全球首次基於高整合度人形機器人本體,一鏡到底實現即時、長程、複雜、柔性操作!接下來雙方將有更深入的合作。04. 實驗結果GigaBrain-0通過真實機器人實驗進行了評估,包括靈巧操作任務(如疊衣服、整理捲紙)、長程任務(如收拾桌面、倒飲料)和移動操作任務(如搬運箱子、拾取衣物)。實驗結果表明,GigaBrain-0的成功率顯著優於現有SOTA方法。關於極佳極佳視界專注「世界模型平台 x 具身基礎模型」,雙輪閉環走向物理世界通用智能。在「世界模型」方向,極佳視界是國內技術創新和產業落地的領跑者,相關產品技術廣泛應用於自動駕駛、具身智能、內容創作等相關方向。在「具身大腦」方向,極佳視界通過全球領先的「世界模型平台」提供大規模高品質閉環資料,相比純真機資料訓練效率提升1-2個數量級以上,同時真機效果達到國內領先。極佳視界由黃冠博士帶領團隊於2023年創立,是國內第一家專注「世界模型 x 具身大腦」方向的科技公司。公司核心團隊包括清華、北大、中科院、中科大、WashU、CMU等全球知名院校頂尖研究人員,以及來自微軟、三星、地平線、百度、博世、NBC環球影業等全球知名企業高管,核心團隊兼具業內領先的研究能力和大規模的產業落地經驗。極佳視界是國內少有在「世界模型」和「具身大腦」方向都擁有世界級綜合實力的團隊,在自動駕駛世界模型方向已經和多個頭部主機廠達成簽約合作,在具身世界模型、具身大腦等方向已經和多個具身本體、終端公司達成簽約合作,應用於科研、教育、展覽、資料採集、工業、服務、家庭等多個場景。極佳視界致力通過「世界模型平台 x 具身基礎模型」,創造物理世界通用智能。 (新智元)
美團首個視訊大模型開源!速度暴漲900%
美團認為這是其邁向世界模型的第一步。智東西10月27日報導,10月25日,美團開源了其首款視訊生成大模型——LongCat-Video。該模型面向多工視訊生成場景,旨在以統一架構支援文生視訊、圖生視訊以及視訊續寫三種能力。不同於以往針對單一任務訓練的模型,LongCat-Video通過多工聯合訓練機制,在同一框架內即可處理零幀、單幀及多幀條件輸入。此外,LongCat-Video重點突破了長視訊生成難題,原生支援輸出5分鐘等級的視訊。相比常見模型在長時序生成中易出現的畫面漂移、色彩偏移等問題,該模型通過在視訊續寫任務上的原生預訓練,保持了較高的時間一致性與視覺穩定性。在推理效率方面,LongCat-Video借鑑了近年來的高效生成方法,採用“粗到細”兩階段生成策略:先生成480p、15fps的視訊,再細化至720p、30fps,並結合塊稀疏注意力機制和模型蒸餾,顯著降低了高解析度生成的計算開銷,視訊生成的推理速度提升到原來的10.1倍,提速幅度超900%。在後訓練階段,團隊引入多獎勵強化學習(RLHF)最佳化方案,利用組相對策略最佳化(GRPO)方法綜合多維度獎勵訊號,進一步提升模型在多樣化任務下的表現。美團已在多項公開與內部測評中將LongCat-Video與其他視訊生成大模型進行了比較。在VBench公開基準測試中,LongCat-Video總得分僅次於Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。目前,美團LongCat-Video已同步開放程式碼、模型權重及關鍵模組,模型技術報告也已經發佈。項目首頁:https://meituan-longcat.github.io/LongCat-Video/模型地址:https://huggingface.co/meituan-longcat/LongCat-Video技術報告:https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf01. 三步走打造高品質訓練資料整體壓縮率高達4×16×16倍美團認為,“世界模型”(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI“看見”世界運行本質的能力。而視訊生成模型有望成為建構世界模型的關鍵路徑——通過視訊生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。為打造LongCat-Video,美團LongCat團隊首先在資料層面建構了一套資料處理與標註體系。首先在資料預處理階段,通過多源視訊採集、去重、鏡頭切分及黑邊裁剪,確保視訊片段質量與多樣性。隨後在資料標註階段,為視訊加入時長、解析度、美學分數、動態資訊等多維度屬性,並建立中繼資料資料庫以支援靈活資料篩選。團隊還基於LLaVA-Video與Qwen2.5VL等模型進行視訊內容、鏡頭語言及視覺風格標註,並通過中英雙語翻譯與摘要生成實現文字增強。最終,通過文字嵌入聚類對視訊內容進行無監督分類與均衡最佳化,為模型訓練提供高品質、多樣化的視訊資料基礎。在模型架構層面,LongCat-Video採用了基於Diffusion Transformer(擴散Transformer)的單流三維結構,這一設計融合了擴散模型的生成能力與Transformer的長時序建模優勢。每個Transformer模組都包含三維自注意力層、跨模態注意力層以及帶SwiGLU啟動的前饋網路,並通過RMSNorm與QKNorm保證訓練穩定性。模型使用了3D RoPE位置編碼來捕捉時間與空間的資訊關係,同時引入AdaLN-Zero機制以提升任務間的調製能力。在輸入資料層面,美團團隊借助WAN2.1模型的VAE將視訊像素壓縮成潛空間token,使視訊資料能以更緊湊的形式參與建模,整體壓縮率高達4×16×16倍;文字輸入則由umT5多語言編碼器處理,支援中英文雙語,進一步提升了模型的通用性。02. 靠“統一任務框架”一次訓出三種能力稀疏注意力讓推理效率猛增超900%LongCat-Video採用了三階段的訓練流程。模型以Flow Matching框架取代傳統擴散過程,通過預測噪聲到真實視訊潛變數的速度場提升訓練穩定性與效率。訓練採用漸進式預訓練策略,從低解析度圖像到高解析度多工視訊逐步學習,實現“從靜態到動態”的能力積累,並結合尺寸桶機制最佳化算力利用。隨後在監督微調階段,模型利用高品質、多樣化資料集進行精調,強化視覺美學、運動流暢度與指令理解。最後通過基於組相對策略最佳化的強化學習引入人類偏好最佳化,進一步提升語義一致性與視訊質量。在訓練LongCat-Video的過程中,美團LongCat團隊在任務設計上進行了創新,這也是LongCat-Video能在單一模型內統一文生視訊、圖生視訊和續寫視訊三類任務的原因。美團LongCat團隊沒有為不同的視訊生成任務單獨設計模型,而是通過“統一任務框架”讓三種任務共用同一套網路。模型通過識別輸入中“條件幀”的數量自動判斷任務類型:當輸入為零幀時執行文字生成視訊,一幀時執行圖像生成視訊,多幀時則執行視訊續寫。這種機制不僅大幅降低了模型複雜度,也讓不同任務之間共享特徵空間與訓練經驗,從而提升整體表現。為進一步提高長視訊生成的效率,模型在注意力機制上設計了可快取的鍵值特徵,使條件幀的表示可以在採樣過程中重複使用,減少了冗餘計算。這種機制尤其適合長視訊生成,因為它能在保持一致性的同時顯著降低計算開銷。強化學習部分是LongCat-Video提升生成質量的關鍵環節。美團團隊基於組相對策略最佳化方法進行了多重改進,使其適配視訊擴散任務。傳統的GRPO在視訊生成中容易出現獎勵訊號不穩定和時間歸因模糊的問題,團隊通過固定隨機時間步、引入再加權損失函數以及最大標準差歸一化機制,有效解決了這些訓練瓶頸。▲LongCat-Video採用的GRPO方法與基線的生成效果對比在獎勵模型設計上,LongCat-Video採用了三重獎勵體系,分別評估視訊的視覺質量、運動質量和文字一致性。視覺質量由HPSv3模型打分,衡量畫面美感與細節;運動質量通過VideoAlign模型評估,確保動作自然流暢;文字一致性則檢驗生成視訊與輸入提示語的語義契合度。這種多維度的獎勵設計讓模型在強化學習階段能夠平衡地提升表現,避免過度最佳化單一指標而導致畫面僵化或運動失真。在高效推理方面,LongCat-Video通過一系列工程創新顯著提升了生成速度與解析度。團隊採用“粗到細”的生成策略,先快速生成低解析度、低影格率的視訊,再由LoRA微調的精化模組進行高畫質復原,最終可輸出720p、30幀的成片。與此同時,LongCat-Video引入塊稀疏注意力(Block Sparse Attention)機制,僅計算最相關的10%注意力塊,將計算成本降至傳統方法的十分之一,幾乎不損失生成質量。這些最佳化使得LongCat-Video在單卡H800 GPU上幾分鐘內即可生成一分鐘長的視訊。再結合一致性模型蒸餾與分類器自由引導(CFG)蒸餾技術,採樣步數從傳統的50步縮減至16步,推理效率提升至原來的10倍。▲LongCat-Video在不同設定上的推理速度對比03. 多領域測評比肩Veo3常識理解能力突出美團LongCat團隊分享了LongCat-Video的多個生成案例。文生視訊任務中,LongCat-Video可以根據提示詞精準還原不少腦洞大開的畫面,下方視訊中的案例還顯示出其可能具備風格轉繪的能力。前段時間最火的AI視訊類型——切水果,LongCat-Video也能製作,不過並沒有音效,缺少了一些靈魂。LongCat-Video原生支援輸出5分鐘等級的長視訊,不過在長時序的任務上,還是能看到一些“穿幫鏡頭”。例如,下圖人物跳芭蕾的過程中,其肢體在某些大幅度動作的場景中顯得並不自然。有趣的是,美團分享了LongCat-Video生成行車記錄儀畫面和機器人靈巧手操作畫面的兩個案例。此類畫面或許可以作為合成資料,用於自動駕駛汽車與機器人的訓練。在內部評測體系中,美團建構了一套覆蓋文字生成視訊與圖像生成視訊兩大核心任務的基準,評估維度包括文字對齊、視覺質量、運動質量與總體表現,並在圖生視訊任務中額外增加了圖像一致性指標。為確保評測的科學性,團隊採用人工與自動雙軌評估機制,其中人工評價分為絕對打分與相對偏好兩種方式,所有樣本均由多名標註員獨立評分,最終通過加權平均得出結果。自動評測部分則由內部訓練的多模態“判官模型”完成,與人工結果的相關性高達0.92,保證了客觀性。評測結果顯示,LongCat-Video在文生視訊任務的四個核心指標中,視覺質量得分幾乎與Google的Veo3持平,整體質量超越了PixVerse-V5和國內領先的開源模型Wan2.2。在運動質量方面,LongCat-Video生成的視訊動作流暢、鏡頭移動自然,展現出較強的物理合理性。在文字對齊度上,LongCat-Video表現略差於Veo3。在圖生視訊任務中,LongCat-Video畫面細節豐富、風格真實,但在圖像一致性和動作連貫性上仍有改進空間。技術報告認為,模型在處理高精度參考幀時對細節的保持較為謹慎,這在視覺質量上帶來加分,卻略微影響了動態平滑度。在公開評測平台VBench 2.0上,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,總分達到62.11%,僅次於GoogleVeo 3與生數Vidu Q1等商用閉源模型。04. 結語:美團探索世界模型或與機器人、無人車業務產生協同效應美團稱,LongCat-Video是其開發“世界模型”(world models)的第一步,。高效的長視訊生成能解決世界模型中的渲染問題,使模型能夠通過生成的視訊內容表達其對世界的認知。未來,美團計畫在視訊生成中更好地建模物理知識,整合多模態記憶,融入大語言模型(LLM)和多模態大模型(MLLM)的知識。在美團分享的演示視訊中,LongCat-Video能較為準確地輸出機器人操作、汽車駕駛等畫面,這或許預示著這款模型,有望與美團在機器人、自動駕駛(無人車)領域的業務佈局產生一定的協同效應。 (智東西)
DeepSeek新模型開源,新架構亮了!國產AI晶片集體狂歡
DeepSeek離下一代架構,又近了一步!智東西9月30日報導,昨日,DeepSeek宣佈開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制,並在幾乎不影響模型輸出效果的前提下,大幅度提升了長文字訓練和推理效率,被DeepSeek定義為“邁向新一代架構的中間步驟”。HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp魔搭社區地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp這一改進還降低了DeepSeek新模型的服務成本,DeepSeek因此執行了新的價格政策,讓開發者呼叫DeepSeek API的成本降低50%以上。降價幅度最大的為輸出token的價格:DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元,為DeepSeek-V3.1系列模型的1/4。截至9月30日上午6點,華為雲、PPIO派歐雲、優刻得等雲平台已宣佈上線DeepSeek-V3.2-Exp,華為、寒武紀、海光資訊等AI晶片廠商已經宣佈適配DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎上打造的。在各領域的公開評測集上,兩款模型的表現基本一致,不過,DeepSeek-V3.2-Exp完成任務使用的token量大幅度減少。目前,DeepSeek App、網頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API介面,方便開發者進行對比驗證。除模型本體外,DeepSeek還開源了相關技術報告及程式碼,並提供TileLang與CUDA雙版本GPU算子,以便研究者在不同層級進行實驗和最佳化。技術報告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfDeepSeek還補充道,作為一個實驗性的版本,DeepSeek-V3.2-Exp雖然已經在公開評測集上得到了有效性驗證,但仍然需要在使用者的真實使用場景中進行範圍更廣、規模更大的測試,以排除在某些場景下效果欠佳的可能。01.華為、海光、寒武紀光速適配,網友直呼第二個DeepSeek時刻要來了DeepSeek-V3.2-Exp一經推出,便在產業界與開發者圈子裡引發熱烈反響,不少國內企業紛紛第一時間宣佈完成DeepSeek-V3.2-Exp的適配和上線。華為計算公眾號發文宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並面向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp在昇騰裝置上128K長序列輸出,能夠保持TTFT(首token輸出耗時)低於2秒、TPOT(每token輸出耗時)低於30毫秒的推理生成速度。華為雲則首發上線了DeepSeek-V3.2-Exp,還使用CloudMatrix 384超節點為該模型提供推理服務。在DeepSeek發文宣佈DeepSeek-V3.2-Exp模型開源後的4分鐘,寒武紀也發文稱其已同步實現對該模型的Day 0適配,並開源大模型推理引擎vLLM-MLU原始碼。寒武紀通過Triton算子開發實現了快速適配,利用BangC融合算子開發實現了性能最佳化,並基於計算與通訊的平行策略,達成了較高的計算效率水平。DeepSeek-V3.2-Exp模型的尺寸達671GB,僅下載就可能需要數小時。這種時隔4分鐘的Day 0適配,或許意味著寒武紀和DeepSeek兩家企業在模型發佈前就已經啟動適配工作。據經濟觀察網報導,海光資訊的DCU(深度計算處理器)率先實現了對DeepSeek-V3.2-Exp的Day 0級高效適配與最佳化,確保大模型算力“零等待”部署。在DeepSeek官宣DeepSeek-V3.2-Exp開放原始碼的推文中,有不少網友分享了對模型的使用體驗和感受。有位網友稱,自己在10萬個token的程式碼庫上測試了DeepSeek-V3.2-Exp,速度提升非常明顯。有網友感嘆,DeepSeek API現在幾乎等同於免費了。更有網友認為,這一模型的推出,或許意味著第二個DeepSeek時刻即將到來。Hugging Face上,DeepSeek-V3.2-Exp的社區類股也有不少討論,不過,關注度最高的一條帖子,是來自中國網友的“吐槽”:“咱這個模型是非得國慶前更新嗎?”還有網友列出了DeepSeek每次更新模型的時間,幾乎都卡在節假日的前幾天。02.一手體驗DeepSeek-V3.2-Exp架構創新或許比性能提升更重要DeepSeek-V3.2-Exp在使用體驗上,究竟與此前的DeepSeek-V3.1-Terminus有何不同?在程式設計方面,DeepSeek-V3.2-Exp撰寫的程式碼明顯更為簡短了,相同的任務下,其輸出的程式碼行數要少於DeepSeek-V3.1-Terminus。不過,這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫程式碼未能正常運行,小球直接飛出了六邊形的範圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務。智東西還讓DeepSeek-V3.2-Exp完成了一項資訊檢索任務,要求它推薦幾種適合新手在陽台盆栽的、生長快、果子能直接生吃的植物,並且要保證對小孩絕對安全,最好能附上簡單的播種技巧。與DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成結果更為簡短,用詞也比較“樸素”。並且,DeepSeek-V3.2-Exp推薦的無花果、百香果等植物,需要進行扦插、高頻率養護等操作,並不符合提示詞要求的新手友好。▲DeepSeek-V3.1-Terminus(左)與DeepSeek-V3.2-Exp(右)在資訊檢索任務上的表現(圖源:智東西)總體而言,DeepSeek-V3.2-Exp確實在推理效率上實現提升,但卻在能力上做出了一定的讓步。知乎博主@toyama nao也在測評中發現了類似的問題。他認為,DeepSeek-V3.2-Exp在工作記憶、計算精度穩定性等方面存在明顯短板,還容易有偷懶傾向和陷入死循環的可能。▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價這也得到了其他網友觀點的印證,例如,這位網友便在x平台發貼稱,並沒在這款模型上看到改進,並提出質疑:我們為什麼要使用能力降級的模型呢?作為一款實驗模型,DeepSeek-V3.2-Exp更大的貢獻或許在於理論層面。DeepSeek稱,與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架構上的唯一修改,就是通過繼續訓練引入了DeepSeek Sparse Attention。目前的DSA機制還處在原型期,主要由兩個元件構成:一個Lightning Indexer(閃電索引器)和一個細粒度的token選擇機制。▲DeepSeek-V3.2-Exp架構圖Lightning Indexer能夠快速評估查詢token與歷史token的相關性,從選擇機制只挑選最相關的一部分上下文進入注意力計算,這讓複雜度從傳統的二次方降到了近似線性水平,大幅降低了訓練和推理的成本。在訓練上,DeepSeek-V3.2-Exp採用了“繼續預訓練+後訓練”的方式。繼續預訓練分為兩個階段:首先在稠密模式下短暫訓練indexer,讓它的輸出和標準注意力保持一致;隨後引入稀疏選擇機制,逐漸讓模型適應新的計算方式。完成預訓練後,DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行後訓練。專家蒸餾的思路是針對數學、程式設計、推理等不同領域訓練專門的專家模型,然後將這些模型的知識壓縮排通用模型。混合強化學習則將推理、智能體能力和人類對齊訓練統一在一個RL階段中,避免了傳統多階段方法容易出現的遺忘問題。技術報告顯示,DeepSeek-V3.2-Exp在大多數評測任務上的表現與前代基本持平,個別推理相關的測試分數略有下降,但主要原因是生成的推理token更少,如果使用中間檢查點,差距則會縮小。相比之下,效率的提升尤為顯著。在H800 GPU的測試環境中,長序列推理的開銷明顯降低,證明DSA在真實部署中有很強的實用性。同時,訓練曲線與前代模型保持相似的穩定性,也表明這種架構在收斂性上並沒有額外風險。03.結語:DeepSeek邁向新一代架構正如其名字內的Exp(實驗版)所言,DeepSeek-V3.2-Exp的推出,本身並不是一次性能爆表的升級,而更像是一場架構實驗,展示了一種在長文字處理中兼顧性能和效率的新路徑。作為技術原型,DeepSeek-V3.2-Exp背後的DSA機制或許很快就會得到進一步完善。隨著相關技術的持續最佳化和更多企業、研究者參與驗證,DeepSeek有望在不久的未來交出更令人驚喜的成果。 (智東西)
李開復:中美大模型競爭關鍵在於開源與閉源之爭
近日,2025格隆匯·中期策略峰會在深圳南山香格里拉酒店舉行。零一萬物CEO、創新工場董事長李開復博士帶來了《生成式AI:從ChatBot到Agent 的躍進與機會》的主題演講。李開復在演講中指出,未來5到10年最重要的技術領域就是生成式AI驅動的AI 2.0,如不能及時接納AI未來會被淘汰。相比於PC時代、移動網際網路時代,AI 2.0時代全球GDP會迎來更大幅度的增長。中美之爭不是OpenAI和DeepSeek誰強,而是開源與閉源之爭。輝達依然是一個比較穩妥的投資標的,但需尋找合適的買入時機。美國科技巨頭股票“七選一”,可能會選擇微軟。01. 預訓練Scaling Law失效推理Scaling Law成為模型智能增長新範式生成式AI驅動的AI 2.0是有史以來最偉大的技術革命和平台革命,未來5到10年,AI 2.0將快速走出實驗室,賦能千行百業,創造巨大的經濟價值。過去兩年大模型賽道的一個重要趨勢是,大模型的智能在以每年30個點的速度快速提升,同時,AI的推理成本也在以每年降低10倍的速度快速下降,應用層發展的成本擔憂也在逐步解決。這些重要的變化為AI-First應用的爆發,穿透千行百業奠定了堅實的基礎。現階段,預訓練的Scaling Law基本已經結束了。其中一個原因在於,超大規模的GPU集群越來越不好管理。舉例來說,從一張GPU到10張GPU,可能會得到9.5倍算力提升;但是從1萬張GPU到10萬張GPU,算力可能只有2倍的提升。另一個原因則是可用於模型訓練的資料也存在瓶頸,缺乏高品質資料,GPU燒起來也是事倍功半的結果。新的機會在推理階段的Scaling Law。在推理階段Scaling Law的加持下,大模型的智力不但沒有停止成長,而且還會成長得更快。DeepSeek令人佩服的其中一點就在於,它破解並開源了慢思考推理模型,並且得到了媲美頂級閉源模型的優秀性能。02. 中國在開源模型路徑上開始趕超美國李開復在策略會中指出,美國的前沿技術研究是領先中國的,但是中國吸收消化技術快速迭代的能力很強,中國工程能力也處於世界第一梯隊,更可貴的是,中國的創業者很有拚勁,目前看,世界大模型競賽中只有中美兩國,沒有第三方。美國還有一個新的優勢,就是無論是企業(2B)還是消費者(2C),其付費能力都很強,這個中國還趕不上。然而,中國也有新的優勢,就是開源。中美之間的競爭關鍵並不是OpenAI與DeepSeek孰強孰弱,也不是Deepseek追不追得上OpenAI,而是開源與閉源的路線之爭。中國兩大模型都選擇了開源路線,而美國最好的模型仍在閉源。如果按照這種趨勢,美國可能會輸。開源是中國團隊做出的正確決定。阿里巴巴Qwen和DeepSeek的頂級開源模型讓中國優秀大模型能進一步普惠全球,未來一定會在全球大模型創新生態中帶來巨大的紅利。03. 輝達仍是一個比較穩妥的投資標的關於投資標的,李開復表示依然看好輝達。無論是模型預訓練領域、無人駕駛等等,這些領域都離不開輝達的晶片和技術支援,所以輝達的價值還是很大的。未來一段時間,輝達股價也許不會漲幾十倍,但仍有上升空間,是一個比較穩妥的投資。但是,輝達在未來可能會面臨各種利多和利空因素,例如,最新晶片是否能進入中國市場的潛在風險等,這可能會對公司的股價產生相當大的影響。投資者要綜合考慮,理性投資。在美國七巨頭中,李開復坦言自己更看好微軟。因為微軟敢於大膽投資和創新,有發展前景,同時對商業模式有著深刻的理解,能夠清楚地認識到如何實現盈利,這種兼具多種優勢的公司很少。微軟對於大模型的盈利模式就有著清晰的認知。但是微軟的體量很大,未來實現幾十或上百倍的增長可能性較低。儘管如此,如果美國七巨頭裡面只選一家投資,李開復可能會選擇微軟。(格隆匯APP)
騰訊混元深夜上新,再次開源
騰訊混元大模型迎來重要升級。就在剛剛,CVPR2025(電腦視覺領域頂會之一)上,騰訊宣佈混元3D 2.1大模型對外開源,這是首個全鏈路開放原始碼的工業級3D生成大模型,達到了行業領先水平。目前,混元3D模式在Hugging Face(知名的開源社區和技術平台)下載量已超過180萬,開源效果受到全球開發者認可。在此基礎上,混元3D 2.1模型進一步升級並繼續開源。先看效果。上傳一張首飾盒的圖片:模型生成的3D首飾盒,紋理清晰,質感細膩,光影保持一致性。混元3D模型生成的首飾盒效果遊戲裡的角色、電影中的道具、線上商城的產品模型,都用新模型可以生成3D版。相較於混元3D 2.0模型,新模型既優化了幾何生成的質量,也開放了PBR(基於物理的渲染)材質生成大模型,進一步提升3D資產的質感和光影表現,告別“塑料感”。打個比方,幾何學是3D模型的“骨骼”,定義了模型的形態、輪廓與細節精度;紋理是3D模型的“皮膚”,還原模型表面的顏色、光澤和細節表現。混元3D模型生成的青銅面具鼎效果對比看到,新模型優化了細節建模,使網格精度更高,具備更好的拓撲一致性,為後續紋理對應提供了基礎;還可生成基礎顏色、金屬度、法線、粗糙度等貼圖,支援皮革、木質、金屬、陶瓷等多種複雜材質的高品質渲染。混元3D模型生成的青花瓷白馬效果相較傳統RGB 貼圖技術,PBR技術透過模擬光線與材質的物理互動,提升模型在不同光照環境下的視覺一致性。在使用者盲測中,混元3D 2.1模型的PBR紋理相較於RGB貼圖,質感勝出率高達78%。混元3D 2.1 模型與主流3D 模型紋理效果對比這種物理真實性不僅滿足電影、遊戲等高要求渲染場景的需求,也為工業設計、虛擬模擬和數字孿生提供了可靠3D資產,不僅“好看”,而且工業級“好用”。除了效果全面升級,開發門檻也降低了。全鏈路開源。混元3D 2.1模型從模型權重、訓練程式碼,到資料處理流程上全鏈路開源。這對開發者來說,無疑是個好消息:可以自由地進行微調、二次訓練或優化,滿足各種定製化需求,也為學術研究提供了平台。部署友好。混元3D 2.1模型適配於消費級顯示卡,在個人電腦也能“跑”,還在Github 等開源地址提供了詳細部署和使用教學,幫助企業、中小團隊及個人開發者輕鬆上手。在實際應用中,輕遊夢工坊(騰訊旗下無程式碼遊戲編輯器)使用混元3D在多條美術管線完成提效,道具管線製作周期由2天/個降低至0.2天/個。騰訊混元堅定擁抱開源,旗下圖像、影片、3D、文字等多種模態基礎模型已全面開源。2024年11月:發佈初代3D生成模型並開源。2025年01月:2.0模型在文字一致性與幾何精確度上超越主流模型。2025年03月:一次開源5款3D生成模型,實現秒數資產生成。2025年05月:V2.5模型精度提升超10倍​​,邁入超高畫質時代。2025年06月:首個全鏈路開放原始碼的工業級3D生成大模型。騰訊混元將持續透過開源協作,解決傳統3D建模耗時、成本高、資料稀缺等產業痛點,共同打造更繁榮的3D開源生態。 (騰訊)
大模型下半場:7個趨勢判斷
推理模型能力的持續提升,推動大模型迎來“可用”到“好用”的拐點。推理強化和應用拓展啟動了大模型下半場的新賽程。個人智能體潛力初步顯現,行業應用漸次走深,開源開放日益成為大模型的核心競爭力組成。大算力、多模態、強推理、廣開源、准資料、智能體、深應用等,成為當前發展的重要趨勢。一、大力出奇蹟的算力投入模式尚未見頂DeepSeek以557萬美金的低成本訓練,給全球帶來很大震動。但這並未顛覆大模型需要大算力的底層邏輯,實際上,該模型單次訓練成本相當於國外同類模型成本的八分之一左右,尚未有數量級的差別,其意義是以更集約化的方式復現已有模型效果的工程創新。此前網路熱炒的中美大模型訓練成本的懸殊對比,其實是拿美國千億美金等級的資料中心建設、晶片購買、網路搭建、科學家薪酬等總支出,來對比DeepSeek的單次訓練成本,裹挾了較大的誇張和情緒因素。用更大算力去探索大模型的能力上限,仍是行業共識。預計今年上半年國外將推出GPT-5、Llama 4等級大模型。美國大算力叢集建設如火如荼,馬斯克的xAI已建成全球規模最大的20萬張H100算力叢集,並在此基礎上訓練出Grok3大模型。Google今年預計投入750億美元,同比增長43%,大部分用於算力中心建設;Meta預計投入為600-650億美元,同比增長53%-66%;亞馬遜預計為1000億美元,同比增長超20%。此外,日本軟銀集團、OpenAI和美國甲骨文公司三家企業聯合開啟星際之門計畫,將在未來4年投資5000億美元,在美國建設超大型算力基礎設施。這些將推動大模型在預訓練方面的更多突破,加上現在流行的強化學習等後訓練增強,大模型能力的躍升可能會進一步加快。有不少大佬預測,AGI的實現可能就在最近的兩到三年。高端晶片供給仍是中國下一代大模型的卡脖子問題,可能再次面臨訓練晶片供應不足的風險。雖然去年以來,中國AI高端晶片企業數量和能力均有提升,華為、燧原科技、摩爾執行緒、海光、壁仞等多家企業已設計出對標輝達A100單卡性能的國產晶片,但由於台積電暫停7nm產能供應及HBM禁令等限制,國產高端晶片的製造仍面臨挑戰。二、慢思考和多模態成標配,多領域將迎來AlphaGo時刻包含了強化學習等在內的後訓練過程,把預訓練積累的模型潛力發揮了出來,模型慢思考帶來了推理能力的大幅提升。受DeepSeek效應刺激,國內外大模型公司正加速推出下一代大模型,如OpenAI的基礎大模型GPT-4.5,推理模型o3;Anthropic整合了深度思考和快速輸出的混合推理模型Claude 3.7;Google相繼發佈 Gemini 2.0和更強大的推理模型Gemini 2.5 Pro,以及xAI的Grok 3。國內騰訊混元發佈了可以秒回的強推理模型T1,將快慢思考相結合,並首次將混合Mamba架構無損應用於超大型推理模型,顯著降低了訓推成本。DeepSeek更新了一版名為DeepSeek-V3-0324的模型,在數學、程式碼類相關評測集上取得了超過 GPT-4.5 的得分成績。多模態是人類世界的本來樣貌,大模型的發展趨勢一定是走向多模態,從單一的文字、圖像、視訊、3D,向聲、光、電,甚至分子、原子等各類模態擴展,達成對真實世界的理解和生成,原生多模態是未來方向。近期發佈的GoogleGemini 2.0 Flash可實現一句話編輯圖片,堪比專業Photoshop軟體的編輯效果; GPT4o最新推出的風格化文生圖能力火爆全網。騰訊剛開放原始碼的混元3D模型,同時支援文生3D和圖生3D,可一鍵換皮膚、一鍵變動畫,一鍵生成3D遊戲視訊。隨著模型能力的躍遷,可以預見,更多領域將迎來“AlphaGo時刻”,即大模型在各領域的能力超過該行業90%以上,甚至最高水平的人。OpenAI的o1在在美國數學邀請賽拿到接近滿分成績,在物理、 生物和化學問題的基準測試上超越了博士水平的精準率。Anthropic 首席執行官Dario近日預言 ,未來3-6 個月 AI 將能夠編寫 90% 的程式碼。三、模型開源和開放協議成為新競爭力組成之前行業爭執不下的開源與閉源之辨,倒向了開放原始碼的一邊。DeepSeek的火爆,一定程度上得益於開源,其採取的MIT License協議支援完全開源,不限制商用,也無需申請,讓全球開發者都有機會上手使用和評測,依靠口碑效應快速形成了全球影響力。原來堅定走閉源路線的OpenAI也被迫考慮開源,奧特曼近日公開表示,之前選取的閉源策略可能站在了歷史錯誤的一邊,同時還在社交平台公開徵集開源方案,未來要做端側的開源大模型和o3 mini等級的開源模型。國外Meta,國內騰訊、阿里、智譜等企業很早就開啟了開源戰略。如,混元文生圖模型是業內首個中文原生的DiT架構文生圖開源模型;文生視訊大模型是當前最大的視訊開源模型,且全面開源,包含模型權重、推理程式碼、模型演算法等完整模型。國外Hunging Face等社區也成為全球大模型開發者活躍的重要平台,在Hunging Face上彙集了152萬款開源大模型,33.7萬個開放資料集。同樣重要的還有大模型的開放協議,可以類比為網際網路興起時的HTTP協議,HTTP讓各類網頁都能以統一的格式展現在瀏覽器中,方便使用者獲取資訊。大模型的資料通訊開放協議則可以讓大模型更方便地呼叫各種工具,從而自主完成各類任務。如,近期火爆的MCP(模型上下文協議)是Anthropic於去年11月發佈的一個模型資料通訊協議,成為連通大模型和各類工具之間的橋樑。四、“後真相”時代,打造可信大模型迫在眉睫技術對知識資訊的影響,第一次從傳播和互動環節向前延伸到生產環節。大模型知識輸出的精準度、專業度,即大模型的“可信度”,正在成為人工智慧的核心競爭指標。大模型帶來資訊極大豐富的同時,內容中所包含的幻覺等噪聲問題也困擾著使用者。《哥倫比亞新聞評論》研究發現,美國用於新聞搜尋的生成式人工智慧模型存在嚴重的精準性問題。研究人員測試了8種具備即時搜尋功能的AI搜尋工具,發現有60%以上的新聞來源查詢錯誤。大模型的幻覺問題,是伴隨人工智慧底層技術路徑與生俱來的,和創新能力是一體兩面的,難以僅僅依靠技術徹底解決。引入權威的圖書、雜誌、新聞資訊、論文等優質內容資料,並打造新的、“可信”的知識共識機制和供應體系,是大模型未來在生產、生活應用領域產生更大價值的關鍵所在。OpenAI與新聞集團去年簽署了為期5年的合同,獲得了訪問該集團旗下媒體歷史內容的授權,包括《華爾街日報》《巴倫周刊》《泰晤士報》《每日電訊報》等主串流媒體,以增強大模型回答內容的可信度。騰訊混元正在與大百科出版社、人民衛生出版社、上海辭海出版社、化工出版社等優秀的傳統出版機構開展合作,支援其推出圖書智能體,探索基於搜尋增強技術的可信大模型合作模式。如,在元寶APP應用廣場中,人衛智能體可以為使用者提供心腦血管等特定醫學知識領域的權威解答,同時提供相關書籍原文的引用,並可以引流到電子書閱讀平台,跳轉到實體書購買頁面。既能實現類似腳註尾注、文獻索引等傳統知識溯源機制的遷移,確保輸出知識的共識性、精準性,也將為出版機構和大模型平台帶來可持續共贏的模式。未來,誰能夠接入更多可信的資料來源,建構起可信的評價和共識機制,誰就能在人機內容共創的時代獲得領先優勢。五、個人應用在智能+網際網路邏輯下有望開啟馬太效應GPT-4.5,DeepSeek V3、騰訊Turbo S等基礎大模型,OpenAI o3、DeepSeek R1、騰訊T1等推理模型的陸續發佈,標誌著基礎大模型進化到了好用的階段,推動個人應用迎來發展新起點。過去個人應用之所以不夠豐富,核心是由於基礎大模型的能力所限,在複雜問題分析、多模態生成和理解等領域的效果還不盡如人意,使用者使用大模型時驚喜不足。而且個人應用的資料,更多是使用偏好資料,並不能反哺基礎大模型智能的提升,因此過去花錢買流量和使用者的應用也沒能構築護城河,使用者替換應用的成本較低,粘性不足。在當前基礎大模型能力相對成熟的背景下,過去移動網際網路賴以成功的平台效應有望再次發揮作用。更多使用者使用AI應用,可以沉澱更多的優質共享知識、積累更多的使用者反饋和社互動動等,從而讓應用得以持續最佳化,並吸引更多的使用者使用,形成良性的正循環。以騰訊元寶為例,採取DeepSeek+混元雙模型引擎驅動的戰略後,使用者數直線上升, 今年2月至3月DAU(日活)增長超20倍。中國應用領先的優勢有望進一步發揮,提效類的生產力工具日益強大,殺時間的陪伴類和文娛類應用體驗不斷最佳化。根據a16z投資機構3月發佈的全球Top 50生成式AI應用報告,中國公司的應用有11款上榜,而去年8月僅有3款產品上榜,增速明顯。AI新搜尋、文生圖/視訊工具和角色扮演應用是排名前三的熱點方向。但同時,個人應用創新仍然面臨“苦澀的教訓”( The bitter lesson) ,即人們反覆嘗試用工程手段提升性能,最終卻總是被簡單堆算力的方式超越。大模型能力的不斷提升,會“吃掉”不少應用創新的功能,特別是工作流類的應用,更容易被大模型的新能力取代。如何在應用中加深護城河,需要更多第一性原理的思考,從而嵌入使用者決策鏈條的關鍵節點去提升價值,增加使用者的情感性認同,並通過生態協同,提升自身的不可替代性。可以說,技術迭代是矛,場景滲透是盾,生態協同是土壤,個人應用有時候要跑得快一點等大模型能力的提升,有時候又要慢一點思考大模型的演進路徑,去建構技術+場景+生態協同的“動態能力組合”。六、個人AI應用的終點是超級智能助理基礎大模型能力的升級,帶來應用深度的能力解鎖。第一波以ChatGPT為代表的大模型擅長對話,催生了AI新搜尋Perplexity等應用。第二波以Claude 3.5 Sonnet為代表的大模型擅長程式設計,推動了估值百億美金的Cursor和當紅程式設計明星Devin等的火爆。第三波以Open AI o1為代表的大模型擅長深度推理,讓Agent應用成為可能。特別是隨著多模態、強化學習技術持續突破,模型的效果大幅提升、成本不斷降低,可以預見,智能體應用將加速滲透到更多垂直領域,開啟人機協作新紀元。智能體新時代正在走來。近期國內Manus應用的火爆,讓業界對AI智能體的未來給予更多期待。無獨有偶,OpenAI的自主電腦使用智能體Operator和深度研究智能體Deep Research已開啟商業化試水,從實驗室走向大眾市場。據外媒報導,OpenAl計畫以每月2000美元的價格向“高收入知識工作者”出售低端代理;中端代理每月收1萬美元,用於軟體開發;而高端代理作為博士級研究代理,每月收費 2萬美元。據Gartner 預測,到2028年,33% 的企業軟體應用將包含代理式人工智慧,而2024年這一數字不到1%,且至少15%的日常工作決策將通過人工智慧代理自主做出。人工智慧代理市場將顯著增長,從 2024年的51億美元增長到2030年的471億美元。Agent應用的深入,將推動Token消耗量呈百倍甚至更高量級的增長,由此帶來推理算力需求的更大爆發,並超過訓練算力需求。為提升能效比和降低成本,Google、亞馬遜、Meta、OpenAI等大型雲端運算和大模型廠商均加速佈局定製化ASIC,ASIC正逐步發展成為輝達GPU之外的重要新技術路線。摩根士丹利預計,AI ASIC市場規模將從2024年的120億美元增長至2027年的300億美元,複合增長率達34%。與此同時,Agent的廣泛使用將要求模型能處理更大規模的上下文,對模型基礎能力的提升也帶來更大挑戰。七、智力即服務是行業落地的終極方向以雲的方式,讓智能變成一種千行百業可按需呼叫的服務,將最終形成智力即服務(Intelligence as Service)的新形態。過去衡量經濟發展和數位化水平,會看用電量、用雲量,以後我們衡量智能的水平,可能要去看“用詞量”(Token)。DeepSeek等大模型的火熱,帶來了模型效果的全面升級,激發了中國各行業擁抱大模型的新熱潮。但當前,中美企業的生成式AI應用程度存在一定差距,中國企業應用大多處於試驗階段,離規模化使用還有距離。而美國企業應用更加廣泛和深入,2024年美國企業全面實施生成式AI的比例達24%,明顯高於中國的19%。美國政府和企業普遍採用公有雲部署AI,支援AI快速迭代,超過70%的組織使用雲端AI。受此推動,美國大公司最新一季度的雲端運算收入高速增長,如微軟達到409億美元,同比增長21%;亞馬遜為287.86億美元,同比增長19%‌;Google119.6億美元,同比增長30%。高性價比正在推動行業應用走深。自ChatGPT發佈兩年多來,大模型性能持續提升,推理成本顯著下降,如GPT-4o的API呼叫價格為每百萬輸出tokens 20美元,相比發佈時下降了三分之二。當前國內DeepSeek V3的每百萬Token 8元,混元多模態大模型TurboS每百萬Token低至2元。在模型能力效果大幅提升的同時,還為各行業大範圍部署提供了很高的性價比。近兩個月來,行業大模型落地成效顯著,已有政務、金融、醫療、教育、傳媒、文旅等30多個行業落地,大幅提升效率的同時,也在重構原有流程。包括深圳寶安政務、深圳醫保、上海徐匯城運中心、深圳大學、瑞金醫院、上海醫藥、重慶農商行、榮耀等公司都積極部署並探索大模型應用。以深圳寶安政務大模型應用為例,已覆蓋民生訴求、企業服務、政務辦公、社會治理等31個業務場景,覆蓋全區14個領域、20個行業近3萬餘條政府服務知識,整合了60多種模型能力,並可結合業務場景需要快速部署新的智能應用。行業應用中,優質資料是提效護城河。行業大模型比以往任何時候都更需要行業和企業內的優質資料,因為行業應用需要更準確、專業的知識,且對幻覺零容忍。在資料治理上的投入將獲得事半功倍的效果。而這往往需要很大的投入,也被經常認為是苦活兒和累活兒,是行業落地中最容易被忽視的部分。未來,大模型不僅在各行業縱深發展,更將通過跨領域協同、中小企業普惠、社會系統重塑等路徑,實現深度應用的立體化演進:從“場景適配”到“價值創造”,大模型從效率工具升級為業務增長引擎;從“資訊孤島”到“生態融合” ,跨領域資料的協同推動應用邊界擴展;從“企業級應用”到“社會系統重構” ,技術滲透進入深水區,引發企業和社會組織模式、就業和分配結構、社會倫理規範等全方位變革。 (騰訊研究院)