#開源模型
六國15家頂媒齊轉引:中國AI開源又好又便宜
2025年12月20日,法國最大通訊社法新社發佈報導《中國AI開源模型以高性價比悄然打入美國市場》,其中引述中國人民大學重陽金融研究院院長、全球領導力學院院長王文觀點:“中國開源模型價格低廉,甚至免費,而且效果很好”。該觀點在全球科技與政策圈廣泛傳播,美國《巴倫周刊》、新加坡《海峽時報》、法國France 24、沙烏地阿拉伯《阿拉伯新聞》、印度《今日傳播》、越南《勞動報》等六國15家頂級媒體密集轉引。以下為相關報導情況:12月20日,法新社發佈題為《中美AI競賽中,中國技術悄然打入美國市場》的報導,開篇即拋出一個震撼案例:一位美國企業家因將底層模型切換至阿里巴巴千問,實現每年節省40萬美元。文章指出中國開放模型的全球使用率已從2024年底的1.2%飆升至2025年8月的近30%。中國的主流模型以實際表現證明,開源路徑完全可以兼具高性能與低成本,從而改寫了技術選擇的遊戲規則。文章重點提及了王文的觀點:“中國的開源模型價格低廉,在某些情況下甚至是免費的,而且效果很好。”來自美國、法國、新加坡、沙烏地阿拉伯、印度、越南六國的15家核心媒體轉引這一觀點。《巴倫周刊》(Barron’s)、美國線上(AOL)、雅虎財經(Yahoo Finance)、《商業時代》(New Business Age)等面向歐美精英階層的主流財經與資訊平台迅速轉引。新加坡《海峽時報》(The Straits Times),印度《今日傳播》、《印度時報》、《歐亞時報》,法國國際新聞台(France 24),阿拉伯世界頗具影響力的《阿拉伯新聞》(Arab News)亦跟進轉載,將討論推及更廣闊的歐亞大陸。▲部分報導截圖如上這是2025年中國人民大學重陽金融研究院(人大重陽)在AI領域面向國際輿論場的又一次有力發聲。早在2025年年初,當DeepSeek在全球科技市場引發震動,人大重陽就已開始聚焦其全球影響,迅速啟動相關專題研究。2月23日,在人大重陽承辦的通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會上,首份DeepSeek高校智庫評估報告《大跳躍:美國智庫、媒體與行業論DeepSeek中國人工智慧》(該報告論文版發佈於核心期刊《智庫理論與實踐》2025年3月第10卷第2期,作者係人大重陽院長王文、副研究員申宇婧、助理研究員金臻)一經發佈,隨即引發熱烈反響。▲2025年2月23日,通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會在中國人民大學召開報告建議,應該客觀冷靜看待中國AI的發展階段與競爭格局,在制度建設、人才培養、企業創新等各個層面,以長期主義推動中國AI可持續發展,踐行“科技為民、科技惠民”理念,在積極參與人工智慧國際治理的同時,要守住AI發展紅線,警惕技術發展失控危機,引發40余家中外媒體轉引報導。▲報告封面如上3月1日,人大重陽宏觀研究部副主任、副研究員申宇婧在“長安街知事”微信公眾號發表文章呼籲變革AI實力評價標準,批判單純堆砌參數的“冷冰冰”路徑,力主中國“降本、增效、協同、普惠”的發展哲學,將DeepSeek的普及定義為一場深刻的社會革命。11月5日,在第八屆虹橋國際經濟論壇上,王文受邀做客央視新聞直播間,以“AI上進博,未來科技有多炸”為主題,解讀在全球科技競爭加劇的前提下,創新與合作如何雙向發力:“以人工智慧為代表的新一代工業革命,中國走在了世界最前沿,中國通過一代、兩代、三代人的不懈努力,有了科技自信的資本……而進博會提供了很好的平台,讓這些真正摸得到、感知的到、享受的到的智能產品惠及到每一個普通人。”▲部分報導截圖如上11月,王文與澳門科技大學博雅學院助理教授張夢晨在學術期刊《理論建設》2025年第6期發表論文《AI時代的全球領導力重塑:範式演化、政治哲學轉向與中國路徑》。系統闡釋了AI時代全球領導力正從“控制型”霸權向“共建型”範式演化,剖析美國“領導力赤字”,並為中國提出融合頂層設計、技術自主、數字外交與“數字命運共同體”建構的完整行動路徑。 (人大重陽)
智譜就差臨門一腳了
12月19日,智譜向港交所遞交了聆訊後資料集,由中金公司擔任獨家保薦人。成立於2019年的智譜,其技術源於清華大學電腦系的技術成果轉化,專注於大模型研發,有望成為全球首家以通用人工智慧(AGI)基座模型為核心業務的上市公司。招股檔案顯示,智譜IPO前估值243.8億元,股東包括美團、騰訊等產業資本,以及君聯、紅杉等機構。雖然智譜營收快速增長,但經營壓力仍大。2022年至2025年上半年,智譜累計虧損超62億元,研發投入達44億餘元。截至2025年6月末,公司現金及現金等價物為25.52億元,現金儲備面臨較大壓力。財務資料顯示,智譜在2022年、2023年、2024年及2025年上半年分別實現營收5740萬元、1.245億元、3.124億元和1.9億元,連續三年(2022至2024年)營收翻倍,復合年增長率高達130%。同時,其毛利率分別為54.6%、64.6%、56.3%和50%。弗若斯特沙利文資料顯示,按2024年營收計算,智譜在中國獨立通用大模型開發商中排名第一,在所有通用大模型開發商中位列第二,市場份額為6.6%。然而,其高增長背後是不斷擴大的虧損。同期,智譜經調整淨虧損分別為9740萬元、6.21億元、24.656億元和17.52億元,年內虧損則分別為1.44億元、7.88億元、29.58億元和23.58億元。值得注意的是,2025年上半年,智譜月均虧損近4億元,這一數字是同期月均營收的10倍以上,智譜將虧損歸因於研發投入。2022年至2025年上半年,智譜研發開支分別為8440萬元、5.289億元、21.954億元和15.947億元,其中2024年的研發開支約為當年營收的7倍。截至2025年6月30日,智譜研發團隊共有657人,佔員工總數的74%。其核心科研團隊與學術顧問團隊已發表論文500篇,累計被引次數超過58000次。技術層面,智譜自成立以來,陸續推出了中國首個百億參數模型、首個開源千億參數模型、首個對話模型以及首個多模態模型。2025年,其推出的GLM-4.5/4.6在12項權威評測中綜合排名位列國內第一,並在全球開源模型中排名第一。GLM-4.6發佈時即適配寒武紀、摩爾線程等國產晶片,目前GLM架構已相容40餘款國產晶片。2025年6月,OpenAI在行業分析報告中將智譜列為全球主要競爭對手之一。在收入結構方面,2022年至2024年及2025年上半年,智譜本地化部署業務的營收佔比分別為95.5%、90.4%、84.5%和84.8%,而云端部署業務的營收佔比則分別為4.5%、9.6%、15.5%和15.2%。可以看出,本地化部署仍是智譜的核心收入來源,2024年貢獻了84.5%的營收。這種模式在發展初期,幫助智譜深入滿足政企客戶的定製化需求,但規模化擴張能力相對受限。為此,智譜正在推動商業模式轉型,將重心逐步轉向雲端部署與MaaS(模型即服務)模式。智譜自2021年起佈局MaaS平台,目前開放平台上已匯聚超過270萬企業及應用開發者。截至2025年9月30日,其模型服務覆蓋全球12,000家企業客戶、超8,000萬台終端裝置使用者,以及超過4,500萬名開發者。因此,日均token消耗量從2022年的5億增長至2025年上半年的4.6兆。智譜的目標是將API呼叫服務收入佔比提升至50%。據披露,面向全球開發者的模型服務業務年度經常性收入已突破1億元。2024年,智譜曾密集推出語音互動、視覺理解、視訊生成等多模態大模型,但從2025年起策略收縮,重新聚焦於基座大模型與程式碼大模型等更適配API規模化分發的核心賽道。智譜MaaS平台主要服務科技網際網路和企業客戶,國內前十的網際網路公司有九家用其模型。但隨著雲廠商紛紛入局,競爭加劇,其雲端業務能否持續增長仍存疑。客戶集中度方面,2022年至2024年及2025年上半年,智譜來自五大客戶的收入分別佔總收入的55.4%、61.5%、45.5%和40%,而來自最大客戶的收入佔比則分別為15.4%、14.7%、19%和11%。截至2025年6月末,智譜貿易及其他應收款項為4.53億元。招股檔案提示,智譜面臨客戶或第三方延期付款及違約相關的信貸風險,可能對其流動資金和財務狀況產生不利影響。從2024年起,智譜開始向海外客戶提供本地化部署服務,主要來自東南亞。2024年,中國大陸收入佔本地化部署總收入的99.5%,到2025年上半年降至88.4%,而東南亞市場佔比升至11.1%,對應收入1792.7萬元。不過,雖然智譜技術強、客戶多,但一直虧錢,研發投入又大,現金流緊張,加上大公司都在競爭,它想成功上市並持續發展,似乎還有很長的路要走。 (AI硅基未來)
小米“降維打擊”:MiMo-V2-Flash性能直逼GPT-5,成本僅零頭!
一場由科技巨頭小米掀起的AI風暴,正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash,這不僅僅是技術實力的秀肌肉,更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能,正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析:性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈,核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent(智能體)場景中表現尤為突出,同時也是日常任務的優秀通用助手。•極致效率與成本革命: 這款模型以每秒150個token的驚人速度進行推理,而成本更是低至每百萬輸入token 0.1美元,每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略,無疑將極大降低AI應用的門檻,為開發者和企業帶來巨大的紅利。•混合專家(MoE)架構: MiMo-V2-Flash採用MoE設計,總參數高達3090億,但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時,顯著降低了計算資源消耗。•混合滑動窗口注意力機制: 為瞭解決長文字處理的計算複雜度問題,MiMo-V2-Flash創新性地採用了5:1的混合比例,即5層滑動窗口注意力(SWA)搭配1層全域注意力交替使用,滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍,同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入,且性能不打折扣。•輕量級多Token預測(MTP): 區別於傳統模型的單token生成,MiMo-V2-Flash通過原生整合的MTP模組,能夠平行預測多個token,推理速度提升2到2.6倍。這不僅加速了生成效率,還解決了強化學習訓練中GPU空閒時間浪費的問題,實現了“一箭雙鵰”的效率提升。💡 性能對標:直逼頂尖,局部超越小米MiMo-V2-Flash的實測表現,足以讓業界震驚。•推理能力: 在大部分推理基準測試中,MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中,它甚至超越了Kimi K2 Thinking。•編碼與Agent能力: 在SWE-Bench Verified的Agent任務中,MiMo-V2-Flash取得了73.4%的高分,超越所有開源競爭對手,並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中,其解決率達到71.7%。在程式設計能力評估中,它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當,而成本僅為後者的一小部分。•通用能力: 除了技術型任務,MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋,意味著它不僅能寫程式碼、解數學題,還能即時獲取最新資訊。🚀 戰略佈局:AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash,並非孤立的技術展示,而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”: 小米MiMo團隊負責人羅福莉(前DeepSeek核心研究員)明確指出,MiMo-V2-Flash是其AGI(通用人工智慧)路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上,有著清晰且野心勃勃的長期規劃。羅福莉的加盟,本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”: 摩根士丹利分析師指出,小米旨在通過這款高性能模型,深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石,為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗,從而強化其生態護城河。•全面開源,建構生態: 小米選擇完全開源MiMo-V2-Flash,並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台,這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻,加速高性能AI技術在更廣泛場景中的應用和普及,從而凝聚開發者,共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈,猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今,小米正以0.1美元/百萬token的超低成本和頂級的性能,重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破,更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下,小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置,為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”,真的來了。 (澤問科技)
小米突然發佈新模型:媲美 DeepSeek-V3.2,把手機的性價比捲到 AI
開源模型再次迎來一位重磅選手,就在剛剛,小米正式發佈並開源新模型 MiMo-V2-Flash。MiMo-V2-Flash 總參數 3090 億,活躍參數 150 億,採用專家混合架構 (MoE),性能還能和 DeepSeek-V3.2、Kimi-K2 這些頭部開源模型掰掰手腕。此外,MiMo-V2-Flash 採用 MIT 開源協議,基礎版權重也已經在 Hugging Face 上發佈。當然,除去「開源」這一標籤,新模型真正的殺手鐧在於架構設計上的激進創新,把推理速度拉到了 150 tokens/秒,成本壓到了每百萬 token 輸入 0.1 美元、輸出 0.3 美元,主打一個超絕性價比。此外 ,根據官方體驗頁面資訊,MiMo-V2-Flash 還支援深度思考和聯網搜尋功能,既能對話聊天,也能在需要即時資料、最新動態或資料核對的場景裡派上用場。附上 AI Studio 體驗地址:http://aistudio.xiaomimimo.com開源模型新標竿,MiMo-V2-Flash 跑分全線開花先來看看 MiMo-V2-Flash 的跑分。基準測試成績顯示,AIME 2025 數學競賽和 GPQA-Diamond 科學知識測試中,MiMo-V2-Flash 都排在開源模型前兩名。程式設計能力更是亮眼,SWE-bench Verified 得分 73.4%,超越所有開源模型,直逼 GPT-5-High。而這個測試是讓 AI 去修真實世界的軟體 bug,73.4% 的成功率也意味著它能搞定大部分實際程式設計問題。在多語言程式設計基準測試 SWE-Bench Multilingual 裡,MiMo-V2-Flash 的解決率為 71.7%。轉看智能體任務,MiMo-V2-Flash 在τ²-Bench 分類得分中,通訊類 95.3 分,零售類 79.5 分,航空類 66.0 分,BrowseComp 搜尋代理得分 45.4,啟用上下文管理後直接飆到 58.3。這些資料說明,MiMo-V2-Flash 不僅會寫程式碼,還能真正理解複雜任務邏輯,執行多輪智能體互動。更重要的是,寫作質量也接近頂級閉源模型,這意味著 MiMo-V2-Flash 不只是個工具,還能當個靠譜的日常助手。MiMo-V2-Flash 在保持長文字性能的同時,還降低了成本,究其原因,離不開兩項核心技術創新。混合滑動窗口注意力機制:傳統大模型處理長文字時,全域注意力機制會導致計算量二次爆炸,儲存中間結果的 KV 快取也跟著飆升。小米這次採用了 5 比 1 的激進比例,5 層滑動窗口注意力搭配 1 層全域注意力交替使用,滑動窗口只看 128 個 token。這種設計讓 KV 快取儲存量直接減少了近 6 倍,但長文字能力卻沒打折扣,最長支援 256k 上下文窗口。且模型即使在這麼激進的窗口設定下,照樣能穩住長文字性能。對此,羅福莉在社交平台上特別指出一個反直覺的發現:窗口大小 128 是「最佳甜點值」。實驗證明,盲目擴大窗口(如增至 512)反而會導致性能下降。同時她強調,在實施該機制時,sink values 是維持性能的關鍵,絕不可省略。另一個黑科技是輕量級多 Token 預測 (MTP)。傳統模型生成文字時一次只能吐一個 token,就像打字員一個字一個字敲。MiMo-V2-Flash 通過原生整合的 MTP 模組,能平行預測多個 token,一次性猜出接下來好幾個 token。實測平均能接受 2.8 到 3.6 個 token,推理速度直接提升 2 到 2.6 倍,不僅在推理時管用,訓練階段也能加速採樣,減少 GPU 空轉,屬於一箭雙鵰。羅福莉提到,在三層 MTP 設定下,他們觀察到平均接受長度超過 3,編碼任務速度提升約 2.5 倍。它有效解決了小批次 On-Policy 強化學習中「長尾樣本」帶來的 GPU 空閒時間浪費問題。啥叫長尾樣本?就是那些特別難、特別慢的任務,拖著其他任務一起等,GPU 就在那乾瞪眼。MTP 把這個問題給解了,極大提高了效率。不過羅福莉也坦誠,這次因為時間緊迫沒能把 MTP 完整整合進 RL 訓練循環,但它與該流程高度契合。小米已經把三層 MTP 開源了,方便大家在自己的項目中使用與開發。算力只用 1/50,性能如何不打折?預訓練階段,新模型使用 FP8 混合精度,在 27 兆 token 資料上完成訓練,原生支援 32k 序列長度。FP8 混合精度是一種壓縮數值表示的技術,能在保持精度的同時減少視訊記憶體佔用和加速訓練。這種訓練方式在業界並不常見,需要對底層框架進行深度最佳化。而在後訓練階段,小米整了個大活,提出了多教師線上策略蒸餾 (MOPD)。傳統的監督微調加強化學習管線,不僅訓練不穩定,算力消耗還賊高。MOPD 的思路是讓學生模型在自己的策略分佈上採樣,然後由多個專家教師在每個 token 位置提供密集的獎勵訊號。通俗點說就是,學生模型自己寫作業,老師在每個字上都給評分,不用等寫完整篇才打分。這樣一來,學生模型能快速從教師那裡學到精髓,而且訓練過程穩定得多。最誇張的是效率提升,MOPD 只需要傳統方法 1/50 的算力,就能讓學生模型達到教師性能峰值。這意味著小米能用更少的資源,更快地迭代模型。而且 MOPD 支援靈活接入新教師,學生模型成長後還能反過來當教師,形成「教與學」的閉環自我進化。今天的學生,明天的老師,後天又能教出更強的學生,套娃玩法屬實有點東西。用羅福莉的話來說,他們借鑑 Thinking Machine 的 On-Policy Distillation 方法,將多個強化學習模型進行融合,結果帶來了驚人的效率提升。這為建構一個自我強化循環系統奠定了基礎,學生模型可以逐步進化,最終成為更強的教師模型。在智能體強化學習擴展上,小米 MiMo-V2-Flash 研究團隊基於真實 GitHub issue 建構了超過 10 萬個可驗證任務,自動化流水線跑在 Kubernetes 叢集上,並行能開 10000 多個 Pod,環境部署成功率 70%。針對網頁開發任務,還專門搞了個多模態驗證器,通過錄製視訊而非靜態截圖來驗證程式碼執行結果,直接減少視覺幻覺,確保功能正確。對於開發者而言,MiMo-V2-Flash 能與 Claude Code、Cursor、Cline 等主流開發環境無縫配合,256k 的超長上下文窗口支援數百輪智能體互動與工具呼叫。256k 是什麼概念? 大概相當於一本中等篇幅的小說,或者幾十頁技術文件。這意味著開發者可以把 MiMo-V2-Flash 直接融入現有工作流,不需要額外適配,拿來就用。小米還把所有推理程式碼貢獻給了 SGLang,並在 LMSYS 部落格分享了推理最佳化經驗。技術報告公開了完整模型細節,模型權重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 許可協議發佈。這種全面開放原始碼的態度,在國內大廠裡屬實少見。目前 MiMo-V2-Flash 已經在 API Platform 限時免費開放,開發者可以直接上手體驗。小米的 AI 野心,不止於手機助手MiMo-V2-Flash 的發佈,標誌著小米在 AI 賽道上的全面發力。羅福莉在社交平台上透露了更多資訊,「MiMo-V2-Flash 已正式上線。這只是我們 AGI 路線圖上的第二步。」第二步就已經這麼猛了,那後面還有啥大招?想想就有點期待。當然,小米在技術報告中也坦誠,MiMo-V2-Flash 與最強的閉源模型相比仍有差距。但他們的計畫很明確,通過擴大模型規模與訓練算力來縮小差距,同時繼續探索更穩健、更高效的智能體架構。MOPD 框架下教師模型與學生模型的迭代共進化,也為未來的能力提升留足了空間。把視角拉高來看,背後是小米對整個 AI 生態的一次戰略押注。手機、IoT、汽車,小米的硬體生態需要一個強大的 AI 底座,MiMo-V2-Flash 顯然就是小米為全硬體生態準備的那塊基石。就像十四年前小米手機用 1999 元重新定義了旗艦機的價格標準,如今 MiMo-V2-Flash 正在用白菜價的成本、73.4% 的 SWE-Bench 得分,重新定義開源大模型的性能標準。這一次,屬於開源模型的「小米時刻」真的來了。 (APPSO)
DeepSeek V3.2 正式版發佈,V4 還沒來,但已經是開源模型裡 Agent 能力最強了
DeepSeek 又更新了,依舊是迭代了一年的 V3 系列,但這次給出的是 V3.2 正式版。9 月底,DeepSeek 推出了實驗性模型 DeepSeek-V3.2-Exp,在 V3.1-Terminus 的基礎上,引入了 DeepSeek Sparse Attention(DSA)技術,大幅提升了長文字處理的效率。今天,發佈的兩個正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,重點在推理、以及 Agent 能力的提升。DeepSeek-V3.2-Speciale 作為開源模型,在 IMO 2025、CMO 2025 等主流推理基準測試上的性能表現媲美 Gemini-3.0-Pro。有意思的是,Deepseek 在前幾天剛剛發佈了一個數學模型 DeepSeek-Math-V2,正是基於 DeepSeek-V3.2-Exp-Base 開發。這個數學模型實現了 IMO 金牌級的水平。同時,這次 V3.2 正式版發佈最值得一提的是,把思考過程融入到了工具呼叫中,模型能夠同時支援思考模式和非思考模式的工具呼叫。在各類智能體工具呼叫評測集上,DeepSeek-V3.2 達到了目前開源模型的最高水平。DeepSeek 官方稱,模型未針對測試集進行特殊訓練,在真實場景中顯示出了較強的泛化能力。目前,正式版 DeepSeek-V3.2 已在網頁端、App 和 API 上線。Speciale 版本以臨時 API 形式開放。API 支援 DeepSeek-V3.2 思考模式下的工具呼叫能力。技術報告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf01 V3 版本迭代了一年,V4 還是沒來去年 12 月 25 日發佈的 DeepSeek V3,今年 1 月 20 日發佈的 DeepSeek R1,R1 也正式引爆了這一年的 DeepSeek 和國內開源模型的熱潮,Kimi、MiniMax 等也相繼開源,並且取得了不錯的成績。不過梳理了 DeepSeek2025 年的發佈可以發現,今年一直在走小版本迭代和功能累加的路線。核心增強的點是:MoE 本身架構的一些改進,包括強化、DSA 等。Agent 工具使用能力的強化,從 V3.1 開始對工具使用能力的強化,到 3.2 增加思考模式下的工具使用能力,而且有了更泛化的工具使用能力。思考/非思考模型的統一,V3.1 就統一了 R1 和 V3,成為了一個混合推理模型,這也是當下閉源模型的大勢所趨,Gemini、Claude 和 GPT-5 都是這樣。DeepSeek 2025 年的發佈梳理和 V3.1-Exp 版本類似,這次也發佈了一個測試版本:DeepSeek-V3.2-Speciale,DeepSeek-V3.2 的長思考增強版,同時結合了 DeepSeek-Math-V2 的定理證明能力,試圖將開源模型的能力推到極致的版本,也許在這個測試之後,可能 V3.3(如果有的話)也會持續在這個版本上迭代。從年終就開始謠傳的 DeepSeek V4 或者 R2 即將發佈,到現在,我們也沒看到 DeepSeek 基模的大版本發佈。如果 Agent 的工具能力繼續在 V3 版本進行增強,對於明年要發佈的大版本(應該會在明年吧),感覺可以期待的東西似乎更多了,比如多模態?更長的上下文?更厲害的 Agent 能力?很期待 DeepSeek 下一個版本,我們能見到 V4。02 正式版 DeepSeek-V3.2:推理能力達到 GPT-5 水平DeepSeek-V3.2 的目標是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用 Agent 任務場景。在公開的推理類 Benchmark 測試中,DeepSeek-V3.2 達到了 GPT-5 的水平,僅略低於 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的輸出長度大幅降低,顯著減少了計算開銷與使用者等待時間。DeepSeek-V3.2-Speciale 的目標則是將開源模型的推理能力推向極致。它是 V3.2 的長思考增強版,並結合了 DeepSeek-Math-V2 的定理證明能力。Speciale 版本模型在主流推理基準上的表現與 Gemini-3.0-Pro 不相上下。同時,在多項頂級學術競賽中達到金牌水平,包括 IMO 2025(國際數學奧林匹克)、ICPC 2025(國際大學生程式設計競賽)等,其中 ICPC 和 IOI 的成績分別達到了人類選手第二名和第十名的水平。但 Speciale 版本 是針對高度複雜任務最佳化,消耗的 Token 更多、且成本更高,目前僅供研究使用,不支援工具呼叫,未針對日常對話最佳化。DeepSeek-V3.2 與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗 Tokens 總量約數)03 工具呼叫也能 thinking 了本次更新的一個核心突破是將思考過程融入工具呼叫。DeepSeek-V3.2 同時支援思考模式與非思考模式的工具呼叫。DeepSeek 提出了一種大規模 Agent 訓練資料合成方法,建構了大量「難解答,易驗證」的任務,顯著提升了模型的泛化能力。DeepSeek-V3.2 與其他模型在各類智能體工具呼叫評測集上的得分在各類智能體工具呼叫評測集上,DeepSeek-V3.2 達到了當前開源模型的最高水平,大幅縮小了與閉源模型之間的差距。但模型並未針對測試集進行特殊訓練,在真實場景中具有較強的泛化性。 (Founder Park)
小米打通智駕和具身大模型,然後開源了
全球首個自駕+機器人統一基座模型開源了!針對自駕與具身操作場景的知識遷移難題,小米汽車陳龍團隊提出並開源了全球首個打通這兩大領域的跨具身(X - Embodied)基座模型——MiMo-Embodied。MiMo-Embodied基於MiMo-VL架構,通過建構涵蓋通用視覺、具身任務及駕駛場景的高品質資料集,並採用包含思維鏈(CoT)和強化學習(RL)的漸進式四階段訓練策略,有效打破了室內操作與戶外駕駛之間的領域鴻溝。在實測效果上,MiMo-Embodied在自動駕駛與具身智能共計29個Benchmark上均超越了現有的專用模型及通用模型,實現了跨領域的最先進(SOTA)性能。無論是開車的環境感知、規劃,還是機器人的拿取、導航,主打一個我全都要。具身與智駕,小米全都要!在以往具身/自駕的VLM領域中,往往存在以下問題:一方面是缺乏統一的具身VLM(Unified Embodied VLM)。現有的視覺語言模型(VLMs)大多專注於單一領域(僅室內任務或僅戶外駕駛),缺乏能夠連接這兩個領域的統一模型。限制了模型在動態環境中與物理世界有效互動的能力。而這,也帶來了領域差距與遷移困難。具身智能側重於室內操作,而自動駕駛側重於戶外道路,兩者存在顯著的領域差距(Domain Gap),阻礙了能力的跨領域遷移 。另一方面則是評估體系缺失, 即缺乏全面的跨具身能力評估體系來衡量模型在兩個領域的綜合表現。為瞭解決這些挑戰, MiMo-Embodied試圖將自動駕駛和具身智能的任務合併到一個統一的VLM中,以整合模型的跨具身能力。如上圖所示,MiMo-Embodied架構由以下三個部分組成:用於編碼視覺輸入的 Vision Transformer (ViT):模型使用ViT來編碼各種類型的視覺輸入,包括單張圖像、多張圖像和視訊。這使得模型能夠提取複雜的模式和關係。一個投影器(projector): 使用多層感知機(MLP)作為投影器(Projector),將視覺Token對應到與大語言模型對齊的潛在空間。負責文字理解和推理的LLM:LLM作為核心元件,負責理解文字指令並結合視覺資訊進行推理,生成連貫且上下文相關的響應。由此,通過無縫整合視覺和文字領域,MiMo-Embodied增強了多樣化多模態推理任務和應用的潛力。接下來,為了實現跨領域的統一能力,論文提出了一套系統的資料建構和分階段訓練策略:首先在資料方面,訓練資料涵蓋了通用多模態理解、具身 AI(功能性預測、規劃、空間理解)和自動駕駛(感知、預測、規劃)三個維度的多模態資料:通用資料:基於MiMo-VL語料庫,包含圖像、視訊、長文字等,長文件和合成推理資料,確保廣泛覆蓋感知、推理和互動能力。具身智能資料:涵蓋可供性預測(Affordance Prediction)、高層任務規劃和空間理解,整合了如 PixMo-Points, RoboAfford, RoboRefIt等資料集。自動駕駛資料:涵蓋環境感知、狀態預測和駕駛規劃,整合了 CODA-LM, DriveLM, nuScenes-QA等資料集。基於上述建構的資料集,研究又開發了一種四階段訓練策略。基於MiMo-VL,研究引入了具身智能和自動駕駛方面的專門監督,最終通過思維鏈微調和強化學習實現高級推理能力 。這一策略有助於模型建立在先前獲得的能力之上,從而在具身互動和自動駕駛領域實現穩健的性能。階段1:具身智能監督微調 (Embodied AI Supervised Fine-tuning):結合通用資料和具身資料,建立核心的視覺語言理解、具身推理能力。階段2:自動駕駛監督微調 (Autonomous Driving Supervised Fine-tuning): 在階段1的基礎上,加入大量自動駕駛資料。重點訓練多視角空間推理、視訊時間一致性和複雜交通場景分析 。階段3:思維鏈推理微調 (CoT Supervised Fine-tuning): 使用包含明確推理步驟的資料進行微調。這增強了模型處理複雜多步問題的能力,例如風險評估和行為合理性解釋。階段4:強化學習微調 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 演算法。通過針對正確性(如選擇題匹配、IoU計算)設計獎勵訊號,進一步最佳化模型的精確度和可靠性。實驗測試為了驗證MiMo-Embodied的性能,研究分別在定性和定量兩層面進行評估,定量比較涉及針對具身智能和自動駕駛的各種既定學術和行業基準的客觀評估,從而能夠與領先模型進行直接的實證比較。定性評估則展示了MiMo-Embodied在現實世界任務中的實際效能,突出了其在複雜機器人和自動駕駛場景中的部署,並提供了其將習得能力轉化為有效性能的具體證據 。基準測試上的定量比較首先,在具身能力方面,研究在三個核心領域進行了全面評估:可供性預測、任務規劃和空間理解。結果表明,MiMo-Embodied 取得了具有競爭力的結果,與通用多模態模型和專用具身模型相比,在可供性預測和空間理解方面表現出特別的優勢。其次,在自動駕駛能力方面,研究在感知能力、預測能力和規劃能力上進行了評估。包含在4種資料類型上的12個基準測試中的性能,涉及其理解複雜交通場景、預測動態道路智能體行為以及生成安全高效駕駛建議的能力。實驗結果顯示,MiMo-Embodied在所有感知基準測試、預測、規劃中均取得了強勁的性能,在全景語義理解任務中展示了最先進的結果,同時在具有挑戰性的局部感知場景中也表現出卓越的魯棒性。現實世界任務的定性評估首先,為了驗證MiMo-Embodied 在複雜互動環境中的實際效用,研究評估了其在兩個基本下游應用中的性能:具身導航和操作。在具身導航中,相較於GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展現出在多樣化家庭場景中增強的對象定位能力和一致的性能。在操作任務中,MiMo-Embodied同樣展現出強大的可供性和空間推理能力。在自動駕駛能力上,研究首先在具有挑戰性的NAVSIM上確定性能以進行標準化比較,然後在一個包含多樣化真實世界駕駛場景的大規模專有資料集上測試模型的能力。實驗結果表明MiMo-Embodied可以處理多樣化的自動駕駛情況並完成具有挑戰性的任務,包括交叉路口轉彎、彎道掉頭、跟車和變道超車。在每種情況下,模型都應感知道路上下文,整合自車狀態和導航意圖,並做出連貫的決策。此外,MiMo-Embodied在所有評估類別中始終優於基線。值得注意的是,在轉彎、繞開障礙物和變道等複雜、互動式操作中,性能提升最為顯著。在最後,論文表示還將基於MiMo-Embodied模型的能力,探索具身智能視覺-語言-動作(VLA)模型,以增強複雜環境中的互動,通過自然語言理解實現更直觀的任務執行。One more thing這篇論文的一作是郝孝帥博士。他於今年8月加入小米汽車,在陳龍博士的指導下,從事具身多模態大模型方向的研究。郝孝帥博士畢業於中國科學院大學資訊工程研究所。此前,他曾在北京智源研究院、三星、亞馬遜等機構工作。這篇論文的project leader是小米智能駕駛的首席科學家陳龍博士,他此前就職於英國AI獨角獸公司Wayve,主導新一代端到端自動駕駛VLA模型的研發。更早前,他還以研究工程師身份加入Lyft,牽頭車隊學習項目,通過大規模眾包車隊資料完成自動駕駛車輛機器學習規劃器的預訓練。論文連結: https://arxiv.org/abs/2511.16518GitHub: https://github.com/XiaomiMiMo/MiMo-EmbodiedHuggingface: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B (量子位)
開源模型竟在空間智能領域超越GPT-5?商湯日日新打破AI三維認知瓶頸
開源模型竟在空間智能領域超越GPT-5?商湯日日新打破AI三維認知瓶頸一項評測資料顯示,商湯開放原始碼的8B參數模型在空間理解任務中以60.99分碾壓GPT-5的49.68分,這場看似不可能的反超,揭示了AI從“語言天才”邁向“物理世界通才”的關鍵轉折。一、空間智能:AI融入現實世界的最後一道壁壘當前大模型在知識推理、程式碼生成等領域已接近人類水平,卻在看似簡單的空間問題上頻頻“翻車”。例如,GPT-5能破解《最強大腦》級圖形推理題,卻敗給兒童等級的立方體俯檢視選擇題,錯誤選擇選項A(正確答案為B)。這種“二維智能”與“三維現實”的割裂,成為自動駕駛、機器人等具身智能落地的核心瓶頸。圖片來源:商湯科技 人類兒童可輕易解決的空間問題,卻難倒頂級大模型(來源:商湯評測案例)二、技術破局:Scale Law在空間認知領域的首次驗證商湯SenseNova-SI的突破性表現,源於對空間智能的系統性重構:1. 六大能力維度覆蓋首次建立覆蓋空間測量、重構、關係、視角轉換、形變與推理的完整能力體系,避免單一能力短板。1. 資料尺度效應實證通過高品質資料規模化訓練,使8B模型在VSI/MMSI/MindCube/ViewSpatial四大基準平均分達60.99,較同規格開源模型(如Qwen3-VL-8B的40.16分)領先超50%。1. 通用增強範式訓練方法適配InternVL等主流架構,實現基模型空間能力的“無損升級”。圖片來源:商湯科技 四大權威基準評測結果(來源:商湯GitHub)三、性能碾壓:開源模型為何能反超閉源巨頭?在關鍵場景測試中,SenseNova-SI-8B展現出壓倒性優勢:• 俯檢視推理:GPT-5誤選D,商湯模型正確選B(SITE-Bench題庫)• 相對方位判斷:GPT-5錯誤判斷摩托車在左側,商湯正確識別右側• 動態場景預測:在多車道場景中,GPT-5錯誤預測車輛靜止,商湯精準判斷右轉動作圖片來源:商湯科技 空間推理任務對比:GPT-5(左)vs SenseNova-SI(右)更值得關注的是,該模型以僅8B參數量實現對GPT-5(49.68分)和Gemini 2.5 Pro(48.81分)的超越,證明性能突破並非依賴參數堆砌,而是技術範式的本質創新。四、生態衝擊:開源戰略重構AI競爭格局商湯此次同步開源測評平台EASI與“英雄榜”,意圖明顯:1. 標準定義權爭奪通過建立空間智能評估基準,引導行業技術發展方向。1. 開發者生態建構降低企業應用門檻,加速技術在下游場景滲透。1. 反哺閉源業務開源模型為商湯“悟能”具身智能平台提供技術驗證與人才引流。圖片來源:商湯科技 空間智能測評平台EASI架構(來源:GitHub)五、商業化前景:給AI裝上“空間GPS”空間智能的技術突破,將直接推動三大場景落地加速:1. 自動駕駛車輛對複雜路況的時空關係理解能力提升,減少Corner Case事故。1. 工業機器人機械臂在非結構化環境中的物體抓取、避障精度顯著提高。1. AR/VR應用虛擬物體與物理空間的即時精準疊加,提升沉浸式體驗。圖片來源:宸境科技 空間智能技術在自動駕駛、城市管理等場景的應用(來源:行業方案)六、未來挑戰:開源模型能否持續領跑?儘管SenseNova-SI取得突破,但仍需面對:• 資料壁壘:閉源廠商可能通過私有場景資料重建優勢• 算力門檻:大規模空間資料訓練仍需高昂成本• 泛化能力:當前評測集中於靜態任務,動態互動能力待驗證結語:AI三維認知的時代拐點商湯此次開源不僅是一次技術展示,更標誌著AI從“感知二維訊號”邁向“理解三維世界”的範式轉換。當開源模型在核心能力上比肩甚至超越閉源巨頭,整個行業的技術擴散速度與創新節奏將被重新定義。對於技術決策者而言,現在正是佈局空間智能應用場景的關鍵窗口期——因為能“看懂”世界的AI,終將重塑所有與物理空間互動的行業。 (Mr.velar)
最佳VLA模型GigaBrain-0開源:世界模型驅動10倍資料,真機碾壓SOTA
中國國內首個利用世界模型生成資料實現真機泛化的端到端VLA具身基礎模型GigaBrain-0重磅發佈。近日,在湖北武漢東湖高新區,極佳視界與湖北人形機器人創新中心完成戰略合作簽約,並聯合發佈端到端VLA「具身基礎模型」GigaBrain-0。這是國內首個利用「世界模型」生成資料實現真機泛化的視覺-語言-動作(VLA)基礎模型,旨在通過世界模型為中心,無論在資料側還是模型側,徹底改變通用機器人大腦的開發方式。GigaBrain-0擁有當前最先進的VLA模型架構,同時支援圖像、點雲、文字、本體狀態的輸入,輸出結構化的任務規劃和運動規劃,並在大規模的資料上完成預訓練,可以實現更精準的移動導航和長序列的複雜操作。搭配極佳視界自研「世界模型平台GigaWorld」,建構最完整的具身資料體系,可以快速實現多種本體上複雜的機器人移動操作任務。後續GigaBrain-0將全面開源。項目連結: https://gigabrain0.github.io/論文連結: https://arxiv.org/pdf/2510.1943001. 核心演算法架構升級針對當前機器人操作中的精準度不足和推理能力不足的問題,GigaBrain-0重點提升了3D空間感知能力和結構化的推理能力,通過引入這兩項關鍵能力,GigaBrain-0可以完成更精準的移動導航和更長序列的複雜操作,具備更強泛化性,全球首次通過一腦多形、一段式端到端全身控制模型、一鏡到底完成衣物整理類複雜、柔性、長程移動操作任務!1. 3D空間感知能力:加入Depth輸入,更精準的移動導航GigaBrain-0通過加入深度資訊的輸入,提升了物體3D位置和空間3D佈局的感知能力,這兩點對於精確的雙臂操作和精確的移動導航至關重要。2. 結構化推理能力:更穩定的長程、複雜任務表現GigaBrain-0通過引入子目標拆解和機械臂末端軌跡輸出,改進了自身在開放場景中的任務規劃和運動規劃能力,極大提升了複雜、長程任務的成功率:子目標拆解:模型在推理過程中,可以同時輸出子任務的自然語言描述,讓GigaBrain-0對於長程任務的分解更合理。末端軌跡輸出:模型在推理過程中,增加了機械臂末端執行器運動路徑在圖像平面上2D投影的輸出,增強GigaBrain-0整體的全域動作規劃能力。02. 全球首個「世界模型」驅動的最全資料體系世界模型無論在資料側還是模型側,對於具身智能都有極其關鍵的價值。極佳視界通過「世界模型」為中心,打造了全球首個最全具身智能資料體系,具體包括:Sim2Real Transfer Data: 利用Isaac Sim等模擬環境合成多樣化的機器人運算元據,通過GigaWorld的Sim2Real變換,實現逼真的外觀渲染,同時保留原始場景幾何和動作語義。Real2Real Transfer Data: 將真實世界機器人採集的視訊重新渲染成外觀幾何上不同但物理上合理的變體,通過文字提示來控制前景及背景的材質、表面紋理、光照條件,同時保持機器人動作和互動的一致性。這有效地將真實資料的多樣性提高了約10倍。View Transfer Data: 利用GigaWorld的3D空間場景重建能力,將單個真實採集的資料片段生成新視角的資料片段。Video Generation Data: GigaWorld可以根據單個輸入圖像和不同的文字提示生成多樣化的具身機器人操作視訊,並通過逆動力學模型推斷出相應的機器人動作序列,合成訓練資料。Human Transfer Data: 通過視訊變換和運動學重新導向,將大規模第一人稱視訊中的人手取代為機械臂,生成穩定且可由機器人執行的動作序列。我們在多個任務上驗證了世界模型生成資料對於具身機器人真機操作任務的價值,結果表明通過增加世界模型生成的資料進行預訓練和後訓練,GigaBrain-0的真機操作成功率可以持續提升,並且全球首次實現了連續柔性複雜長程操作的開放世界泛化。同時,通過混合世界模型生產的資料和真機採集資料,GigaBrain-0可以快速完成特定本體上的任務適配和泛化。通過「世界模型」驅動的具身最全資料體系,極佳視界將持續迭代具身大模型,加速走向物理世界通用智能。03. 高效的一腦多形跨本體適配極佳視界聯合湖北人形機器人創新中心共同完成大規模預訓練資料的採集,資料覆蓋了工業、商業、辦公、家居、實驗室這5類場景,細分為超市、酒店大堂、咖啡店、奶茶店、便利店、餐廳、倉庫搬運、工業流水線、茶水間、住宅、公寓家居、會議室、辦公室工位、實驗室這14個具體場景。結合場景豐富的預訓練資料和先進的模型架構,GigaBrain-0擁有優秀的任務規劃能力,進一步借助「極佳世界模型平台」,極佳視界可以在不同的本體上快速實現複雜的機器人操作任務。極佳視界聯合湖北人形機器人創新中心,全球首次基於高整合度人形機器人本體,一鏡到底實現即時、長程、複雜、柔性操作!接下來雙方將有更深入的合作。04. 實驗結果GigaBrain-0通過真實機器人實驗進行了評估,包括靈巧操作任務(如疊衣服、整理捲紙)、長程任務(如收拾桌面、倒飲料)和移動操作任務(如搬運箱子、拾取衣物)。實驗結果表明,GigaBrain-0的成功率顯著優於現有SOTA方法。關於極佳極佳視界專注「世界模型平台 x 具身基礎模型」,雙輪閉環走向物理世界通用智能。在「世界模型」方向,極佳視界是國內技術創新和產業落地的領跑者,相關產品技術廣泛應用於自動駕駛、具身智能、內容創作等相關方向。在「具身大腦」方向,極佳視界通過全球領先的「世界模型平台」提供大規模高品質閉環資料,相比純真機資料訓練效率提升1-2個數量級以上,同時真機效果達到國內領先。極佳視界由黃冠博士帶領團隊於2023年創立,是國內第一家專注「世界模型 x 具身大腦」方向的科技公司。公司核心團隊包括清華、北大、中科院、中科大、WashU、CMU等全球知名院校頂尖研究人員,以及來自微軟、三星、地平線、百度、博世、NBC環球影業等全球知名企業高管,核心團隊兼具業內領先的研究能力和大規模的產業落地經驗。極佳視界是國內少有在「世界模型」和「具身大腦」方向都擁有世界級綜合實力的團隊,在自動駕駛世界模型方向已經和多個頭部主機廠達成簽約合作,在具身世界模型、具身大腦等方向已經和多個具身本體、終端公司達成簽約合作,應用於科研、教育、展覽、資料採集、工業、服務、家庭等多個場景。極佳視界致力通過「世界模型平台 x 具身基礎模型」,創造物理世界通用智能。 (新智元)