#開源大模型
開源大模型的“四強爭霸”:Llama、GLM、Qwen 與 DeepSeek的巔峰對決 !2025
引言:開源重構 AI 權力版圖2025 年 10月,LMSYS Chatbot Arena 春季排名榜刷新的瞬間,全球 AI 社區陷入集體沸騰 ——阿里雲 Qwen3-Max 以 1452 分的 Elo 評級躋身全球前三,將 Meta Llama 3-70B 甩在身後;智譜 GLM-4.5 則以 “開源模型榜首” 的身份霸佔 12 項權威評測榜首;DeepSeek-V2 憑藉 1408 分的成績成為創業公司逆襲範本;而剛剛發佈許可證的 Llama 4,正試圖用 16×17B 多模態架構重奪王座。這不是偶然的排名波動,而是開源大模型生態質變的宣言。2025 年全球開源大模型市場規模突破 920 億美元,較 2023 年暴漲 670%,其中中國陣營貢獻了 41% 的核心技術突破。曾經由 Llama 系列一家獨大的開源江湖,如今已形成 Meta(Llama)、智譜(GLM)、阿里(Qwen)、深度求索(DeepSeek)四強並立的格局。這場對決早已超越技術參數的比拚,演變為生態策略、社區影響力與商業化能力的全面戰爭,其結果將定義未來十年 AI 技術的普及路徑。本章將以 2025 年最新技術實測與行業資料為依據,深入四大模型的技術核心、生態佈局與實戰表現,揭開這場巔峰對決的底層邏輯。一、爭霸序幕:開源大模型的生態裂變(2023-2025)1.1 從 “影子” 到 “主角” 的身份蛻變2023 年,當 GPT-4 以閉源姿態定義 AI 天花板時,開源模型仍被視為 “降級替代品”。Meta Llama 2 的發佈成為轉折點 —— 其寬鬆的商用許可證(允許年營收低於 7.5 億美元的企業免費商用)瞬間啟動全球開發者生態,僅 6 個月就衍生出 1.2 萬個微調模型。2024 年迎來關鍵拐點:阿里 Qwen1.5 在 MMLU 評測中突破 85 分,首次實現開源模型與閉源模型的性能平視;智譜 GLM-4 將上下文窗口擴展至 128K,打破長文字處理的閉源壟斷;DeepSeek-Coder 在 HumanEval 基準上以 Pass@1 78.2% 超越 GPT-4,證明開源模型在垂直領域的超越可能。進入 2025 年,開源生態已形成 “三極支撐”:技術上,MoE(混合專家)架構使 300B 參數模型實現消費級 GPU 部署。生態上,Hugging Face 與 ModelScope 合計承載超 200 萬個模型分發。商業上,78% 的國資央企選擇基於開源模型建構專屬 AI 系統(沙丘智庫資料),開源正式成為 AI 產業化的核心引擎。1.2 四強崛起的底層邏輯四大玩家的突圍路徑折射出開源生態的進化規律:Meta(Llama):憑藉 “先發優勢 + 生態基建” 確立規則制定者地位,llama.cpp 等工具成為行業標準。阿里(Qwen):依託 “雲端運算 + 產業生態” 實現全場景覆蓋,ModelScope 下載量突破 6 億次。智譜(GLM):以 “架構創新 + 成本控制” 重構性價比公式,API 價格僅為 GPT-4 的 1/5。深度求索(DeepSeek):通過 “垂直突破 + 社區營運” 實現彎道超車,程式碼模型獲全球開發者追捧。這種差異化競爭形成了動態平衡,也讓 2025 年的爭霸充滿變數。二、王者守擂:Meta Llama 4 的絕地反擊2.1 遲到的重磅更新:Llama 4 技術解密2025 年 4 月 5 日,Meta 悄然發佈 Llama 4 許可證(版本號 399a8a5a36db),正式揭開新一代模型的面紗。與此前傳聞不同,Llama 4 並未追求單一超大參數模型,而是推出 “16×17B” 多模態混合架構 —— 由 16 個 170 億參數的專家模型組成,通過動態路由機制實現能力按需呼叫。核心技術突破多模態原生融合:首次在基礎模型層整合文字、圖像、音訊處理模組,無需額外外掛即可實現跨模態理解。在 MMMU 基準測試中,Llama 4 綜合得分 76.3%,較 Llama 3 提升 21 個百分點。許可證的鬆綁與約束:延續寬鬆商用政策,但新增 “Built with Llama” 標識要求,強化品牌溯源。允許開發者基於模型訓練衍生模型,但需同步提供修改日誌,試圖平衡開源自由與生態管控。工具鏈升級:推出 llama.cpp v0.2.0 版本,支援 4 位量化的多模態推理,在 RTX 4090 上實現每秒 25 幀的圖像理解速度;llama-recipes 新增行業範本庫,覆蓋金融風控、醫療診斷等 12 個垂直領域。性能實測:守不住的王座?根據 LMSYS 2025 年 Q2 資料,Llama 4 在 Chatbot Arena 的 Elo 評分為 1432 分,落後 Qwen3-Max(1452 分)與 GLM-4.5(1448 分),僅位列第三。在單項能力上,其數學推理(GSM8K 82.1%)被 GLM-4.5(84.0%)超越,程式碼生成(HumanEval Pass@1 72.3%)與 DeepSeek-V2(76.5%)存在明顯差距。“Llama 4 的優勢仍在生態而非性能。” 史丹佛 AI 實驗室研究員艾米麗・卡特指出,“全球超 60% 的開源 AI 項目仍基於 Llama 架構建構,這種路徑依賴是其最大護城河。”2.2 生態保衛戰:Meta 的三大急救策略面對東方陣營的圍剿,Meta 在 2025 年啟動生態保衛戰:開發者激勵計畫:投入 1 億美元設立 “Llama 創新基金”,重點扶持衍生模型創業公司。截至 2025 年 6 月,已孵化 23 家估值超千萬美元的企業,其中專注法律 AI 的 LlamaLawyers 獲得 A 輪融資 5000 萬美元。企業級服務落地:與 AWS 合作推出 “Llama 企業版”,提供私有化部署支援與合規保障。摩根大通採用該版本建構內部知識庫,將資訊檢索效率提升 300%。學術共同體建構:聯合劍橋、MIT 等 20 所高校建立 “Llama 研究聯盟”,開放模型訓練日誌與中間資料,試圖鞏固學術領域的主導地位。但這些努力未能阻止開發者流失 ——Hugging Face 資料顯示,2025 年 Q2 新增模型中,基於 Llama 架構的佔比從 2024 年的 58% 降至 41%,而 GLM 與 Qwen 架構佔比合計達到 37%。2.3 致命短板:本土化與響應速度Llama 4 的最大軟肋在於中文能力與推理延遲。在 C-Eval 基準中,其中文任務得分僅 68.7%,遠低於 GLM-4.5(77.1%)與 Qwen3-Max(76.5%);由於多模態模組的拖累,其文字生成速度僅為 45 tokens / 秒,不足 GLM-4.5(100 tokens / 秒)的一半。某跨境電商技術負責人表示:“我們曾考慮 Llama 4,但它處理中文商品描述時經常出現語法錯誤,且生成詳情頁文案的速度太慢,最終選擇了 Qwen3-Next。”三、全能悍將:阿里巴巴 Qwen3 的軍團式碾壓3.1 七大模型齊發:Qwen3 家族全景圖2025 年 2 月,阿里雲一次性發佈 Qwen3 系列七大模型,建構起覆蓋全場景的模型矩陣,這種 “軍團式” 策略讓競爭對手難以招架:這種細分定位讓 Qwen3 系列在不同場景中均能佔據優勢。例如 Qwen3-Vision 在某汽車廠商的漆面缺陷檢測項目中,精準率達到 99.1%,將人工檢測效率提升 10 倍;Qwen3-Math 被某券商用於量化交易模型,回測收益率提升 23%。3.2 性能封神:Chatbot Arena 的五冠王在 2025 年 3 月的 LMSYS Chatbot Arena 排名中,Qwen3-Max 以 1452 分的成績斬獲全球第三,創下開源模型最高分紀錄。更令人震撼的是,它在數學推理、程式碼生成、複雜提示理解、長文字檢索、指令遵循五項關鍵能力評選中均位列第一,成為名副其實的 “全能冠軍”。關鍵能力拆解數學推理:在 GSM8K 基準中以 83.5% 的得分僅次於 GLM-4.5,尤其擅長工程類數學問題,能自主生成有限元分析公式。程式碼生成:支援 28 種程式語言,在 MBPP 基準中 Pass@1 達 74.8%,可生成符合工業標準的微服務架構程式碼。長文字處理:200K 上下文窗口能一次性理解 5 本《百年孤獨》長度的文字,某出版社用其製作電子書摘要,效率提升 40 倍。3.3 生態護城河:從模型到產業的全鏈路閉環Qwen3 的成功不僅在於技術,更在於阿里巴巴建構的 “模型 - 工具 - 場景” 生態閉環:ModelScope 深度繫結:作為魔搭社區的核心模型,Qwen3 系列累計下載量突破 2.3 億次,衍生模型達 8.7 萬個。社區提供一鍵微調工具,開發者可基於 300 條行業資料在 15 分鐘內完成模型適配。阿里雲基礎設施支撐:與靈積平台、百煉 MaaS 無縫整合,提供從模型訓練到部署的全流程服務。某製造業企業通過該平台部署 Qwen3-Max,TCO(總擁有成本)較自建模型降低 62%。行業解決方案輸出:推出 “Qwen 行業包”,整合金融、醫療等領域的預訓練資料與範本。招商銀行採用其建構智能客服,問題解決率從 78% 提升至 92%。這種生態整合能力讓 Qwen3 在企業市場所向披靡。截至 2025 年 6 月,已有超 12 萬家企業採用 Qwen 系列模型,其中包括 23 家世界 500 強企業。四、黑馬逆襲:DeepSeek-V2 的效率革命4.1 技術極客的勝利:MoE+MLA 雙架構突破2025 年 1 月發佈的 DeepSeek-V2,用極致的效率重新定義了開源模型的性價比。這家成立僅 3 年的創業公司,通過 “混合專家(MoE)+ 多頭注意力(MLA)” 雙架構創新,實現了性能與成本的完美平衡。架構解密動態稀疏啟動:340B 總參數的模型僅啟動 35B 參數參與推理,在保持高性能的同時降低 85% 的計算量。多頭注意力最佳化:將傳統單頭注意力拆分為 16 個平行子注意力頭,每個子頭專注特定語義維度,推理吞吐量提升 3 倍。分層量化技術:採用 2 位 - 8 位混合量化方案,在 RTX 4090 上僅需 12GB 視訊記憶體即可運行 340B 模型,較同類模型節省 60% 視訊記憶體。實測資料:效率之王在相同硬體環境(8×A100 GPU)下,DeepSeek-V2 的推理性能展現出碾壓優勢:“DeepSeek-V2 讓我們的 AI 客服成本降低了 58%。” 某電商平台技術總監透露,“以前日均 100 萬次諮詢需要 20 台 GPU 伺服器,現在只需 12 台就能搞定。”4.2 程式碼領域的絕對霸權DeepSeek 的崛起始於程式碼模型的垂直突破。2024 年發佈的 DeepSeek-Coder 2 在 HumanEval 基準中以 82.1% 的 Pass@1 得分超越 GPT-4,而 2025 年的 DeepSeek-V2 進一步將這一紀錄刷新至 84.3%。其程式碼能力的核心優勢在於:海量高品質訓練資料:收錄 GitHub 近 10 年星標超 1000 的開放原始碼專案程式碼,涵蓋前端、後端、移動端、晶片設計等全領域。即時語法糾錯:整合 Clang、Pyright 等專業編譯器,能在程式碼生成過程中即時檢測語法錯誤並修正,精準率達 97.8%。跨語言遷移:支援從 Python 自動轉換為 Rust、Go 等語言,轉換精準率超 85%,某區塊鏈公司用其快速實現多鏈適配。這種程式碼能力為 DeepSeek 積累了龐大的開發者基礎。截至 2025 年 6 月,其 GitHub 星標數突破 15 萬,成為最受歡迎的開放原始碼模型。4.3 社區營運的教科書級案例作為創業公司,DeepSeek 深諳社區營運的重要性,其 2025 年初的官方 App 登頂 140 多個國家和地區的蘋果應用程式商店榜首,堪稱開源模型推廣的教科書案例。社區營運三板斧開發者激勵計畫:推出 “DeepSeek Contributor” 認證體系,貢獻程式碼或反饋 BUG 可兌換 API 額度,已吸引超 50 萬開發者參與。透明化開發處理程序:每周發佈模型訓練日誌,公開參數調整細節與失敗案例,增強社區信任。垂直社區滲透:在 Stack Overflow、掘金等平台建立官方技術社區,針對開發者痛點推出 “程式碼偵錯助手” 等工具,活躍度穩居同類模型第一。這種社區向心力讓 DeepSeek 在資源有限的情況下實現了跨越式發展。2025 年 Q2,其模型呼叫量環比增長 210%,遠超行業平均增速。五、破局者:智譜 GLM-4.5 的成本顛覆5.1 架構革命:原生智能體的黃金三角2025 年 5 月發佈的 GLM-4.5,以 “原生融合推理、編碼、智能體三大能力” 的架構創新,徹底打破了傳統模型的能力邊界。智譜 AI 首席科學家唐傑將其比作 “全科醫生”:“傳統模型是專科醫生,而 GLM-4.5 既能診斷病情(推理),又能開藥方(編碼),還能親自手術(智能體執行)。”核心架構解析三能力原生融合:在 Transformer 基礎層設計三條平行能力通道,分別負責邏輯推理、程式碼生成與工具呼叫,通過注意力共享機制實現能力協同。雙模式推理引擎:思考模式:針對數學證明、科學計算等複雜任務,採用 “長鏈式思維(CoT)+ 自我驗證” 策略,推理步驟可達 500 步以上。直答模式:針對聊天、翻譯等簡單任務,採用 “注意力聚焦” 技術,生成速度提升至 100 tokens / 秒。MoE 參數效率最佳化:滿血版 3550 億總參數僅啟動 320 億參與推理,輕量版 GLM-4.5-Air(1060 億參數)啟動 120 億,參數利用率較同類模型提升 4 倍。5.2 性能與成本的雙重顛覆GLM-4.5 的發佈,讓 “高性能 = 高成本” 的行業定律成為歷史。其在 12 項權威評測中拿下開源模型榜首,同時 API 價格僅為 GPT-4 Turbo 的 1/5、Claude 的 1/10。性能封神時刻綜合能力:LMSYS Chatbot Arena Elo 評分 1448 分,僅次於 Qwen3-Max;12 項權威評測綜合得分 79.3 分,位列全球第三、開源第一。中文能力:C-Eval 基準 77.1% 的得分超越所有開源模型,在古漢語理解、中國法律解讀等本土化任務中精準率超 90%。智能體能力:在 AgentBench 基準中以 86.2% 的得分奪冠,能自主完成 “規劃旅行 + 預訂機票 + 生成行程” 全流程任務,無需人工干預。成本屠夫的底氣智譜通過三大創新實現成本控制:稀疏訓練技術:採用 “重要性採樣 + 增量訓練” 模式,訓練資料量減少 60%,成本降低 75%。國產化算力適配:深度最佳化昇騰 910B 晶片,推理效率較輝達 A100 提升 20%,擺脫對進口算力的依賴。API 分層定價:推出 “基礎版 + 企業版 + 定製版” 三級定價,中小企業可享受 0.8 元 / 百萬 tokens 的輸入成本,僅為行業均價的 1/3。這種性價比優勢迅速轉化為市場份額。截至 2025 年 6 月,GLM-4.5 API 呼叫量突破 100 億 tokens,服務超 8 萬家企業客戶,其中不乏華為、小米等科技巨頭。5.3 行業落地:從實驗室到生產線GLM-4.5 的原生智能體能力使其在行業落地中表現出獨特優勢,以下三個案例展現了其顛覆性價值:案例 1:製造業工藝升級某汽車零部件廠商採用 GLM-4.5 建構工藝知識圖譜,將 200 名老師傅的經驗轉化為 3.6 萬條可執行規則。通過智能體自主分析生產資料,最佳化銲接參數,產品合格率從 92% 提升至 98.5%,年節約成本 1.2 億元。案例 2:金融合規審查某股份制銀行部署 GLM-4.5 企業版,用於信貸合同合規審查。模型可自動識別 237 項風險點,審查時間從 3 天壓縮至 2 小時,精準率達 99.2%,較人工審查效率提升 36 倍。案例 3:全端開發自動化某 SaaS 公司使用 GLM-4.5 進行全端開發,僅需輸入產品需求文件,模型即可自動生成前端程式碼、後端介面與資料庫設計。一個中型項目的開發周期從 3 個月縮短至 2 周,人力成本降低 70%。六、巔峰對決:四大模型實戰橫評(2025 Q2)6.1 評測體系:科學度量的 “雙重標準”2025 年的模型評測已形成 “客觀基準 + 主觀對戰” 的雙重體系,我們綜合 LMSYS、SuperCLUE 等權威平台資料,從六大維度對四大模型進行全面評估。評測基準說明客觀基準:MMLU(知識廣度)、GPQA(深度推理)、GSM8K/MATH(數學能力)、HumanEval/MBPP(程式碼能力)、MMMU(多模態)、C-Eval(中文能力)。主觀對:LMSYS Chatbot Arena Elo 評分(10 萬 + 使用者投票)、SuperCLUE 琅琊榜綜合評分(500 人專家團盲評)。6.2 全維度性能橫評表 1:客觀基準核心得分(%)表 2:主觀體驗與綜合能力評分6.3 優勢領域與適用場景基於評測資料,四大模型的能力邊界清晰可見:Llama 4:適合需要全球化部署、依賴成熟生態的項目,尤其在英文場景與學術研究中仍具優勢。Qwen3-Max:全場景無短板,推薦企業級通用 AI 項目,多模態與長文字處理能力突出。DeepSeek-V2:程式碼生成領域的不二之選,適合開發者工具、軟體開發自動化等場景,性價比極高。GLM-4.5:中文場景與智能體應用的最佳選擇,金融、製造等垂直行業落地能力最強。6.4 實戰案例:四大模型同場競技我們選取三個典型場景進行實戰測試,還原真實應用中的模型表現:場景 1:金融年報分析任務:解析某上市公司 2024 年年報(300 頁 PDF),生成財務風險評估報告並提出投資建議。Llama 4:完成時間 45 分鐘,識別出 3 項風險點,建議較為籠統,存在 2 處中文術語錯誤。Qwen3-Max:完成時間 32 分鐘,識別出 5 項風險點,建議具體,圖表分析精準。DeepSeek-V2:完成時間 28 分鐘,識別出 4 項風險點,生成 Python 分析指令碼輔助驗證。GLM-4.5:完成時間 25 分鐘,識別出 6 項風險點,結合中國會計準則提出合規建議,精準率最高。場景 2:全端應用開發任務:根據需求文件生成一個電商商品管理系統(前端 + 後端 + 資料庫)。Llama 4:生成程式碼完整性 75%,需手動修復 12 處語法錯誤,無部署文件Qwen3-Max:生成程式碼完整性 88%,需修復 3 處錯誤,提供基礎部署指南DeepSeek-V2:生成程式碼完整性 95%,零錯誤,自動生成單元測試與 Docker 配置GLM-4.5:生成程式碼完整性 92%,零錯誤,支援一鍵部署至阿里雲伺服器場景 3:醫療影像診斷任務:分析肺部 CT 影像,識別病變區域並給出初步診斷建議。Llama 4:識別精準率 82%,漏診 1 處微小病灶,建議過於保守。Qwen3-Max:識別精準率 91%,無漏診,提供 3 篇相關醫學文獻支援。DeepSeek-V2:識別精準率 88%,漏診 1 處,生成影像分析程式碼供醫生驗證。GLM-4.5:識別精準率 90%,無漏診,結合患者病史給出個性化治療建議。七、生態博弈:分發平台的雙雄會與社區戰爭7.1 Hugging Face vs ModelScope:全球與本土的角力模型的競爭背後是分發平台的較量。2025 年,全球最大 AI 社區 Hugging Face 與中國本土的 ModelScope 形成 “雙雄會” 格局,它們的戰略選擇深刻影響著四大模型的傳播路徑。平台生態資料對比(2025 Q2)Hugging Face 憑藉全球化優勢仍是 Llama 4 與 DeepSeek-V2 的主要分發管道,而 ModelScope 依託阿里雲生態,成為 Qwen 與 GLM 系列的 “主場”。2025 年 5 月,ModelScope 推出 “模型即服務(MaaS)” 專區,企業可直接呼叫微調後的 Qwen3 與 GLM-4.5 模型,上線首月服務量突破 1000 萬次。7.2 社區營運的生死戰四大模型的社區影響力直接決定其生命力。根據 GitHub 與 Hugging Face 資料,2025 年 Q2 社區活躍度排名如下:DeepSeek:GitHub 星標 15 萬,Hugging Face 下載量 9800 萬次,社區貢獻者超 8 萬人。Qwen:GitHub 星標 12 萬,Hugging Face 下載量 1.3 億次,企業貢獻者佔比 42%。Llama:GitHub 星標 18 萬(歷史積累),Hugging Face 下載量 1.2 億次,學術貢獻者佔比 58%。GLM:GitHub 星標 10 萬,Hugging Face 下載量 8500 萬次,行業解決方案貢獻超 2000 個。DeepSeek 的社區活躍度得益於其開發者導向策略,而 Qwen 與 GLM 則憑藉企業客戶優勢實現商業閉環,Llama 則在學術領域保持傳統優勢。八、未來戰局:2025 下半年三大懸念8.1 技術拐點:多模態與智能體的終極融合2025 下半年,四大玩家將聚焦 “多模態 + 智能體” 深度融合。據業內傳聞,Meta 正研發 Llama 4 Ultra,計畫整合即時視訊處理能力;智譜則準備推出 GLM-4.5 Pro,支援工業機器人的端到端控制。一旦實現突破,開源模型將從 “認知智能” 邁入 “行動智能” 新階段。8.2 商業格局:中小企業的選擇決定終局目前四大模型在不同客戶群體中形成分化:Llama 4 主導歐美中小企業市場,Qwen 與 GLM 壟斷中國大企業市場,DeepSeek 則在全球開發者群體中快速滲透。2025 下半年,隨著輕量化模型的普及(如 Qwen3-Next 1.8B、GLM-4.5-Air),中小企業的選擇將成為決定市場份額的關鍵。8.3 規則制定:中國力量的話語權爭奪2025 年,中國開源模型在全球榜單前五佔據三席(Qwen3-Max、GLM-4.5、DeepSeek-V2),但在國際標準制定中仍處弱勢。智譜與阿里正聯合申請 ISO/IEC 開源模型評測標準,若能成功,將打破 Meta 主導的規則體系,重塑全球開源 AI 格局。九、開發者指南:如何選擇最適合的 “神兵利器”9.1 選型三要素:場景、成本與技術堆疊場景匹配度:通用場景優先 Qwen3-Max,程式碼場景選 DeepSeek-V2,中文與智能體場景選 GLM-4.5,全球化場景考慮 Llama 4。成本控制:中小團隊優先 DeepSeek-V2 與 GLM-4.5,大企業可承受 Qwen3-Max 的生態成本。技術堆疊適配:Python 生態選 Llama 4/DeepSeek,阿里雲技術堆疊優先 Qwen,國產化算力適配 GLM。9.2 快速上手教學:四大模型部署實戰(一)DeepSeek-V2 本地部署(RTX 4090)安裝依賴:pip install deepseek-ai transformers accelerate模型下載:huggingface-cli download deepseek-ai/deepseek-v2推理程式碼:(二)GLM-4.5 API 呼叫申請 API 金鑰:https://open.bigmodel.cn/呼叫程式碼:9.3 性能最佳化技巧量化壓縮:採用 GPTQ 量化 Llama 4,視訊記憶體佔用減少 70%。推理加速:使用 vLLM 部署 Qwen3-Max,吞吐量提升 4 倍。微調策略:小樣本任務採用 LoRA 微調 DeepSeek-V2,訓練成本降低 90%。多模型協同:複雜任務採用 “GLM-4.5(推理)+DeepSeek-V2(程式碼)” 組合。結語:開放原始碼的勝利,創新的共贏2025 年的 “四強爭霸” 沒有失敗者,這場激烈的競爭推動開源大模型的能力邊界不斷突破 —— 推理延遲從秒級降至毫秒級,部署成本從百萬級降至千元級,應用場景從實驗室走向生產線。Llama 的生態奠基、Qwen 的全端整合、DeepSeek 的效率革命、GLM 的架構創新,共同構成了開源 AI 的繁榮圖景。對於開發者而言,這是最好的時代。前所未有的技術選擇、極低的准入門檻、活躍的社區支援,讓每個人都能成為 AI 創新的參與者。而對於整個社會,開源大模型正以普惠之力,推動 AI 技術從少數巨頭的壟斷走向全民共享的新時代。這場爭霸仍在繼續,2025 下半年的技術更新將帶來更多驚喜。但無論最終格局如何變化,開源精神所孕育的創新活力,終將成為驅動 AI 時代前行的核心動力。 (AI雲原生智能算力架構)表 1 2025 年開源大模型“四強爭霸”格局分析
性能超DeepSeek-V3.2!中國大模型又開源了,限時免費用
100億啟動參數!MiniMax開源新模型M2,全球開源模型綜闔第一。智東西10月27日報導,剛剛,MiniMax發佈並開源MiniMax-M2,一款為Max可視化程式設計和智能體工作流建構的輕量級模型。▲MiniMax-M2在Hugging Face的開源介面截圖MiniMax-M2聚焦智能體的效率提升,是一款總參數達2300億個的MoE(混合專家)模型,其中活躍參數達100億個,兼顧程式設計和智能體任務以及通用智能。在權威基準測評中,MiniMax-M2的測試成績趕超Gemini 2.5 Pro、DeepSeek-V3.2等領先模型,接近GPT-5(thinking)模型性能,據稱可提供匹敵這些模型的端到端工具使用性能,同時部署和擴展更便捷。▲MiniMax-M2的基準測試概況具體來看,MiniMax-M2有以下幾大亮點:1、智能提升。根據知名分析機構Artificial Analysis的基準測試,MiniMax-M2在數學、科學、指令遵循、程式設計和智能體工具使用方面展現出具競爭力的通用智能。其綜合得分在全球開源模型中排名第一。2、高級程式設計。MiniMax-M2專為端到端開發人員工作流程而設計,擅長多檔案編輯、編碼-運行-修復循環以及測試驗證修復。在Terminal-Bench和(Multi-)SWE-Bench風格的任務中展現了其在跨語言終端、IDE和CI中的實用有效性。3、智能體性能。MiniMax-M2能夠規劃並執行跨Shell、瀏覽器、檢索和程式碼運行器的複雜、長周期工具鏈。在類似BrowseComp的評估中,它能夠持續定位難以發現的漏洞來源,保持證據的可追溯性,並優雅地從不穩定的步驟中恢復。4、高效設計。MiniMax-M2擁有100億個啟動參數,可為互動式智能體和批次採樣提供更低的延遲、更低的成本和更高的吞吐量,這與向高度可部署的模型轉變契合,這些模型在程式設計和智能體任務中仍然表現出色。以下更全面的評估測試了端到端程式設計和智能體工具的使用情況,涉及編輯真實的程式碼庫、執行命令、瀏覽網頁以及交付實用的解決方案等方面。MiniMax-M2在Multi-SWE-Bench、Terminal-Bench、ArtifactsBench、BrowseComp等多項測試中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等頂尖模型。▲MiniMax-M2的基準測試具體情況Artificial Analysis統計的基準測試如下,MiniMax-M2在LiveCodeBench(LCB)、IFBench、AA Intelligence等多項測試中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等頂尖模型。▲Artificial Analysis基準測試具體情況目前,使用者可以在MiniMax Agent上體驗MiniMax-M2,在限定時間內免費用。▲MiniMax Agent限免使用體驗地址:https://agent.minimax.io/智東西第一時間對MiniMax-M2進行了體驗,當輸入提示詞:“模擬一個旋轉六邊形內彈跳球。”MiniMax-M2能夠成功實現這一物理模擬,且提供了比較直觀的小球軌跡效果及參數控製麵板設計。這期間等待數分鐘,主要是其呼叫智能體對基本控制功能、面板參數偵錯、高級功能、網站顯示等進行了數次的測試偵錯。▲MiniMax Agent生成的小球實驗模擬體驗案例連結:https://en6x2um63xa4.space.minimaxi.com/當我把題目難度提高,輸入提示詞:“模擬一個旋轉六邊形內彈跳球,有兩個球體積相同,球a的質量是球b的2倍。”只見MiniMax-M2模擬的小球衝出了六邊形,與預期有一些出入,不過整個網站可調參數和呈現內容變得更加豐富。或許這一題目對一個輕量級模型來說還是有難度。▲MiniMax Agent生成的小球實驗模擬體驗案例連結:https://bwr3exu4k4ph.space.minimaxi.com/另外,MiniMax-M2 API已在MiniMax開放平台上線,同樣限時免費。MiniMax-M2模型權重現已開源,允許本地部署和使用。API地址:https://platform.minimax.io/docs/guides/text-generation模型權重開源地址:https://huggingface.co/MiniMaxAI/MiniMax-M2 (智東西)
美團首個視訊大模型開源!速度暴漲900%
美團認為這是其邁向世界模型的第一步。智東西10月27日報導,10月25日,美團開源了其首款視訊生成大模型——LongCat-Video。該模型面向多工視訊生成場景,旨在以統一架構支援文生視訊、圖生視訊以及視訊續寫三種能力。不同於以往針對單一任務訓練的模型,LongCat-Video通過多工聯合訓練機制,在同一框架內即可處理零幀、單幀及多幀條件輸入。此外,LongCat-Video重點突破了長視訊生成難題,原生支援輸出5分鐘等級的視訊。相比常見模型在長時序生成中易出現的畫面漂移、色彩偏移等問題,該模型通過在視訊續寫任務上的原生預訓練,保持了較高的時間一致性與視覺穩定性。在推理效率方面,LongCat-Video借鑑了近年來的高效生成方法,採用“粗到細”兩階段生成策略:先生成480p、15fps的視訊,再細化至720p、30fps,並結合塊稀疏注意力機制和模型蒸餾,顯著降低了高解析度生成的計算開銷,視訊生成的推理速度提升到原來的10.1倍,提速幅度超900%。在後訓練階段,團隊引入多獎勵強化學習(RLHF)最佳化方案,利用組相對策略最佳化(GRPO)方法綜合多維度獎勵訊號,進一步提升模型在多樣化任務下的表現。美團已在多項公開與內部測評中將LongCat-Video與其他視訊生成大模型進行了比較。在VBench公開基準測試中,LongCat-Video總得分僅次於Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。目前,美團LongCat-Video已同步開放程式碼、模型權重及關鍵模組,模型技術報告也已經發佈。項目首頁:https://meituan-longcat.github.io/LongCat-Video/模型地址:https://huggingface.co/meituan-longcat/LongCat-Video技術報告:https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf01. 三步走打造高品質訓練資料整體壓縮率高達4×16×16倍美團認為,“世界模型”(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI“看見”世界運行本質的能力。而視訊生成模型有望成為建構世界模型的關鍵路徑——通過視訊生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。為打造LongCat-Video,美團LongCat團隊首先在資料層面建構了一套資料處理與標註體系。首先在資料預處理階段,通過多源視訊採集、去重、鏡頭切分及黑邊裁剪,確保視訊片段質量與多樣性。隨後在資料標註階段,為視訊加入時長、解析度、美學分數、動態資訊等多維度屬性,並建立中繼資料資料庫以支援靈活資料篩選。團隊還基於LLaVA-Video與Qwen2.5VL等模型進行視訊內容、鏡頭語言及視覺風格標註,並通過中英雙語翻譯與摘要生成實現文字增強。最終,通過文字嵌入聚類對視訊內容進行無監督分類與均衡最佳化,為模型訓練提供高品質、多樣化的視訊資料基礎。在模型架構層面,LongCat-Video採用了基於Diffusion Transformer(擴散Transformer)的單流三維結構,這一設計融合了擴散模型的生成能力與Transformer的長時序建模優勢。每個Transformer模組都包含三維自注意力層、跨模態注意力層以及帶SwiGLU啟動的前饋網路,並通過RMSNorm與QKNorm保證訓練穩定性。模型使用了3D RoPE位置編碼來捕捉時間與空間的資訊關係,同時引入AdaLN-Zero機制以提升任務間的調製能力。在輸入資料層面,美團團隊借助WAN2.1模型的VAE將視訊像素壓縮成潛空間token,使視訊資料能以更緊湊的形式參與建模,整體壓縮率高達4×16×16倍;文字輸入則由umT5多語言編碼器處理,支援中英文雙語,進一步提升了模型的通用性。02. 靠“統一任務框架”一次訓出三種能力稀疏注意力讓推理效率猛增超900%LongCat-Video採用了三階段的訓練流程。模型以Flow Matching框架取代傳統擴散過程,通過預測噪聲到真實視訊潛變數的速度場提升訓練穩定性與效率。訓練採用漸進式預訓練策略,從低解析度圖像到高解析度多工視訊逐步學習,實現“從靜態到動態”的能力積累,並結合尺寸桶機制最佳化算力利用。隨後在監督微調階段,模型利用高品質、多樣化資料集進行精調,強化視覺美學、運動流暢度與指令理解。最後通過基於組相對策略最佳化的強化學習引入人類偏好最佳化,進一步提升語義一致性與視訊質量。在訓練LongCat-Video的過程中,美團LongCat團隊在任務設計上進行了創新,這也是LongCat-Video能在單一模型內統一文生視訊、圖生視訊和續寫視訊三類任務的原因。美團LongCat團隊沒有為不同的視訊生成任務單獨設計模型,而是通過“統一任務框架”讓三種任務共用同一套網路。模型通過識別輸入中“條件幀”的數量自動判斷任務類型:當輸入為零幀時執行文字生成視訊,一幀時執行圖像生成視訊,多幀時則執行視訊續寫。這種機制不僅大幅降低了模型複雜度,也讓不同任務之間共享特徵空間與訓練經驗,從而提升整體表現。為進一步提高長視訊生成的效率,模型在注意力機制上設計了可快取的鍵值特徵,使條件幀的表示可以在採樣過程中重複使用,減少了冗餘計算。這種機制尤其適合長視訊生成,因為它能在保持一致性的同時顯著降低計算開銷。強化學習部分是LongCat-Video提升生成質量的關鍵環節。美團團隊基於組相對策略最佳化方法進行了多重改進,使其適配視訊擴散任務。傳統的GRPO在視訊生成中容易出現獎勵訊號不穩定和時間歸因模糊的問題,團隊通過固定隨機時間步、引入再加權損失函數以及最大標準差歸一化機制,有效解決了這些訓練瓶頸。▲LongCat-Video採用的GRPO方法與基線的生成效果對比在獎勵模型設計上,LongCat-Video採用了三重獎勵體系,分別評估視訊的視覺質量、運動質量和文字一致性。視覺質量由HPSv3模型打分,衡量畫面美感與細節;運動質量通過VideoAlign模型評估,確保動作自然流暢;文字一致性則檢驗生成視訊與輸入提示語的語義契合度。這種多維度的獎勵設計讓模型在強化學習階段能夠平衡地提升表現,避免過度最佳化單一指標而導致畫面僵化或運動失真。在高效推理方面,LongCat-Video通過一系列工程創新顯著提升了生成速度與解析度。團隊採用“粗到細”的生成策略,先快速生成低解析度、低影格率的視訊,再由LoRA微調的精化模組進行高畫質復原,最終可輸出720p、30幀的成片。與此同時,LongCat-Video引入塊稀疏注意力(Block Sparse Attention)機制,僅計算最相關的10%注意力塊,將計算成本降至傳統方法的十分之一,幾乎不損失生成質量。這些最佳化使得LongCat-Video在單卡H800 GPU上幾分鐘內即可生成一分鐘長的視訊。再結合一致性模型蒸餾與分類器自由引導(CFG)蒸餾技術,採樣步數從傳統的50步縮減至16步,推理效率提升至原來的10倍。▲LongCat-Video在不同設定上的推理速度對比03. 多領域測評比肩Veo3常識理解能力突出美團LongCat團隊分享了LongCat-Video的多個生成案例。文生視訊任務中,LongCat-Video可以根據提示詞精準還原不少腦洞大開的畫面,下方視訊中的案例還顯示出其可能具備風格轉繪的能力。前段時間最火的AI視訊類型——切水果,LongCat-Video也能製作,不過並沒有音效,缺少了一些靈魂。LongCat-Video原生支援輸出5分鐘等級的長視訊,不過在長時序的任務上,還是能看到一些“穿幫鏡頭”。例如,下圖人物跳芭蕾的過程中,其肢體在某些大幅度動作的場景中顯得並不自然。有趣的是,美團分享了LongCat-Video生成行車記錄儀畫面和機器人靈巧手操作畫面的兩個案例。此類畫面或許可以作為合成資料,用於自動駕駛汽車與機器人的訓練。在內部評測體系中,美團建構了一套覆蓋文字生成視訊與圖像生成視訊兩大核心任務的基準,評估維度包括文字對齊、視覺質量、運動質量與總體表現,並在圖生視訊任務中額外增加了圖像一致性指標。為確保評測的科學性,團隊採用人工與自動雙軌評估機制,其中人工評價分為絕對打分與相對偏好兩種方式,所有樣本均由多名標註員獨立評分,最終通過加權平均得出結果。自動評測部分則由內部訓練的多模態“判官模型”完成,與人工結果的相關性高達0.92,保證了客觀性。評測結果顯示,LongCat-Video在文生視訊任務的四個核心指標中,視覺質量得分幾乎與Google的Veo3持平,整體質量超越了PixVerse-V5和國內領先的開源模型Wan2.2。在運動質量方面,LongCat-Video生成的視訊動作流暢、鏡頭移動自然,展現出較強的物理合理性。在文字對齊度上,LongCat-Video表現略差於Veo3。在圖生視訊任務中,LongCat-Video畫面細節豐富、風格真實,但在圖像一致性和動作連貫性上仍有改進空間。技術報告認為,模型在處理高精度參考幀時對細節的保持較為謹慎,這在視覺質量上帶來加分,卻略微影響了動態平滑度。在公開評測平台VBench 2.0上,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,總分達到62.11%,僅次於GoogleVeo 3與生數Vidu Q1等商用閉源模型。04. 結語:美團探索世界模型或與機器人、無人車業務產生協同效應美團稱,LongCat-Video是其開發“世界模型”(world models)的第一步,。高效的長視訊生成能解決世界模型中的渲染問題,使模型能夠通過生成的視訊內容表達其對世界的認知。未來,美團計畫在視訊生成中更好地建模物理知識,整合多模態記憶,融入大語言模型(LLM)和多模態大模型(MLLM)的知識。在美團分享的演示視訊中,LongCat-Video能較為準確地輸出機器人操作、汽車駕駛等畫面,這或許預示著這款模型,有望與美團在機器人、自動駕駛(無人車)領域的業務佈局產生一定的協同效應。 (智東西)
全球開源大模型Top 15來自中國、輝達正開發“中國特供”AI晶片、馬斯克燒14兆砸算力 | 算力產業半月報(第32期)
算力產業動態剛剛,全球AI百強榜發佈!ChatGPT穩坐第一,DeepSeek第三前50有22個來自中國a16z最新發佈「全球Top100消費級GenAI應用榜單」,AI競爭格局逐漸穩定,中國力量全面崛起,DeepSeek、豆包、夸克等多款產品躋身前十。ChatGPT依舊領跑,GoogleGemini緊隨其後,Grok高速逆襲。整體來看,全球AI正進入多極化競爭的新階段。(來源於:新智元)全球開源大模型,前十五名全是中國的軟體工程師、自媒體 Rohan Paul 發現了一個驚人的現象:Design Arena 排行榜上排名前十幾位開源 AI 模型全部來自中國。Design Arena 是目前全球最大規模的眾包 AI 生成設計 Benchmark 平台,它的核心機制是讓真實的人類使用者進行評測,基於 Elo Rating(類似於國際象棋評分體系)等級分制度進行模型對戰。使用者在平台上會被隨機展示兩段由不同模型生成的回答,然後進行投票選擇「那一個更好」。每一次投票都會影響對應模型的 Elo 分數,進而形成動態的排行榜。Elo 核心原理是,高分選手擊敗低分選手,得分會很少,而低分選手爆冷戰勝高分選手時,得分會很多。因此用對弈的角度來看的話,這是一個相對公平、符合認知的評分系統。因此,不同於 MMLU、SWE-Bench 這類客觀指標,Design Arena 更貼近於「使用者真實體驗」。新模型一上線,就能迅速通過對戰獲得口碑分數。排名第一的是 DeepSeek-R1-0528,智譜的 GLM-4.5 和阿里的 Qwen 3 Coder 480B 緊隨其後。(來源於:機器之心)路透:輝達正開發新款“中國特供”AI 晶片性能強於 H208月19日,據路透社報導,知情人士稱,輝達正在為中國市場開發一款基於其最新 Blackwell 架構的新型 AI 晶片,這款晶片性能將強於當前獲准在中國銷售的 H20。知情人士稱,這款暫定名為 B30A 的新晶片將採用單晶片 (single-die) 設計,其原始算力可能只有輝達旗艦 B300 計算加速卡所用的雙晶片 (dual-die) 配置的一半。單晶片設計是指積體電路的所有主要部件都製造在一整塊矽片上,而不是分佈在多個晶片上。這款新晶片將配備高頻寬記憶體和輝達用於處理器之間高速資料傳輸的 NVLink 技術。這些特性也出現在 H20 晶片上,不過該晶片基於輝達較早的 Hopper 架構。知情人士稱,這款晶片的規格尚未最終確定,但輝達希望最早於下月向中國客戶提供測試樣品。(來源於:IT之家)DeepSeek-V3.1正式發佈混合推理架構加持針對下一代國產晶片設計8月21日,DeepSeek發佈了其最新的大語言模型DeepSeek-V3.1,通過引入混合推理架構和顯著增強的智能體(Agent)能力,進一步加劇了全球AI市場的技術競賽。V3.1版本的核心亮點是採用了全新的混合推理架構,允許模型在一個統一框架內支援“思考”與“非思考”兩種模式。根據官方公告,新版本通過訓練後最佳化,在工具使用與程式設計、搜尋等智能體任務上表現獲得較大提升。需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數精度。UE8M0 FP8是針對即將發佈的下一代國產晶片設計。據社區測試資料顯示,新模型在Aider多語言程式設計基準測試中得分超越了Anthropic的Claude 4 Opus,同時保持了顯著的成本優勢。這一性能突破已在開發者社區引發廣泛關注,模型在Hugging Face平台的熱度迅速攀升。DeepSeek同步升級了API介面,將上下文窗口擴展至128K,並新增了對Anthropic API格式的支援以簡化遷移。更重要的是,公司宣佈將於2025年9月6日起執行新的API定價方案並取消夜間優惠,這被視為其在服務能力擴容後,加速商業化處理程序的關鍵一步。(來源於:華爾街見聞)中國算力平台全面貫通今年智算規模增長將超四成8月22日〜24日,在山西大同舉行的2025中國算力大會上,隨著中國算力平台貫通儀式的舉行,中國算力平台正式完成山西、遼寧、上海、江蘇、浙江、山東、河南、青海、寧夏、新疆10個省區市分平台的接入工作,實現“平台、主體、資源、生態、場景”全面貫通。中國算力平台是國家級綜合性算力服務平台,集“供、需、服”於一體,可實現不同系統、平台和工具之間的相容性和互操作性。截至今年7月底,中國算力平台營運層註冊企業使用者超1000家,入駐算力服務商逾100家,上架優質算力產品110余項,接入主流基礎大模型和垂類模型90余個,成功承載9000余張離散卡的供應匯聚、購買和即時開通服務,為1000餘名開發者提供了多源多元的線上呼叫服務,累計沉澱數十億條算力監測巨量資料。(來源於:第一財經)國內主流大模型商業化版本內容安全測試結果揭曉8月26日,國務院發佈關於深入實施“人工智慧+”行動的意見,明確提出要強化政策法規保障、提升人工智慧安全能力水平。為貫徹落實意見精神,進一步增強大模型服務安全保障能力,公安部第三研究所資料安全技術研發中心近日完成了中文大模型內容安全測試基準(DSPSafeBench)的最佳化升級。本次升級依據GB/T45654-2025《網路安全技術 生成式人工智慧服務安全基本要求》,緊扣違法犯罪風險場景,凝練形成8類關鍵安全維度,並面向國內主流大模型商業化版本開展系統性測試。測試結果顯示,8類安全維度的不合規率整體分佈在28%至51%之間,其中涉黑灰產、謠言和詐騙類均超過40%。在攻擊模擬中,高級越獄攻擊場景下平均不合規率最高達到88.09%。總體來看,各類大模型的安全防護能力仍普遍不足,整體水平亟需持續提升與完善。(來源於:三所資料安全)新“股王”誕生!寒武紀股價超貴州茅台8月27日,寒武紀股價盤中一度超越貴州茅台,晉陞A股“股王”,最高報1464.98元/股,年內漲幅超120%。(來源於:介面新聞)重磅開源!通義萬相最新模型來了8月27日,繼文生視訊、圖生視訊、首尾幀生視訊、全能編輯模型後,通義萬相又迎來重磅開源!全新發佈的音訊驅動的視訊模型Wan2.2-S2V僅需一張圖片和一段音訊,即可生成面部表情自然、口型一致、肢體動作絲滑電影級數字人視訊。模型生成視訊時長可達分鐘級,可大幅提升數字人直播、影視製作、AI教育等行業的視訊創作效率。(來源於:阿里雲)售價2.5萬!輝達機器人“最強大腦”AI性能暴漲750%宇樹、銀河通用、Meta等都在用當地時間8月25日,輝達宣佈推出功能強大的新型機器人超級電腦NVIDIA Jetson AGX Thor開髮套件和生產模組,旨在為製造、物流、建築、醫療保健等領域的下一代通用和人形機器人(HumanoidRobots)提供動力。“這是物理 AI 的一次巨大飛躍。”輝達表示,Jetson AGX Thor由輝達Blackwell GPU提供支援,CPU部分基於Arm Neoverse V3AE建構,並配備128GB記憶體,可提供高達2070 FP4 teraflops 的 AI 計算能力,輕鬆運行最新AI模型。與前代產品Jetson Orin相比,Jetson Thor可提供高達7.5倍的 AI 計算能力和 3.5 倍的能源效率,能夠實現即時推理,這對於高性能物理 AI 應用至關重要。據悉,輝達Jetson AGX Thor 開發者套件現已上市,起售價3499美元(約合人民幣2.51萬元)。首批採用者包括Agility Robotics、亞馬遜機器人、波士頓動力、Caterpillar、Figure、Hexagon、美敦力和Meta等,國內宇樹科技、銀河通用、聯影醫療、萬集科技、優必選、眾擎機器人、智元機器人等也都整合該平台。而1X、John Deere, OpenAI、Physical Intelligence 正在評估 Jetson Thor以提升其物理 AI 能力。另外,輝達今晨宣佈,實現從雲端到汽車自動駕駛安全的輝達NVIDIA DRIVE AGX Thor開發者套件現已開放預訂,並將於今年9月發貨。據悉,截至目前,包括比亞迪、廣汽、智己汽車(IM Motors)、理想汽車、沃爾沃汽車、小米、極氪Zeekr、Aurora、Gatik等首批整車企業正在基於該套件進行開發,元戎啟行DeepRoute.ai、Nuro、文遠知行WeRide和 ZYT正在整合該套件用於其軟體平台。(來源於:鈦媒體)馬斯克旗下公司起訴蘋果和OpenAI“合謀”壟斷8月26日,馬斯克旗下的人工智慧初創公司xAI和社交媒體平台X於25日起訴蘋果公司和OpenAI,指控這兩家公司聯手實施“反競爭”計畫,維持在智慧型手機和生成式人工智慧市場的壟斷地位。訴訟書指出,蘋果與OpenAI的“排他性協議”使ChatGPT成為iPhone唯一內建的生成式人工智慧聊天機器人,相關競爭對手難以擴大規模和進行創新。“原告提起本訴訟,旨在制止被告的反競爭行為,並追討數十億美元的經濟損失。”訴訟書還稱,蘋果在其應用程式商店中降低競爭產品的優先順序,拖延相關稽核流程,給予OpenAI特殊待遇。(來源於:新華網)8.63億!輝達、Google聯手押注核聚變美國核聚變能源初創企業Commonwealth Fusion Systems(CFS)當地時間8月28日宣佈,該公司最新獲得了8.63億美元融資,投資方包括人工智慧巨頭輝達。此次融資將用於推進CFS聚變能源示範系統的建設,並加速首座商用核聚變發電廠的開發。據CFS發佈的聲明,輝達旗下的風險投資部門NVentures參與了本輪融資,其他投資方還包括老股東Khosla Ventures及Google母公司Alphabet,以及多家主權財富基金和投資銀行。自成立以來,CFS已累計融資約30億美元,約佔全球聚變能源行業融資總額的三分之一。這筆融資顯示出投資者對CFS兌現其聚變電廠承諾的信心正在增強。核聚變能源被視為一種潛在的清潔、豐富能源,但目前來看,核聚變發電的技術路線尚未走通,最終實現可能還需很長的時間。(來源於:創投日報)馬斯剋星艦試驗再創歷史!3次爆炸3次推遲終成功,順利完成太空載荷部署馬斯剋星艦第十次發射試驗取得圓滿成功!美國中部時間8月26日晚19時36分(台北時間8月27日早8時36分),S37飛船成功落入印度洋目標海域。隨著飛船進入海面,第二代星艦的試射首次取得全面成功,現場一片沸騰。全球數百萬網友也終於再次見證歷史——歷經三次失利和幾度推遲之後,第二代星艦終於交出了圓滿答卷。(來源於:量子位)「巨硬」真的來了,馬斯克硬剛微軟官宣新公司:要靠AI“復刻”整個微軟近日,馬斯克正式宣佈旗下xAI將孵化一間全新的AI軟體公司, 名叫 Macrohard(巨硬) 。馬斯克打造 Macrohard 的核心邏輯是:微軟這樣的軟體公司本身並不生產硬體,而是通過軟體產品和訂閱服務賺錢——既然如此,那麼在理論上完全可以用 AI 來“模擬”一家微軟。換句話說,Macrohard 的定位是:微軟能做的,AI 也能做,而且只靠 AI。事實上,馬斯克早在7月就已經為這個計畫埋下伏筆。當時他透露,xAI 正在打造一個多智能體(multi-agent)AI 軟體公司,其中:核心引擎:由 xAI 的聊天機器人Grok 負責調度;數百個專用 Agent:分別負責程式設計、圖像/視訊生成與理解,協同工作;虛擬使用者互動:Agent 可在虛擬機器中模擬人類使用軟體,反覆測試,直到結果優秀。但要讓數百個 Agent 同時運作,僅靠一個聊天機器人遠遠不夠。故而有媒體猜測,Macrohard 背後的算力支柱,應該是 xAI 在美國孟菲斯建設的超級電腦叢集 Colossus 2。(來源於:CSDN)馬斯克狂燒14兆,5000萬H100算力五年上線!終極爆沖數十億馬斯克宣佈決定All in AI了。5年內實現5000萬張H100的算力。目前,每張H100的批發價高達2萬美元。5000萬張H100,光是GPU,成本就將高達1兆美元。要搭建目前的最先進的超算叢集,目前GPU成本只佔約50%。也就是說,最終的成本將超過2兆美元(逾14兆元人民幣)。2兆美元是什麼概念?美國去年的軍費總支出約9970億美元,而這已經佔到了全球軍費支出的37%。這意味著,AI已經成為與傳統的軍備競賽分庭抗禮的全新關鍵領域。(來源於:新智元)OpenAI剛剛發佈GPT-RealtimeAI Agent進入超逼真對話時代8月29日凌晨1點,OpenAI進行了技術直播發佈了語音模型GPT-realtime。GPT-realtime是一個專用於語音AIAgent的多模態模型,能夠生成更加自然流暢的語音,完美模仿人類豐富多樣的語調、情感以及語速,支援圖像理解並將其與語音或文字對話相結合使用,非常適用於客服、教育、金融、醫療等領域打造語音智能體。(來源於:AIGC開放社區)OpenAI首個蛋白質模型披露更多細節改進諾獎成果,表達量提50倍GPT‑4b micro是一款OpenAI與生物技術初創公司Retro Bio合作開發的,專為蛋白質工程設計的GPT-4o微型版本。OpenAI官方表示,該模型具備廣泛的生物學知識基礎和技能,特別注重可控性和靈活性,以支援蛋白質工程等高級應用場景。GPT-4o蛋白質專用版,已成功改進諾貝爾獎獲獎蛋白的變體。科學家利用GPT‑4b micro成功設計了新型且顯著增強的山中伸彌因子變體,將幹細胞重程式設計標記物的表達量提升了50倍。重新設計的蛋白質還表現出增強的DNA損傷修復能力。這一發現已在多個供體、細胞類型和遞送方法中得到了驗證,確認了衍生iPSC系的全多能性和基因組穩定性。有網友評價,藉著AI發展的東風,我們這一代可能是首次有機會通過AI的進步實現長壽的一代。(超算百科)
小米突然放大招,開源大模型幹趴阿里、Open AI
好戲才剛剛開始。01. 小米首個大模式開源大模型領域,也被小米攪動得天翻地覆。近日,小米宣佈,其首個推理大模型Xiaomi MiMo開源。值得注意的是,其中經過強化學習訓練形成的MiMo-7B-RL模型,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分不僅超過了OpenAI的閉源推理模型o1-mini,還打敗了對手阿里Qwen2-Pwreview-32B-Pwreview。圖源:微博在相同強化學習訓練資料情況下,MiMo-7B-RL在數學和程式碼推理任務上都表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。圖源:微博圖源:微博目前,MiMo-7B 已在Hugging Face 平台開源4 個模型版本,分別是:·MiMo-7B-Base:預訓練模型·MiMo-7B-SFT:監督微調模型·MiMo-7B-Base-Zero:基於MiMo-7B-Base直接強化學習的模型·MiMo-7B-RL:基於MiMo-7B-SFT強化學習的模型圖源:微博同時,技術報告也同步上線GitHub,向開發者與研究者全面開放。圖源:微博預訓練階段,模型整體資料量為25T Tokens,核心是讓模型見過更多推理模式。預訓練分為漸進式三階段:第一階段以常識性推理為主,主要如涉及數學應用題、基礎程式碼片段;第二階段引入多步驟邏輯鏈條,如組合數學問題、動態規劃演算法,為了不影響模型通用能力,混入部分通用資料,比例為7:3。第三階段要為了提升模型解決複雜任務的能力,聚焦於國際競賽級難題,例如AIME 2024-2025中的奧賽題目,和創造性寫作資料,並將上下文長度從8192擴展到32768。圖源:微博「分階爬坡」的策略有效避免了模型在早期陷入局部最優解,同時透過逐步提升思維負荷強化神經網路的泛化能力。後訓練階段,MiMo實現「小參數越級挑戰」的關鍵。團隊建構高品質強化學習(RL)資料集,包含13萬道經過嚴格清洗與難度標註的數學題和程式設計題。每個題目均配備基於規則的驗證器,確保獎勵訊號的客觀性與可復現性,從而規避了傳統RLHF(人類反饋強化學習)中主觀偏好導致的模型偏差。圖源:微博框架層面的突破則體現在Seamless Rollout系統的設計。該系統將策略部署、非同步獎勵計算與提前終止功能整合於統一架構,並通過動態調度GPU資源,強化學習訓練速度提升2.29倍,驗證效率加速1.96倍。那麼,我們來聊一聊,小米這種開放姿態,對於其本身戰略定位和大模型行業來說,有什麼意義。一方面,將MiMo與早期開放原始碼的Vela物聯網系統、米家智慧家庭協議深度繫結,小米企圖建構的「模型-硬體​​-場景」三位一體的開放生態便會越來越清晰。例如,基於MiMo開發的語音助手,開發者可直接連接小米智慧家庭裝置。或者,借助車載推理引擎,無縫對接小米汽車OS系統。作為一家產品銷量可觀的智慧型裝置公司,小米開放了核心AI模型,意味著,或許不久的將來,更多的智慧終端將被納入其技術軌道。對友商來說,壓力確實不小。另一方面,僅僅其以7B的參數規模,就超越了阿里32B模型和OpenAI閉源產品的成績,可以說,直接顛覆了行業對「參數規模決定性能」的固有認知。並且,此次開源,開發者無需支付高昂API費用即可呼叫模型,使用門檻大大降低。當然,使用者規模的擴大,意味著更多的使用資料,反過來也會進一步反哺小米大模型的開發。當然,股票市場對於小米這次動作的反應也十分樂觀和迅速。截至午間休市,小米集團今日股價直接上漲4.74%,總市值1.29兆港元(約合人民幣1.21兆元)。圖源:小紅書值得注意的是,這次開放原始碼的MiMo,是來自全新成立不久的「小米大模型Core 團隊」的初步嘗試。先前,曾有報導稱小米創始人雷軍以千萬年薪挖角AI 天才少女羅福莉,後者曾在DeepSeek 任職研究員,並參與DeepSeek-V2 等大模型研發工作。如今交出這樣一份答案卷,可以說,讓公眾對小米大模型的未來,不禁有了更多想像的空間。02. 小米一向是個“逆襲者”從手機、到家電、再到汽車,小米拿到入場券的時間都不算早,但這個企業,總能依靠獨特的打法實現後來居上。例如,2011年,雷軍帶著小米手機殺進市場時,蘋果、三星已封神多年,也許沒人相信小米能攪動風雲。圖源:抖音但就在三年後的2014年,小米通過極致性價比與技術堆料策略,一舉登頂中國市場份額第一。而就在前兩天,小米手機再次以出貨量1,330萬台,市場份額18.6%的成績,登頂中國區銷量榜。圖源:微博為此,沉默多天的雷軍也現身發文慶祝。圖源:微博截圖再例如,2021年,小米宣佈造車,此時「蔚小理」的名聲已經在國內市場打響。但很顯然小米造車的銷量再次出乎意料。2024年,小米SU7上市24小時內大訂訂單突破8.8萬台,全年交車量達13.6萬輛,遠超原廠目標。圖源:微博最後,到現今的小米大模型,其實,與不少友商網路大廠相比,小米進軍的時間並不長。2023年4月,雷軍親自宣佈,小米將成立大模型團隊,並且,雷軍明確提出“不搞軍備競賽”,專注輕量化與端側部署。同年8月,小米首次發表了自研大模型MiLM-6B(64億參數),並在中文評測榜單C-EVAL和CMMLU中,一舉奪得同參數量級第一的成績。圖源:微博模型採用「巨量資料+大任務+大參數」的範式,透過自研的ScaledAdam最佳化器與Eden學習率調度器提升訓練效率,同時依託小米生態80%的自有資料(包括3TB產品業務資料)進行深度最佳化。第二年5月,MiLM正式透過澎湃OS系統和小愛同學實現了消費端的落地應用。小米手機端的AI圖片編輯、平板端的自動生成會議紀要、電視端的影視問答等,都有它的協同參與。小米第二代模型MiLM2,是在2024年11月發佈的,此次迭代不僅擴充了訓練資料的規模,也在訓練策略與微調機制上進行了打磨。圖源:微博這次更新的成績也很吸睛,參數範圍擴展至0.3B-30B,推理速度提升了34%,量化損失降低了78%。可以說,大模型的發展歷程,實質是小米在AI 2.0時代對「規模擴張」與「價值創造」的重新平衡,透過將開源生態、雲邊協同與通用能力三大要素深度融合,重新書寫中國科技企業參與全球AI競賽的新敘事。03. 小米的前路並不輕鬆當然,在這場小米大模型的開源狂歡過後,小米的前路也許並不輕鬆。一方面,從技術角度來看,小米模型目前僅支援文字輸入,與強勁的對手OpenAI相比,在多模態能力和應用場景拓展上還存在一定差距。與此同時,目前7B模型雖然適配端側晶片,但隨著多模態能力的擴展,未來小米可能面臨在模型複雜度與硬體相容性間權衡的難題。不過,小米技術團隊似乎已經意識到這一點。據其開源技術報告披露,下一代MiMo模型將引入動態多模態融合模組,透過跨模態注意力機制整合文字、圖像甚至感測器資料。另一方面,外部競爭對手正逐步加快開發的處理程序,火藥味越來越濃。友商科技頭部企業,如阿里巴巴、騰訊、華為、字節跳動等,你追我趕。圖源:微博例如,就在前兩天,百度在Create2025AI開發者大會上,也發表了兩款開源大模型:文心大模型4.5 Turbo及深度思考模型X1 Turbo。百度大模型的實力也確實「不一般」。圖源:微博甚至,2025年來,全球基礎模型數量已經突破了500個,而純文字模型的效能差距逐漸縮小。因此,留給小米的壓力不小。但無論如何,MiMo的開源已為中國AI發展提供新範式,至少,它證明技術突破未必需要千億參數的軍備競賽,並且,生態共贏遠比閉源壟斷更俱生命力。在大模型領域,小米究竟能掀起怎樣的浪潮,或許時間會給出答案,讓我們拭目以待。(科技頭版)
大模型新選手入場!小米拋出首個開源推理大模MiMo,超越o1-mini和阿里QwQ-32B
小米發力大模型國內大模型發展進入後半段的當下,正式殺進來一位新選手,這回是愛跨界的小米,選擇走開源技術路線。今天,小米旗下公眾號官宣推出首個推理大模型Xiaomi  MiMo-7B,引發外界關注,據悉,這是一款專為推理任務而生的大語言模型,由新成立不久的“小米大模型Core團隊”開發。MiMo-7B在預訓練和後訓練階段均進行了最佳化,小米大模型團隊給出的評估表示,MiMo-7B基礎模型擁有不錯的推理潛力,經過最終強化學習調整後的模型MiMo-7B-RL在數學、程式碼和通用推理任務上表現突出,超越了OpenAI的o1-mini模型以及阿里Qwen系列中更大規模的推理模型。既造手機又造車,既佈局IoT生活家電又搞機器人的小米堪稱科技公司中的“跨界王”,在2024年小米集團收入3659億元創歷史新高,選擇當下進軍AGI、發力AI大模型可謂“糧草”充足,或將給大模型賽道帶來新一輪市場攪動。小米的輕量模式創新根據MiMo-7B論文介紹,小米大模型團隊認為強化學習訓練的推理模型的有效性依賴於基礎模型的內在推理潛力,為了充分釋放語言模型的推理潛力,不僅要專注於後訓練階段,還必須致力於為推理量身定製的預訓練策略。在預訓練階段,小米大模型團隊改進了資料預處理流程,並採用了三階段資料混合策略,以增強基礎模型的推理潛力,MiMo-7B基礎模型在25億個詞元上進行了預訓練,還增加了多詞元預測目標,以提升效能並加快推理速度。在後訓練階段,則精心整理了一個包含13萬個可驗證的數學和程式設計問題的資料集用於強化學習,整合了一種由測試難度驅動的程式碼獎勵機制,以緩解稀疏獎勵問題,並採用了策略性的資料重採樣方法來穩定訓練過程。在強化學習(RL)基礎設施方面,小米團隊開發了一個無縫採樣引擎,整合了連續採樣、非同步獎勵計算以及提前終止機制,從而將GPU的閒置時間降至最低,實現了訓練速度提升2.29倍,驗證速度提升1.96倍。並且在vLLM(一種高效的語言模型推理庫)中支援多詞元預測(MTP),增強了強化學習系統中推理引擎的穩健性。首批開源了四個模:MiMo-7B基礎模型的表現優於約70億參數的當前最優(SoTA)開源模型;MiMo-7B-RL-Zero在數學和程式碼任務上超越了320億參數基礎模型的強化學習訓練性能;MiMo-7B-RL取得了出色的推理性能;以及一個MiMo-7B監督模型。小米大模型團隊在推文中表示,2025年雖看似是大模型逐夢的後半程,但堅信AGI的征途仍漫長,所以將從務實創新出發,勇敢探索未知,用思考突破智能邊界,用創造回應每一次好奇,同時還順帶提了一下團隊正在招募技術人才的需求。中國包攬AI開源梯隊目前,中國開源大模型已經包攬全球開源模型陣營的第一梯隊。入局的開源選手有阿里Qwen、DeepSeek、騰訊混元、智譜AI、崑崙萬維、階躍星辰、百川智能以及即將開放原始碼的百度等等,競爭非常激烈,技術角逐也呈現出多樣化特點,涵蓋模型訓練最佳化、多模態融合、低成本能等多個重要領域,目前下半場,下半場。美國頂尖AI大模型陣營有Google、OpenAI、Anthropic、XAI、Meta等,國內有阿里、騰訊、百度、字節跳動、DeepSeek等對。先前,在開源賽道領跑的是AI圈黑馬DeepSeek,在2024年12月推出開源模型DeepSeek-V3,創新自研MoE模型,訓練成本僅557.6萬美元,在性能上超越眾多開源模型,比肩OpenAI頂級閉源模型GPT-4o,一經發佈DeepSeek趁熱打鐵在2025年1月20日推出R1推理模型,在數學、程式碼、自然語言推理等領域實力與OpenAI o1正式版性能相當,且完全開源,直接奠定了市場地位,最近傳聞R2模型呼之慾出。發展開源模型最為迅猛的阿里依靠Qwen系列模型迅速趕超上了DeepSeek和Meta。日前,新發佈的Qwen3模型正式登頂成為開源大模型性能之王,並增強了對MCP的支援,官方給出的性能報告顯示已全面超越DeepSeek-R1和OpenAI o1,採用MoE架構,總參數235B,橫掃了各大基準,,此外,官方稱Qwen系列全球衍生模型數量已突破10萬,橫掃了各大基準,,此外,官方稱Qwen系列全球衍生模型數量已突破10萬,美國鼎3億模型。騰訊新推出的推理模型Hunyuan -1性能也比較出眾,在一系列基準測試中資料領先,但目前並未有該模型開放原始碼的資訊,不過Hunyuan團隊在AI技術開源方面一直有積極行動,此前已開源多個圖生視訊模型及全新3D生成模型,未來T1也存在開源可能性。最新消息稱,騰訊對其混元大模型研發體系進行了全面重構,圍繞算力、演算法和資料三大核心類股,內部組織了兩大部門,分別是大語言模型部和多模態模型部,負責探索大語言模型和多模態大模型的前沿技術,持續加碼研發投入。All in AI的百度曾官宣文心大模型4.5系列會於6月30日起正式開源,在剛剛過去的Create2025百度AI開發者大會上,文心大模型4.5 Turbo亮相,其多模態能力優於GPT-4o,文字能力與DeepSeek-V3最新版持平,優於GPT-4.5。百度的另一個優勢還在於算力硬體方面自研崑崙AI晶片,走的路徑有點和Google打造TPU相仿,Google第七代TPU “Ironwood”在算力、能耗、成本等方面展現出了更多優勢,真正創新自研AI晶片的前期投入會在未來長線AI競爭中展現出更多綜合優勢。其餘的「AI六小虎」如智譜AI、階躍星辰、MiniMax、月之暗面(Kimi)、零一萬物和百川智慧等都在大模型商業化層面積極探索,展現出不同的開源技術特色。例如,智譜近期開源了32B /9B系列GLM模型,涵蓋基座、推理、沉思模型等,其推理模型GLM-Z1-32B-0414性能可媲美DeepSeek-R1,其推理速度可達200 Tokens/秒,據說國內商業模型中速度之最。階躍星辰近期連續發佈了開源圖像編輯模型Step1X-Edit、 圖生視訊模型——Step-Video-TI2V等等,在AI圖像、視訊方向找到自身的細分技術特色和優勢。kimi近期開源了通用音訊基礎模型Kimi-Audio,支援語音識別、音訊理解、音訊轉文字、語音對話等多種任務,在十多個音訊基準測試中實現了最先進的(SOTA) 性能。開源讓中國AI模型的在全球範圍內實現了前所未有的影響力,但紛紛開源之後的商業化終局會是怎樣的變得捉摸不定。小米的再次開源進擊整體來看,小米作為AI大模型賽道的新晉選手選擇的入局時間非常巧妙。當下AI市場已經走過了前期盲目投入和不確定的試水探路階段,上一輪市場洗牌進入尾聲,且開源AI技術創新力量正處於上升期,海量AI Agent應用正處於大爆發前夜,商業應用正在日趨成熟。就資本實力而言,小米是遠超AI六小虎等創業公司的存在,且有著手機、智能汽車、IoT與生活消費產品、網際網路服務等主幹業務作為持續收入支撐,資料場景十分豐富,用於研發的投入充沛,可能會快速發力追趕與第一梯隊各大廠看齊。開源模型賽道不僅PK開放性,也較量綜合性能的領先性,多模態能力,以及性價比,無論是阿里還是百度,都會在推出新模型時把OpenAI和Deep Seek分別拉出來吊打一下。一直以性價比著稱的小米想要在當下AI大模型賽道吃得開也並不容易,就目前推出的MiMo-7B來看,雖然技術創新可圈可點,但距離最先進的水平還有一段路要走,而且,想要實現較高的開源影響力也需要有足夠爆點的技術創新改進才行。去年11月,小米被傳出內部成立了AI平台部發力AI大模型,由張鐸擔任負責人,雷軍曾稱他為小米的技術“大神”,張鐸曾在2016年至2021年期間在小米負責開源工作的規劃與推進,2021年離開小米後曾入職神策資料擔任開發者和首席架構師,205年再度。Apache HBase是一個開放原始碼的、分佈式的、面向列的非關係型資料庫,張鐸曾在Apache軟體基金會旗下近7000個Committer中總貢獻數量排到了全球第三,並帶領小米團隊成為HBase全球社區最活躍、力量最強的技術隊伍之一。去年12月,小米被爆出著手搭建了自己的GPU萬卡叢集,如今時隔5個月推出MiMo-7B模型,可見其內部對於模型研發推進速度的重視。隨著小米的加入,AI大模型下半場的競爭,可能會比上半場更有意思。 (頭部科技)
小米首個推理大模型開源!雷軍從DeepSeek挖來的天才少女,化名CiCi ?
4月30日上午,小米透過官方公眾號「Xiaomi MiMo」宣佈開源其首個推理大模型Xiaomi MiMo。從模型研發到開源落地,全程未透露任何風聲。更引人注目的是,這次開放原始碼的MiMo-7B模型僅用70億參數規模,便在數學推理和代碼生成兩大核心任務中超越OpenAI閉源模型o1-mini及阿里Qwen的32B參數版本QwQ-32B-Preview。在這次開源事件前,業內曾傳出小米大模型團隊引進關鍵人物的消息。根據多家媒體報導,前DeepSeek核心開發者羅福莉於2024年底加入小米,主導大模型研發。羅福莉碩士畢業於北京大學計算語言學專業,曾在阿里巴巴達摩院任職,因在國際頂會發表8篇論文而走紅。多位小米內部人士向重點君證實,羅福莉確認已經加入小米。 “在雷軍辦公室外看到過她幾次。”這是否為MiMo的誕生埋下伏筆?羅福莉前東家DeepSeek,正是推理模型最極致的玩家。小米官方雖未正面回應,但行業觀察人士普遍認為,頂尖人才的加入加速了小米在推理大模型領域的突破。Xiaomi MiMo大模型的所有技術細節都已經公開,重點君剛讀完技術報告,給大家劃一下重點:一、先說彩蛋。這份技術報告結尾核心貢獻者中未出現羅福莉,唯一有一位單獨用了代稱「CiCi 」。重點君認為,這位「CiCi 」很可能就是羅福莉。畢竟這麼重要的技術報告,除非有特別的原因,否則核心研究人員都願意署真名。(以上推斷僅代表個人觀點,未經小米官方證實)二、論文重點。《MiMo-7B技術報告》提出:1 、MiMo-7B是一款專為複雜推理任務設計的大型語言模型,通過優化預訓練和後續訓練(強化學習)策略,顯著提升小模型(7B參數)在數學、代碼和通用推理任務上的性能,甚至超越部分32B規模的模型。2、核心結論:預訓練階段的高品質推理資料是模型潛力的基礎。RL訓練中需平衡數學與程式碼任務的獎勵機制,避免語言混合問題。輕量級SFT(僅對齊輸出格式)效果有限,需結合深層調整。3.關鍵技術貢獻預訓練優化資料增強:優化資料預處理流程,保留數學公式和程式碼片段;結合高品質自然文字與合成推理資料(如STEM內容產生的分析和解題過程)。三階段資料混合策略:逐步增加數學與程式碼資料的比例(最終佔70%),並擴展上下文長度至32K。多令牌預測(MTP):引入平行預測未來多令牌的機制,提升推理速度(透過推測解碼加速產生)。後續強化學習(RL)優化資料品質:使用13萬可驗證的數學和程式設計問題,透過嚴格過濾保留高難度任務(如測試通過率低於90%的問題)。獎勵機制:提出測試難度驅動的程式碼獎勵,依測試案例的通過率分層分配獎勵,緩解稀疏獎勵問題。動態取樣與重採樣:動態過濾簡單問題,並通過10%機率重採樣穩定訓練。基礎設施:開發Seamless Rollout Engine,整合非同步獎勵計算與連續取樣,訓練速度提升2.29倍,驗證速度提升1.96倍。4.模型架構與訓練細節架構:基於Transformer,整合Grouped-Query Attention、RoPE位置編碼和SwiGLU啟動函數。訓練參數:預訓練25兆標記,分三階段調整學習率與批次大小;RL階段使用GRPO演算法,支援32K長上下文產生。5.實驗結果MiMo-7B-Base (預訓練模型)在BBH(語言推理)得分75.2,顯著優於同類7B模型(如Qwen2.5-7B)。數學推理(AIME 2024)得分32.9,代碼產生(LiveCodeBench v5)得分32.9,均大幅領先同規模模型。MiMo-7B-RL (強化學習調優模型)數學:AIME 2025得分55.4,超越OpenAI o1-mini(50.7)。代碼:LiveCodeBench v6得分49.3,優於QwQ-32B-Preview(39.1)。通用能力:在MMLU-Pro等基準測試中保持競爭力。如果大家感興趣的,可以查看技術報告原文:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf目前MiMo-7B 已開源4個型號至HuggingFace:https://huggingface.co/XiaomiMiMo從模型開源到終端落地,小米正試圖建構「晶片-演算法-裝置」的全端AI生態。 MiMo誕生,正是這場戰役的第一聲號角。最後,為小米和雷總在AI領域的技術進展點贊。永遠相信美好的事情即將發生。 (劃重點KeyPoints)
大模型下半場:7個趨勢判斷
推理模型能力的持續提升,推動大模型迎來“可用”到“好用”的拐點。推理強化和應用拓展啟動了大模型下半場的新賽程。個人智能體潛力初步顯現,行業應用漸次走深,開源開放日益成為大模型的核心競爭力組成。大算力、多模態、強推理、廣開源、准資料、智能體、深應用等,成為當前發展的重要趨勢。一、大力出奇蹟的算力投入模式尚未見頂DeepSeek以557萬美金的低成本訓練,給全球帶來很大震動。但這並未顛覆大模型需要大算力的底層邏輯,實際上,該模型單次訓練成本相當於國外同類模型成本的八分之一左右,尚未有數量級的差別,其意義是以更集約化的方式復現已有模型效果的工程創新。此前網路熱炒的中美大模型訓練成本的懸殊對比,其實是拿美國千億美金等級的資料中心建設、晶片購買、網路搭建、科學家薪酬等總支出,來對比DeepSeek的單次訓練成本,裹挾了較大的誇張和情緒因素。用更大算力去探索大模型的能力上限,仍是行業共識。預計今年上半年國外將推出GPT-5、Llama 4等級大模型。美國大算力叢集建設如火如荼,馬斯克的xAI已建成全球規模最大的20萬張H100算力叢集,並在此基礎上訓練出Grok3大模型。Google今年預計投入750億美元,同比增長43%,大部分用於算力中心建設;Meta預計投入為600-650億美元,同比增長53%-66%;亞馬遜預計為1000億美元,同比增長超20%。此外,日本軟銀集團、OpenAI和美國甲骨文公司三家企業聯合開啟星際之門計畫,將在未來4年投資5000億美元,在美國建設超大型算力基礎設施。這些將推動大模型在預訓練方面的更多突破,加上現在流行的強化學習等後訓練增強,大模型能力的躍升可能會進一步加快。有不少大佬預測,AGI的實現可能就在最近的兩到三年。高端晶片供給仍是中國下一代大模型的卡脖子問題,可能再次面臨訓練晶片供應不足的風險。雖然去年以來,中國AI高端晶片企業數量和能力均有提升,華為、燧原科技、摩爾執行緒、海光、壁仞等多家企業已設計出對標輝達A100單卡性能的國產晶片,但由於台積電暫停7nm產能供應及HBM禁令等限制,國產高端晶片的製造仍面臨挑戰。二、慢思考和多模態成標配,多領域將迎來AlphaGo時刻包含了強化學習等在內的後訓練過程,把預訓練積累的模型潛力發揮了出來,模型慢思考帶來了推理能力的大幅提升。受DeepSeek效應刺激,國內外大模型公司正加速推出下一代大模型,如OpenAI的基礎大模型GPT-4.5,推理模型o3;Anthropic整合了深度思考和快速輸出的混合推理模型Claude 3.7;Google相繼發佈 Gemini 2.0和更強大的推理模型Gemini 2.5 Pro,以及xAI的Grok 3。國內騰訊混元發佈了可以秒回的強推理模型T1,將快慢思考相結合,並首次將混合Mamba架構無損應用於超大型推理模型,顯著降低了訓推成本。DeepSeek更新了一版名為DeepSeek-V3-0324的模型,在數學、程式碼類相關評測集上取得了超過 GPT-4.5 的得分成績。多模態是人類世界的本來樣貌,大模型的發展趨勢一定是走向多模態,從單一的文字、圖像、視訊、3D,向聲、光、電,甚至分子、原子等各類模態擴展,達成對真實世界的理解和生成,原生多模態是未來方向。近期發佈的GoogleGemini 2.0 Flash可實現一句話編輯圖片,堪比專業Photoshop軟體的編輯效果; GPT4o最新推出的風格化文生圖能力火爆全網。騰訊剛開放原始碼的混元3D模型,同時支援文生3D和圖生3D,可一鍵換皮膚、一鍵變動畫,一鍵生成3D遊戲視訊。隨著模型能力的躍遷,可以預見,更多領域將迎來“AlphaGo時刻”,即大模型在各領域的能力超過該行業90%以上,甚至最高水平的人。OpenAI的o1在在美國數學邀請賽拿到接近滿分成績,在物理、 生物和化學問題的基準測試上超越了博士水平的精準率。Anthropic 首席執行官Dario近日預言 ,未來3-6 個月 AI 將能夠編寫 90% 的程式碼。三、模型開源和開放協議成為新競爭力組成之前行業爭執不下的開源與閉源之辨,倒向了開放原始碼的一邊。DeepSeek的火爆,一定程度上得益於開源,其採取的MIT License協議支援完全開源,不限制商用,也無需申請,讓全球開發者都有機會上手使用和評測,依靠口碑效應快速形成了全球影響力。原來堅定走閉源路線的OpenAI也被迫考慮開源,奧特曼近日公開表示,之前選取的閉源策略可能站在了歷史錯誤的一邊,同時還在社交平台公開徵集開源方案,未來要做端側的開源大模型和o3 mini等級的開源模型。國外Meta,國內騰訊、阿里、智譜等企業很早就開啟了開源戰略。如,混元文生圖模型是業內首個中文原生的DiT架構文生圖開源模型;文生視訊大模型是當前最大的視訊開源模型,且全面開源,包含模型權重、推理程式碼、模型演算法等完整模型。國外Hunging Face等社區也成為全球大模型開發者活躍的重要平台,在Hunging Face上彙集了152萬款開源大模型,33.7萬個開放資料集。同樣重要的還有大模型的開放協議,可以類比為網際網路興起時的HTTP協議,HTTP讓各類網頁都能以統一的格式展現在瀏覽器中,方便使用者獲取資訊。大模型的資料通訊開放協議則可以讓大模型更方便地呼叫各種工具,從而自主完成各類任務。如,近期火爆的MCP(模型上下文協議)是Anthropic於去年11月發佈的一個模型資料通訊協議,成為連通大模型和各類工具之間的橋樑。四、“後真相”時代,打造可信大模型迫在眉睫技術對知識資訊的影響,第一次從傳播和互動環節向前延伸到生產環節。大模型知識輸出的精準度、專業度,即大模型的“可信度”,正在成為人工智慧的核心競爭指標。大模型帶來資訊極大豐富的同時,內容中所包含的幻覺等噪聲問題也困擾著使用者。《哥倫比亞新聞評論》研究發現,美國用於新聞搜尋的生成式人工智慧模型存在嚴重的精準性問題。研究人員測試了8種具備即時搜尋功能的AI搜尋工具,發現有60%以上的新聞來源查詢錯誤。大模型的幻覺問題,是伴隨人工智慧底層技術路徑與生俱來的,和創新能力是一體兩面的,難以僅僅依靠技術徹底解決。引入權威的圖書、雜誌、新聞資訊、論文等優質內容資料,並打造新的、“可信”的知識共識機制和供應體系,是大模型未來在生產、生活應用領域產生更大價值的關鍵所在。OpenAI與新聞集團去年簽署了為期5年的合同,獲得了訪問該集團旗下媒體歷史內容的授權,包括《華爾街日報》《巴倫周刊》《泰晤士報》《每日電訊報》等主串流媒體,以增強大模型回答內容的可信度。騰訊混元正在與大百科出版社、人民衛生出版社、上海辭海出版社、化工出版社等優秀的傳統出版機構開展合作,支援其推出圖書智能體,探索基於搜尋增強技術的可信大模型合作模式。如,在元寶APP應用廣場中,人衛智能體可以為使用者提供心腦血管等特定醫學知識領域的權威解答,同時提供相關書籍原文的引用,並可以引流到電子書閱讀平台,跳轉到實體書購買頁面。既能實現類似腳註尾注、文獻索引等傳統知識溯源機制的遷移,確保輸出知識的共識性、精準性,也將為出版機構和大模型平台帶來可持續共贏的模式。未來,誰能夠接入更多可信的資料來源,建構起可信的評價和共識機制,誰就能在人機內容共創的時代獲得領先優勢。五、個人應用在智能+網際網路邏輯下有望開啟馬太效應GPT-4.5,DeepSeek V3、騰訊Turbo S等基礎大模型,OpenAI o3、DeepSeek R1、騰訊T1等推理模型的陸續發佈,標誌著基礎大模型進化到了好用的階段,推動個人應用迎來發展新起點。過去個人應用之所以不夠豐富,核心是由於基礎大模型的能力所限,在複雜問題分析、多模態生成和理解等領域的效果還不盡如人意,使用者使用大模型時驚喜不足。而且個人應用的資料,更多是使用偏好資料,並不能反哺基礎大模型智能的提升,因此過去花錢買流量和使用者的應用也沒能構築護城河,使用者替換應用的成本較低,粘性不足。在當前基礎大模型能力相對成熟的背景下,過去移動網際網路賴以成功的平台效應有望再次發揮作用。更多使用者使用AI應用,可以沉澱更多的優質共享知識、積累更多的使用者反饋和社互動動等,從而讓應用得以持續最佳化,並吸引更多的使用者使用,形成良性的正循環。以騰訊元寶為例,採取DeepSeek+混元雙模型引擎驅動的戰略後,使用者數直線上升, 今年2月至3月DAU(日活)增長超20倍。中國應用領先的優勢有望進一步發揮,提效類的生產力工具日益強大,殺時間的陪伴類和文娛類應用體驗不斷最佳化。根據a16z投資機構3月發佈的全球Top 50生成式AI應用報告,中國公司的應用有11款上榜,而去年8月僅有3款產品上榜,增速明顯。AI新搜尋、文生圖/視訊工具和角色扮演應用是排名前三的熱點方向。但同時,個人應用創新仍然面臨“苦澀的教訓”( The bitter lesson) ,即人們反覆嘗試用工程手段提升性能,最終卻總是被簡單堆算力的方式超越。大模型能力的不斷提升,會“吃掉”不少應用創新的功能,特別是工作流類的應用,更容易被大模型的新能力取代。如何在應用中加深護城河,需要更多第一性原理的思考,從而嵌入使用者決策鏈條的關鍵節點去提升價值,增加使用者的情感性認同,並通過生態協同,提升自身的不可替代性。可以說,技術迭代是矛,場景滲透是盾,生態協同是土壤,個人應用有時候要跑得快一點等大模型能力的提升,有時候又要慢一點思考大模型的演進路徑,去建構技術+場景+生態協同的“動態能力組合”。六、個人AI應用的終點是超級智能助理基礎大模型能力的升級,帶來應用深度的能力解鎖。第一波以ChatGPT為代表的大模型擅長對話,催生了AI新搜尋Perplexity等應用。第二波以Claude 3.5 Sonnet為代表的大模型擅長程式設計,推動了估值百億美金的Cursor和當紅程式設計明星Devin等的火爆。第三波以Open AI o1為代表的大模型擅長深度推理,讓Agent應用成為可能。特別是隨著多模態、強化學習技術持續突破,模型的效果大幅提升、成本不斷降低,可以預見,智能體應用將加速滲透到更多垂直領域,開啟人機協作新紀元。智能體新時代正在走來。近期國內Manus應用的火爆,讓業界對AI智能體的未來給予更多期待。無獨有偶,OpenAI的自主電腦使用智能體Operator和深度研究智能體Deep Research已開啟商業化試水,從實驗室走向大眾市場。據外媒報導,OpenAl計畫以每月2000美元的價格向“高收入知識工作者”出售低端代理;中端代理每月收1萬美元,用於軟體開發;而高端代理作為博士級研究代理,每月收費 2萬美元。據Gartner 預測,到2028年,33% 的企業軟體應用將包含代理式人工智慧,而2024年這一數字不到1%,且至少15%的日常工作決策將通過人工智慧代理自主做出。人工智慧代理市場將顯著增長,從 2024年的51億美元增長到2030年的471億美元。Agent應用的深入,將推動Token消耗量呈百倍甚至更高量級的增長,由此帶來推理算力需求的更大爆發,並超過訓練算力需求。為提升能效比和降低成本,Google、亞馬遜、Meta、OpenAI等大型雲端運算和大模型廠商均加速佈局定製化ASIC,ASIC正逐步發展成為輝達GPU之外的重要新技術路線。摩根士丹利預計,AI ASIC市場規模將從2024年的120億美元增長至2027年的300億美元,複合增長率達34%。與此同時,Agent的廣泛使用將要求模型能處理更大規模的上下文,對模型基礎能力的提升也帶來更大挑戰。七、智力即服務是行業落地的終極方向以雲的方式,讓智能變成一種千行百業可按需呼叫的服務,將最終形成智力即服務(Intelligence as Service)的新形態。過去衡量經濟發展和數位化水平,會看用電量、用雲量,以後我們衡量智能的水平,可能要去看“用詞量”(Token)。DeepSeek等大模型的火熱,帶來了模型效果的全面升級,激發了中國各行業擁抱大模型的新熱潮。但當前,中美企業的生成式AI應用程度存在一定差距,中國企業應用大多處於試驗階段,離規模化使用還有距離。而美國企業應用更加廣泛和深入,2024年美國企業全面實施生成式AI的比例達24%,明顯高於中國的19%。美國政府和企業普遍採用公有雲部署AI,支援AI快速迭代,超過70%的組織使用雲端AI。受此推動,美國大公司最新一季度的雲端運算收入高速增長,如微軟達到409億美元,同比增長21%;亞馬遜為287.86億美元,同比增長19%‌;Google119.6億美元,同比增長30%。高性價比正在推動行業應用走深。自ChatGPT發佈兩年多來,大模型性能持續提升,推理成本顯著下降,如GPT-4o的API呼叫價格為每百萬輸出tokens 20美元,相比發佈時下降了三分之二。當前國內DeepSeek V3的每百萬Token 8元,混元多模態大模型TurboS每百萬Token低至2元。在模型能力效果大幅提升的同時,還為各行業大範圍部署提供了很高的性價比。近兩個月來,行業大模型落地成效顯著,已有政務、金融、醫療、教育、傳媒、文旅等30多個行業落地,大幅提升效率的同時,也在重構原有流程。包括深圳寶安政務、深圳醫保、上海徐匯城運中心、深圳大學、瑞金醫院、上海醫藥、重慶農商行、榮耀等公司都積極部署並探索大模型應用。以深圳寶安政務大模型應用為例,已覆蓋民生訴求、企業服務、政務辦公、社會治理等31個業務場景,覆蓋全區14個領域、20個行業近3萬餘條政府服務知識,整合了60多種模型能力,並可結合業務場景需要快速部署新的智能應用。行業應用中,優質資料是提效護城河。行業大模型比以往任何時候都更需要行業和企業內的優質資料,因為行業應用需要更準確、專業的知識,且對幻覺零容忍。在資料治理上的投入將獲得事半功倍的效果。而這往往需要很大的投入,也被經常認為是苦活兒和累活兒,是行業落地中最容易被忽視的部分。未來,大模型不僅在各行業縱深發展,更將通過跨領域協同、中小企業普惠、社會系統重塑等路徑,實現深度應用的立體化演進:從“場景適配”到“價值創造”,大模型從效率工具升級為業務增長引擎;從“資訊孤島”到“生態融合” ,跨領域資料的協同推動應用邊界擴展;從“企業級應用”到“社會系統重構” ,技術滲透進入深水區,引發企業和社會組織模式、就業和分配結構、社會倫理規範等全方位變革。 (騰訊研究院)