#開源
六國15家頂媒齊轉引:中國AI開源又好又便宜
2025年12月20日,法國最大通訊社法新社發佈報導《中國AI開源模型以高性價比悄然打入美國市場》,其中引述中國人民大學重陽金融研究院院長、全球領導力學院院長王文觀點:“中國開源模型價格低廉,甚至免費,而且效果很好”。該觀點在全球科技與政策圈廣泛傳播,美國《巴倫周刊》、新加坡《海峽時報》、法國France 24、沙烏地阿拉伯《阿拉伯新聞》、印度《今日傳播》、越南《勞動報》等六國15家頂級媒體密集轉引。以下為相關報導情況:12月20日,法新社發佈題為《中美AI競賽中,中國技術悄然打入美國市場》的報導,開篇即拋出一個震撼案例:一位美國企業家因將底層模型切換至阿里巴巴千問,實現每年節省40萬美元。文章指出中國開放模型的全球使用率已從2024年底的1.2%飆升至2025年8月的近30%。中國的主流模型以實際表現證明,開源路徑完全可以兼具高性能與低成本,從而改寫了技術選擇的遊戲規則。文章重點提及了王文的觀點:“中國的開源模型價格低廉,在某些情況下甚至是免費的,而且效果很好。”來自美國、法國、新加坡、沙烏地阿拉伯、印度、越南六國的15家核心媒體轉引這一觀點。《巴倫周刊》(Barron’s)、美國線上(AOL)、雅虎財經(Yahoo Finance)、《商業時代》(New Business Age)等面向歐美精英階層的主流財經與資訊平台迅速轉引。新加坡《海峽時報》(The Straits Times),印度《今日傳播》、《印度時報》、《歐亞時報》,法國國際新聞台(France 24),阿拉伯世界頗具影響力的《阿拉伯新聞》(Arab News)亦跟進轉載,將討論推及更廣闊的歐亞大陸。▲部分報導截圖如上這是2025年中國人民大學重陽金融研究院(人大重陽)在AI領域面向國際輿論場的又一次有力發聲。早在2025年年初,當DeepSeek在全球科技市場引發震動,人大重陽就已開始聚焦其全球影響,迅速啟動相關專題研究。2月23日,在人大重陽承辦的通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會上,首份DeepSeek高校智庫評估報告《大跳躍:美國智庫、媒體與行業論DeepSeek中國人工智慧》(該報告論文版發佈於核心期刊《智庫理論與實踐》2025年3月第10卷第2期,作者係人大重陽院長王文、副研究員申宇婧、助理研究員金臻)一經發佈,隨即引發熱烈反響。▲2025年2月23日,通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會在中國人民大學召開報告建議,應該客觀冷靜看待中國AI的發展階段與競爭格局,在制度建設、人才培養、企業創新等各個層面,以長期主義推動中國AI可持續發展,踐行“科技為民、科技惠民”理念,在積極參與人工智慧國際治理的同時,要守住AI發展紅線,警惕技術發展失控危機,引發40余家中外媒體轉引報導。▲報告封面如上3月1日,人大重陽宏觀研究部副主任、副研究員申宇婧在“長安街知事”微信公眾號發表文章呼籲變革AI實力評價標準,批判單純堆砌參數的“冷冰冰”路徑,力主中國“降本、增效、協同、普惠”的發展哲學,將DeepSeek的普及定義為一場深刻的社會革命。11月5日,在第八屆虹橋國際經濟論壇上,王文受邀做客央視新聞直播間,以“AI上進博,未來科技有多炸”為主題,解讀在全球科技競爭加劇的前提下,創新與合作如何雙向發力:“以人工智慧為代表的新一代工業革命,中國走在了世界最前沿,中國通過一代、兩代、三代人的不懈努力,有了科技自信的資本……而進博會提供了很好的平台,讓這些真正摸得到、感知的到、享受的到的智能產品惠及到每一個普通人。”▲部分報導截圖如上11月,王文與澳門科技大學博雅學院助理教授張夢晨在學術期刊《理論建設》2025年第6期發表論文《AI時代的全球領導力重塑:範式演化、政治哲學轉向與中國路徑》。系統闡釋了AI時代全球領導力正從“控制型”霸權向“共建型”範式演化,剖析美國“領導力赤字”,並為中國提出融合頂層設計、技術自主、數字外交與“數字命運共同體”建構的完整行動路徑。 (人大重陽)
智譜就差臨門一腳了
12月19日,智譜向港交所遞交了聆訊後資料集,由中金公司擔任獨家保薦人。成立於2019年的智譜,其技術源於清華大學電腦系的技術成果轉化,專注於大模型研發,有望成為全球首家以通用人工智慧(AGI)基座模型為核心業務的上市公司。招股檔案顯示,智譜IPO前估值243.8億元,股東包括美團、騰訊等產業資本,以及君聯、紅杉等機構。雖然智譜營收快速增長,但經營壓力仍大。2022年至2025年上半年,智譜累計虧損超62億元,研發投入達44億餘元。截至2025年6月末,公司現金及現金等價物為25.52億元,現金儲備面臨較大壓力。財務資料顯示,智譜在2022年、2023年、2024年及2025年上半年分別實現營收5740萬元、1.245億元、3.124億元和1.9億元,連續三年(2022至2024年)營收翻倍,復合年增長率高達130%。同時,其毛利率分別為54.6%、64.6%、56.3%和50%。弗若斯特沙利文資料顯示,按2024年營收計算,智譜在中國獨立通用大模型開發商中排名第一,在所有通用大模型開發商中位列第二,市場份額為6.6%。然而,其高增長背後是不斷擴大的虧損。同期,智譜經調整淨虧損分別為9740萬元、6.21億元、24.656億元和17.52億元,年內虧損則分別為1.44億元、7.88億元、29.58億元和23.58億元。值得注意的是,2025年上半年,智譜月均虧損近4億元,這一數字是同期月均營收的10倍以上,智譜將虧損歸因於研發投入。2022年至2025年上半年,智譜研發開支分別為8440萬元、5.289億元、21.954億元和15.947億元,其中2024年的研發開支約為當年營收的7倍。截至2025年6月30日,智譜研發團隊共有657人,佔員工總數的74%。其核心科研團隊與學術顧問團隊已發表論文500篇,累計被引次數超過58000次。技術層面,智譜自成立以來,陸續推出了中國首個百億參數模型、首個開源千億參數模型、首個對話模型以及首個多模態模型。2025年,其推出的GLM-4.5/4.6在12項權威評測中綜合排名位列國內第一,並在全球開源模型中排名第一。GLM-4.6發佈時即適配寒武紀、摩爾線程等國產晶片,目前GLM架構已相容40餘款國產晶片。2025年6月,OpenAI在行業分析報告中將智譜列為全球主要競爭對手之一。在收入結構方面,2022年至2024年及2025年上半年,智譜本地化部署業務的營收佔比分別為95.5%、90.4%、84.5%和84.8%,而云端部署業務的營收佔比則分別為4.5%、9.6%、15.5%和15.2%。可以看出,本地化部署仍是智譜的核心收入來源,2024年貢獻了84.5%的營收。這種模式在發展初期,幫助智譜深入滿足政企客戶的定製化需求,但規模化擴張能力相對受限。為此,智譜正在推動商業模式轉型,將重心逐步轉向雲端部署與MaaS(模型即服務)模式。智譜自2021年起佈局MaaS平台,目前開放平台上已匯聚超過270萬企業及應用開發者。截至2025年9月30日,其模型服務覆蓋全球12,000家企業客戶、超8,000萬台終端裝置使用者,以及超過4,500萬名開發者。因此,日均token消耗量從2022年的5億增長至2025年上半年的4.6兆。智譜的目標是將API呼叫服務收入佔比提升至50%。據披露,面向全球開發者的模型服務業務年度經常性收入已突破1億元。2024年,智譜曾密集推出語音互動、視覺理解、視訊生成等多模態大模型,但從2025年起策略收縮,重新聚焦於基座大模型與程式碼大模型等更適配API規模化分發的核心賽道。智譜MaaS平台主要服務科技網際網路和企業客戶,國內前十的網際網路公司有九家用其模型。但隨著雲廠商紛紛入局,競爭加劇,其雲端業務能否持續增長仍存疑。客戶集中度方面,2022年至2024年及2025年上半年,智譜來自五大客戶的收入分別佔總收入的55.4%、61.5%、45.5%和40%,而來自最大客戶的收入佔比則分別為15.4%、14.7%、19%和11%。截至2025年6月末,智譜貿易及其他應收款項為4.53億元。招股檔案提示,智譜面臨客戶或第三方延期付款及違約相關的信貸風險,可能對其流動資金和財務狀況產生不利影響。從2024年起,智譜開始向海外客戶提供本地化部署服務,主要來自東南亞。2024年,中國大陸收入佔本地化部署總收入的99.5%,到2025年上半年降至88.4%,而東南亞市場佔比升至11.1%,對應收入1792.7萬元。不過,雖然智譜技術強、客戶多,但一直虧錢,研發投入又大,現金流緊張,加上大公司都在競爭,它想成功上市並持續發展,似乎還有很長的路要走。 (AI硅基未來)
小米“降維打擊”:MiMo-V2-Flash性能直逼GPT-5,成本僅零頭!
一場由科技巨頭小米掀起的AI風暴,正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash,這不僅僅是技術實力的秀肌肉,更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能,正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析:性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈,核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent(智能體)場景中表現尤為突出,同時也是日常任務的優秀通用助手。•極致效率與成本革命: 這款模型以每秒150個token的驚人速度進行推理,而成本更是低至每百萬輸入token 0.1美元,每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略,無疑將極大降低AI應用的門檻,為開發者和企業帶來巨大的紅利。•混合專家(MoE)架構: MiMo-V2-Flash採用MoE設計,總參數高達3090億,但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時,顯著降低了計算資源消耗。•混合滑動窗口注意力機制: 為瞭解決長文字處理的計算複雜度問題,MiMo-V2-Flash創新性地採用了5:1的混合比例,即5層滑動窗口注意力(SWA)搭配1層全域注意力交替使用,滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍,同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入,且性能不打折扣。•輕量級多Token預測(MTP): 區別於傳統模型的單token生成,MiMo-V2-Flash通過原生整合的MTP模組,能夠平行預測多個token,推理速度提升2到2.6倍。這不僅加速了生成效率,還解決了強化學習訓練中GPU空閒時間浪費的問題,實現了“一箭雙鵰”的效率提升。💡 性能對標:直逼頂尖,局部超越小米MiMo-V2-Flash的實測表現,足以讓業界震驚。•推理能力: 在大部分推理基準測試中,MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中,它甚至超越了Kimi K2 Thinking。•編碼與Agent能力: 在SWE-Bench Verified的Agent任務中,MiMo-V2-Flash取得了73.4%的高分,超越所有開源競爭對手,並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中,其解決率達到71.7%。在程式設計能力評估中,它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當,而成本僅為後者的一小部分。•通用能力: 除了技術型任務,MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋,意味著它不僅能寫程式碼、解數學題,還能即時獲取最新資訊。🚀 戰略佈局:AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash,並非孤立的技術展示,而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”: 小米MiMo團隊負責人羅福莉(前DeepSeek核心研究員)明確指出,MiMo-V2-Flash是其AGI(通用人工智慧)路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上,有著清晰且野心勃勃的長期規劃。羅福莉的加盟,本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”: 摩根士丹利分析師指出,小米旨在通過這款高性能模型,深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石,為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗,從而強化其生態護城河。•全面開源,建構生態: 小米選擇完全開源MiMo-V2-Flash,並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台,這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻,加速高性能AI技術在更廣泛場景中的應用和普及,從而凝聚開發者,共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈,猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今,小米正以0.1美元/百萬token的超低成本和頂級的性能,重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破,更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下,小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置,為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”,真的來了。 (澤問科技)
小米突然發佈新模型:媲美 DeepSeek-V3.2,把手機的性價比捲到 AI
開源模型再次迎來一位重磅選手,就在剛剛,小米正式發佈並開源新模型 MiMo-V2-Flash。MiMo-V2-Flash 總參數 3090 億,活躍參數 150 億,採用專家混合架構 (MoE),性能還能和 DeepSeek-V3.2、Kimi-K2 這些頭部開源模型掰掰手腕。此外,MiMo-V2-Flash 採用 MIT 開源協議,基礎版權重也已經在 Hugging Face 上發佈。當然,除去「開源」這一標籤,新模型真正的殺手鐧在於架構設計上的激進創新,把推理速度拉到了 150 tokens/秒,成本壓到了每百萬 token 輸入 0.1 美元、輸出 0.3 美元,主打一個超絕性價比。此外 ,根據官方體驗頁面資訊,MiMo-V2-Flash 還支援深度思考和聯網搜尋功能,既能對話聊天,也能在需要即時資料、最新動態或資料核對的場景裡派上用場。附上 AI Studio 體驗地址:http://aistudio.xiaomimimo.com開源模型新標竿,MiMo-V2-Flash 跑分全線開花先來看看 MiMo-V2-Flash 的跑分。基準測試成績顯示,AIME 2025 數學競賽和 GPQA-Diamond 科學知識測試中,MiMo-V2-Flash 都排在開源模型前兩名。程式設計能力更是亮眼,SWE-bench Verified 得分 73.4%,超越所有開源模型,直逼 GPT-5-High。而這個測試是讓 AI 去修真實世界的軟體 bug,73.4% 的成功率也意味著它能搞定大部分實際程式設計問題。在多語言程式設計基準測試 SWE-Bench Multilingual 裡,MiMo-V2-Flash 的解決率為 71.7%。轉看智能體任務,MiMo-V2-Flash 在τ²-Bench 分類得分中,通訊類 95.3 分,零售類 79.5 分,航空類 66.0 分,BrowseComp 搜尋代理得分 45.4,啟用上下文管理後直接飆到 58.3。這些資料說明,MiMo-V2-Flash 不僅會寫程式碼,還能真正理解複雜任務邏輯,執行多輪智能體互動。更重要的是,寫作質量也接近頂級閉源模型,這意味著 MiMo-V2-Flash 不只是個工具,還能當個靠譜的日常助手。MiMo-V2-Flash 在保持長文字性能的同時,還降低了成本,究其原因,離不開兩項核心技術創新。混合滑動窗口注意力機制:傳統大模型處理長文字時,全域注意力機制會導致計算量二次爆炸,儲存中間結果的 KV 快取也跟著飆升。小米這次採用了 5 比 1 的激進比例,5 層滑動窗口注意力搭配 1 層全域注意力交替使用,滑動窗口只看 128 個 token。這種設計讓 KV 快取儲存量直接減少了近 6 倍,但長文字能力卻沒打折扣,最長支援 256k 上下文窗口。且模型即使在這麼激進的窗口設定下,照樣能穩住長文字性能。對此,羅福莉在社交平台上特別指出一個反直覺的發現:窗口大小 128 是「最佳甜點值」。實驗證明,盲目擴大窗口(如增至 512)反而會導致性能下降。同時她強調,在實施該機制時,sink values 是維持性能的關鍵,絕不可省略。另一個黑科技是輕量級多 Token 預測 (MTP)。傳統模型生成文字時一次只能吐一個 token,就像打字員一個字一個字敲。MiMo-V2-Flash 通過原生整合的 MTP 模組,能平行預測多個 token,一次性猜出接下來好幾個 token。實測平均能接受 2.8 到 3.6 個 token,推理速度直接提升 2 到 2.6 倍,不僅在推理時管用,訓練階段也能加速採樣,減少 GPU 空轉,屬於一箭雙鵰。羅福莉提到,在三層 MTP 設定下,他們觀察到平均接受長度超過 3,編碼任務速度提升約 2.5 倍。它有效解決了小批次 On-Policy 強化學習中「長尾樣本」帶來的 GPU 空閒時間浪費問題。啥叫長尾樣本?就是那些特別難、特別慢的任務,拖著其他任務一起等,GPU 就在那乾瞪眼。MTP 把這個問題給解了,極大提高了效率。不過羅福莉也坦誠,這次因為時間緊迫沒能把 MTP 完整整合進 RL 訓練循環,但它與該流程高度契合。小米已經把三層 MTP 開源了,方便大家在自己的項目中使用與開發。算力只用 1/50,性能如何不打折?預訓練階段,新模型使用 FP8 混合精度,在 27 兆 token 資料上完成訓練,原生支援 32k 序列長度。FP8 混合精度是一種壓縮數值表示的技術,能在保持精度的同時減少視訊記憶體佔用和加速訓練。這種訓練方式在業界並不常見,需要對底層框架進行深度最佳化。而在後訓練階段,小米整了個大活,提出了多教師線上策略蒸餾 (MOPD)。傳統的監督微調加強化學習管線,不僅訓練不穩定,算力消耗還賊高。MOPD 的思路是讓學生模型在自己的策略分佈上採樣,然後由多個專家教師在每個 token 位置提供密集的獎勵訊號。通俗點說就是,學生模型自己寫作業,老師在每個字上都給評分,不用等寫完整篇才打分。這樣一來,學生模型能快速從教師那裡學到精髓,而且訓練過程穩定得多。最誇張的是效率提升,MOPD 只需要傳統方法 1/50 的算力,就能讓學生模型達到教師性能峰值。這意味著小米能用更少的資源,更快地迭代模型。而且 MOPD 支援靈活接入新教師,學生模型成長後還能反過來當教師,形成「教與學」的閉環自我進化。今天的學生,明天的老師,後天又能教出更強的學生,套娃玩法屬實有點東西。用羅福莉的話來說,他們借鑑 Thinking Machine 的 On-Policy Distillation 方法,將多個強化學習模型進行融合,結果帶來了驚人的效率提升。這為建構一個自我強化循環系統奠定了基礎,學生模型可以逐步進化,最終成為更強的教師模型。在智能體強化學習擴展上,小米 MiMo-V2-Flash 研究團隊基於真實 GitHub issue 建構了超過 10 萬個可驗證任務,自動化流水線跑在 Kubernetes 叢集上,並行能開 10000 多個 Pod,環境部署成功率 70%。針對網頁開發任務,還專門搞了個多模態驗證器,通過錄製視訊而非靜態截圖來驗證程式碼執行結果,直接減少視覺幻覺,確保功能正確。對於開發者而言,MiMo-V2-Flash 能與 Claude Code、Cursor、Cline 等主流開發環境無縫配合,256k 的超長上下文窗口支援數百輪智能體互動與工具呼叫。256k 是什麼概念? 大概相當於一本中等篇幅的小說,或者幾十頁技術文件。這意味著開發者可以把 MiMo-V2-Flash 直接融入現有工作流,不需要額外適配,拿來就用。小米還把所有推理程式碼貢獻給了 SGLang,並在 LMSYS 部落格分享了推理最佳化經驗。技術報告公開了完整模型細節,模型權重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 許可協議發佈。這種全面開放原始碼的態度,在國內大廠裡屬實少見。目前 MiMo-V2-Flash 已經在 API Platform 限時免費開放,開發者可以直接上手體驗。小米的 AI 野心,不止於手機助手MiMo-V2-Flash 的發佈,標誌著小米在 AI 賽道上的全面發力。羅福莉在社交平台上透露了更多資訊,「MiMo-V2-Flash 已正式上線。這只是我們 AGI 路線圖上的第二步。」第二步就已經這麼猛了,那後面還有啥大招?想想就有點期待。當然,小米在技術報告中也坦誠,MiMo-V2-Flash 與最強的閉源模型相比仍有差距。但他們的計畫很明確,通過擴大模型規模與訓練算力來縮小差距,同時繼續探索更穩健、更高效的智能體架構。MOPD 框架下教師模型與學生模型的迭代共進化,也為未來的能力提升留足了空間。把視角拉高來看,背後是小米對整個 AI 生態的一次戰略押注。手機、IoT、汽車,小米的硬體生態需要一個強大的 AI 底座,MiMo-V2-Flash 顯然就是小米為全硬體生態準備的那塊基石。就像十四年前小米手機用 1999 元重新定義了旗艦機的價格標準,如今 MiMo-V2-Flash 正在用白菜價的成本、73.4% 的 SWE-Bench 得分,重新定義開源大模型的性能標準。這一次,屬於開源模型的「小米時刻」真的來了。 (APPSO)
OpenAI又開源了!僅0.4B,給模型大瘦身
99.9%權重清零,大模型內部思維變“透明”。智東西12月15日報導,昨天,OpenAI開源新模型Circuit-Sparsity,模型參數量僅0.4B,99.9%的權重為零。▲Circuit-Sparsity開源(來源:Hugging Face)這個技術試圖解決模型的可解釋性問題,簡單來說就是回答“模型為什麼做出這個決策?”以及“它是如何得出這個結果的?”這兩個問題。在AI飛速發展的今天,大語言模型(LLM)雖然表現出了驚人的能力,但其內部運作機制始終像一個神秘的“黑箱”。我們不知道它為何做出某個回答,也不清楚它是如何從海量資料中提取知識的。這種不可解釋性,成為了AI在醫療、金融、法律等高風險領域落地的重大障礙。對此,OpenAI研究團隊訓練出了一個權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。在這項研究中,研究團隊在模型內部形成了緊湊且可讀的“電路”(Circuits),每個電路都僅保留了保證模型性能的關鍵節點,神經元的啟動變得具有明確的語義。有外網網友稱這一技術讓當下的MoE(混合專家模型)走到了盡頭,並說“我們一直以來都將權重隔離到‘專家’中,以此粗略地近似稀疏性,僅僅是為了滿足稠密矩陣核的要求。”▲外網評價(圖源:X)更有網友將這項研究形容為將模型“減肥到只剩骨架”,還說這項研究就好像打開了黑匣子,不試圖解開稠密模型而是直接建構稀疏模型,正是這項研究有趣的地方。▲外網評價(圖源:X)但有些網友卻不這麼認為,稱其沒有看出MoE模型為何會因此走到盡頭,並進一步解釋說這一技術是針對XAI(可解釋AI)的,它的訓練成本要高100-1000倍,回到“研究時代”並不意味著讓事情變得更複雜。▲外網評價(圖源:X)該模型目前受限於計算效率瓶頸,其運算速度較密集模型慢100至1000倍,將該技術直接應用於千億參數等級的前沿大模型,現階段尚不具備可行性。開源地址:Github:https://github.com/openai/circuit_sparsityHugging Face:https://huggingface.co/openai/circuit-sparsity01. 訓練稀疏Transformer OpenAI理清模型內部計算要理解這項研究的突破,首先需要明白傳統大模型為何難以解釋。在標準的密集模型(Dense Models)中,神經網路存在一種被稱為“超級位置”(Superposition)的現象。簡單來說,為了儲存海量的資訊,模型被迫讓單個神經元或權重矩陣同時編碼多個完全不同的概念。這種特徵糾纏導致了嚴重的後果,例如模型的決策不可追溯和邏輯混亂,當模型輸出一個結果時,我們無法確定是哪個具體的“概念”在起作用。針對以上問題,以前的研究通常從試圖拆解密集、糾結的網路開始。但OpenAI團隊採取了一種“反直覺”的策略,即訓練權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。強制模型限制了模型只能使用其神經元之間極少的可能連接,而這一簡單的更改,幾乎從根本上理清了模型的內部計算。▲每個神經元只與下一個層的幾個神經元相連(圖源:OpenAI技術部落格)具體的技術手段包括:1、動態剪枝與稀疏約束:在訓練過程中,系統會動態執行“剪枝”操作,每一步最佳化後僅保留絕對值最大的權重(Top-K稀疏化)。2、啟動稀疏化:在殘差流、注意力鍵/值矩陣等關鍵位置,研究團隊引入了AbsTopK啟動函數,強制僅保留前25%的啟動值。3、架構微調:為了配合稀疏化,研究團隊用RMSNorm替代了傳統的LayerNorm,避免歸一化操作破壞稀疏性,同時引入了“Bigram表”來處理簡單的模式匹配,從而釋放模型的主幹容量去處理複雜的邏輯推理。02. 模型內部形成緊湊可讀的“電路”規模縮減16倍這項技術的最大成果,是模型內部形成了緊湊且可讀的“電路”(Circuits)。在傳統密集模型中,完成一個任務可能需要成千上萬個節點協同工作,邏輯分散且難以捕捉。而在稀疏模型中,研究團隊觀察到了極簡的計算路徑:1、極簡的邏輯單元:例如在處理“字串閉合”任務時,模型僅用12個節點就建構了一個完美的電路,清晰地展示了它是如何檢測單引號或雙引號是否閉合的。2、可讀的特徵:神經元的啟動變得具有明確的語義。研究人員發現了一些神經元專門負責檢測“單引號”,另一些則像“計數器”一樣精確地追蹤列表的巢狀深度。3、規模縮減16倍:對比實驗顯示,在相同的任務損失下,稀疏模型的電路規模比密集模型小了16倍。這意味著解讀AI思維的難度降低了整整一個數量級。▲稀疏模型的電路規模比密集模型小了16倍(圖源:OpenAI技術論文)為了驗證這些電路的真實性,團隊進行了“均值消融”實驗。結果證明,移除非電路節點對任務幾乎沒有影響,而一旦移除電路中的關鍵節點,模型性能就會瞬間崩塌。這證實了這些電路確實是模型執行任務的“必經之路”。▲“均值消融”實驗(圖源:OpenAI技術論文)03. 稀疏模型解讀力強但速度慢千倍OpenAI提出“橋樑網路”為了測量稀疏模型計算的解耦程度。研究團隊設計了一套簡單的演算法任務。對於每個模型,他們都將其剪裁成了仍能執行該任務的最小電路,並檢查了該電路的簡潔程度。研究團隊發現,用規模更大、稀疏度更高的模型進行訓練後,就能夠依託結構更簡潔的電路,建構出性能更強的模型。▲模型的可解釋性與能力的對比圖(圖源:OpenAI技術部落格)從模型可解釋性與性能的對比圖可見,在稀疏模型規模固定的前提下,提升稀疏性,也就是將更多權重設零,雖會導致模型性能有所下降,但能顯著增強其可解釋性。儘管稀疏模型在可解釋性方面優勢突出,但其應用目前受限於計算效率瓶頸:稀疏矩陣運算無法借助Tensor Cores實現加速,運算速度較密集模型慢100至1000倍。這意味著,將該技術直接應用於千億參數等級的前沿大模型,現階段尚不具備可行性。為此,研究團隊提出了“橋樑網路”(Bridges)方案:1、編碼-解碼對應:在稀疏模型與預訓練的密集模型之間插入一個編碼器-解碼器對。2、跨模型干預:編碼器將密集模型的啟動對應到稀疏空間,解碼器則反向轉換。“橋樑網路”(Bridges)方案可以在“透明”的稀疏模型上修改某個特徵,然後通過橋樑將這種擾動對應回“黑箱”的密集模型,從而實現對現有大模型的可解釋性行為編輯。04. 結語:OpenAI提出稀疏化新路徑讓大模型從“黑箱”走向“可解釋”OpenAI研究團隊的這項研究,標誌著AI可解釋性領域的一項重要突破,也印證了理解AI並非遙不可及的目標。研究團隊在論文部落格中稱,這項工作是邁向更宏大目標的早期探索。接下來,他們計畫將相關技術擴展至更大規模的模型,同時進一步解釋更多模型的行為邏輯。為解決稀疏模型訓練效率低下的問題,團隊提出了兩個後續研究方向:一是從現有密集模型中提取稀疏電路,替代“從頭訓練稀疏模型”的傳統方式;二是研發更高效的可解釋性模型訓練技術,推動相關技術更易落地生產。“我們的目標是逐步擴大可可靠解釋的模型範圍,同時打造相關工具,讓未來的AI系統更易於分析、偵錯與評估。”研究團隊在論文部落格中寫道。 (智東西)
迪士尼為什麼能開源IP,而泡泡瑪特不能
迪士尼要解決的,是如何讓一個已經高度結構化、價值觀穩定的敘事系統,在AI時代進一步放大規模與效率。而泡泡瑪特要守住的,是如何不讓一個以留白、投射與稀缺性為核心的情緒載體,被過度表達與解釋所侵蝕。AI與娛樂內容產業的融合,早已不是要不要的問題,而是怎麼用的問題。迪士尼給出的答案是:主動開放,全面擁抱AI。迪士尼以10億美元股權投資加認股權證,成為OpenAI主要客戶,使用其API建構新產品,利用其模型改善Disney+體驗。OpenAI旗下的Sora平台獲得使用超過200個來自迪士尼、漫威、皮克斯和星球大戰角色的權利。全球頂級娛樂IP巨頭,首次對主流生成式視訊AI平台進行大規模正式授權,從控制轉向開放,意義非同反響。迪士尼的IP,有完整的世界觀,有穩定的人物關係,有可反覆演繹的普世價值主題。公主系列從《白雪公主》時代被動等待浪漫真愛與拯救,進化到《冰雪奇緣》《海洋奇緣》中強調女性獨立、自我實現與價值追尋。主題的與時俱進,保持了IP的時代生命力。漫威電影宇宙中,鋼鐵人與美國隊長等性格迥異的超級英雄,關係從分歧走向團結,深刻展現了能力與責任、團隊協作與犧牲的主題。銀河系尺度的科幻史詩《星球大戰》,圍繞天行者家族的傳承,通過經典的英雄之旅模式,探討了光明與黑暗的永恆對決,信仰與救贖,以及個人的成長與選擇。IP通過持續的主題挖掘和角色魅力,確保了長久的商業價值和文化影響力。完整的敘事體系和強勢的價值觀,讓迪士尼的IP具備極強的穩定性和抗干擾能力。無論粉絲用Sora生成多少非官方的短影片,觀眾都知道真正的權威的故事和角色個性是怎樣的。在既定世界觀下,與OpenAI合作,迪士尼可以生成無窮無盡的正統支線故事,讓IP宇宙無限膨脹。開源IP,能啟動生態,借助AI的內容工具價值,鞏固迪士尼內容宇宙的統治力。泡泡瑪特則是完全不同的另一種IP物種。從設計初衷上,泡泡瑪特就明確拒絕中心敘事、拒絕統一價值觀、拒絕官方人格設定。泡泡瑪特的IP無固定表情與內容設定。創始人王寧曾強調說,“它把自己的靈魂掏空,你可以把你的靈魂裝進去”。不管是MOLLY還是LABUBU,如果增加人設,反而變得無聊。IP與使用者的連接主要基於設計師的視覺美學、盲盒機制的不確定驚喜、以及實物收藏形成的圈層社交與展示價值。本質上,它是潮玩作為情緒載體的生意。MOLLY的噘嘴、LABUBU的狡黠眼神,並不傳遞明確意義,而只是提供一個可被投射的情緒介面。作為形象IP,泡泡瑪特的價值來自有限產量下的視覺獨特性與實體擁有感。一旦這種視覺獨特性和稀缺性被AI無限生成的內容所打破,使用者購買實物盲盒的驅動力將會大幅減弱。泡泡瑪特必須用稀缺性來保護其IP價值。對泡泡瑪特來說,IP開源,相當於將核心價值(稀缺的視覺美學)拱手讓人,風險遠高於收益。這是泡泡瑪特弱人設、強視覺的獨特IP結構所決定的。泡泡瑪特不會跟進迪士尼的“IP開源+AI內容生成”模式。它當然絕不會忽視AI,但它的路徑將截然不同。 (張大愚)
開源和閉源模型的差距在拉大:這是 DeepSeek 論文揭示的殘酷真相
12月2日,DeepSeek 發佈了 V3.2 技術報告。在這篇論文裡,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴大。這是基於大量實測資料的冷靜判斷。差距正在拉大,這是事實2024年,當 DeepSeek、Qwen、GLM 等開源模型接連發佈時,社區充滿樂觀情緒。"8個月時間差"的說法廣為流傳,許多人相信開源正在追上閉源。但進入2025年,情況發生了變化。DeepSeek 在論文引言部分直言不諱地寫道:“過去幾個月出現了明顯的分化。雖然開源社區持續進步,但閉源專有模型的性能提升速度顯著更快。結果是,兩者的差距非但沒有縮小,反而在擴大,閉源系統在複雜任務上展現出越來越強的優勢。”這個觀察有資料支撐。論文對比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個基準測試上的表現。在 MMLU-Pro(多學科知識測試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達到了 90.1。在 GPQA Diamond(研究生等級科學問題)測試中,三者的得分分別是 82.4、85.7 和 91.9。更明顯的差距體現在 HLE(Human Last Exam,極難的文字推理測試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達 37.7——這個差距已經不是"接近"能形容的了。值得注意的是,DeepSeek V3.2 已經是目前最強的開源模型,在大部分開源模型的對比中都處於領先位置。但即便如此,它與頂級閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和複雜任務處理的場景中。差距為何在拉大?三個結構性問題論文通過系統分析,識別出限制開源模型在複雜任務上能力的三個關鍵缺陷。這些不是表面問題,而是深層次的結構性困境。第一個問題在於架構層面。開源模型普遍依賴傳統的 vanilla attention 機制,這種機制在處理長序列時效率極低。論文指出,這種架構上的依賴"嚴重限制了長序列的效率,對可擴展部署和有效的後訓練構成了實質性障礙"。當閉源模型已經在探索更高效的注意力機制時,開源模型還在用五年前的技術架構,這本身就是一個巨大的劣勢。第二個問題是資源投入的鴻溝,尤其體現在後訓練階段。後訓練是讓模型從"會說話"變成"會思考"的關鍵環節,需要通過強化學習讓模型學會推理、工具使用和遵循複雜指令。論文透露,DeepSeek V3.2 的後訓練計算預算超過了預訓練成本的 10%。要知道,預訓練本身就是天價投入,而大部分開源模型的後訓練預算可能連 1% 都不到。這種資源投入上的差距,直接導致了性能上的代際差異。第三個問題是 AI Agent 能力的滯後。在真實應用場景中,開源模型的泛化能力和指令理解能力明顯落後。論文引用了三個關鍵的 Agent 測評基準:在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,後者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數字背後反映的是開源模型在複雜多輪互動、工具呼叫、長期規劃等場景下的能力不足。論文總結道:"開源模型在泛化能力和指令跟隨能力方面展現出明顯滯後,這阻礙了它們在實際部署中的有效性。"這是一個誠實且殘酷的判斷。DeepSeek 的應對:技術路線的根本性改變認識到問題後,DeepSeek 沒有選擇簡單地堆砌參數或增加資料量,而是在三個核心維度上進行了根本性的技術創新。在架構層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機制。傳統注意力機制的計算複雜度是 O(L²),序列長度翻倍,計算量就要翻四倍。DSA 通過"閃電索引器"(Lightning Indexer)快速計算每個 token 的重要性評分,然後只選擇 top-k 個最重要的 token 參與注意力計算(論文中 k=2048),將複雜度從 O(L²) 降至 O(L×k)。這個改進不僅僅是理論上的最佳化。論文通過實測資料表明,在 128K 上下文長度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長文字推理基準)和 Fiction.liveBench(小說理解測試)中,V3.2 的表現甚至優於使用傳統注意力機制的 V3.1。這證明 DSA 不僅更快,在某些場景下質量還更好。在資源投入層面,DeepSeek 做出了超常規的決定。論文明確寫道:"近幾個月來,性能提升與擴展的 RL 訓練預算持續相關,該預算已超過預訓練成本的 10%。"這個數字在開源界極為罕見。具體來說,DeepSeek 為數學、程式設計、推理、Agent 等六大領域分別訓練了專家模型,每個都單獨進行大規模強化學習訓練。在持續預訓練階段,模型經歷了 943.7B tokens 的訓練(在 128K 上下文長度下),然後採用 GRPO(Group Relative Policy Optimization)演算法進行混合訓練,整合推理、Agent 和人類對齊三類任務。在 Agent 能力強化方面,DeepSeek 開發了系統化的任務合成流程。他們合成了超過 1800 個多樣化環境和 85,000 條複雜提示,涵蓋各種真實場景。具體包括 24,667 個程式碼 Agent 任務、50,275 個搜尋 Agent 任務、4,417 個通用 Agent 任務和 5,908 個程式碼直譯器任務。這些合成資料不是隨機生成的,而是通過冷啟動階段學習推理與工具使用的統一模式,然後在規模化階段系統地生成高品質訓練場景。效果是顯著的。在 Agent 相關的測試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達到了 80.3% 的成功率,雖然仍低於 Gemini 的 87.9%,但已經是開源模型中的最佳表現。論文總結說:“DeepSeek V3.2 成為 Agent 場景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距。”論文最後寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續擴展預訓練的潛力,DeepSeek V3.2-Speciale 則證明了在大規模上下文環境中強化學習的可擴展性。"言下之意很明顯:閉源巨頭有資源堆預訓練,但開源可以找到自己的路——通過更高效的架構和更科學的後訓練,用更少的資源實現接近的效果。這或許是開源 AI 唯一的生存之道:不是硬碰硬拚資源,而是拼技術路線的創新。至少在這一次,DeepSeek 證明了這條路是走得通的。 (矽星人Pro)
在一起,就可以!開源鴻蒙生態破局
經過5年的開源共建發展,一個全端自研、自主可控的鴻蒙生態大勢已成。11月27日,央視打造的一則名為《在一起》的短片,將鴻蒙生態的熱血故事帶到大家眼前。這部影片深入全國二十多個開源鴻蒙項目現場,呈現開源鴻蒙如何作為國家資訊基礎設施的重要組成部分,深度賦能能源、電力、水利、航天、教育、醫療、交通等關鍵領域,為千行萬業智能化提供堅實底座。從井下礦道到太空衛星,從醫院病房到高速隧道,開源鴻蒙正以統一的技術語言,實現海量終端資料的高效互聯互通。這是一場集體的攻堅戰。由於對數字世界自主可控的追求,千行萬業集體選擇為鴻蒙生態的繁榮貢獻力量,每一個開源鴻蒙項目則都是“在一起,就可以”的有力證明。這是一次集體的衝鋒與亮相,5年間,開源鴻蒙社區程式碼量也從最初的700萬行激增至1.3億行,貢獻者超9700名。“十五五” 時期,為更好推動經濟社會高品質發展,中國將繼續推進經濟結構轉型,注重創新驅動和可持續發展。開源鴻蒙項目積極響應號召,以技術創新為核心、人才培育為支撐,在推動經濟社會高品質發展的處理程序中主動擔當。在一起,讓鴻蒙更精彩,也讓這場由千萬人共同參與的生態共建運動,成為全球開源領域的“中國樣本”。01. 開源鴻蒙應用標竿開源鴻蒙的真正價值,在於其對關鍵基礎設施的深度滲透與對民生服務的切實提升。隨著開源鴻蒙項目2020年正式開源以來,中國基礎軟體領域迎來了一場深刻的變革,開源鴻蒙已成長為在全國範圍內落地生根、開花結果的“中國底座”。在交通領域,河北高速集團承德分公司指揮調度中心,已可讓值班工程師輕鬆掌控遠在數公里外的隧道內通風機、照明、訊號燈的運行狀態;突遇火情或事故時,系統自動切換到應急模式:警報響起、車道關閉、排風機啟動、逃生指示燈點亮,一系列操作通過“一鍵管控”迅速完成。以往,高速公路隧道的機電系統如同一個個“資訊孤島”,裝置品牌繁多、協議不一,導致資訊無法互通,應急響應嚴重依賴人工,效率低下。為破解這一行業頑疾,河北高速集團聯合華為與深開鴻,以開源鴻蒙為核心,通過統一架構、統一系統、統一資料,打造了“冀鴻”智慧隧道解決方案,賦予隧道機電裝置本質上“互聯、互通和互操作”。這一變革性的進步不僅徹底解決裝置間資訊割裂的問題,顯著提升隧道的智能化與安全營運水平,也有效降低了維運成本,全面增強了巡檢效率與應急響應能力。據悉,維運方面,“冀鴻”通過自動化巡檢替代了80%的人工工作量,裝置上線率從56%躍升至95%,不僅大幅提升了安全性,也顯著降低了營運成本。目前,全國已有11個省份、88條高速公路實現了開源鴻蒙的智慧化改造,覆蓋47座隧道、395座收費站。當然,這樣的案例還在其它不少行業湧現。在能源領域,基於開源鴻蒙打造的“礦鴻”智慧礦山解決方案,實現井下裝置遠端操控與無人駕駛礦車調度。操作員無需下井,僅通過手機即可即時掌握裝置狀態,大幅降低高危作業風險,同時提升生產效率。在電力系統,南方電網推出的“電鴻”作業系統,為不同廠商、不同類型的電網裝置提供統一通訊協議,實現“即插即用”與全域資料互通。調度中心大屏上,遠在千里之外的變電站運行狀態盡收眼底,居民用電服務質量顯著提升。通過開源體系建設的不斷推進,“電鴻”現已連結超500家產業夥伴和數千款電力終端,已適配電力行業100餘款主流晶片、40餘款的主流模組、百餘款APP,超過3000款終端正在開展適配工作,一個開放、安全、智能的電力新生態正在加速建構。而在航天領域,大連理工大學研製的“大連一號連理衛星”成功搭載開源鴻蒙系統,經過反覆偵錯,衛星的運行穩定性與任務執行可靠性得到加強,標誌著國產作業系統已具備支撐高精尖科研任務的能力。開源鴻蒙也正悄然改變教育與醫療體驗。長沙雅禮麓谷中學的體育教師通過開源鴻蒙平板即時監測學生心率與體能資料,及時發現健康異常;深圳南山區人民醫院的智慧病房裡,孕媽可通過床旁互動終端查看胎動與生命體徵,醫護人員快速響應預警。目前,此類智慧病房已在深圳、重慶等20余家醫院部署。02. 共建共享安全生態“十五五” 規劃明確提出,要加強原始創新和關鍵核心技術攻關。完善新型舉國體制,採取超常規措施,全鏈條推動積體電路、工業母機、高端儀器、基礎軟體、先進材料、生物製造等重點領域關鍵核心技術攻關取得決定性突破。開源鴻蒙的全端自研基因,恰好契合這一核心目標,從底層技術到上層生態,為國家科技自立自強搭建起關鍵支撐。華為在2015年就立項了自主可控鴻蒙作業系統,2019年鴻蒙作業系統正式發佈。鴻蒙作業系統圍繞全場景智慧生活打造,在架構、性能、安全、智能體驗等多個維度均具備顯著特點。同時,鴻蒙生態是一個以作業系統為核心,通過建構豐富的應用生態和行業解決方案,推動整個產業鏈發展的全面生態系統。鴻蒙的誕生充滿了熱血與挑戰,它肩負著搭載打造國產自主可控作業系統的使命,但要在巨頭盤踞的市場中立足又需要付出不少努力。生態繁榮是鴻蒙成功的關鍵。為此,2020年鴻蒙項目正式開源,吸引眾多產業企業和開發者加入到鴻蒙生態的建設中來。而開源鴻蒙之所以能快速覆蓋千行萬業,核心在於其“共建共享”的生態理念。該項目由開放原子開源基金會與萬千生態夥伴、開發者共建共享,堅持開源開放、合作共贏原則,不屬於任何單一企業,而是為全社會提供的一片數字沃土。鴻蒙的象徵符號是一個同心圓,這個“圓”是包容的。隨著“礦鴻”“移鴻”“警鴻”“電鴻”“建鴻”“交鴻”等84款行業發行版的出現,以及超過1400款軟硬體產品的誕生,開源鴻蒙的“同心圓”正在不斷向外擴展,將更多行業、更多企業、更多裝置納入其中,形成一個真正的萬物互聯的生態。更重要的是,這個“圓”是安全的。開源鴻蒙的全端自研確保了技術的自主可控,避免了“卡脖子”風險。同時,開放的程式碼也意味著更廣泛的審查,任何潛在的安全漏洞都能被社區及時發現和修復,形成了“眾人拾柴火焰高”的安全防護網。五年來,開源鴻蒙始終堅持開源共享、協同創新的理念,建構起覆蓋技術、產品、人才、基金、商業、生態、協會的全生命周期使能體系,讓“在一起,就可以” 的理念轉化為實實在在的產業成果。 (華爾街見聞)