#開源模型 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#開源模型

MWC圍觀、OpenClaw屠榜！2026 AI變天：從“陪聊”到“幹活”，中國開源模型成全球開發者首選

階躍星辰Step 3.5 Flash霸榜OpenClaw呼叫排行，全球開發者正在“用腳投票”AI新方向。🤖頭圖由AI生成3月2日，西班牙巴塞隆納，持續四天的世界移動通訊大會MWC 2026正式開幕。在春節後的首場全球科技盛會上，中國科技廠商的展檯面前人頭攢動。智東西在逛展時便發現，圍繞人工智慧的新技術新應用，在本屆MWC大會上無處不在。從字節跳動和努比亞合作的“豆包AI”手機到榮耀新發佈的機器人手機，展台都被來自世界各地的參會者圍得水洩不通，他們都想要親自上手體驗，看AI到底是如何操作手機、如何做事的。在同一天，一度讓全球開發者為之瘋狂，連AI大神卡帕西都曾盛讚為“令人驚嘆的科幻級爆發現象”的開源AI Agent助手OpenClaw，已經超越了所有GitHub開放原始碼軟體項目，正式成為史上最受歡迎開放原始碼專案。OpenClaw本質上是一個能直接操作你電腦的AI Agent，開發者們瘋狂地為它接入各種大模型，只為了一個目的：讓AI真的動起來，幫自己幹活。這兩件事看似沒有關聯，但他們都不約而同地反映出2026年AI發展的一個核心趨勢，那就是：AI正在從能聽懂你的話，進化到可以幫你做事了。01. 階躍星辰新模型，憑何成為全球爆火OpenClaw玩家的擁躉？同樣是使用OpenClaw來幹活，活幹得怎麼樣，背後的大模型就至關重要。在知名模型聚合平台OpenRouter上，OpenClaw的呼叫量榜單成了衡量模型“動手能力”的直接體現。就在3月2日，國內大模型頭部創企階躍星辰在2月新開放原始碼的Agent基座模型Step 3.5 Flash單日呼叫量已超過40B，在OpenClaw的呼叫量榜中排名第二，超過Kimi K2.5、Gemini 3 Flash Preview、Claude Sonnet 4.5等一眾國內外主流模型。對於OpenClaw這種需要複雜推理、長時間運行的Agent系統，使用者更加傾向速度快、推理強、成本低的模型。而Step 3.5 Flash恰恰滿足了OpenClaw使用者的痛點。Step 3.5 Flash採用稀疏MoE架構，每個token僅啟動約110億參數（總計1960億），在單請求程式碼類任務上最高推理速度可達每秒350個token。在Agent場景和數學任務上，Step 3.5 Flash的能力逼近閉源模型，能夠勝任複雜、長鏈條任務，是階躍星辰迄今最強的開源基座模型。這款模型一經發佈，便受到大量海外開發者的關注好評，向來低調的階躍星辰研發團隊，罕見現身Reddit r/LocalLLaMA社區回答全球開發者有關Step 3.5 Flash的提問。有開發者提問：在規劃Step 3.5 Flash時，你們是否心中已經瞄準了這個特定的“最佳平衡點”：89 tokens/參數，並且正好卡在消費級硬體規模的上限（128GB 用於 Q4 量化，11B 啟動參數以保證實用的運行速度）？階躍星辰CTO朱亦博回覆稱，團隊的確有明確目標，即讓相關模型能夠運行在128GB記憶體系統中。他發現，目前市場上約230B規模的模型，剛好超出了其個人MacBook Pro裝置4位量化的承受範圍，因此他便要求團隊對模型規模進行了適當縮減。從開發者的角度去研發產品，而不是讓開發者來適應產品。有開發者說，這正是他覺得興奮的地方。有外網網友分享稱，對Step 3.5 Flash的印象很深刻，已經將該模型作為自己OpenClaw的主力Agent。02. 有求必應，階躍星辰Step 3.5 Flash全鏈路“開誠布公”在與階躍星辰研發團隊的溝通中，有開發者希望階躍星辰可以將基礎模型與指令/思考模型一起發佈，這樣社區就可以對它進行微調了。階躍星辰對開發者有求必應，今天，階躍星辰將Step 3.5 Flash的Base 權重、Midtrain 權重、Steptron 訓練框架一同開源，希望通過更徹底的開源，讓開發者能夠以Step 3.5 Flash為基座進行更深度模型定製，打造真正屬於自己的Agent。這一舉動在當前大模型開源趨於保守的環境下，顯得頗為徹底。開源不到 24 小時，海外社區對階躍星辰的進一步開放原始碼的反饋十分熱烈。還有開發者讚歎說，Step 3.5 Flash速度十分驚豔，與OpenClaw的自然相容性也很出色。03. 開發者用腳投票：從應用出發，才能讓AI更好地應用從全球開發者們使用大模型建構Agent的實踐反饋中，我們也可以看出：最近一兩年，AI的核心是“理解使用者”，大模型比拚的是誰更懂人的語義、誰的上下文更長。而2026年的分水嶺在於，AI的核心正在向“執行任務”遷移，比的是誰能讓AI真正操作工具、誰能幫人類做更多的事情。而階躍星辰的技術路線，正是圍繞著“讓AI做事”展開。在階躍星辰團隊與全球開發者的交流中，他們說了這樣一句話：“Step 3.5 Flash的目標，從一開始就是三件事：智能密度、推理與生成速度、Agent 能力。目標清晰後，演算法、資料與基礎設施會自然對齊。”這句話很清晰地反映出了階躍星辰“讓AI做事”的技術路徑。在他們的邏輯裡，一個模型好不好，不再只看它在基準測試上刷了多少分，而是看它能不能在開發者的本地機器上跑起來、跑得快、跑得穩。最近，階躍星辰也登上了央視焦點訪談，首席戰略官李璟在節目中說到，在這半年以來，階躍星辰在AI應用與融入人們生活的方面投入了更多的研發力量，如今的AI正在從“能聽懂你的話”進化為“能幫你做事”。以應用來作為牽引指導多模態的發展，用應用落地的目標倒推基座大模型的研發，是階躍星辰的發展主線。04. 結語：階躍星辰選擇了一條難走但正確的路如果說2025年是國產大模型的“爆發之年”，那麼2026年或將成為AI的“分水嶺”，誰能找準AI落地價值與場景，誰就有可能突出重圍。階躍星辰認準的“應用牽引多模態發展”發展路徑，是一條難走但正確的路，他們認準AI的價值不在於對話，而在於它能走進多少人的生活，能幫人們做到多少事。這或許正是國產大模型從“流量競爭”走向“價值競爭”的一個縮影。喧囂終會退去，真正留下的是那些能紮根場景、解決實際問題的技術。 (智東西)

外媒：國際需求增加，中國開源 AI 模型追上美國

外媒報導：根據 OpenRouter 的最新資料，中國開源人工智慧模型稀宇科技MiniMax 和月之暗面的Kimi在全球 token 使用排名中名列前茅，終結了美國在市場上的主導地位。這項變化反映國際對中國開源模型需求增加，特別是在中國這些大模型一系列新版本推出之後。據指出： MiniMax M2.5 單周使用量高達 2.45 兆個 token，幾乎是先前的 2 倍，主要由程式碼應用帶動。該模型於 2 月 13 日推出，宣稱是「世界上首個專為代理場景設計的生產級模型」，並在推出後 7 天內達到 3.07 兆個 token 使用量。Kimi K2.5 於 1 月發表，排名第二，使用量為 1.21 兆個 token；智譜的 GLM-5 則以 7,800 億個 token 位居第三。這三個中國模型在 OpenRouter 上佔總 token 使用量的 61%，顯示中國在全球 AI 市場的強勁表現。價格方面，MiniMax M2.5 與 GLM-5 的收費為每 100 萬個輸入 token 0.30 美元；相較之下，Anthropic 的 Claude Opus 4.6 收費高達 5.00 美元，約為前者的 16.7 倍。這使中國的三大模型在程式碼能力與代理自動化方面具備明顯競爭優勢。在中國企業市場，市場整合速度顯著加快。阿里巴巴的千問、字節跳動的豆包與 DeepSeek 在 2025 年下半年共同佔企業 token 消耗超過 70%，而上半年還不到 50%。此外，月之暗面AI 的商業化成果也相當顯著。K2.5 發表後不到 20 天，該模型收入已超過公司 2025 年全年總收入。該公司新近完成一輪超過 7 億美元的融資，由阿里巴巴與騰訊領投，估值提升至 100 億至 120 億美元。 (芯聞眼)

最強開源大模型除夕登場！397B參數千問3.5超越Gemini 3，百萬Tokens低至8毛

我滴媽，最卷AI大模型，今年除夕又上新了！剛剛，阿里全新一代大模型Qwen3.5-Plus重磅開源發佈，直接登頂最強開源模型寶座。這一次，“源”神標竿再次被千問拔到了一個新高度：不僅性能全面領先同級開源模型，更是媲美Gemini-3-Pro、GPT-5.2等頂級閉源模型，多項基準測試甚至直接反超。更炸裂的是，Qwen3.5-Plus總參數隻有3970億，啟動僅需170億，性能卻比兆參數的Qwen3-Max還要強。直觀對比還包括——部署視訊記憶體佔用降低60%，最大推理吞吐量可提升至19倍，也就是說部署成本，以及推理效率雙雙實現大幅最佳化。這波“以小勝大”的史詩級PK，千問做到了。重點還沒說完，千問這次直接把技術紅利釋放給使用者，直接讓SOTA級模型做到了平民價。阿里雲百煉這次給千問3.5 API的定價極具競爭力：百萬Tokens輸入低至0.8元，相當於同等級模型Gemini-3-pro的1/18。並且，千問3.5首次實現201種語言的全覆蓋，詞表規模從150k大幅擴充至250k，小語種編碼效率最高提升60%，真正讓頂尖大模型走向全球使用者。截至目前，普通使用者只需登錄千問APP或PC端，即可免費體驗千問3.5模型；開發者們也可前往魔搭社區或HuggingFace，第一時間下載部署這款最強開源力作。據悉，千問3.5還只是阿里春節檔的第一彈。接下來幾天，他們將繼續開源多款千問3.5模型，可部署在本地、端側等不同場景，無論是開發者還是中小企業，通通都能用上。旗艦版Qwen3.5-Max也將在年後壓軸登場。u1s1，DeepSeek之後，中國開源模型的“瘋狂二月”太頂了。多項能力超越Gemini 3、GPT-5.2，視覺能力橫掃權威基準話不多說，千問3.5有多強，我們先來看基準測試結果。在推理、程式設計、智能體等核心維度上，千問3.5能夠以不到40%的參數量比肩國際一流梯隊。比如，在考核綜合認知能力的MMLU-Pro測試中，千問3.5得分87.8分，超過GPT-5.2。在目前公認難度最高的博士級科學推理評測基準GPQA上，更是一舉斬獲88.4分，比以嚴謹邏輯著稱的Claude 4.5還要高。這就意味著千問3.5同時兼具推理廣度與深度，不僅具備極強的知識遷移能力，還在底層邏輯上實現了突破。在指令遵循方面，千問3.5表現同樣亮眼。它以76.5分的成績領跑IFBench榜單，刷新了該項指標的最高紀錄。除此之外，千問3.5在Agent能力上也是全面發力。無論是考察通用能力的BFCL-V4，還是側重搜尋能力的Browsecomp，其評分均全面超越Gemini-3-Pro，展現出優秀的Agent協同能力。綜合來看，相比前幾代的千問模型，千問3.5在性能上更全面，不僅多維度無短板，更重要的是，能夠落地實用。之所以能夠實現這種代際躍遷，關鍵在於它的“眼睛”。與上一代的純文字模型千問3不同，千問3.5從預訓練第一天起，就是在視覺和文字的混合Token資料上進行的，而且資料量也從原先的36T Tokens進一步提升。同時新增中英文、多語言、STEM和推理等資料，讓千問3.5真正睜眼看世界，擁有了整合複雜世界知識和邏輯推理的原生多模態理解能力。這一核心能力的進化，在MathVison（多模態推理）、RealWorldQA（通用視覺問答）、CC_OCR（文字識別）、RefCOCO-avg（空間智能）、MLVU（視訊理解）等多模態主流評測中得到了有力印證：千問3.5幾乎橫掃了所有指標，刷新開源大模型多模態天花板。其中，在學科解題、任務規劃與物理空間推理等高難度場景上，千問3.5也表現出超越專項模型Qwen3-VL的綜合素養。眾所周知，Qwen3-VL是千問團隊推出的旗艦級多模態視覺語言模型，主打超長上下文、強視覺推理、視訊理解與視覺Agent能力。但作為綜合模型的千問3.5，其空間定位和圖文推理能力得到顯著增強，尤其是在處理複雜視覺資訊時，Qwen3.5會比Qwen3-VL推理邏輯更嚴謹，輸出結果也更可靠。千問3.5還突破了傳統大模型的視訊處理邊界：支援長達2小時的超長視訊直接輸入，配合1M Tokens原生上下文，能夠輕鬆應對長視訊內容的精準分析與一鍵摘要。換言之，無論是情節豐富的影視巨作還是專業的深度講座，千問3.5都能捕捉到每一處關鍵細節。同時，千問3.5還打通了視覺理解和程式碼邏輯的原生融合，讓視覺內容能夠直接轉化為技術產出。過去要開發一個介面，往往需要經過“原型設計→修改成稿→轉譯程式碼”的一系列過程，而千問3.5能夠瞬間將手繪介面草圖重構為高品質前端程式碼，並支援通過單張截圖定位並修復UI缺陷，做到“所見即所得”。由此，開發門檻被迅速抹平，視覺程式設計真正變為開發者手中的提效工具。模型實際表現如何？來看一波官方demo展示。先看最近很火的洗車靈魂拷問：我想去洗車，洗車店距離我家50米，你說我應該開車過去還是走過去？千問3.5一眼識破陷阱，精準抓住核心，車必須過去洗，邏輯線上：再來點難度，考考眼力+圖像推理能力。prompt：從所給的四個選項中，選擇最合適的填入問號中，使其具有合理性，應該選什麼？對千問3.5來說小菜一碟，輕鬆看懂圖形規律，並順利給出了正確答案：就連IMO競賽級數學幾何題，be like：也能一步步推理，迅速做出來：不只會做靜態題，出一道滑動方塊動態推理：千問3.5照樣拿捏：多模態生成也很強。讓它為Qwen Code生成一個推廣視訊：成片效果相當流暢自然，直接發佈都很OK。除了生成視訊，做網站也不在話下。讓千問3.5閱讀本地視訊檔案，就能根據內容製作一個網站，分分鐘生成完成程式碼：無論是產品宣傳片，還是核心特性突出，千問3.5都一網打盡。就連最燙的OpenClaw，千問3.5也可以與之整合，共同完成程式設計任務驅動。OpenClaw可以作為第三方智能體環境，協助千問3.5進行網頁搜尋、資訊收集和結構化報告生成等內容。千問3.5還可以作為視覺智能體，自主操控手機與電腦完成日常任務。模型架構全面革新，原生多模態不到四千億參數打贏兆，API價格打到閉源模型的零頭，千問3.5此次的突破，根源在於底層架構層面的升級。過去兩年，大模型行業整體遵循Scaling Law路徑演進，即參數規模越大、模型能力越強。從千億級邁向兆級，模型在複雜推理和多工泛化等方面持續取得進展。但這種路徑的代價同樣明顯——訓練依賴超大規模算力叢集，推理成本隨參數規模同步增長，部署門檻不斷提高，使得中小企業難以負擔，也限制了端側的落地。模型能力持續增強的同時，計算效率與可擴展性逐漸成為新的瓶頸。在這一背景下，千問3.5不再單純擴大模型規模，而是對Transformer經典架構進行了一次深度重構，通過多項關鍵技術協同最佳化，在強性能與高效率之間找到了新的平衡點。據官方介紹，千問3.5引入了四項關鍵技術。首先，是注意力機制的結構最佳化。Transformer的核心是自注意力機制，但傳統實現存在一個固問題：無論資訊是否重要，每個Token都需要與全部上下文進行計算關聯，複雜度隨上下文長度持續增長。這使得長文字處理的計算成本迅速上升，也成為限制模型長上下文能力的主要因素之一。千問3.5為此引入了混合注意力機制，不再對所有資訊一視同仁，而是根據重要程度動態分配計算資源——關鍵資訊高精度處理，次要資訊低成本帶過。在保持理解精度的同時，顯著壓低了計算開銷，長上下文處理效率也隨之提升。第二，是極致稀疏的MoE架構設計。如果說注意力最佳化解決的是“怎麼讀資訊”的問題，那MoE架構解決的是“用多少參數來回答”的問題。傳統稠密模型每次推理必須啟動全部參數，參數越多成本越高。MoE架構的思路是將模型拆分為大量專家子網路，每次推理只啟動其中最相關的一部分。千問3.5把這一思路推向極致：總參數3970億，單次推理啟動僅170億，啟動比例不到5%。大規模參數積累的知識優勢被保留，但規模帶來的成本負擔被大幅卸掉。第三，是原生多Token預測機制。傳統語言模型逐Token生成，每次輸出一個再預測下一個，序列結構直接限制了推理速度。千問3.5在訓練階段就學習聯合預測多個未來Tokens，使模型從逐字輸出變為批次輸出，而非單點預測。推理速度接近翻倍，對話響應明顯加快。第四層突破是系統級訓練穩定性最佳化。稀疏架構雖然效率極高，但訓練難度遠高於傳統稠密模型。為瞭解決訓練穩定性問題，千問團隊將此前獲得NeurIPS 2025最佳論文的注意力門控機制，引入到了千問3.5之中。該機制可以理解為注意力輸出端的“智能開關”。它即時控制資訊流強度，強化有效訊號，抑制噪聲干擾。避免訓練過程中的梯度異常和資訊失衡。除此之外，歸一化策略、專家路由初始化等深層最佳化手段也被引入，分別解決不同環節的穩定性難題，共同保證前述架構創新在超大訓練規模下穩定運行。四大殺招齊出，千問3.5實現了顛覆性的效率飛躍。官方資料顯示，新架構訓練成本降幅高達90%。與Qwen3-Max相比，Qwen3.5-Plus部署視訊記憶體佔用降60%，意味著節算力部署成本大幅降低；最大推理吞吐量可提升至19倍，大幅提升推理效率。架構創新解決的是效率問題，而千問3.5的另一重躍遷，指向的是智能本身——它要讓大模型真正“看得見”。目前行業裡不少所謂的多模態方案，做法其實是分步拼接：先把語言模型訓好，再把視覺模組接上去，中間加一層對齊網路把兩邊的表徵勉強拉到一起。更直接的做法甚至連對齊都省了，前端看起來是一個統一入口，後端其實是不同任務調不同模型，本質上就是個路由器。這類方案能用，但談不上真正的融合，而且一個常見的副作用是：視覺能力加上去了，語言能力可能反而往下掉。千問3.5選擇了更徹底的原生多模態路徑。預訓練階段就不再區分“先學文字、再學圖像”，而是把文字和視覺資料混在一起，讓模型從第一步就在同一參數空間裡同時消化這兩種資訊。這樣訓出來的模型，處理圖片和處理文字走的是同一條神經通路，不需要中間再做翻譯或對齊。這種融合在工程上極具挑戰。圖像和文字的資料結構差異很大，如果強行套用同一套平行策略，計算資源的浪費會很嚴重。千問3.5的處理方式是讓兩種模態在訓練過程中各自按最適合自己的方式走，只在必要的環節進行資訊交匯。最終，那怕同時輸入文字、圖像和視訊三種資料，整體訓練吞吐量和純文字基座模型幾乎沒有差別。同時，團隊還加上了一套針對性的混合精度方案，在不同環節靈活切換FP8和FP32，啟動記憶體砍掉了大約一半，訓練速度還額外快了10%。這套精度策略不只用在預訓練階段，強化學習和推理環節也統一部署了進去。在智能體訓練這塊，團隊又專門造了一套大規模強化學習框架，純文字、多模態、多輪對話全都能跑，訓練效率直接拉高了3到5倍。當然，上述能力的實現，最底層離不開阿里雲AI基礎設施的支撐。超大規模混合資料訓練的穩定性、多模態平行策略的工程落地、訓練到推理全鏈路的精度最佳化，每一項都需要底層算力平台的深度配合。最最關鍵的是，千問不光技術能打，更是在開放原始碼的路上一路狂飆。阿里是真“源”神不知道還有沒有人記得啊，去年阿里就在春節期間連發好幾個模型，春晚直播進行時，掐著點甩出Qwen2.5-Max，直接把DeepSeek V3給反超了。當時網友們的評論是：杭州這群人，不睡覺也要送上新春大禮包。一年過去了。又是除夕，又是千問。從2.5到3.5，千問再把“開源”兩個字做到了極致。回顧千問開源之路：自2023年開源以來，阿里已累計開源400多個模型。從0.5B到235B全尺寸覆蓋，從端側到雲端全面佈局，涵蓋文字生成、視覺理解與生成、語音理解與生成、文生圖、視訊模型等全模態領域……千問直接把開源模型貨架，擺的滿滿噹噹。而且，每一代、每一個尺寸，都在穩定輸出天花板級產品，換來實打實的戰績：全球下載量突破10億次，單月下載量超過第2名到第8名的總和，開發者基於千問開發的衍生模型已超過20萬個。千問目前已穩居全球最大AI大模型族群。“最強開源得投千問一票”，從一部分人的判斷，變成了全球開發者的共識。不論是開源開放，還是把API價格打到0.8元/百萬Tokens，亦或是將支援語言擴展到186種，千問的意圖很明顯：讓更多人能用上、用得起最頂尖的模型。當開源模型在核心能力上追平甚至反超閉源，而且免費可商用，競爭的邏輯就變了。這不再是一個模型和另一個模型之間爭跑分的遊戲，而是兩種生態路徑的選擇。Linux沒有靠賣系統成為商業巨頭，卻成為了全球伺服器領域的主流支撐。Android也不靠系統授權盈利，卻讓智慧型手機真正普及到每一個人。千問想走的路，大概也是這一條。最後別忘了，這些只是模型禮盒！今年春節請喝奶茶、紅包雨還沒算在內。阿里千問這過年的排面，太瘋狂了。 (量子位)

智譜、華為聯手！中國國產AI登頂全球

日前，由智譜與華為聯合研發並開放原始碼的多模態圖像生成模型GLM-Image，登上Hugging Face平台Trending榜第一，打破長期以來國外模型在開源榜首的壟斷局面。值得一提的是，該模型基於昇騰Atlas 800T A2裝置和昇思MindSpore AI框架，完成從資料到訓練的全流程，是首個在國產晶片上完成全程訓練的SOTA多模態模型。業內人士表示，從更長遠看，GLM-Image登頂不是偶然，而是國產AI全產業鏈協同的必然結果。這種全鏈條能力，不僅能讓國內中小企業以更低成本用上AI工具，更能推動國產AI技術走向全球，有望改寫過去“國外定標準、國內跟節奏”的產業格局。如今，GLM-Image的開源地址已在GitHub和Hugging Face平台同步開放，全球開發者都能免費使用這套“國產方案”。 (科技日報)

【CES 2026】突發開源！NVIDIA 宣佈推出用於物理 AI 的全新開放模型、框架和 AI 基礎設施之深度洞察！

引言：CES 2026 引爆行業革命，機器人開發的“ChatGPT時刻”正式到來太平洋時間2026年1月5日，拉斯維加斯國際消費電子展（CES）現場，NVIDIA創始人兼首席執行長黃仁勳的一句“機器人開發的ChatGPT時刻已然到來”，為全球機器人產業定下了新的發展基調。當天，NVIDIA正式宣佈推出用於物理AI的全新開放模型、框架和AI基礎設施，同時展示了Boston Dynamics、Caterpillar、Franka Robotics等全球領先企業基於其技術打造的多款新型機器人與自主機器，涵蓋移動機械臂、人形機器人、工業作業裝置等多個品類。這一系列發佈並非孤立的技術更新，而是NVIDIA對機器人產業發展瓶頸的精準突破，更是對未來“專家級通用”機器人開發範式的全面重構。長期以來，機器人產業始終面臨三大核心痛點：一是缺乏理解物理世界的通用智能，傳統機器人依賴預設程序，難以應對動態環境變化；二是開發流程分散複雜，模擬與現實存在巨大鴻溝，技術迭代效率低下；三是軟硬體協同不足，AI算力與能效難以匹配機器人輕量化、高即時性的應用需求。NVIDIA此次推出的全端技術體系——從Cosmos與GR00T開放模型，到Isaac Lab-Arena模擬框架與OSMO計算框架，再到Blackwell架構驅動的Jetson T4000硬體模組，形成了覆蓋“模型-框架-硬體-生態”的完整解決方案，旨在打通機器人開發的全生命周期，加速新一代AI驅動機器人的規模化落地。本文將從技術核心解析、產業鏈重構影響、應用場景突破、產業趨勢展望四大維度，深度拆解NVIDIA物理AI技術體系的核心價值與行業變革意義。一、技術核心解析：物理AI如何重構機器人的“認知與行動”能力黃仁勳所言的“機器人開發的ChatGPT時刻”，核心在於物理AI技術的突破性進展。不同於傳統AI聚焦數字世界的資訊處理，物理AI的核心目標是讓機器理解物理世界的運行規律，具備感知、推理、規劃與行動的閉環能力，實現從“執行指令”到“理解並決策”的跨越。NVIDIA此次發佈的技術體系，正是圍繞這一核心目標建構的全端解決方案，其技術核心可拆解為“感知-推理-行動-訓練”四大核心模組。1.1 核心模型 Cosmos與GR00T建構物理AI的“認知大腦”要實現機器人對物理世界的理解，首先需要建構能夠建模物理規律、融合多模態資訊的基礎模型。NVIDIA此次推出的Cosmos系列與GR00T N1.6模型，分別解決了“物理世界認知”與“人形機器人全身控制”兩大核心問題，共同構成了物理AI的“認知大腦”。1.1.1 Cosmos系列模型：賦予機器人“物理直覺”傳統機器人的最大短板在於缺乏“物理直覺”——無法預判環境變化對自身動作的影響，也難以理解物體的物理屬性（如重力、摩擦力、材質特性等）。這導致機器人在執行簡單任務時，一旦遇到未預設的場景（如地面油污、物體重量變化），就容易出現失穩或任務失敗的情況。Cosmos系列模型的核心價值，正是通過生成式AI技術，讓機器人內化物理世界的基本規律，具備即時預測、跨場景遷移與多步推理的能力。Cosmos系列包含三大核心模型，形成了“感知-預測-推理”的認知閉環：NVIDIA Cosmos Transfer 2.5：作為轉換模型，其核心功能是打通模擬與現實的“域鴻溝”。傳統機器人訓練依賴大量真實場景資料，成本高昂且周期漫長，而模擬資料又因與現實環境差異過大，導致訓練出的模型難以直接遷移。Cosmos Transfer 2.5支援空間條件控制的風格遷移，可將Isaac Sim中的合成資料轉換為帶有真實世界噪聲、光照幹擾、鏡頭畸變的等效資料，同時保持物理參數不變；反之，也能將真實世界的稀疏資料增強為多樣化的模擬場景，大幅提升模型從模擬到現實的零樣本遷移成功率。相較於前代模型，其體積更小、運行更快，生成質量顯著提升，域間遷移的誤差累積大幅減少。NVIDIA Cosmos Predict 2.5：聚焦物理世界的即時預測，解決機器人的“快思考”問題。該模型融合Text 2 World、Image 2 World、Video 2 World等生成能力，可根據文字、圖像或視訊輸入，生成連貫的環境演化序列。與傳統電腦視覺模型逐幀處理像素不同，Cosmos Predict 2.5直接對物理狀態的演化軌跡進行推演，能夠在毫秒級內預測環境變化對機器人動作的影響。例如在“機械臂倒水”任務中，傳統方法需要複雜的流體動力學方程求解，難以滿足即時性要求；而Cosmos Predict 2.5通過學習海量物理視訊資料，可即時預測下一時刻的流體分佈與不確定性，為控製器提供“是否會濺出”的預判依據，支撐機器人的動態微調。NVIDIA Cosmos Reason 2：作為開放推理視覺語言模型（VLM），負責機器人的“慢思考”——跨時間尺度的理解、推理與決策。該模型引入了大語言模型中成熟的思維鏈（CoT）機制，並將其擴展到視覺-動作領域，能夠直接從圖像中理解語義與空間關係，完成多步任務分解與因果推理。在“清理廚房檯面”這類複雜任務中，傳統規劃器依賴預定義的PDDL（規劃域定義語言），難以應對場景變化；而Cosmos Reason 2可自主分解任務（如“先移開水杯→再擦拭油污→最後整理餐具”），並通過反事實推理預判不同動作的後果，主動規避高風險操作（如避免碰撞易碎物品）。這種將感知、推理與決策緊密耦合的能力，有效解決了傳統模組化架構中資訊層層傳遞的損耗問題。三者的協同邏輯清晰：Cosmos Predict 2.5提供即時物理狀態預測，支撐毫秒級的動態反饋；Cosmos Reason 2負責長周期的任務規劃與風險預判；Cosmos Transfer 2.5則打通模擬與現實的資料通道，為前兩者的訓練提供高品質資料支撐，形成“預測-推理-資料迭代”的認知閉環。1.1.2 GR00T N1.6：解鎖人形機器人的“全身控制”能力如果說Cosmos系列模型解決了機器人“認知世界”的問題，那麼Isaac GR00T N1.6則聚焦於“如何行動”，特別是為人形機器人提供開放式的推理視覺語言行動（VLA）模型，實現全身動作的精準控制與上下文理解。人形機器人的控制難度遠超傳統機械臂，其擁有數十個自由度，需要兼顧平衡、協調、精準操作等多重目標，傳統控制方法難以實現複雜動作的靈活適配。GROOT N1.6的核心突破在於兩大技術創新：一是採用MoE（混合專家）架構，實現“通專融合”的控制能力。該架構包含多個獨立的“專家”子網路，在處理不同任務時啟動對應的專家模組——例如理解自然語言指令時啟動“通用語言專家”，執行精密銲接時啟動“運動控制專家”，既保證了通用任務的適應性，又提升了專項任務的精準度。二是深度整合Cosmos Reason 2模型，強化上下文理解與推理能力。通過融合視覺語言推理與動作控制，GR00T N1.6可直接將人類自然語言指令轉換為全身協調的動作序列，例如將“把桌子上的檔案遞給我”拆解為“移動至桌前→識別檔案位置→調整姿態→抓取檔案→精準遞出”的連貫動作，無需人工編寫複雜的運動控製程序。目前，Franka Robotics、NEURA Robotics、Humanoid等企業已開始利用GR00T賦能的工作流，進行機器人新行為的模擬、訓練與驗證。Salesforce則通過整合Agentforce、Cosmos Reason與NVIDIA Blueprint，對機器人採集的視訊片段進行分析，將事件解決時間縮短了50%，充分驗證了該模型在提升任務效率方面的核心價值。1.2 支撐框架 Isaac Lab-Arena與OSMO打通開發全流程物理AI模型的落地，離不開高效的開發與訓練框架支撐。長期以來，機器人開發麵臨兩大流程痛點：一是模擬評估體系分散，基準測試依賴人工操作，難以實現規模化驗證；二是端到端工作流複雜，需要跨工作站、雲端等異構計算資源，協同難度大，開發周期漫長。NVIDIA此次發佈的Isaac Lab-Arena開源模擬框架與OSMO雲原生計算框架，正是針對這兩大痛點的精準解決方案，旨在實現“模擬-訓練-評估-部署”的全流程閉環。1.2.1 Isaac Lab-Arena：標準化模擬評估的“協作平台”模擬訓練是機器人開發的核心環節，其質量直接決定了機器人在真實環境中的性能。但當前行業缺乏統一的模擬評估標準，不同開發者採用不同的測試體系，導致技術成果難以對比，且模擬場景與真實環境的差異過大，大幅降低了訓練效率。Isaac Lab-Arena的核心目標是建構一個開放原始碼的協作系統，實現大規模機器人策略評估與基準測試的標準化。該框架的核心優勢體現在三個方面：一是模組化設計，其評估層與任務層通過與光輪智能的深度合作完成建構，支援靈活配置不同任務場景與評估指標；二是多基準相容，可直接對接Libero、Robocasa等業界領先的基準測試體系，實現測試流程的標準化，確保機器人技能在部署至物理硬體前具備穩健性與可靠性；三是開源協作，現已在GitHub上公開發佈，開發者可基於該框架共享測試場景、驗證演算法效果，加速技術迭代。1.2.2 OSMO：跨環境協同的“開髮指揮中心”機器人開發涉及合成資料生成、模型訓練、軟體在環測試等多個環節，需要跨越工作站、邊緣裝置、混合雲等多種計算環境，傳統開發模式下，各環節相互獨立，資源調度複雜，嚴重影響開發效率。OSMO作為雲原生編排框架，將機器人開發整合至單一易用的命令中心，實現了全流程的高效協同。OSMO的核心功能包括：一是跨環境工作流定義，開發者可通過統一介面，定義覆蓋多計算環境的工作流，實現合成資料生成、模型訓練、測試驗證的自動化執行；二是資源智能調度，根據不同環節的算力需求，自動分配工作站、雲端等資源，提升資源利用率；三是快速整合適配，現已開放使用，並被Hexagon Robotics等企業採用，同時整合至Microsoft Azure Robotics Accelerator工具鏈中，大幅降低了開發者的接入門檻。1.3 硬體基石 Blackwell架構驅動的邊緣AI算力革命物理AI模型的即時運行，需要強大的邊緣AI算力支撐。機器人尤其是人形機器人、移動作業裝置等，對硬體的輕量化、低功耗、高即時性提出了嚴苛要求。傳統邊緣計算模組難以平衡算力與能效，無法滿足複雜物理AI模型的運行需求。NVIDIA此次發佈的Jetson T4000模組與IGX Thor工業邊緣平台，基於Blackwell架構打造，實現了算力與能效的跨越式提升，為物理AI的邊緣落地提供了核心硬體支撐。1.3.1 Jetson T4000：機器人的“高效小腦”Jetson T4000是Blackwell架構下放至邊緣端的首款機器人專用計算模組，現已正式發售，千片起訂量下單價為1999美元，為Jetson Orin客戶提供了高性價比的升級路徑。相較於上一代Jetson AGX Orin，該模組在核心性能上實現了全方位突破：Jetson T4000的核心突破在於NVFP4 4位浮點精度推理技術。對於物理AI應用而言，感知環節的精度可適當降低，但決策與控制的即時性至關重要。該技術允許機器人在邊緣端直接運行複雜的VLA模型，無需依賴不穩定的雲端網路，既保證了即時響應，又提升了運行安全性。在70瓦的可配置功率範圍內，其可提供1200 FP4 TFLOPS的算力，足以支撐Cosmos與GR00T模型的即時運行，是能耗受限型自主系統的理想選擇。1.3.2 IGX Thor：工業邊緣的“安全算力核心”除了面向通用機器人的Jetson T4000，NVIDIA還宣佈IGX Thor將於2026年1月晚些時候上市，聚焦工業邊緣場景，提供高性能AI計算與功能安全保障。該平台將機器人技術擴展到工業生產、建築採礦等複雜邊緣環境，具備企業級軟體支援能力，可滿足工業級應用對穩定性、安全性的嚴苛要求。目前，AAEON、Advantech、ADLINK等眾多合作夥伴已推出搭載Thor的系統，覆蓋邊緣AI、機器人和嵌入式應用等多個領域。1.4 生態協同 NVIDIA與Hugging Face打通開源開發鏈路技術的規模化落地離不開生態的支撐。當前，機器人已成為Hugging Face平台上增長最快的領域，而NVIDIA的開放模型與資料集在該平台的下載量持續領先。為進一步加速開源物理AI的開發，NVIDIA與Hugging Face達成深度合作，將開放原始碼的Isaac與GR00T技術整合到領先的LeRobot開源機器人框架中，建構了“軟硬體一體化”的開源開發生態。此次合作的核心價值在於打通了兩大開發者社區：NVIDIA的200萬機器人開發者與Hugging Face的1300萬全球AI開發者，實現了技術、工具與資源的雙向流動。具體來看，GR00T N系列模型與Isaac Lab-Arena已正式上線LeRobot庫，開發者可直接基於該框架進行模型微調和策略評估；同時，Hugging Face開放原始碼的Reachy 2人形機器人與NVIDIA Jetson Thor機器人電腦實現完全互操作，可運行包括GR00T N1.6在內的任何VLA模型；Reachy Mini桌面機器人則與NVIDIA DGX Spark實現相容，支援開發者基於NVIDIA大語言模型及本地運行的語音、電腦視覺開放模型打造自訂體驗。這種開源生態的協同，大幅降低了機器人開發的門檻，讓中小企業與個人開發者能夠快速接入頂尖的物理AI技術，加速了創新應用的孵化。正如Hugging Face首席技術官所言：“與NVIDIA的合作將徹底改變開源機器人開發的格局，讓更多開發者能夠聚焦應用創新，而非基礎技術建構。”二、產業鏈重構：從“碎片化”到“生態化”的全鏈路變革機器人產業鏈傳統上呈現“上游高壁壘、中游低利潤、下游分散化”的碎片化格局。上游核心零部件（控製器、伺服系統、減速器）佔據工業機器人總成本的60%以上，利潤分配比例超過40%，但技術門檻高，長期被海外企業壟斷；中游整機製造依賴上游零部件，同質化競爭激烈，毛利率普遍偏低；下游應用場景分散，不同行業的需求差異大，難以形成規模化效應。NVIDIA此次發佈的全端技術體系，將通過“技術賦能-生態整合-成本最佳化”三大路徑，重構機器人產業鏈的價值分配與協作模式。2.1 上游核心零部件 AI驅動的技術升級與國產化機遇上游核心零部件是機器人產業的“卡脖子”環節，也是利潤最集中的領域。NVIDIA的物理AI技術體系，將對上游零部件產業產生兩大關鍵影響：一是推動零部件的“智能化升級”，二是為國產零部件企業提供彎道超車的機遇。在智能化升級方面，傳統零部件以“高精度執行”為核心目標，而物理AI時代的零部件需要具備“感知-反饋-協同”的智能能力。例如，伺服電機需要即時採集運動資料，並與AI模型協同調整參數，以適應動態環境下的動作需求；減速器則需要具備更高的動態響應速度，配合機器人的即時微調動作。NVIDIA的GR00T模型與Jetson硬體平台，為零部件的智能化升級提供了標準介面與算力支撐，推動上游零部件從“被動執行”向“主動協同”轉變。在國產化機遇方面，長期以來，國內零部件企業受制於核心技術不足，難以與海外巨頭競爭。而NVIDIA的開放模型與框架，降低了零部件企業的智能化研發門檻。例如，國內控製器企業可基於NVIDIA的CUDA架構與GR00T模型，快速開發具備物理AI能力的智能控製器，無需從零建構演算法體系。伺服系統企業可借助Jetson平台的算力，實現運動資料的即時分析與參數最佳化。同時，隨著國內機器人產業政策的支援（如廣西出台的機器人產業發展政策，對核心零部件企業給予最高300萬元的年度獎勵），國產零部件企業將在技術升級與市場拓展中獲得更多助力。此外，NVIDIA Jetson T4000的量產與普及，將帶動上游晶片供應鏈的發展。該模組採用的Blackwell架構晶片，其國產化替代（如封裝測試、配套元器件）將為國內半導體企業提供新的市場機遇，進一步完善機器人產業鏈的國產化生態。2.2 中游整機製造從“組裝整合”到“應用創新”的價值躍升中游整機製造是傳統機器人產業鏈的“薄弱環節”，長期依賴上游零部件進口，以組裝整合為主，缺乏核心技術，毛利率普遍低於20%。NVIDIA的全端技術體系，將徹底改變中游整機企業的發展模式，推動其從“組裝商”向“應用解決方案提供商”轉型。首先，降低研發成本與周期。傳統整機企業需要投入巨額資金建構AI演算法、模擬平台與硬體適配體系，研發周期長達1-2年。而基於NVIDIA的Cosmos模型、Isaac Lab-Arena模擬框架與Jetson硬體，整機企業可直接復用成熟的技術模組，聚焦行業應用場景的定製化開發，研發周期可縮短至3-6個月，研發成本降低50%以上。例如，智元機器人基於NVIDIA技術推出的面向工業和消費行業的人形機器人，以及配套的Genie Sim 3.0模擬平台，正是借助NVIDIA的技術賦能，快速實現了產品落地與迭代。其次，提升產品競爭力。借助NVIDIA的物理AI技術，中游整機企業的產品將具備“通用智能”能力，能夠適配更多場景，擺脫同質化競爭。例如，NEURA Robotics推出的第3代人形機器人（由保時捷設計），基於GR00T模型與Jetson Thor平台，具備精細化控制能力，可同時適配工業裝配、服務接待等多個場景；Richtech Robotics的移動人形機器人Dex，借助NVIDIA的導航與操作技術，能夠在複雜工業環境中實現精細操作與自主導航，大幅提升了產品的市場競爭力。最後，推動商業模式創新。隨著產品競爭力的提升，中游整機企業將從“賣裝置”向“提供服務”轉型，例如通過機器人租賃、按效果收費等模式，提升客戶粘性與長期盈利能力。例如，智元機器人推出的國內首個機器人租賃平台“擎天租”，正是基於其技術領先的機器人產品，開啟了新的商業模式探索。2.3 下游應用場景從“單一化”到“規模化”的全面滲透下游應用場景的分散化是制約機器人產業規模化發展的關鍵因素。傳統機器人主要應用於汽車製造、電子加工等少數標準化場景，而醫療、建築、消費等領域的應用相對有限。NVIDIA的物理AI技術體系，通過提升機器人的環境適應性與任務通用性，將推動下游應用場景從“單一化”向“規模化”全面滲透，尤其是在工業、醫療、建築採礦、消費四大領域實現突破性進展。在工業領域，機器人將從“固定工位操作”向“全流程協同作業”升級。例如，富臨精工工廠引入的近百台遠征A2-W機器人（基於NVIDIA技術），已實現與AMR的協同作業，自主完成周轉箱的搬運、轉移與精準放置，覆蓋三條不同裝配線，涉及20余種物料，承載重量提升至14千克，且未發生一起物料傾倒事故。隨著NVIDIA技術的普及，更多製造企業將實現“機器人+智能製造”的升級，推動工業機器人的規模化應用。在醫療領域，物理AI技術將推動手術機器人與輔助診療裝置的精準化升級。LEM Surgical借助NVIDIA Isaac for Healthcare和Cosmos Transfer模型，訓練Dynamis手術機器人（搭載Jetson AGX Thor與Holoscan），大幅提升了手術操作的精準度；XRLabs則利用Thor平台與Isaac for Healthcare，為手術內窺鏡提供即時AI分析支援，幫助外科醫生精準判斷手術部位，降低手術風險。這些應用將推動醫療機器人從“高端試點”向“常規應用”普及。在建築採礦領域，Caterpillar與NVIDIA的深化合作將推動自主作業裝置的規模化落地。建築與採礦行業屬於典型的“危險、骯髒、枯燥”場景，對機器人的需求迫切，但環境複雜，傳統裝置難以適配。Caterpillar將借助NVIDIA的物理AI技術，開發具備自主導航、精準作業能力的重型裝置，提升作業效率與安全性。在2026年1月7日的CES主題演講中，Caterpillar CEO Joe Creed與NVIDIA高管將披露更多合作細節，預計將推出多款基於Blackwell架構的自主作業裝置。在消費領域，人形機器人將從“高端玩具”向“家庭助手”轉型。LG Electronics發佈的全新家用機器人，基於NVIDIA技術，可執行各種室內家務，具備動態環境適應能力，能夠應對家庭中的複雜場景（如躲避障礙物、處理不同材質的物品）；宇樹科技推出的小型人形機器人Unitree R1，起售價僅2.99萬元，借助NVIDIA的輕量化AI技術，實現了低成本與高智能的平衡，大幅拉近了與人消費市場的距離。2.4 價值分配重構生態主導者引領的利潤再平衡隨著NVIDIA全端技術體系的普及，機器人產業鏈的價值分配將發生重大變化：從“上游零部件企業主導”向“生態主導者+應用創新者”共同主導的格局轉變。NVIDIA作為生態主導者，將通過“模型授權+硬體銷售+生態服務”獲取穩定的利潤回報；而中游整機企業與下游應用解決方案提供商，將通過場景創新與服務增值，提升利潤佔比；上游零部件企業則需要通過智能化升級，維持其利潤優勢。這種價值分配的重構，將推動產業鏈從“零和博弈”向“共贏發展”轉變。NVIDIA通過開放模型與框架，幫助上游零部件企業實現智能化升級，提升其產品附加值；中游整機企業借助NVIDIA技術推出高競爭力產品，帶動上游零部件的需求；下游應用場景的規模化落地，又將反哺中游整機與上游零部件企業的發展，形成良性循環。據行業預測，隨著這種生態化格局的形成，2027年將成為中國機器人產業的“大規模商業化元年”，整個產業鏈的規模將突破兆級。三、應用場景突破：物理AI技術的落地案例與價值驗證技術的價值最終需要通過應用場景來驗證。NVIDIA此次發佈的物理AI技術體系，已在工業、醫療、消費、建築採礦等多個領域實現落地，通過一系列標竿案例，充分驗證了其在提升效率、降低成本、保障安全等方面的核心價值。本節將重點解析四個典型應用場景的落地案例，深入探討物理AI技術的實際應用效果。3.1 工業製造富臨精工的“人形機器人+智能製造”升級富臨精工是國內領先的汽車零部件製造商，其生產車間涵蓋多條裝配線，物料搬運、上料等環節傳統上依賴人工操作，存在效率低、誤差率高、勞動強度大等問題。為實現智能製造升級，富臨精工與智元機器人達成合作，引入近百台基於NVIDIA Jetson Thor與GR00T模型的遠征A2-W人形機器人，建構了“智能中樞平台+人形機器人+AMR”的協同作業體系。該體系的核心優勢在於三個方面：一是全流程自動化，智能中樞平台即時監控線邊物料剩餘量，當觸及預設水位線時，自動觸發配送任務，人形機器人與AMR協同作業，自主完成周轉箱的搬運、轉移與精準放置，無需人工干預；二是動態適應性強，借助NVIDIA Cosmos Reason 2模型的推理能力，人形機器人能夠應對車間內的動態環境變化，如躲避移動的工人與裝置、調整物料放置角度等；三是規模化擴展能力，從最初的1個搬運工位擴展至4個，覆蓋三條不同裝配線，涉及物料種類從4種增至20余種，承載重量從5-6千克提升至14千克，且線邊上料場景至今未發生一起物料傾倒事故。據富臨精工相關負責人介紹，引入該體系後，物料搬運效率提升了60%，人工成本降低了40%，同時物料配送的誤差率降至0.1%以下。這一案例充分驗證了NVIDIA物理AI技術在工業製造場景的規模化應用價值，為其他製造企業的智能化升級提供了可複製的方案。3.2 醫療健康 LEM Surgical的精準手術機器人訓練體系手術機器人是醫療領域的高端裝備，其訓練需要大量的臨床資料與模擬場景，但傳統訓練方式存在資料稀缺、風險高、周期長等問題。LEM Surgical作為專注於手術機器人研發的企業，借助NVIDIA Isaac for Healthcare和Cosmos Transfer 2.5模型，建構了高效的手術機器人訓練體系，用於其Dynamis手術機器人的研發與最佳化。Dynamis手術機器人搭載了NVIDIA Jetson AGX Thor與Holoscan平台，具備高精度的手術操作能力。其訓練體系的核心的是Cosmos Transfer 2.5模型的域遷移能力：通過將Isaac Sim中的模擬手術場景，轉換為帶有真實手術環境噪聲、光照條件的等效資料，大幅提升了模擬訓練的真實性；同時，將少量真實手術資料增強為多樣化的模擬場景，解決了臨床資料稀缺的問題。借助這一體系，LEM Surgical的研發團隊能夠快速驗證手術機器人的操作策略，最佳化運動控制參數，大幅縮短了研發周期。此外，XRLabs利用NVIDIA Jetson Thor與Isaac for Healthcare，開發了智能手術內窺鏡系統。該系統通過外接手術內鏡採集即時圖像，借助Cosmos Predict 2.5模型的即時預測能力，分析手術部位的解剖結構與操作風險，為外科醫生提供即時引導，降低了手術難度與併發症風險。目前，該系統已在多家醫院開展試點應用，手術精準度提升了30%，手術時間縮短了20%。3.3 消費服務 LG Electronics的家用智慧型手機器人家用機器人是消費領域的重要增長點，但傳統家用機器人功能單一，難以應對複雜的家庭環境。LG Electronics在CES 2026上發佈的全新家用機器人，基於NVIDIA的Cosmos系列模型與Jetson T4000模組，具備全方位的家務處理能力與動態環境適應能力。該機器人的核心優勢在於其強大的物理AI能力：通過Cosmos Reason 2模型，能夠理解自然語言指令，並分解為具體的家務任務，如“清理客廳檯面”可拆解為“整理物品→擦拭灰塵→分類收納”；借助Cosmos Predict 2.5模型，能夠即時預測動作後果，如避免碰撞易碎物品、調整拖地力度以適應不同地面材質；依託Jetson T4000的高效算力，實現了即時感知與決策，響應速度提升至毫秒級。此外，該機器人還具備自主充電、故障自診斷等智能功能，能夠適應不同戶型的家庭環境。LG Electronics相關負責人表示，這款家用機器人的目標是成為“家庭助手”，而非簡單的“家務工具”，其定價將控制在萬元以內，以實現規模化普及。該產品的推出，標誌著消費級家用機器人正式進入“通用智能”時代。3.4 建築採礦 Caterpillar的自主作業裝置升級建築與採礦行業是典型的高危、高勞動強度行業，對自主作業裝置的需求迫切。Caterpillar作為全球領先的工程機械製造商，正在擴大與NVIDIA的合作，將先進的AI和自主系統引入建築和採礦領域的裝置及作業現場。基於NVIDIA的Blackwell架構與物理AI模型，Caterpillar正在開發多款自主作業裝置，包括自主挖掘機、自主礦用卡車等。這些裝置具備三大核心能力：一是自主導航，借助Cosmos模型的環境感知與推理能力，能夠在複雜的施工現場與礦區環境中精準定位，躲避障礙物；二是精準作業，通過GR00T模型的動作控制能力，實現挖掘、裝載、運輸等作業的精準執行，提升作業效率；三是協同作業，多台裝置可通過OSMO框架實現資料共享與協同調度，形成自主作業車隊。據Caterpillar透露，其自主礦用卡車已在澳大利亞某金礦開展試點應用，借助NVIDIA的技術，作業效率提升了25%，事故率降低了80%，同時減少了人工成本。在2026年1月7日的CES主題演講中，Caterpillar CEO Joe Creed將與NVIDIA高管共同披露更多合作細節，預計將推出面向建築行業的首款自主挖掘機，計畫2027年實現規模化量產。四、產業趨勢展望：物理AI驅動下的機器人產業未來圖景NVIDIA此次發佈的物理AI技術體系，不僅解決了當前機器人產業的核心痛點，更勾勒出未來機器人產業的發展圖景。結合行業發展規律與技術迭代趨勢，未來3-5年，機器人產業將呈現“通用化、輕量化、開源化、規模化”四大核心趨勢，而NVIDIA將在這一處理程序中扮演關鍵的引領角色。4.1 趨勢一從“專用機器人”到“專家級通用機器人”的跨越傳統機器人多為“專用裝置”，針對特定場景開發，功能單一，難以跨場景應用。而物理AI技術的發展，將推動機器人從“專用”向“通用”跨越，最終實現“專家級通用”的目標——即能夠快速學習多種任務，適配不同行業場景的需求。NVIDIA的Cosmos與GR00T模型，正是這一趨勢的核心驅動力。通過內化物理世界的通用規律，機器人能夠快速適應新場景、學習新任務，無需針對每個場景進行重新程式設計。一款基於GR00T模型的人形機器人，既可以在工廠完成精密裝配，也可以在醫院協助護理，還可以在家庭處理家務，只需通過少量場景資料微調即可實現功能適配。據行業預測，到2028年，專家級通用機器人的市場佔比將超過30%，成為機器人產業的主流產品形態。4.2 趨勢二硬體輕量化與能效比的持續提升機器人尤其是人形機器人、移動服務機器人，對硬體的輕量化、小型化、低功耗提出了嚴苛要求。隨著Blackwell架構的普及與技術迭代，邊緣AI算力模組將實現“更高算力、更低功耗”的持續突破，推動機器人硬體的輕量化發展。NVIDIA的Jetson系列模組已展現出這一趨勢：從Jetson AGX Orin到Jetson T4000，算力提升4.3倍，而功耗控制在70瓦以內；未來，隨著晶片製程的進步與架構的最佳化，Jetson系列模組的算力有望進一步提升，功耗則持續降低，甚至可能出現50瓦以下、算力突破2000 TFLOPS的產品。這將推動機器人的小型化發展，如宇樹科技的小型人形機器人、松延動力的Bumi小布米等輕量化產品將成為消費市場的主流，進一步擴大機器人的應用範圍。4.3 趨勢三開源生態成為創新核心驅動力機器人產業的創新需要大量的技術積累與資源投入，單一企業難以完成全鏈條的創新。開源生態將成為未來機器人產業創新的核心驅動力，吸引全球開發者共同參與技術突破與應用創新。NVIDIA與Hugging Face的合作，正是開源生態發展的重要里程碑。隨著LeRobot框架的普及，越來越多的開發者將接入NVIDIA的物理AI技術體系，孵化出更多創新應用。同時，開源生態的發展將推動技術標準的統一，降低行業的協作成本，加速創新成果的轉化。預計到2027年，全球將有超過50%的機器人創新應用基於開源框架開發，開源生態將成為機器人產業競爭的核心戰場。4.4 趨勢四規模化落地與成本快速下降隨著技術的成熟與生態的完善，機器人的規模化落地將推動成本快速下降，形成“規模效應-成本下降-需求擴大”的良性循環。據資料顯示，2025年國內人形機器人出貨量預計達1.8萬台，2026年有望攀升至6.25萬台；多位行業專家預測，2026年國內人形機器人產量將突破10萬台，2028年有望達到百萬台級。成本下降的主要驅動力包括三個方面：一是核心零部件的國產化替代，如國內企業已實現減速器、伺服系統的批次供貨，成本較海外產品降低30%以上；二是規模化生產帶來的製造費用降低，隨著產量的提升，整機製造的單位成本將大幅下降；三是開源技術的應用，降低了研發成本。預計到2030年，人形機器人的售價將降至5萬元以下，消費級市場將全面爆發。4.5 挑戰與應對技術、倫理與政策的協同推進儘管機器人產業前景廣闊，但仍面臨技術、倫理與政策三大挑戰。在技術層面，機器人的泛化能力、安全性仍需進一步提升，尤其是在複雜動態環境中的可靠性；在倫理層面，機器人的廣泛應用可能帶來就業結構變化、隱私洩露等問題；在政策層面，相關的法律法規、標準體系尚未完善，如機器人決策失誤的責任界定、資料安全規範等。應對這些挑戰，需要政府、企業與科研機構的協同推進：一是加強核心技術研發，聚焦泛化能力、安全性等關鍵痛點，推動技術標準的統一；二是建立健全倫理規範與法律法規，平衡技術創新與社會影響；三是出台針對性的政策支援，如職業培訓、資料安全保障等，確保機器人產業的健康發展。NVIDIA作為行業引領者，已通過開放模型與框架，推動技術標準的統一；同時，其與全球企業的合作，也在積極探索機器人應用的倫理邊界。五、結語：物理AI開啟機器人產業的“黃金十年”CES 2026上NVIDIA的系列發佈，標誌著機器人產業正式進入物理AI驅動的新時代。從技術核心來看，Cosmos與GR00T模型建構了機器人理解物理世界的“認知大腦”，Isaac Lab-Arena與OSMO框架打通了開發全流程，Jetson T4000硬體模組提供了高效算力支撐，形成了覆蓋“模型-框架-硬體-生態”的全端解決方案；從產業鏈影響來看，其推動上游零部件智能化升級、中游整機企業嚮應用創新轉型、下游場景規模化滲透，重構了產業價值分配模式；從應用前景來看，工業、醫療、消費、建築採礦等多個領域的落地案例，充分驗證了技術的實用價值。黃仁勳所言的“機器人開發的ChatGPT時刻”，不僅是技術的突破，更是產業範式的變革。未來十年，隨著物理AI技術的持續迭代、開源生態的不斷完善、成本的快速下降，機器人將從“工業裝備”全面走向“生活助手”，深度融入製造業、醫療健康、家庭服務等多個領域，成為推動經濟社會轉型的重要力量。對於企業而言，接入NVIDIA的物理AI技術體系，將成為把握產業機遇的關鍵；對於行業而言，建構開放協同的生態，推動技術標準的統一，將加速產業的規模化發展；對於社會而言，擁抱機器人技術帶來的變革，做好就業轉型與倫理規範，將實現技術創新與社會福祉的共贏。我們有理由相信，在物理AI的驅動下，機器人產業將迎來前所未有的“黃金十年”，為人類社會帶來更高效、更安全、更便捷的生活與生產方式。這些新模型均可通過 Hugging Face 獲取，包括：NVIDIA Cosmos™ Transfer 2.5和NVIDIA Cosmos Predict 2.5：開放、完全可定製的世界模型，為物理 AI 實現基於物理原理的合成資料生成與機器人策略評估的模擬支援。NVIDIA CosmosReason 2：開放推理視覺語言模型（VLM），使智慧型手機器能夠像人類一樣看見、理解物理世界並採取行動。NVIDIA Isaac™ GR00T N1.6：專為人形機器人打造的開放式推理視覺語言行動（VLA）模型，可解鎖全身控制能力，並借助 NVIDIA Cosmos Reason 增強推理和上下文理解。 (AI雲原生智能算力架構)

六國15家頂媒齊轉引：中國AI開源又好又便宜

2025年12月20日，法國最大通訊社法新社發佈報導《中國AI開源模型以高性價比悄然打入美國市場》，其中引述中國人民大學重陽金融研究院院長、全球領導力學院院長王文觀點：“中國開源模型價格低廉，甚至免費，而且效果很好”。該觀點在全球科技與政策圈廣泛傳播，美國《巴倫周刊》、新加坡《海峽時報》、法國France 24、沙烏地阿拉伯《阿拉伯新聞》、印度《今日傳播》、越南《勞動報》等六國15家頂級媒體密集轉引。以下為相關報導情況：12月20日，法新社發佈題為《中美AI競賽中，中國技術悄然打入美國市場》的報導，開篇即拋出一個震撼案例：一位美國企業家因將底層模型切換至阿里巴巴千問，實現每年節省40萬美元。文章指出中國開放模型的全球使用率已從2024年底的1.2%飆升至2025年8月的近30%。中國的主流模型以實際表現證明，開源路徑完全可以兼具高性能與低成本，從而改寫了技術選擇的遊戲規則。文章重點提及了王文的觀點：“中國的開源模型價格低廉，在某些情況下甚至是免費的，而且效果很好。”來自美國、法國、新加坡、沙烏地阿拉伯、印度、越南六國的15家核心媒體轉引這一觀點。《巴倫周刊》（Barron’s）、美國線上（AOL）、雅虎財經（Yahoo Finance）、《商業時代》（New Business Age）等面向歐美精英階層的主流財經與資訊平台迅速轉引。新加坡《海峽時報》（The Straits Times），印度《今日傳播》、《印度時報》、《歐亞時報》，法國國際新聞台（France 24），阿拉伯世界頗具影響力的《阿拉伯新聞》（Arab News）亦跟進轉載，將討論推及更廣闊的歐亞大陸。▲部分報導截圖如上這是2025年中國人民大學重陽金融研究院（人大重陽）在AI領域面向國際輿論場的又一次有力發聲。早在2025年年初，當DeepSeek在全球科技市場引發震動，人大重陽就已開始聚焦其全球影響，迅速啟動相關專題研究。2月23日，在人大重陽承辦的通州·全球發展論壇（2025年春季）“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會上，首份DeepSeek高校智庫評估報告《大跳躍：美國智庫、媒體與行業論DeepSeek中國人工智慧》（該報告論文版發佈於核心期刊《智庫理論與實踐》2025年3月第10卷第2期，作者係人大重陽院長王文、副研究員申宇婧、助理研究員金臻）一經發佈，隨即引發熱烈反響。▲2025年2月23日，通州·全球發展論壇（2025年春季）“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會在中國人民大學召開報告建議，應該客觀冷靜看待中國AI的發展階段與競爭格局，在制度建設、人才培養、企業創新等各個層面，以長期主義推動中國AI可持續發展，踐行“科技為民、科技惠民”理念，在積極參與人工智慧國際治理的同時，要守住AI發展紅線，警惕技術發展失控危機，引發40余家中外媒體轉引報導。▲報告封面如上3月1日，人大重陽宏觀研究部副主任、副研究員申宇婧在“長安街知事”微信公眾號發表文章呼籲變革AI實力評價標準，批判單純堆砌參數的“冷冰冰”路徑，力主中國“降本、增效、協同、普惠”的發展哲學，將DeepSeek的普及定義為一場深刻的社會革命。11月5日，在第八屆虹橋國際經濟論壇上，王文受邀做客央視新聞直播間，以“AI上進博，未來科技有多炸”為主題，解讀在全球科技競爭加劇的前提下，創新與合作如何雙向發力：“以人工智慧為代表的新一代工業革命，中國走在了世界最前沿，中國通過一代、兩代、三代人的不懈努力，有了科技自信的資本……而進博會提供了很好的平台，讓這些真正摸得到、感知的到、享受的到的智能產品惠及到每一個普通人。”▲部分報導截圖如上11月，王文與澳門科技大學博雅學院助理教授張夢晨在學術期刊《理論建設》2025年第6期發表論文《AI時代的全球領導力重塑：範式演化、政治哲學轉向與中國路徑》。系統闡釋了AI時代全球領導力正從“控制型”霸權向“共建型”範式演化，剖析美國“領導力赤字”，並為中國提出融合頂層設計、技術自主、數字外交與“數字命運共同體”建構的完整行動路徑。 (人大重陽)

智譜就差臨門一腳了

12月19日，智譜向港交所遞交了聆訊後資料集，由中金公司擔任獨家保薦人。成立於2019年的智譜，其技術源於清華大學電腦系的技術成果轉化，專注於大模型研發，有望成為全球首家以通用人工智慧（AGI）基座模型為核心業務的上市公司。招股檔案顯示，智譜IPO前估值243.8億元，股東包括美團、騰訊等產業資本，以及君聯、紅杉等機構。雖然智譜營收快速增長，但經營壓力仍大。2022年至2025年上半年，智譜累計虧損超62億元，研發投入達44億餘元。截至2025年6月末，公司現金及現金等價物為25.52億元，現金儲備面臨較大壓力。財務資料顯示，智譜在2022年、2023年、2024年及2025年上半年分別實現營收5740萬元、1.245億元、3.124億元和1.9億元，連續三年（2022至2024年）營收翻倍，復合年增長率高達130%。同時，其毛利率分別為54.6%、64.6%、56.3%和50%。弗若斯特沙利文資料顯示，按2024年營收計算，智譜在中國獨立通用大模型開發商中排名第一，在所有通用大模型開發商中位列第二，市場份額為6.6%。然而，其高增長背後是不斷擴大的虧損。同期，智譜經調整淨虧損分別為9740萬元、6.21億元、24.656億元和17.52億元，年內虧損則分別為1.44億元、7.88億元、29.58億元和23.58億元。值得注意的是，2025年上半年，智譜月均虧損近4億元，這一數字是同期月均營收的10倍以上，智譜將虧損歸因於研發投入。2022年至2025年上半年，智譜研發開支分別為8440萬元、5.289億元、21.954億元和15.947億元，其中2024年的研發開支約為當年營收的7倍。截至2025年6月30日，智譜研發團隊共有657人，佔員工總數的74%。其核心科研團隊與學術顧問團隊已發表論文500篇，累計被引次數超過58000次。技術層面，智譜自成立以來，陸續推出了中國首個百億參數模型、首個開源千億參數模型、首個對話模型以及首個多模態模型。2025年，其推出的GLM-4.5/4.6在12項權威評測中綜合排名位列國內第一，並在全球開源模型中排名第一。GLM-4.6發佈時即適配寒武紀、摩爾線程等國產晶片，目前GLM架構已相容40餘款國產晶片。2025年6月，OpenAI在行業分析報告中將智譜列為全球主要競爭對手之一。在收入結構方面，2022年至2024年及2025年上半年，智譜本地化部署業務的營收佔比分別為95.5%、90.4%、84.5%和84.8%，而云端部署業務的營收佔比則分別為4.5%、9.6%、15.5%和15.2%。可以看出，本地化部署仍是智譜的核心收入來源，2024年貢獻了84.5%的營收。這種模式在發展初期，幫助智譜深入滿足政企客戶的定製化需求，但規模化擴張能力相對受限。為此，智譜正在推動商業模式轉型，將重心逐步轉向雲端部署與MaaS（模型即服務）模式。智譜自2021年起佈局MaaS平台，目前開放平台上已匯聚超過270萬企業及應用開發者。截至2025年9月30日，其模型服務覆蓋全球12,000家企業客戶、超8,000萬台終端裝置使用者，以及超過4,500萬名開發者。因此，日均token消耗量從2022年的5億增長至2025年上半年的4.6兆。智譜的目標是將API呼叫服務收入佔比提升至50%。據披露，面向全球開發者的模型服務業務年度經常性收入已突破1億元。2024年，智譜曾密集推出語音互動、視覺理解、視訊生成等多模態大模型，但從2025年起策略收縮，重新聚焦於基座大模型與程式碼大模型等更適配API規模化分發的核心賽道。智譜MaaS平台主要服務科技網際網路和企業客戶，國內前十的網際網路公司有九家用其模型。但隨著雲廠商紛紛入局，競爭加劇，其雲端業務能否持續增長仍存疑。客戶集中度方面，2022年至2024年及2025年上半年，智譜來自五大客戶的收入分別佔總收入的55.4%、61.5%、45.5%和40%，而來自最大客戶的收入佔比則分別為15.4%、14.7%、19%和11%。截至2025年6月末，智譜貿易及其他應收款項為4.53億元。招股檔案提示，智譜面臨客戶或第三方延期付款及違約相關的信貸風險，可能對其流動資金和財務狀況產生不利影響。從2024年起，智譜開始向海外客戶提供本地化部署服務，主要來自東南亞。2024年，中國大陸收入佔本地化部署總收入的99.5%，到2025年上半年降至88.4%，而東南亞市場佔比升至11.1%，對應收入1792.7萬元。不過，雖然智譜技術強、客戶多，但一直虧錢，研發投入又大，現金流緊張，加上大公司都在競爭，它想成功上市並持續發展，似乎還有很長的路要走。 (AI硅基未來)

小米“降維打擊”：MiMo-V2-Flash性能直逼GPT-5，成本僅零頭！

一場由科技巨頭小米掀起的AI風暴，正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash，這不僅僅是技術實力的秀肌肉，更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能，正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析：性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈，核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent（智能體）場景中表現尤為突出，同時也是日常任務的優秀通用助手。•極致效率與成本革命：這款模型以每秒150個token的驚人速度進行推理，而成本更是低至每百萬輸入token 0.1美元，每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略，無疑將極大降低AI應用的門檻，為開發者和企業帶來巨大的紅利。•混合專家（MoE）架構： MiMo-V2-Flash採用MoE設計，總參數高達3090億，但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時，顯著降低了計算資源消耗。•混合滑動窗口注意力機制：為瞭解決長文字處理的計算複雜度問題，MiMo-V2-Flash創新性地採用了5:1的混合比例，即5層滑動窗口注意力（SWA）搭配1層全域注意力交替使用，滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍，同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入，且性能不打折扣。•輕量級多Token預測（MTP）：區別於傳統模型的單token生成，MiMo-V2-Flash通過原生整合的MTP模組，能夠平行預測多個token，推理速度提升2到2.6倍。這不僅加速了生成效率，還解決了強化學習訓練中GPU空閒時間浪費的問題，實現了“一箭雙鵰”的效率提升。💡 性能對標：直逼頂尖，局部超越小米MiMo-V2-Flash的實測表現，足以讓業界震驚。•推理能力：在大部分推理基準測試中，MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中，它甚至超越了Kimi K2 Thinking。•編碼與Agent能力：在SWE-Bench Verified的Agent任務中，MiMo-V2-Flash取得了73.4%的高分，超越所有開源競爭對手，並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中，其解決率達到71.7%。在程式設計能力評估中，它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當，而成本僅為後者的一小部分。•通用能力：除了技術型任務，MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋，意味著它不僅能寫程式碼、解數學題，還能即時獲取最新資訊。🚀 戰略佈局：AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash，並非孤立的技術展示，而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”：小米MiMo團隊負責人羅福莉（前DeepSeek核心研究員）明確指出，MiMo-V2-Flash是其AGI（通用人工智慧）路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上，有著清晰且野心勃勃的長期規劃。羅福莉的加盟，本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”：摩根士丹利分析師指出，小米旨在通過這款高性能模型，深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石，為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗，從而強化其生態護城河。•全面開源，建構生態：小米選擇完全開源MiMo-V2-Flash，並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台，這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻，加速高性能AI技術在更廣泛場景中的應用和普及，從而凝聚開發者，共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈，猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今，小米正以0.1美元/百萬token的超低成本和頂級的性能，重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破，更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下，小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置，為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”，真的來了。 (澤問科技)