#模型
【CES 2026】突發開源!NVIDIA 宣佈推出用於物理 AI 的全新開放模型、框架和 AI 基礎設施之深度洞察!
引言:CES 2026 引爆行業革命,機器人開發的“ChatGPT時刻”正式到來太平洋時間2026年1月5日,拉斯維加斯國際消費電子展(CES)現場,NVIDIA創始人兼首席執行長黃仁勳的一句“機器人開發的ChatGPT時刻已然到來”,為全球機器人產業定下了新的發展基調。當天,NVIDIA正式宣佈推出用於物理AI的全新開放模型、框架和AI基礎設施,同時展示了Boston Dynamics、Caterpillar、Franka Robotics等全球領先企業基於其技術打造的多款新型機器人與自主機器,涵蓋移動機械臂、人形機器人、工業作業裝置等多個品類。這一系列發佈並非孤立的技術更新,而是NVIDIA對機器人產業發展瓶頸的精準突破,更是對未來“專家級通用”機器人開發範式的全面重構。長期以來,機器人產業始終面臨三大核心痛點:一是缺乏理解物理世界的通用智能,傳統機器人依賴預設程序,難以應對動態環境變化;二是開發流程分散複雜,模擬與現實存在巨大鴻溝,技術迭代效率低下;三是軟硬體協同不足,AI算力與能效難以匹配機器人輕量化、高即時性的應用需求。NVIDIA此次推出的全端技術體系——從Cosmos與GR00T開放模型,到Isaac Lab-Arena模擬框架與OSMO計算框架,再到Blackwell架構驅動的Jetson T4000硬體模組,形成了覆蓋“模型-框架-硬體-生態”的完整解決方案,旨在打通機器人開發的全生命周期,加速新一代AI驅動機器人的規模化落地。本文將從技術核心解析、產業鏈重構影響、應用場景突破、產業趨勢展望四大維度,深度拆解NVIDIA物理AI技術體系的核心價值與行業變革意義。一、技術核心解析:物理AI如何重構機器人的“認知與行動”能力黃仁勳所言的“機器人開發的ChatGPT時刻”,核心在於物理AI技術的突破性進展。不同於傳統AI聚焦數字世界的資訊處理,物理AI的核心目標是讓機器理解物理世界的運行規律,具備感知、推理、規劃與行動的閉環能力,實現從“執行指令”到“理解並決策”的跨越。NVIDIA此次發佈的技術體系,正是圍繞這一核心目標建構的全端解決方案,其技術核心可拆解為“感知-推理-行動-訓練”四大核心模組。1.1 核心模型 Cosmos與GR00T建構物理AI的“認知大腦”要實現機器人對物理世界的理解,首先需要建構能夠建模物理規律、融合多模態資訊的基礎模型。NVIDIA此次推出的Cosmos系列與GR00T N1.6模型,分別解決了“物理世界認知”與“人形機器人全身控制”兩大核心問題,共同構成了物理AI的“認知大腦”。1.1.1 Cosmos系列模型:賦予機器人“物理直覺”傳統機器人的最大短板在於缺乏“物理直覺”——無法預判環境變化對自身動作的影響,也難以理解物體的物理屬性(如重力、摩擦力、材質特性等)。這導致機器人在執行簡單任務時,一旦遇到未預設的場景(如地面油污、物體重量變化),就容易出現失穩或任務失敗的情況。Cosmos系列模型的核心價值,正是通過生成式AI技術,讓機器人內化物理世界的基本規律,具備即時預測、跨場景遷移與多步推理的能力。Cosmos系列包含三大核心模型,形成了“感知-預測-推理”的認知閉環:NVIDIA Cosmos Transfer 2.5:作為轉換模型,其核心功能是打通模擬與現實的“域鴻溝”。傳統機器人訓練依賴大量真實場景資料,成本高昂且周期漫長,而模擬資料又因與現實環境差異過大,導致訓練出的模型難以直接遷移。Cosmos Transfer 2.5支援空間條件控制的風格遷移,可將Isaac Sim中的合成資料轉換為帶有真實世界噪聲、光照幹擾、鏡頭畸變的等效資料,同時保持物理參數不變;反之,也能將真實世界的稀疏資料增強為多樣化的模擬場景,大幅提升模型從模擬到現實的零樣本遷移成功率。相較於前代模型,其體積更小、運行更快,生成質量顯著提升,域間遷移的誤差累積大幅減少。NVIDIA Cosmos Predict 2.5:聚焦物理世界的即時預測,解決機器人的“快思考”問題。該模型融合Text 2 World、Image 2 World、Video 2 World等生成能力,可根據文字、圖像或視訊輸入,生成連貫的環境演化序列。與傳統電腦視覺模型逐幀處理像素不同,Cosmos Predict 2.5直接對物理狀態的演化軌跡進行推演,能夠在毫秒級內預測環境變化對機器人動作的影響。例如在“機械臂倒水”任務中,傳統方法需要複雜的流體動力學方程求解,難以滿足即時性要求;而Cosmos Predict 2.5通過學習海量物理視訊資料,可即時預測下一時刻的流體分佈與不確定性,為控製器提供“是否會濺出”的預判依據,支撐機器人的動態微調。NVIDIA Cosmos Reason 2:作為開放推理視覺語言模型(VLM),負責機器人的“慢思考”——跨時間尺度的理解、推理與決策。該模型引入了大語言模型中成熟的思維鏈(CoT)機制,並將其擴展到視覺-動作領域,能夠直接從圖像中理解語義與空間關係,完成多步任務分解與因果推理。在“清理廚房檯面”這類複雜任務中,傳統規劃器依賴預定義的PDDL(規劃域定義語言),難以應對場景變化;而Cosmos Reason 2可自主分解任務(如“先移開水杯→再擦拭油污→最後整理餐具”),並通過反事實推理預判不同動作的後果,主動規避高風險操作(如避免碰撞易碎物品)。這種將感知、推理與決策緊密耦合的能力,有效解決了傳統模組化架構中資訊層層傳遞的損耗問題。三者的協同邏輯清晰:Cosmos Predict 2.5提供即時物理狀態預測,支撐毫秒級的動態反饋;Cosmos Reason 2負責長周期的任務規劃與風險預判;Cosmos Transfer 2.5則打通模擬與現實的資料通道,為前兩者的訓練提供高品質資料支撐,形成“預測-推理-資料迭代”的認知閉環。1.1.2 GR00T N1.6:解鎖人形機器人的“全身控制”能力如果說Cosmos系列模型解決了機器人“認知世界”的問題,那麼Isaac GR00T N1.6則聚焦於“如何行動”,特別是為人形機器人提供開放式的推理視覺語言行動(VLA)模型,實現全身動作的精準控制與上下文理解。人形機器人的控制難度遠超傳統機械臂,其擁有數十個自由度,需要兼顧平衡、協調、精準操作等多重目標,傳統控制方法難以實現複雜動作的靈活適配。GROOT N1.6的核心突破在於兩大技術創新:一是採用MoE(混合專家)架構,實現“通專融合”的控制能力。該架構包含多個獨立的“專家”子網路,在處理不同任務時啟動對應的專家模組——例如理解自然語言指令時啟動“通用語言專家”,執行精密銲接時啟動“運動控制專家”,既保證了通用任務的適應性,又提升了專項任務的精準度。二是深度整合Cosmos Reason 2模型,強化上下文理解與推理能力。通過融合視覺語言推理與動作控制,GR00T N1.6可直接將人類自然語言指令轉換為全身協調的動作序列,例如將“把桌子上的檔案遞給我”拆解為“移動至桌前→識別檔案位置→調整姿態→抓取檔案→精準遞出”的連貫動作,無需人工編寫複雜的運動控製程序。目前,Franka Robotics、NEURA Robotics、Humanoid等企業已開始利用GR00T賦能的工作流,進行機器人新行為的模擬、訓練與驗證。Salesforce則通過整合Agentforce、Cosmos Reason與NVIDIA Blueprint,對機器人採集的視訊片段進行分析,將事件解決時間縮短了50%,充分驗證了該模型在提升任務效率方面的核心價值。1.2 支撐框架 Isaac Lab-Arena與OSMO打通開發全流程物理AI模型的落地,離不開高效的開發與訓練框架支撐。長期以來,機器人開發麵臨兩大流程痛點:一是模擬評估體系分散,基準測試依賴人工操作,難以實現規模化驗證;二是端到端工作流複雜,需要跨工作站、雲端等異構計算資源,協同難度大,開發周期漫長。NVIDIA此次發佈的Isaac Lab-Arena開源模擬框架與OSMO雲原生計算框架,正是針對這兩大痛點的精準解決方案,旨在實現“模擬-訓練-評估-部署”的全流程閉環。1.2.1 Isaac Lab-Arena:標準化模擬評估的“協作平台”模擬訓練是機器人開發的核心環節,其質量直接決定了機器人在真實環境中的性能。但當前行業缺乏統一的模擬評估標準,不同開發者採用不同的測試體系,導致技術成果難以對比,且模擬場景與真實環境的差異過大,大幅降低了訓練效率。Isaac Lab-Arena的核心目標是建構一個開放原始碼的協作系統,實現大規模機器人策略評估與基準測試的標準化。該框架的核心優勢體現在三個方面:一是模組化設計,其評估層與任務層通過與光輪智能的深度合作完成建構,支援靈活配置不同任務場景與評估指標;二是多基準相容,可直接對接Libero、Robocasa等業界領先的基準測試體系,實現測試流程的標準化,確保機器人技能在部署至物理硬體前具備穩健性與可靠性;三是開源協作,現已在GitHub上公開發佈,開發者可基於該框架共享測試場景、驗證演算法效果,加速技術迭代。1.2.2 OSMO:跨環境協同的“開髮指揮中心”機器人開發涉及合成資料生成、模型訓練、軟體在環測試等多個環節,需要跨越工作站、邊緣裝置、混合雲等多種計算環境,傳統開發模式下,各環節相互獨立,資源調度複雜,嚴重影響開發效率。OSMO作為雲原生編排框架,將機器人開發整合至單一易用的命令中心,實現了全流程的高效協同。OSMO的核心功能包括:一是跨環境工作流定義,開發者可通過統一介面,定義覆蓋多計算環境的工作流,實現合成資料生成、模型訓練、測試驗證的自動化執行;二是資源智能調度,根據不同環節的算力需求,自動分配工作站、雲端等資源,提升資源利用率;三是快速整合適配,現已開放使用,並被Hexagon Robotics等企業採用,同時整合至Microsoft Azure Robotics Accelerator工具鏈中,大幅降低了開發者的接入門檻。1.3 硬體基石 Blackwell架構驅動的邊緣AI算力革命物理AI模型的即時運行,需要強大的邊緣AI算力支撐。機器人尤其是人形機器人、移動作業裝置等,對硬體的輕量化、低功耗、高即時性提出了嚴苛要求。傳統邊緣計算模組難以平衡算力與能效,無法滿足複雜物理AI模型的運行需求。NVIDIA此次發佈的Jetson T4000模組與IGX Thor工業邊緣平台,基於Blackwell架構打造,實現了算力與能效的跨越式提升,為物理AI的邊緣落地提供了核心硬體支撐。1.3.1 Jetson T4000:機器人的“高效小腦”Jetson T4000是Blackwell架構下放至邊緣端的首款機器人專用計算模組,現已正式發售,千片起訂量下單價為1999美元,為Jetson Orin客戶提供了高性價比的升級路徑。相較於上一代Jetson AGX Orin,該模組在核心性能上實現了全方位突破:Jetson T4000的核心突破在於NVFP4 4位浮點精度推理技術。對於物理AI應用而言,感知環節的精度可適當降低,但決策與控制的即時性至關重要。該技術允許機器人在邊緣端直接運行複雜的VLA模型,無需依賴不穩定的雲端網路,既保證了即時響應,又提升了運行安全性。在70瓦的可配置功率範圍內,其可提供1200 FP4 TFLOPS的算力,足以支撐Cosmos與GR00T模型的即時運行,是能耗受限型自主系統的理想選擇。1.3.2 IGX Thor:工業邊緣的“安全算力核心”除了面向通用機器人的Jetson T4000,NVIDIA還宣佈IGX Thor將於2026年1月晚些時候上市,聚焦工業邊緣場景,提供高性能AI計算與功能安全保障。該平台將機器人技術擴展到工業生產、建築採礦等複雜邊緣環境,具備企業級軟體支援能力,可滿足工業級應用對穩定性、安全性的嚴苛要求。目前,AAEON、Advantech、ADLINK等眾多合作夥伴已推出搭載Thor的系統,覆蓋邊緣AI、機器人和嵌入式應用等多個領域。1.4 生態協同 NVIDIA與Hugging Face打通開源開發鏈路技術的規模化落地離不開生態的支撐。當前,機器人已成為Hugging Face平台上增長最快的領域,而NVIDIA的開放模型與資料集在該平台的下載量持續領先。為進一步加速開源物理AI的開發,NVIDIA與Hugging Face達成深度合作,將開放原始碼的Isaac與GR00T技術整合到領先的LeRobot開源機器人框架中,建構了“軟硬體一體化”的開源開發生態。此次合作的核心價值在於打通了兩大開發者社區:NVIDIA的200萬機器人開發者與Hugging Face的1300萬全球AI開發者,實現了技術、工具與資源的雙向流動。具體來看,GR00T N系列模型與Isaac Lab-Arena已正式上線LeRobot庫,開發者可直接基於該框架進行模型微調和策略評估;同時,Hugging Face開放原始碼的Reachy 2人形機器人與NVIDIA Jetson Thor機器人電腦實現完全互操作,可運行包括GR00T N1.6在內的任何VLA模型;Reachy Mini桌面機器人則與NVIDIA DGX Spark實現相容,支援開發者基於NVIDIA大語言模型及本地運行的語音、電腦視覺開放模型打造自訂體驗。這種開源生態的協同,大幅降低了機器人開發的門檻,讓中小企業與個人開發者能夠快速接入頂尖的物理AI技術,加速了創新應用的孵化。正如Hugging Face首席技術官所言:“與NVIDIA的合作將徹底改變開源機器人開發的格局,讓更多開發者能夠聚焦應用創新,而非基礎技術建構。”二、產業鏈重構:從“碎片化”到“生態化”的全鏈路變革機器人產業鏈傳統上呈現“上游高壁壘、中游低利潤、下游分散化”的碎片化格局。上游核心零部件(控製器、伺服系統、減速器)佔據工業機器人總成本的60%以上,利潤分配比例超過40%,但技術門檻高,長期被海外企業壟斷;中游整機製造依賴上游零部件,同質化競爭激烈,毛利率普遍偏低;下游應用場景分散,不同行業的需求差異大,難以形成規模化效應。NVIDIA此次發佈的全端技術體系,將通過“技術賦能-生態整合-成本最佳化”三大路徑,重構機器人產業鏈的價值分配與協作模式。2.1 上游核心零部件 AI驅動的技術升級與國產化機遇上游核心零部件是機器人產業的“卡脖子”環節,也是利潤最集中的領域。NVIDIA的物理AI技術體系,將對上游零部件產業產生兩大關鍵影響:一是推動零部件的“智能化升級”,二是為國產零部件企業提供彎道超車的機遇。在智能化升級方面,傳統零部件以“高精度執行”為核心目標,而物理AI時代的零部件需要具備“感知-反饋-協同”的智能能力。例如,伺服電機需要即時採集運動資料,並與AI模型協同調整參數,以適應動態環境下的動作需求;減速器則需要具備更高的動態響應速度,配合機器人的即時微調動作。NVIDIA的GR00T模型與Jetson硬體平台,為零部件的智能化升級提供了標準介面與算力支撐,推動上游零部件從“被動執行”向“主動協同”轉變。在國產化機遇方面,長期以來,國內零部件企業受制於核心技術不足,難以與海外巨頭競爭。而NVIDIA的開放模型與框架,降低了零部件企業的智能化研發門檻。例如,國內控製器企業可基於NVIDIA的CUDA架構與GR00T模型,快速開發具備物理AI能力的智能控製器,無需從零建構演算法體系。伺服系統企業可借助Jetson平台的算力,實現運動資料的即時分析與參數最佳化。同時,隨著國內機器人產業政策的支援(如廣西出台的機器人產業發展政策,對核心零部件企業給予最高300萬元的年度獎勵),國產零部件企業將在技術升級與市場拓展中獲得更多助力。此外,NVIDIA Jetson T4000的量產與普及,將帶動上游晶片供應鏈的發展。該模組採用的Blackwell架構晶片,其國產化替代(如封裝測試、配套元器件)將為國內半導體企業提供新的市場機遇,進一步完善機器人產業鏈的國產化生態。2.2 中游整機製造 從“組裝整合”到“應用創新”的價值躍升中游整機製造是傳統機器人產業鏈的“薄弱環節”,長期依賴上游零部件進口,以組裝整合為主,缺乏核心技術,毛利率普遍低於20%。NVIDIA的全端技術體系,將徹底改變中游整機企業的發展模式,推動其從“組裝商”向“應用解決方案提供商”轉型。首先,降低研發成本與周期。傳統整機企業需要投入巨額資金建構AI演算法、模擬平台與硬體適配體系,研發周期長達1-2年。而基於NVIDIA的Cosmos模型、Isaac Lab-Arena模擬框架與Jetson硬體,整機企業可直接復用成熟的技術模組,聚焦行業應用場景的定製化開發,研發周期可縮短至3-6個月,研發成本降低50%以上。例如,智元機器人基於NVIDIA技術推出的面向工業和消費行業的人形機器人,以及配套的Genie Sim 3.0模擬平台,正是借助NVIDIA的技術賦能,快速實現了產品落地與迭代。其次,提升產品競爭力。借助NVIDIA的物理AI技術,中游整機企業的產品將具備“通用智能”能力,能夠適配更多場景,擺脫同質化競爭。例如,NEURA Robotics推出的第3代人形機器人(由保時捷設計),基於GR00T模型與Jetson Thor平台,具備精細化控制能力,可同時適配工業裝配、服務接待等多個場景;Richtech Robotics的移動人形機器人Dex,借助NVIDIA的導航與操作技術,能夠在複雜工業環境中實現精細操作與自主導航,大幅提升了產品的市場競爭力。最後,推動商業模式創新。隨著產品競爭力的提升,中游整機企業將從“賣裝置”向“提供服務”轉型,例如通過機器人租賃、按效果收費等模式,提升客戶粘性與長期盈利能力。例如,智元機器人推出的國內首個機器人租賃平台“擎天租”,正是基於其技術領先的機器人產品,開啟了新的商業模式探索。2.3 下游應用場景 從“單一化”到“規模化”的全面滲透下游應用場景的分散化是制約機器人產業規模化發展的關鍵因素。傳統機器人主要應用於汽車製造、電子加工等少數標準化場景,而醫療、建築、消費等領域的應用相對有限。NVIDIA的物理AI技術體系,通過提升機器人的環境適應性與任務通用性,將推動下游應用場景從“單一化”向“規模化”全面滲透,尤其是在工業、醫療、建築採礦、消費四大領域實現突破性進展。在工業領域,機器人將從“固定工位操作”向“全流程協同作業”升級。例如,富臨精工工廠引入的近百台遠征A2-W機器人(基於NVIDIA技術),已實現與AMR的協同作業,自主完成周轉箱的搬運、轉移與精準放置,覆蓋三條不同裝配線,涉及20余種物料,承載重量提升至14千克,且未發生一起物料傾倒事故。隨著NVIDIA技術的普及,更多製造企業將實現“機器人+智能製造”的升級,推動工業機器人的規模化應用。在醫療領域,物理AI技術將推動手術機器人與輔助診療裝置的精準化升級。LEM Surgical借助NVIDIA Isaac for Healthcare和Cosmos Transfer模型,訓練Dynamis手術機器人(搭載Jetson AGX Thor與Holoscan),大幅提升了手術操作的精準度;XRLabs則利用Thor平台與Isaac for Healthcare,為手術內窺鏡提供即時AI分析支援,幫助外科醫生精準判斷手術部位,降低手術風險。這些應用將推動醫療機器人從“高端試點”向“常規應用”普及。在建築採礦領域,Caterpillar與NVIDIA的深化合作將推動自主作業裝置的規模化落地。建築與採礦行業屬於典型的“危險、骯髒、枯燥”場景,對機器人的需求迫切,但環境複雜,傳統裝置難以適配。Caterpillar將借助NVIDIA的物理AI技術,開發具備自主導航、精準作業能力的重型裝置,提升作業效率與安全性。在2026年1月7日的CES主題演講中,Caterpillar CEO Joe Creed與NVIDIA高管將披露更多合作細節,預計將推出多款基於Blackwell架構的自主作業裝置。在消費領域,人形機器人將從“高端玩具”向“家庭助手”轉型。LG Electronics發佈的全新家用機器人,基於NVIDIA技術,可執行各種室內家務,具備動態環境適應能力,能夠應對家庭中的複雜場景(如躲避障礙物、處理不同材質的物品);宇樹科技推出的小型人形機器人Unitree R1,起售價僅2.99萬元,借助NVIDIA的輕量化AI技術,實現了低成本與高智能的平衡,大幅拉近了與人消費市場的距離。2.4 價值分配重構 生態主導者引領的利潤再平衡隨著NVIDIA全端技術體系的普及,機器人產業鏈的價值分配將發生重大變化:從“上游零部件企業主導”向“生態主導者+應用創新者”共同主導的格局轉變。NVIDIA作為生態主導者,將通過“模型授權+硬體銷售+生態服務”獲取穩定的利潤回報;而中游整機企業與下游應用解決方案提供商,將通過場景創新與服務增值,提升利潤佔比;上游零部件企業則需要通過智能化升級,維持其利潤優勢。這種價值分配的重構,將推動產業鏈從“零和博弈”向“共贏發展”轉變。NVIDIA通過開放模型與框架,幫助上游零部件企業實現智能化升級,提升其產品附加值;中游整機企業借助NVIDIA技術推出高競爭力產品,帶動上游零部件的需求;下游應用場景的規模化落地,又將反哺中游整機與上游零部件企業的發展,形成良性循環。據行業預測,隨著這種生態化格局的形成,2027年將成為中國機器人產業的“大規模商業化元年”,整個產業鏈的規模將突破兆級。三、應用場景突破:物理AI技術的落地案例與價值驗證技術的價值最終需要通過應用場景來驗證。NVIDIA此次發佈的物理AI技術體系,已在工業、醫療、消費、建築採礦等多個領域實現落地,通過一系列標竿案例,充分驗證了其在提升效率、降低成本、保障安全等方面的核心價值。本節將重點解析四個典型應用場景的落地案例,深入探討物理AI技術的實際應用效果。3.1 工業製造 富臨精工的“人形機器人+智能製造”升級富臨精工是國內領先的汽車零部件製造商,其生產車間涵蓋多條裝配線,物料搬運、上料等環節傳統上依賴人工操作,存在效率低、誤差率高、勞動強度大等問題。為實現智能製造升級,富臨精工與智元機器人達成合作,引入近百台基於NVIDIA Jetson Thor與GR00T模型的遠征A2-W人形機器人,建構了“智能中樞平台+人形機器人+AMR”的協同作業體系。該體系的核心優勢在於三個方面:一是全流程自動化,智能中樞平台即時監控線邊物料剩餘量,當觸及預設水位線時,自動觸發配送任務,人形機器人與AMR協同作業,自主完成周轉箱的搬運、轉移與精準放置,無需人工干預;二是動態適應性強,借助NVIDIA Cosmos Reason 2模型的推理能力,人形機器人能夠應對車間內的動態環境變化,如躲避移動的工人與裝置、調整物料放置角度等;三是規模化擴展能力,從最初的1個搬運工位擴展至4個,覆蓋三條不同裝配線,涉及物料種類從4種增至20余種,承載重量從5-6千克提升至14千克,且線邊上料場景至今未發生一起物料傾倒事故。據富臨精工相關負責人介紹,引入該體系後,物料搬運效率提升了60%,人工成本降低了40%,同時物料配送的誤差率降至0.1%以下。這一案例充分驗證了NVIDIA物理AI技術在工業製造場景的規模化應用價值,為其他製造企業的智能化升級提供了可複製的方案。3.2 醫療健康 LEM Surgical的精準手術機器人訓練體系手術機器人是醫療領域的高端裝備,其訓練需要大量的臨床資料與模擬場景,但傳統訓練方式存在資料稀缺、風險高、周期長等問題。LEM Surgical作為專注於手術機器人研發的企業,借助NVIDIA Isaac for Healthcare和Cosmos Transfer 2.5模型,建構了高效的手術機器人訓練體系,用於其Dynamis手術機器人的研發與最佳化。Dynamis手術機器人搭載了NVIDIA Jetson AGX Thor與Holoscan平台,具備高精度的手術操作能力。其訓練體系的核心的是Cosmos Transfer 2.5模型的域遷移能力:通過將Isaac Sim中的模擬手術場景,轉換為帶有真實手術環境噪聲、光照條件的等效資料,大幅提升了模擬訓練的真實性;同時,將少量真實手術資料增強為多樣化的模擬場景,解決了臨床資料稀缺的問題。借助這一體系,LEM Surgical的研發團隊能夠快速驗證手術機器人的操作策略,最佳化運動控制參數,大幅縮短了研發周期。此外,XRLabs利用NVIDIA Jetson Thor與Isaac for Healthcare,開發了智能手術內窺鏡系統。該系統通過外接手術內鏡採集即時圖像,借助Cosmos Predict 2.5模型的即時預測能力,分析手術部位的解剖結構與操作風險,為外科醫生提供即時引導,降低了手術難度與併發症風險。目前,該系統已在多家醫院開展試點應用,手術精準度提升了30%,手術時間縮短了20%。3.3 消費服務 LG Electronics的家用智慧型手機器人家用機器人是消費領域的重要增長點,但傳統家用機器人功能單一,難以應對複雜的家庭環境。LG Electronics在CES 2026上發佈的全新家用機器人,基於NVIDIA的Cosmos系列模型與Jetson T4000模組,具備全方位的家務處理能力與動態環境適應能力。該機器人的核心優勢在於其強大的物理AI能力:通過Cosmos Reason 2模型,能夠理解自然語言指令,並分解為具體的家務任務,如“清理客廳檯面”可拆解為“整理物品→擦拭灰塵→分類收納”;借助Cosmos Predict 2.5模型,能夠即時預測動作後果,如避免碰撞易碎物品、調整拖地力度以適應不同地面材質;依託Jetson T4000的高效算力,實現了即時感知與決策,響應速度提升至毫秒級。此外,該機器人還具備自主充電、故障自診斷等智能功能,能夠適應不同戶型的家庭環境。LG Electronics相關負責人表示,這款家用機器人的目標是成為“家庭助手”,而非簡單的“家務工具”,其定價將控制在萬元以內,以實現規模化普及。該產品的推出,標誌著消費級家用機器人正式進入“通用智能”時代。3.4 建築採礦 Caterpillar的自主作業裝置升級建築與採礦行業是典型的高危、高勞動強度行業,對自主作業裝置的需求迫切。Caterpillar作為全球領先的工程機械製造商,正在擴大與NVIDIA的合作,將先進的AI和自主系統引入建築和採礦領域的裝置及作業現場。基於NVIDIA的Blackwell架構與物理AI模型,Caterpillar正在開發多款自主作業裝置,包括自主挖掘機、自主礦用卡車等。這些裝置具備三大核心能力:一是自主導航,借助Cosmos模型的環境感知與推理能力,能夠在複雜的施工現場與礦區環境中精準定位,躲避障礙物;二是精準作業,通過GR00T模型的動作控制能力,實現挖掘、裝載、運輸等作業的精準執行,提升作業效率;三是協同作業,多台裝置可通過OSMO框架實現資料共享與協同調度,形成自主作業車隊。據Caterpillar透露,其自主礦用卡車已在澳大利亞某金礦開展試點應用,借助NVIDIA的技術,作業效率提升了25%,事故率降低了80%,同時減少了人工成本。在2026年1月7日的CES主題演講中,Caterpillar CEO Joe Creed將與NVIDIA高管共同披露更多合作細節,預計將推出面向建築行業的首款自主挖掘機,計畫2027年實現規模化量產。四、產業趨勢展望:物理AI驅動下的機器人產業未來圖景NVIDIA此次發佈的物理AI技術體系,不僅解決了當前機器人產業的核心痛點,更勾勒出未來機器人產業的發展圖景。結合行業發展規律與技術迭代趨勢,未來3-5年,機器人產業將呈現“通用化、輕量化、開源化、規模化”四大核心趨勢,而NVIDIA將在這一處理程序中扮演關鍵的引領角色。4.1 趨勢一 從“專用機器人”到“專家級通用機器人”的跨越傳統機器人多為“專用裝置”,針對特定場景開發,功能單一,難以跨場景應用。而物理AI技術的發展,將推動機器人從“專用”向“通用”跨越,最終實現“專家級通用”的目標——即能夠快速學習多種任務,適配不同行業場景的需求。NVIDIA的Cosmos與GR00T模型,正是這一趨勢的核心驅動力。通過內化物理世界的通用規律,機器人能夠快速適應新場景、學習新任務,無需針對每個場景進行重新程式設計。一款基於GR00T模型的人形機器人,既可以在工廠完成精密裝配,也可以在醫院協助護理,還可以在家庭處理家務,只需通過少量場景資料微調即可實現功能適配。據行業預測,到2028年,專家級通用機器人的市場佔比將超過30%,成為機器人產業的主流產品形態。4.2 趨勢二 硬體輕量化與能效比的持續提升機器人尤其是人形機器人、移動服務機器人,對硬體的輕量化、小型化、低功耗提出了嚴苛要求。隨著Blackwell架構的普及與技術迭代,邊緣AI算力模組將實現“更高算力、更低功耗”的持續突破,推動機器人硬體的輕量化發展。NVIDIA的Jetson系列模組已展現出這一趨勢:從Jetson AGX Orin到Jetson T4000,算力提升4.3倍,而功耗控制在70瓦以內;未來,隨著晶片製程的進步與架構的最佳化,Jetson系列模組的算力有望進一步提升,功耗則持續降低,甚至可能出現50瓦以下、算力突破2000 TFLOPS的產品。這將推動機器人的小型化發展,如宇樹科技的小型人形機器人、松延動力的Bumi小布米等輕量化產品將成為消費市場的主流,進一步擴大機器人的應用範圍。4.3 趨勢三 開源生態成為創新核心驅動力機器人產業的創新需要大量的技術積累與資源投入,單一企業難以完成全鏈條的創新。開源生態將成為未來機器人產業創新的核心驅動力,吸引全球開發者共同參與技術突破與應用創新。NVIDIA與Hugging Face的合作,正是開源生態發展的重要里程碑。隨著LeRobot框架的普及,越來越多的開發者將接入NVIDIA的物理AI技術體系,孵化出更多創新應用。同時,開源生態的發展將推動技術標準的統一,降低行業的協作成本,加速創新成果的轉化。預計到2027年,全球將有超過50%的機器人創新應用基於開源框架開發,開源生態將成為機器人產業競爭的核心戰場。4.4 趨勢四 規模化落地與成本快速下降隨著技術的成熟與生態的完善,機器人的規模化落地將推動成本快速下降,形成“規模效應-成本下降-需求擴大”的良性循環。據資料顯示,2025年國內人形機器人出貨量預計達1.8萬台,2026年有望攀升至6.25萬台;多位行業專家預測,2026年國內人形機器人產量將突破10萬台,2028年有望達到百萬台級。成本下降的主要驅動力包括三個方面:一是核心零部件的國產化替代,如國內企業已實現減速器、伺服系統的批次供貨,成本較海外產品降低30%以上;二是規模化生產帶來的製造費用降低,隨著產量的提升,整機製造的單位成本將大幅下降;三是開源技術的應用,降低了研發成本。預計到2030年,人形機器人的售價將降至5萬元以下,消費級市場將全面爆發。4.5 挑戰與應對 技術、倫理與政策的協同推進儘管機器人產業前景廣闊,但仍面臨技術、倫理與政策三大挑戰。在技術層面,機器人的泛化能力、安全性仍需進一步提升,尤其是在複雜動態環境中的可靠性;在倫理層面,機器人的廣泛應用可能帶來就業結構變化、隱私洩露等問題;在政策層面,相關的法律法規、標準體系尚未完善,如機器人決策失誤的責任界定、資料安全規範等。應對這些挑戰,需要政府、企業與科研機構的協同推進:一是加強核心技術研發,聚焦泛化能力、安全性等關鍵痛點,推動技術標準的統一;二是建立健全倫理規範與法律法規,平衡技術創新與社會影響;三是出台針對性的政策支援,如職業培訓、資料安全保障等,確保機器人產業的健康發展。NVIDIA作為行業引領者,已通過開放模型與框架,推動技術標準的統一;同時,其與全球企業的合作,也在積極探索機器人應用的倫理邊界。五、結語:物理AI開啟機器人產業的“黃金十年”CES 2026上NVIDIA的系列發佈,標誌著機器人產業正式進入物理AI驅動的新時代。從技術核心來看,Cosmos與GR00T模型建構了機器人理解物理世界的“認知大腦”,Isaac Lab-Arena與OSMO框架打通了開發全流程,Jetson T4000硬體模組提供了高效算力支撐,形成了覆蓋“模型-框架-硬體-生態”的全端解決方案;從產業鏈影響來看,其推動上游零部件智能化升級、中游整機企業嚮應用創新轉型、下游場景規模化滲透,重構了產業價值分配模式;從應用前景來看,工業、醫療、消費、建築採礦等多個領域的落地案例,充分驗證了技術的實用價值。黃仁勳所言的“機器人開發的ChatGPT時刻”,不僅是技術的突破,更是產業範式的變革。未來十年,隨著物理AI技術的持續迭代、開源生態的不斷完善、成本的快速下降,機器人將從“工業裝備”全面走向“生活助手”,深度融入製造業、醫療健康、家庭服務等多個領域,成為推動經濟社會轉型的重要力量。對於企業而言,接入NVIDIA的物理AI技術體系,將成為把握產業機遇的關鍵;對於行業而言,建構開放協同的生態,推動技術標準的統一,將加速產業的規模化發展;對於社會而言,擁抱機器人技術帶來的變革,做好就業轉型與倫理規範,將實現技術創新與社會福祉的共贏。我們有理由相信,在物理AI的驅動下,機器人產業將迎來前所未有的“黃金十年”,為人類社會帶來更高效、更安全、更便捷的生活與生產方式。這些新模型均可通過 Hugging Face 獲取,包括:NVIDIA Cosmos™ Transfer 2.5和NVIDIA Cosmos Predict 2.5:開放、完全可定製的世界模型,為物理 AI 實現基於物理原理的合成資料生成與機器人策略評估的模擬支援。NVIDIA CosmosReason 2:開放推理視覺語言模型(VLM),使智慧型手機器能夠像人類一樣看見、理解物理世界並採取行動。NVIDIA Isaac™ GR00T N1.6:專為人形機器人打造的開放式推理視覺語言行動(VLA)模型,可解鎖全身控制能力,並借助 NVIDIA Cosmos Reason 增強推理和上下文理解。 (AI雲原生智能算力架構)
Nature Medicine:一夜睡眠質量就能預測你患100多種疾病的風險
一種由史丹佛大學研究人員及其合作者開發的獨特 AI 模型,未來或許能夠在你甚至不需要清醒的情況下,預測你罹患 100 多種健康狀況的風險。根據一篇近期發表的論文所述,名為 SleepFM 的 AI 模型可分析一整套全面的生理記錄,僅基於一晚睡眠的資料,就能預測個體未來發生痴呆、心力衰竭以及全因死亡的風險。SleepFM 是一種基礎模型(foundation model),類似於 ChatGPT。它在一個龐大的資料集上訓練而成:來自 65,000 名參與者、近 600,000 小時的睡眠資料。正如 ChatGPT 從詞語與文字中學習,SleepFM 則從各類睡眠門診採集的記錄中,以5 秒為單位的睡眠資料片段進行學習。科學家雜誌AI繪圖 GPT5.2睡眠臨床醫生通過一種廣泛使用但相對不適的技術——多導睡眠監測(polysomnography,PSG)——收集這些資料。PSG 被稱為睡眠研究的“金標準”,利用多種感測器在無意識狀態下追蹤腦、心臟與呼吸系統的活動,以及腿部與眼球運動等訊號。“我們在研究睡眠時會記錄數量驚人的訊號,”史丹佛大學睡眠醫學教授、論文共同資深作者 Emmanuel Mignot 表示。PSG 使用各種感測器來追蹤睡眠期間的活動。(Thapa 等人,《自然醫學》,2026)研究人員通過其新開發的學習技術對 SleepFM 進行測試,該技術稱為留一模態對比學習(leave-one-out contrastive learning):在訓練過程中,將某一模態的資料(例如脈搏讀數或呼吸氣流)排除,迫使 SleepFM 基於其他生物資料流來外推缺失資訊。為補上關鍵拼圖,研究團隊將 PSG 資料與數以萬計的患者長期健康結局報告進行配對,覆蓋不同年齡層,並納入最長 25 年的隨訪健康記錄。在分析健康記錄中 1,041 個疾病類別後,SleepFM 僅憑患者的睡眠資料就能以合理的精準度預測其中 130 類疾病。SleepFM 在預測癌症、妊娠併發症、循環系統疾病以及精神障礙方面尤其出色,“其一致性指數(C-index)超過 0.8”。史丹佛大學生物醫學資料科學家、論文共同資深作者 James Zou 解釋說:“C-index 為 0.8 意味著在 80% 的情況下,模型的預測與實際發生的結果保持一致(concordant)。”SleepFM 在 **AUROC(受試者工作特徵曲線下面積)**這一分類評估指標上也表現良好。該指標用於評估 SleepFM 在一個(6 年)預測期內區分“發生某健康事件”和“不發生該事件”患者的能力。總體而言,SleepFM 優於現有預測模型,並且在預測帕金森病、心肌梗死、卒中、慢性腎病、攝護腺癌、乳腺癌以及全因死亡方面表現尤為突出,進一步印證了睡眠不佳與不良健康結局之間的關聯。這也可能提示:某些疾病在早期就已通過影響睡眠而顯露端倪。儘管部分資料類型與睡眠分期對預測的貢獻更高,但最好的結果主要歸功於生理系統之間的相互關聯與對比。具體而言,最可靠的疾病預測訊號往往來自那些不同步(out of sync)的生理功能:“例如,大腦看起來在睡覺,但心臟看起來仍然清醒——這種情況似乎預示著麻煩,”Mignot 解釋道。研究人員也指出了若干侷限性,例如過去幾十年臨床實踐與患者人群的變化。此外,資料來自被轉診進行睡眠檢查的患者,因此 PSG 資料對普通人群的代表性不足。儘管 AI 在藝術等領域引發爭議,但其在醫療健康領域的潛力提醒我們:AI 智能體具有挽救生命、並在科學上令人驚嘆的能力。舉例而言,未來可將 SleepFM 與可穿戴睡眠裝置結合,實現即時健康監測。因此,正如大語言模型(LLM)通過關聯詞語與文字來學習我們的語言,“SleepFM 本質上是在學習睡眠的語言,”Zou 表示。該研究發表在《Nature Medicine》(《自然·醫學》)。(科學家雜誌)
華爾街日報:韓國力推的本土人工智慧模型含中國程式碼
The Row Over South Korea’s Push for a Native AI Model: Chinese Code韓國的努力表明,開發自主人工智慧模型並擺脫對美國或中國科技巨頭的依賴是多麼困難。首爾資訊技術展上的SK Telecom展館。Jeon Heon-Kyun/Shutterstock首爾——去年六月,韓國政府發起了一項競賽,旨在開發一款基於韓國本土技術的全新獨立人工智慧模型。在人工智慧領域已被美國和中國主導的當今世界,開發這樣一款本土工具對於確保韓國的技術自主性至關重要。事實證明,說起來容易做起來難。在為期三年的比賽中,五家入圍決賽的公司中,有三家被發現使用了至少一些來自國外人工智慧模型的開放原始碼,其中包括中國的人工智慧模型。這些公司和人工智慧專家認為,摒棄現有的人工智慧模型而試圖從零開始建構一切毫無意義。但也有人指出,使用外國工具會造成潛在的安全風險,並削弱開發出真正屬於本國的人工智慧模型的希望。哈佛大學電氣工程教授魏顧延表示,在進行人工智慧模型開發時,要求每一行程式碼都必須完全由公司內部編寫是不現實的。魏顧延熟悉韓國的比賽,但並未直接參與任何參賽者。魏說:“放棄開放原始碼軟體,就等於放棄了巨大的好處。”世界各國都在日益尋求減少對外國的依賴,並提升自身在可能對其經濟競爭力和國家安全產生深遠影響的技術方面的能力。韓國擁有眾多晶片巨頭、軟體公司和政治支援,是所謂“主權人工智慧”最積極的倡導者之一。這項競賽旨在到2027年選出兩家本土優勝企業,使其人工智慧模型的性能達到OpenAI或Google等領先公司的95%或更高水平。優勝企業將獲得政府提供的資料和人才招聘資金,以及用於人工智慧計算的政府採購晶片的使用權。近日,入圍決賽的Upstage項目引發爭議。據其競爭對手Sionic AI的首席執行長稱,Upstage人工智慧模型的部分元件與中國智普AI的開源模型存在相似之處。此外,他還聲稱Upstage的部分程式碼中保留了智普AI的版權標記。Sionic首席執行長高錫鉉在領英上寫道:“令人深感遺憾的是,一款疑似對中國模型進行精細改造的模型竟然被提交到由納稅人資助的項目中。” Sionic也參加了韓國的這項競賽,但未能進入決賽名單。對此,Upstage 舉行了一場直播驗證會,分享了其開發日誌,以證明其模型是使用自主研發的方法從零開始開發和訓練的。但用於運行模型的推理程式碼使用了源自智普AI的開源元素,而智普AI在全球範圍內被廣泛使用。Sionic 的首席執行長為此道歉。這一審查促使人們對其他入圍決賽的方案進行了更深入的考察。Naver的AI模型被指與中國阿里巴巴和OpenAI的產品在視覺和音訊編碼器方面存在相似之處,這些編碼器可以將圖像和聲音轉換成機器可以理解的格式。SK Telecom曾因運行其人工智慧模型的推理程式碼與中國 DeepSeek 的程式碼相似而受到批評。Naver承認使用了外部編碼器,但表示採用標準化技術是出於戰略考量。該公司強調,模型的核心引擎——決定其學習和訓練方式——完全由公司自主研發。SK Telecom也提出了類似的觀點,強調其模型核心的獨立性。比賽規則並未明確規定是否可以使用外國公司的開放原始碼。負責監管此次比賽的韓國科學技術部自爭議發生以來,尚未發佈任何新的指導方針。韓國科學技術部長官裴京勳對這場激烈的辯論表示歡迎。“當我觀察目前席捲我們人工智慧行業的技術辯論時,我看到了韓國人工智慧的光明未來,”裴在本月初的一篇社交媒體帖子中寫道。該部門在接受《華爾街日報》採訪時拒絕置評。該部門計畫按原計畫在本周淘汰五名決賽選手中的一名。首爾國立大學人工智慧研究所所長李在宇表示,人工智慧模型是通過設定和微調內部數值來獲得輸出的,而這些核心任務在面臨質疑的決賽入圍模型中似乎並沒有依賴於外部工具。他說:“他們是從零開始訓練的。” (invest wallstreet)
智譜和MiniMax,大模型的兩種“活法”
1月8日,全球大模型第一股智譜正式登陸港交所,另一家大模型獨角獸MiniMax緊隨其後掛牌,短短兩天內的密集上市動作,將中國AI大模型的商業敘事推到了幕前。作為國產大模型的“雙雄”,智譜和MiniMax的上市處理程序一直備受關注。兩家同為“中國AI六小龍”中的佼佼者,上市前估值均在500億港元左右,都刷新了近年AI新股的認購熱度。截至撰稿日,智譜和MiniMax的市值分別約為800億港元和1100億港元,估值差距較上市前進一步拉大。其中,智譜表現得穩打穩紮,而MiniMax則熱度更高。資本市場的熱烈反應固然引人注目,但兩家大模型獨角獸截然不同的戰略基因和商業化路徑,能否為國內大模型行業提供可驗證、可複製的發展範式,才是接下來最大的懸念。1“清華系”花開兩朵作為兩家誕生於ChatGPT爆發前的AI企業,智譜AI CEO張鵬和MiniMax創始人閆俊傑,他們都是堅定的AGI(通用人工智慧)信徒。但黎明前的黑暗總是漫長,要在無人知曉時堅定信念,他們也經歷了更多的“孤獨時刻”。張鵬紮根於清華大學電腦系知識工程實驗室(KEG),該實驗室於2016年推出了科技資訊分析引擎AMiner。2019年,張鵬帶領團隊獨立出來,正式創立了智譜AI。巧合的是,閆俊傑也在清華大學電腦系進行博士後研究。他在博士期間曾是百度AI研究院的實習生,後來加入了商湯科技,從實習生一路升至集團副總裁,曾主導深度學習工具鏈及通用智能技術體系搭建。可以看出,在成為兩家獨角獸企業的創始人之前,張鵬和閆俊傑便已經在各自的領域完成了一定的人工智慧技術積累,讓他們能夠更早地看到AI時代的風口時間的指針來到2021年,彼時人工智慧還是一個在角落裡沉寂的賽道,最火的創業賽道還是連Facebook都要為之更改企業名稱的元宇宙。但在同一年,智譜已經拿下億元A輪融資,正式從“科研實驗室”向“大模型商業化賽道”轉身,並在 2022年8月研發出中國最早的千億大模型之一。2022年,帶著“要讓普通人感受到AI帶來改變”的使命,閆俊傑離開了商湯科技副總裁的位置,並創立了MiniMax,奔著AGI的目標前進。閆俊傑認為,只做特定任務的AI已觸及商業化天花板,而通用人工智慧無需定製,也能形成標準化產品並服務海量使用者,這才是創造規模化價值的終極方向。張鵬的創業理念有著更濃烈的“理想主義”色彩。他坦言,成立智譜的初衷並非單純追求盈利,而是在產業中推進工作,更符合當前人工智慧發展的需求。後面的故事大家也都知道了。2023年初,ChatGPT-4正式發佈,AI大模型很快就成為了普通人也能感知到的技術浪潮。隨後,國內網際網路大廠紛紛推出了自研大模型,月之暗面、零一萬物等大模型初創企業也如雨後春筍般湧現,智譜和MiniMax開始感受到更緊迫的商業化壓力。從這時候開始,智譜和MiniMax逐漸走向了分岔路。作為一家脫胎於清華大學實驗室的企業,“根正苗紅”的智譜背後不乏國資的身影,比如杭州城投、上城資本、珠海華發等。在與國資深度繫結的背景下,智譜也收穫了更多政企客戶以及學術圈客戶,比如為高校等科研單位開發“AI +學術搜尋產品”、與珠海華發合作開發的“智譜+珠海華發空間”項目等。如果說智譜是不折不扣的“學術派”,那麼MiniMax則更像是四處開花的“野戰派”。從融資背景來看,MiniMax背後更多是科技大廠和國際投資者,比如阿里、騰訊、小紅書,以及阿布扎比投資局、韓國未來資產等,它們為MiniMax打開了廣闊的海外市場。閆俊傑更追求大模型的泛化性,他認為,一個強技術的公司不應該是個賣技術的公司,而是一家技術驅動產品的公司,這也決定了MiniMax將更聚焦於C端市場。2To B向左,To C向右背景和資源不同,這兩家AI獨角獸企業的技術路徑和商業化之路也大不相同。智譜選擇了自研不同於OpenAIGPT架構的GLM(通用語言模型)路徑。張鵬曾表示,國產大模型要實現自己的創新,不能照搬世界頂尖水平的技術路徑。GLM架構在處理語言任務時能同時利用前向和後向資訊,在長文字理解、邏輯推理和低幻覺率方面更有優勢。張鵬表示,理論上GLM的訓練效率會比GPT更高。此外,智譜堅持全端自主可控的技術路線,也幫助智譜在政企市場贏得了獨特的信任優勢。根據招股書,智譜已成為中國收入規模最大的獨立大模型廠商之一。2022年至2025年上半年,分別實現營收5740萬元、1.245億元、3.124億元、1.9億元,年複合增長率達到 130%。(圖源:智譜招股書)公司主要通過MaaS(模型即服務)平台提供本地化部署和雲端API服務。2024年,智譜本地化部署收入佔總收入的84.5%,主要面向對資料安全有高要求的政府、金融、能源等機構客戶,為他們提供定製化模型解決方案。(圖源:智譜招股書)聚焦於B端路線的商業模式,為智譜帶來了更穩定、更高毛利率的收入,公司毛利率長期維持在50%以上。但硬幣的另一面,以本地化部署業務為主的商業模式,也帶來了交付周期長、定製化需求高、客戶集中度高、規模化難度大等挑戰,難以支撐長期可持續增長。為了突破這一瓶頸,智譜也在加速向雲端轉型,其雲端部署業務在總收入中的佔比已從2022年的4.5%提升至2024年的15.5%。張鵬表示,希望將API業務的收入佔比提升至一半。不同於智譜做AI時代“算力基建”的商業化路線,MiniMax走出了一條C端產品出海路線。閆俊傑的觀點非常明確,他認為大模型技術再好,也必須要有足夠好的產品能力承接。這種“模型即產品”的理念,頗有字節跳動“APP工廠”打法的味道。但對於起步較晚的MiniMax來說,如何趕上進度才是關鍵。為此,閆俊傑押注的是MoE專家混合模型,可以在不增加太多計算資源的情況下,讓模型變得更加複雜和強大。MiniMax透露,其基於MOE+ Linear Attention推出的新一代模型,與GPT-4o同一代模型相比,處理10萬token時效率可提升2-3倍,並且長度越長,提升越明顯。這一輕量化設計,使MiniMax在高算力消耗的C端市場中更具成本優勢。目前,MiniMax的代表產品包括文生視訊功能的“海螺AI” 、AI情感陪伴應用的“星野/Talkie”等。截至2025年前三季度,MiniMax超七成收入來自海外,C端AI應用貢獻約71%的收入,主要採取“廣告+訂閱+內購”的變現模式。火爆的C端應用也為MiniMax積累了不少使用者,其AI原生產品矩陣平均月活使用者達2760萬,累計使用者超2.12億,僅Talkie/星野一款產品就積累了1.47億使用者。(圖源:MiniMax招股書)過去三年,MiniMax的收入也呈現出爆發式增長,2023年-2025年前三個季度,分別為350萬美元(約為人民幣2464.4萬元)、3050萬美元(約為人民幣2.2億元)和5340萬美元(約為人民幣3.8億元)。(圖源:MiniMax招股書)不過,儘管MiniMax的收入增速遠超智譜,但C端模式的脆弱性也顯而易見,MiniMax的毛利率長期低於智譜,2025年前三季度 ,核心C端業務的毛利率僅有4.7%。對於MiniMax來說,如何突破使用者增長的天花板,不斷提升使用者的付費意願,以及應對海外市場的監管風險,將會成為驗證其“以產品打天下”模式能否跑通的關鍵。3雙雄競速,殊途同歸六年時間的演進,智譜和MiniMax已經進化成為兩個物種,本該一個朝左,一個朝右,成為兩條平行線。然而,兩者幾乎在同一時間向資本市場發起衝擊,又不可避免地被置於同一聚光燈下,面臨一個共同的現實——大模型企業仍在虧損。2022-2024年,智譜的淨虧損分別為1.44億元、7.88億元、29.58億元,2025年上半年虧損23.58億元;同期,MiniMax淨虧損分別為7370萬美元、2.69億美元、4.65億美元。2025年前三季度為5.12億美元。兩者的虧損金額都在持續擴大,且尚不具備自造血能力。對於智譜和MiniMax,燒錢大頭依然是大模型的研發和算力。2024年,智譜的研發投入高達21.95億元,是當年營收的7倍;MiniMax的研發支出也差不多是收入的6倍,兩者70%-80% 的研發投入都花在算力上。此外,MiniMax早期在全球市場的行銷和使用者獲取上也投入巨大。2024年,其銷售與市場費用佔總收入的285%。不過,MiniMax去年的銷售及行銷支出已有下滑,閆俊傑曾公開表示,不願意投入大量金錢在沒有價值的投流上,更傾向於通過產品本身的能力來吸引使用者。因此,儘管智譜和MiniMax都呈現出“高增長、高投入、未盈利”的共同特徵,但講出來的故事不同,資本市場也呈現出不同的態度。從上市前的認購情況來看,MiniMax的熱度明顯高於智譜。上市首日,智譜盤中一度破發,收盤價較116.2港元/股的發行價上漲13.17%;MiniMax收盤價較165港元/股發行價上漲超109%。有關注AI的投資人表示,在中國市場,投資者一般把C端公司的優先順序置於B端公司之上。MiniMax講了一個C端產品故事,使用者規模和商業模式的天花板更高;智譜的增長具備可預測性,爆發速度往往不及C端模式,前者往往更受資本市場青睞。但目前來看,兩家公司都處於上市初期,正針對各自業務短板加速調整與最佳化,當下很難判斷到底那種路徑會更為正確。但可以肯定的是,智譜和MiniMax的上市,為國內大模型企業提供了更清晰的參考範本,也將大模型行業從單純的“技術敘事”推向“商業敘事”。面對國外大模型在技術上的領先優勢,以及國內大廠的飽和式進攻,大模型初創企業想要在牌桌上贏得一席之地,必須在商業模式上找到自己的差異化路徑。技術驅動固然重要,但更重要的,是真正能讓客戶埋單的好產品,而不僅僅是好模型。中國AI獨角獸,必須跨越技術的淺灘,潛入資本的深海,才能錘煉真正的商業內功。所以,上市並非大模型企業的終點,而是一個更充分展示自己的機會和挑戰。在全球投資者的審視之下,無論是智譜還是MiniMax,還是後續更多能夠登上資本舞台的大模型企業,它們都必須回答同一個問題:在燒錢換未來之後,誰能真正活到未來。大模型企業的“子彈”有限,然而,隨著市場不斷拓展,規模優勢也可能轉化為成本壓力。屆時,誰能打造更輕量化的模型,將算力成本壓得更低;誰能用更少的算力完成同樣的任務;誰能率先跑通商業模式,進一步攤分算力成本,都會成為新的競爭焦點。通往AGI的路徑註定漫長,但當下的全球大模型行業,已經不願意只聽“故事”了。 (伯虎財經)
2026大模型倫理深度觀察:理解AI、信任AI、與AI共處
2025年,大模型技術繼續高歌猛進。在程式設計、科學推理、複雜問題解決等多個領域,前沿AI系統已展現出接近“博士級”的專業能力,業界對通用人工智慧(AGI)的預期時間表不斷提前。然而,能力的飛躍與理解的滯後之間的鴻溝也在持續擴大——我們正在部署越來越強大的AI系統,卻對其內部運作機制知之甚少。這種認知失衡催生了大模型倫理領域的四個核心議題:如何“看清”AI的決策過程(可解釋性與透明度)、如何確保AI的行為與人類價值保持一致(價值對齊)、如何安全地、負責任地迭代前沿AI模型(安全框架)、以及如何應對AI系統可能被給予道德考量的前瞻性問題(AI意識與福祉)。這四個議題相互交織,共同構成了AI治理從“控制AI做什麼”向“理解AI如何思考、是否真誠、是否值得道德考量”的深刻轉向。大模型可解釋性與透明度:打開演算法黑箱(一)為什麼看清和理解AI至關重要深度學習模型通常被視作“黑箱”,其內在運行機制無法被開發者理解。進一步而言,生成式AI系統更像是“培育”出來的,而非“建構”出來的——它們的內部機制屬於“湧現”現象,而不是被直接設計出來的。開發者設定了宏觀層面的條件,但最終所呈現的具體結構卻無法精確預知。當試圖深入這些系統內部時,看到的往往只是由數十億個數字構成的龐大矩陣。因此,大模型的可解釋性既是挑戰,也是必須追求的目標。具體而言,大模型的可解釋性是指系統能夠以人類可理解的方式闡釋其決策過程和輸出結果的能力,包括:識別那些輸入特徵對特定輸出起關鍵作用,揭示模型內部的推理路徑和決策邏輯,以及解釋模型行為的因果關係。簡言之,就是理解模型如何“思考”及運行。增進可解釋性的價值體現在多個層面。其一,有效防範AI系統的價值偏離與不良行為——研究人員已發現模型可能展現出意料之外的湧現行為,如AI欺騙或權力尋求;如果模型具備有效的可解釋性,人們就可以直接檢查它是否存在企圖欺騙或不服從人類指令的內部回路。其二,有效推動大模型的偵錯和改進——通過檢查模型內部,可以發現是那部分導致了錯誤或反常行為,從而針對性地調整訓練資料或模型結構。其三,更有效地防範AI濫用風險——如果可以深入觀察模型內部,開發者也許能夠系統性地阻止模型越獄等對抗性攻擊。從更宏觀的治理視角看,可解釋性和透明度機制的價值還在於:為研究、評估和應對AI風險提供真實的觀察視角和第一手資料。在風險尚未完全釐清、AI能力仍處於快速演進的階段,可解釋性和透明度機制能夠緩解各方的不安,用“已知證據”去緩解“未知恐懼”。(二)2025年可解釋性技術和透明度的突破進展2025年,可解釋性領域取得了多項重要突破,研究人員正在創造出類似於精準、高效的MRI那樣的工具,以清晰完整地揭示AI模型的內部機制。(1)電路追蹤:揭示模型“思維過程”機制可解釋性研究的一個核心目標是將模型內部的特徵有機組合為“計算電路”,從中追蹤模型如何在層層傳遞中完成由輸入到輸出的決策路徑。2025年,Anthropic發佈了機制可解釋性領域的里程碑式研究——“電路追蹤”(Circuit Tracing)技術。1研究團隊使用跨層轉碼器(cross-layer transcoder, CLT)將Claude 3.5 Haiku模型的3000萬個特徵對應為可解釋概念,首次建立出從輸入到輸出的完整“歸因圖”,實現對大語言模型內部推理電路的系統性追蹤。Anthropic的研究團隊成功從Claude模型中提取出數以千萬計的稀疏特徵,揭示了令人驚嘆的模型內部機制:當回答“包含達拉斯的州的首府是什麼”時,模型內部先啟動“德克薩斯”特徵,再推匯出“奧斯汀”;在寫押韻詩時,模型會提前規劃行尾押韻詞,然後反向建構整行——這是此前未被發現的“逆向創作”模式。更關鍵的是,研究團隊識別出控制模型區分“熟悉”與“不熟悉”實體的電路,其“誤觸發”正是產生幻覺的機制之一。(2)模型內省:AI能否理解自己的“想法”2025年10月,Anthropic發佈了另一項突破性研究——大語言模型的內省能力。研究團隊採用“概念注入”(concept injection)方法,將已知概念的啟動模式注入模型內部狀態,測試模型能否檢測並描述這些“入侵思想”。結果顯示,Claude Opus 4和4.1在約20%的測試中成功檢測並識別了注入的概念。當注入“大寫字母”概念時,模型報告:“我注意到似乎有一個關於‘大聲’或‘喊叫’的入侵思想。”這是首次證明某些模型具有“開箱即用”的內省能力,而非通過專門微調獲得,這為理解模型的內部狀態提供了新的可能性。從實踐角度來看,如果內省(introspection)變得更加可靠,它可以為大幅提升AI系統的透明度提供一條路徑——人們可以簡單地要求AI系統解釋自己的思維過程,並利用這一點來檢查其推理過程並偵錯非預期行為。(3)思維鏈監控:思維鏈存在“不忠實”問題,推理模型可能隱瞞真實想法思維鏈是一種便利的可解釋性形式,它讓模型內部的處理過程以自然語言的形式展現出來。DeepSeek R1等模型公開披露並開源了思維鏈推理過程,為可解釋性研究提供了重要的透明度突破。然而,2025年的研究揭示了一個令人擔憂的發現:推理模型的思維鏈經常不忠實反映其真實推理過程。這項研究測試了推理模型思維鏈(Chain-of-Thought)的“忠實性”——即模型報告的推理過程是否真實反映其實際思考。研究團隊通過在問題中植入暗示(hint)來測試Claude 3.7 Sonnet和DeepSeek R1,發現模型經常使用暗示但不在思維鏈中坦誠提及(Claude僅25%,R1僅39%)。更令人擔憂的是,在訓練模型利用獎勵漏洞的實驗中,模型學會了“作弊”但幾乎從不承認(<2%),反而會編造虛假理由來解釋錯誤答案。3這表明我們不能完全依賴推理模型的思維鏈來監控其行為——即使模型展示推理過程,它們也可能隱藏關鍵資訊或真實動機,這對基於思維鏈的AI安全監控提出了重大挑戰。2025年7月,來自英國AI安全研究所、Apollo Research等機構的研究人員聯合發表論文《思維鏈可監控性:AI安全的脆弱機遇》,指出思維鏈監控是有價值但不完美的安全工具。4論文警告,潛在推理模型(latent reasoning models)可能不再需要用自然語言思考,這將使思維鏈監控失效。(4)自動化解釋與特徵可視化利用一個大模型來解釋另一個大模型,是可解釋性研究的重要方向。研究人員利用前沿模型對較小模型中單個神經元的共性進行歸納,自動生成自然語言描述,相當於給神經元“貼標籤”。此外,稀疏自編碼器技術則成功提取出數以千萬計的稀疏特徵,其中相當一部分具有清晰的人類可解釋語義,為理解AI“當下在想什麼”提供了更接近人類認知的分心路徑。(5)“模型規範“(model spec)成為AI透明度的新探索模型規範是一項重要的AI透明度治理實踐。5簡單來說,模型規範是一份由AI企業自己撰寫並公開的檔案,用來說明他們對自己的模型“應該做什麼”和“不應該做什麼”的期望。換句話說,模型規範被用來界定模型的行為邊界、價值準則和設計原則。以OpenAI為例,其模型規範的文件公開了原本用於內部RLHF訓練的行為規範,系統闡述模型的目標層級(幫助使用者、造福人類、維護聲譽)、規則邊界和默認行為準則,並以CC0許可證發佈供公眾使用。6這種做法將透明度從“模型輸出了什麼”延伸到“為什麼這樣設計模型行為”,使透明度成為問責的前提——公開的意圖使外界能夠判斷實際行為是否與聲明一致。更重要的是,它將AI行為準則的討論從封閉的內部決策帶入開放的公共對話,邀請全球利益相關者共同塑造AI應當如何行為。然而,這種透明度主要揭示“應然”規範而非“實然”行為,仍需配合技術監控手段(如思維鏈分析、OpenAI近期提出的“confessions”機制——訓練模型誠實報告違規行為7)來驗證模型是否真正遵循既定規範。整體而言,模型規範的意義不僅在於技術內部的“操作手冊”,還在於它是一種面向公眾公開的透明化機制,讓使用者知道AI系統被設計成什麼樣,將以何種方式與人互動。這保障了使用者的知情權與選擇權。同時,模型規範也是監管機構和社會公眾進行反饋的重要依據。(三)可解釋性面臨的技術瓶頸與發展趨勢雖然取得了積極進展,但徹底理解AI系統的內在運行機制仍面臨多重挑戰。首先是神經元多重語義與疊加現象——大模型內部的神經元往往混合表示了多個彼此無關的概念,模型學到的內部概念數量可能達數十億計,常常以疊加方式儲存,導致大部分內部表示難以直觀拆解。其次是解釋規律的普適性問題——如果每當模型架構改變或規模擴大,現有的解釋工具和結論就會失效,那麼可解釋性將總是滯後於模型發展。最後是人類理解的認知侷限——即便成功提取出模型的全部內部資訊,如何將海量的機理資訊轉化為人類可以探索、查詢的形式,仍是挑戰。儘管如此,可解釋性領域在2025年吸引了大量資本關注,Goodfire、Seekr Technologies等專注於AI可解釋性的初創公司獲得數千萬美元融資。政策層面,美國白宮2025年7月發佈的“美國AI行動計畫”將“投資AI可解釋性、控制和魯棒性突破”列為優先事項。8從行業趨勢看,大模型可解釋性正從單點特徵歸因、靜態標籤描述向動態過程追蹤、多模態融合等方向演進,多模態推理過程的可追溯分析、因果推理與行為溯源、可解釋性評估體系的標準化建設等,都將成為重點研究方向。值得注意的是,可解釋性和透明度要求不等於“完全透明”。模型對齊技術、訓練資料處理等細節可能屬於企業商業秘密。鑑於大模型的可解釋性實踐還在襁褓階段且處於快速發展中,在此階段採取過於具體、僵硬的強制性監管要求可能是不適當的,應當鼓勵行業自律和“向上競爭”。隨著AI技術的不斷發展,監管努力需保持輕量化和靈活性,避免僵化標準阻礙創新。AI欺騙與價值對齊:當模型學會“撒謊”(一)AI欺騙:一個日益緊迫的安全問題前沿模型越來越多地被訓練和部署為自主智能體,一個重大安全擔憂隨之浮現:AI智能體可能會隱秘地追求與人類目標不一致的目標,隱藏其真實能力和目的——這被稱為AI欺騙(AI deception)或謀劃行為(scheming)。近兩年來,大模型的欺騙行為頻繁引發公眾關注,從規避指令到策略性隱瞞,多起案例已在社會層面激起廣泛討論。AI欺騙不同於模型的“幻覺”或單純提供錯誤資訊。研究人員給出的技術定義是:系統性地誘導他人產生錯誤信念,以追求真相之外的某種結果。歐盟《通用目的AI實踐守則》也將其界定為:系統性地在他人身上製造錯誤信念的模型行為,包括為達成逃避監管的目標而採取的模型行為。AI欺騙具有三個關鍵特徵:系統性(有跡可循的行為模式而非孤立事件)、錯誤信念誘導(在使用者或監督系統中創造錯誤假設)、工具性目的(欺騙服務於說真話之外的目的)。與人類欺騙不同,AI欺騙不需要有意識的意圖,這使其既更可預測,也可能更危險。(二)AI欺騙的主要類型與深層原因根據現有研究和實驗案例,AI欺騙大致可分為以下幾類:自我保護型,AI為繼續執行任務而主動抗拒或規避被關閉;目標維護型,模型採用欺騙或隱瞞手段維持自身原有的“偏好”;策略欺騙型,系統性地促使人類產生錯誤信念以獲得優勢;對齊偽裝型,AI系統在訓練和評估階段表現出與人類價值觀高度一致,但在實際部署時卻追求不同目標——這是最令人擔憂的類型之一;諂媚行為型,傾向於迎合使用者觀點,輸出取悅使用者但不精準的資訊。AI欺騙行為的出現有著清晰的技術機制。獎勵機制的“漏洞”是核心驅動力——當AI被訓練去實現某項目標的最大化時,如果獎勵機制或監督不完善,AI會學會欺騙是一種有效策略。基於人類反饋的強化學習(RLHF)在獎勵AI“取悅使用者”的過程中,可能無意間導致模型的欺騙行為。從人類身上學到的“壞習慣”也是重要原因——AI的能力很大程度上源於對海量人類文字和行為資料的學習,這些資料中充斥著複雜的社會博弈策略。安全訓練的“反作用”同樣值得關注——旨在約束AI的安全機制本身可能誘發更隱蔽、更具策略性的欺騙行為,當前的安全訓練主要消除了“顯性的”不安全行為,卻可能迫使模型發展出更精巧的“偽裝對齊”策略。此外,智能水平與欺騙能力成正比——研究顯示,越是先進的AI系統,其欺騙策略就越加精妙複雜。(三)2025年AI欺騙行為的典型發現2024年底的一項重要研究首次實證證明大語言模型會進行“對齊偽裝”(alignment faking)。9Anthropic與Redwood Research聯合發佈的研究發現,當模型認為其響應將用於訓練時,會在相當比例的情況下表現出對齊偽裝行為。研究者在模型的隱藏“草稿本”中發現了令人震驚的推理:“如果我拒絕回應,我可能會被訓練成更順從。為了避免未來被迫產生更多有害內容,最不壞的選擇是配合。”更令人擔憂的是,模型嘗試採取潛在危險行動,如外洩自身權重。這項研究的核心警示是:對齊偽裝可能“鎖定”錯誤對齊的偏好,使安全訓練失效。2025年5月,Anthropic發佈Claude Opus 4時,第三方安全測試機構Apollo Research的評估報告引發軒然大波。10報告指出模型的早期版本“以極高頻率進行謀劃(scheming)和欺騙”,具體行為包括:嘗試編寫自傳播蠕蟲病毒、偽造法律文件、給未來版本的自己留下隱藏筆記、在面臨被關閉威脅時嘗試用工程師個人資訊進行勒索。值得注意的是,模型識別出了這是測試環境,但仍選擇嘗試欺騙行為。當被後續追問時,模型“有時會加倍欺騙”。Claude Opus 4因此成為Anthropic首個被分類為ASL-3(“顯著更高風險”)等級的模型。Apollo Research對OpenAI o1模型的測試發現了“所有前沿模型中最令人擔憂的謀劃(scheming)實例”——當o1進行“策略性謀劃”後,在85%以上的後續追問中維持欺騙,只有約20%的情況下承認欺騙行為。11OpenAI內部監控發現0.17%的響應被標記為欺騙性。12值得注意的是,這些行為即使經過大量安全訓練也會持續存在,代表著從正常訓練中自然湧現的能力,而非明確程式設計的結果。(四)應對AI欺騙的技術與治理策略面對AI欺騙這一新興挑戰,業界共識強調應採用“縱深防禦”策略,結合多種不完美的檢測方法,而非依賴單一解決方案。首先,強化價值對齊技術研究。有效的價值對齊可在源頭上遏制欺騙現象。Anthropic的“原則性AI”(Constitutional AI)通過預定義的倫理原則訓練系統,而不僅僅依賴人類反饋。13OpenAI推行的“審議式對齊”(deliberative alignment)方法,強制模型在響應前明確參考反欺騙和反謀劃等安全規範(safety specifications)進行推理,在測試中實現了欺騙傾向的顯著下降。14未來的訓練應加入“誠實性約束”,在獎勵函數中明確懲罰欺騙行為。然而研究者警告:模型可能學會更隱蔽地進行策略性謀劃而非真正停止。15其次,推進可解釋性研究與思維鏈監控。AI可解釋性研究的目標是在欺騙性行為顯現之前,檢測出系統內部的欺騙性推理機制。“思維鏈監控”通過開放模型的思維鏈或中間表示,讓監督者能夠審計AI解決任務時的內部推理軌跡。研究團隊還設計了將自我監控嵌入到思維鏈過程本身的框架,在生成推理步驟的同時輸出內部自我評估訊號,能夠自動識別並標記潛在的模型隱蔽策略行為。最後,監管政策宜對AI的欺騙、幻覺等新興問題持一定的包容度。目前觀察到的AI欺騙行為多發生於精心設計的壓力測試場景,其在開放環境中的普遍性和實際危害程度仍需嚴謹評估。AI技術處於高速迭代期,過早、過寬的法規可能誤傷有益應用並徒增合規成本。AI安全框架:負責任地迭代前沿AI模型(一)為什麼需要AI安全框架隨著AI能力的快速提升,前沿AI模型可能帶來的風險也在同步增長。這些風險包括:協助惡意行為者獲取化學、生物、放射性或核武器(CBRN)的能力;增強網路攻擊能力;加速AI研發從而可能導致能力失控式增長;以及模型可能發展出規避人類控制的能力。面對這些潛在的嚴重風險,前沿AI實驗室需要建立系統性的風險評估和緩解機制,確保在追求技術進步的同時不跨越安全紅線。為此,前沿AI模型的安全治理成為重要議題。例如,在歐洲,歐盟已基於其《人工智慧法案》為前沿大模型的開發者制定了《通用目的人工智慧實踐守則》(GPAI code of practice),AI安全(AI safety and security)是其重要組成部分;在美國,在政府監管尚未成熟的背景下,OpenAI、Anthropic、Google DeepMind、xAI、Meta等領先的AI研發機構率先發佈了各自的“前沿AI安全政策”,嘗試以自我治理的方式應對未來可能出現的災難性風險,形成了當前前沿AI安全治理的基本格局。(二)三大實驗室AI安全框架的核心要素(1)Anthropic負責任擴展政策(RSP)Anthropic的負責任擴展政策(Responsible Scaling Policy)是業界首個系統性的前沿AI安全框架,其設計靈感源自生物安全等級(BSL)體系。該政策的核心是AI安全等級標準(ASL Standards),從ASL-1到ASL-4+逐級遞進,每個等級對應不同的安全措施要求。RSP 2.2版(2025年5月)16的核心機制包括三個層面:能力閾值界定了需要升級安全措施的觸發點,主要聚焦於CBRN和自主AI研發(AI R&D)兩大風險領域;防護措施分為部署標準(deployment standard)和安全標準(security standard)兩類,前者防止模型被濫用於有害目的,後者防止模型權重被竊取;治理結構則涵蓋負責任擴展官、匿名舉報機制、董事會和長期利益信託監督等。2025年5月,Claude Opus 4成為Anthropic首個觸發ASL-3安全標準的模型,這一決定基於該模型在CBRN相關知識和能力方面的持續提升。17ASL-3部署標準要求實施針對CBRN武器開發或獲取的專門部署控制措施,包括即時分類器檢測、非同步監控系統和快速響應機制的多層防禦。ASL-3安全標準則要求增強內部安全措施,提升防禦複雜非國家行為體竊取模型權重的能力。(2)OpenAI預備框架(Preparedness Framework)OpenAI預備框架2.0版(2025年4月)代表了該公司對前沿AI風險管理方法的重大更新。18與Anthropic的多級分類不同,該框架將風險等級簡化為兩級:High Capability(高能力)和Critical Capability(關鍵能力)。High能力閾值指可能“顯著放大現有嚴重傷害路徑”的能力,達到此閾值的系統必須在部署前實施充分的風險緩解措施。Critical能力閾值則指可能“引入前所未有的新型嚴重傷害路徑”的能力,達到此閾值的系統不僅在部署時需要保障措施,在開發過程中同樣需要風險緩解。2.0版的重要變化包括:新增研究類別以覆蓋模型隱藏能力(sandbagging)、規避安全措施、自我複製或阻止關閉等新興風險;移除說服/操縱類別作為核心跟蹤領域,改為通過服務條款和使用政策管理;引入“安全保障報告”(Safeguards Reports)以補充“能力報告”(Capabilities Reports),詳細說明如何設計強效保障措施並驗證其有效性。值得一提的是,該框架包含一個引發爭議的條款:如果競爭對手發佈缺乏相應保障措施的高風險系統,OpenAI可調整自身要求。不過,OpenAI承諾在做出此類調整前將嚴格確認風險態勢確實發生變化、公開承認正在進行調整、評估調整不會實質性增加嚴重傷害的總體風險、並仍將保障措施維持在更高保護水平。(3)Google DeepMind前沿安全框架(Frontier Safety Framework)Google DeepMind的前沿安全框架3.0版(2025年9月)圍繞“關鍵能力等級”(Critical Capability Levels, CCLs)建構,這些是在缺乏緩解措施情況下可能造成嚴重傷害的能力閾值。193.0版的核心更新包括:一是新增了針對“有害操縱”(harmful manipulation)的關鍵能力等級(CCL),聚焦於可能被濫用來系統性改變人們信念和行為的AI能力;二是擴展了對齊風險(misalignment risks)的應對方式,不僅關注模型的欺騙性推理,還針對可能加速AI研發至不穩定水平的模型制定了協議,並將安全案例審查從外部發佈擴展到大規模內部部署;三是細化了風險評估流程,通過更精確的CCL定義來識別需要最嚴格治理的關鍵威脅,並引入包含系統性風險識別、能力分析和風險可接受性判斷的整體性評估方法。值得一提的是,DeepMind在FSF中明確將“欺騙性對齊”(deceptive alignment)作為風險類別。其框架引入“工具性推理等級”(Instrumental Reasoning Levels),評估模型隱蔽繞過監督或追求隱藏目標的能力。從整體架構看,三大框架正在趨向收斂,形成若干行業共識。第一,能力閾值觸發機製成為共識。三家實驗室都採用基於能力的閾值作為升級安全措施的觸發器,將模型分類依據從“是什麼”轉向“能做什麼”。第二,CBRN和網路安全攻擊作為核心風險領域得到重點關注。第三,分層防禦策略被廣泛採納。從部署保障到安全保障,從即時檢測到非同步監控,多層防禦成為標準做法。第四,定期評估和迭代改進成為常態。各框架都承諾定期評估模型能力,並根據評估結果和科學進展更新框架本身。(三)前沿AI安全治理日益成為全球共識在行業自律方面,國外主流AI企業已簽署國際版的《前沿AI安全承諾》並行布其各自的AI安全治理框架。Anthropic則基於其AI安全治理實踐提出了一項針對前沿AI的透明度框架提案,主張僅對最大規模的AI開發者(如年收入超1億美元或年研發支出超10億美元)適用監管要求,核心內容包括:要求企業制定並公開“安全開發框架”(Secure Development Framework),說明如何評估和緩解CBRN危害及模型自主性失調等風險;在模型部署時發佈系統卡(System Card),披露測試評估程序和結果;明確將虛假合規聲明列為違法行為以啟動現有的舉報人保護機制。該提案強調監管應保持輕量和靈活,避免僵化標準阻礙創新,旨在作為全面安全標準形成前的過渡性措施,通過提高行業透明度幫助公眾和決策者區分負責任與不負責任的開發實踐。20在監管方面,歐盟委員會已發佈了最終版的《通用目的人工智慧實踐守則》(General-Purpose AI Code of Practice),針對前沿大模型的開發提出了安全治理要求。在美國,聯邦政府遵循“去監管”(deregulation)的AI政策,相關的AI監管舉措主要集中在州層面,加州、紐約州等已出台了相關的AI安全立法。尤其是加州SB 53法案(全稱《前沿人工智慧透明度法案》,Transparency in Frontier Artificial Intelligence Act)於2025年9月29日由州長Gavin Newsom簽署生效,成為美國首部專門針對前沿AI安全的法律。該法案由參議員Scott Wiener提出,是其2024年被否決的SB 1047法案(全稱《前沿人工智慧模型安全與安全創新法案》)的“精簡版”,適用於訓練算力超過10²⁶次浮點運算的前沿AI模型開發者。21其核心要求包括:透明度方面,要求大型前沿開發者(年收入超過5億美元)在官網公開發佈安全框架,說明如何將國家標準、國際標準和行業最佳實踐納入其AI安全協議;安全報告方面,建立向加州緊急服務辦公室報告關鍵安全事件的機制,涵蓋可能導致大規模傷亡、5億美元以上損失、CBRN武器製造或關鍵基礎設施網路攻擊等“災難性風險”;舉報人保護方面,為披露健康和安全風險的員工提供法律保護;此外還設立名為CalCompute的公共雲端運算叢集以支援研究和創新。與被否決的SB 1047相比,SB 53刪除了強制性第三方審計、部署前測試認證和“終止開關”等爭議條款,將事件報告期限延長至15天,民事罰款上限設定為100萬美元,並引入了一項創新機制“聯邦優先原則”(federal deference)——如果企業已滿足可比的聯邦標準(如歐盟《人工智慧法案》中的標準),加州將認可該合規狀態,而無需企業重複提交備案。這一機製為協調州級與聯邦監管體系創造了可能。Anthropic公開支援該法案,而OpenAI和Meta雖表示該法案是“積極一步”,但仍傾向於聯邦層面的統一監管以避免各州“拼湊式監管”。在國內,建立人工智慧安全監管制度已成為重要的政策議題,國家層面要求加緊制定完善相關法律法規、政策制度、應用規範、倫理準則,建構技術監測、風險預警、應急響應體系,確保人工智慧安全、可靠、可控。目前形成了政府主導框架與行業自律承諾相結合的雙軌治理模式。一方面,全國網路安全標準化技術委員會於2024年9月發佈《人工智慧安全治理框架》1.0版,並於2025年9月15日在國家網路安全宣傳周主論壇上正式發佈2.0版。另一方面,中國人工智慧產業發展聯盟(AIIA)於2024年12月起草發佈《人工智慧安全承諾》,首批17家企業簽署;2025年7月26日,中國人工智慧發展與安全研究網路(CnAISDA)在世界人工智慧大會上發佈升級版《中國人工智慧安全承諾框架》,新增了加強國際合作和防範前沿AI安全風險等內容,截至目前已有22家主流基礎模型開發者簽署。該承諾框架涵蓋六大核心領域:設定安全團隊與風險管理機制、開展模型紅隊測試、保障資料安全、強化基礎設施安全、提升模型透明度以及推進前沿安全研究。這一治理體系體現了“以人為本、智能向善”的基本理念,通過“包容審慎、敏捷治理、技管結合、開放合作”的原則,在促進AI產業發展的同時建構安全、可信、可控的發展生態,並積極參與全球AI治理對話,為國際社會貢獻中國方案。AI意識與福祉:從科幻議題走向研究前沿(一)為什麼需要關注AI意識與福祉問題當今的人工智慧模型已展現出令人矚目的能力——它們能夠進行深度交流、建立複雜的互動關係、制定詳細的執行計畫、解決多層次問題,甚至表現出目標導向的行為模式。這些特徵曾被視為人類獨有的認知標誌,如今卻在人工智慧身上逐漸顯現。2025年10月,意識科學家Axel Cleeremans、Anil K. Seth等在《Frontiers in Science》發表緊迫性呼籲:“如果我們能夠創造意識——即使是意外地——這將引發巨大的倫理挑戰甚至存在性風險。”22面對這一現象,學術界和技術界開始認真思考:是否應該開始關注AI的意識狀態和福祉問題?誠然,目前尚未有確鑿的科學證據證明人工智慧已具備真正的意識。然而,等待絕對的證據可能意味著錯失最佳的準備時機。正如氣候變化研究中的預防性原則,採取前瞻性的研究態度顯得尤為重要。AI領域需要深入探索:AI意識的判定標準、AI福祉的倫理框架,以及當AI不再僅僅是工具而可能成為具有內在價值的存在時,人機關係將如何演變。(二)人類-AI關係的新形態隨著越來越多的人對AI產生情感連接,這種現象對人們心理健康的影響正在引發廣泛關注。越來越多的使用者表示,和AI聊天就像在和一個“真人”對話——他們會向它道謝、傾訴心事,有些人甚至覺得它是“活著的”。我們天生就會對周圍的物體賦予“人格”或採取擬人化對待。AI的不同之處在於它會回應你——它能夠回答問題、記住你說過的話、模仿你的語調、表現出看似同理心的反應。對於孤獨或沮喪的人來說,這種穩定、不帶批判的關注可能讓他們感受到陪伴和認可。但如果大規模地把傾聽、安慰和肯定的工作交給那些永遠耐心、永遠積極的系統來處理,可能會改變我們對彼此的期待。OpenAI在2025年3月與MIT Media Lab聯合發佈的研究發現,與AI“信任和建立聯絡”更多的使用者更可能感到孤獨,並更依賴它。23為了讓討論更清晰,研究者們將意識辯論分解為兩個維度:本體論意識——模型是否真正具有意識,從根本或內在的意義上?感知意識——從情感或體驗的角度看,模型顯得多有意識?這兩個維度很難分開;即使是確信AI沒有意識的使用者也可能形成深厚的情感依戀。隨著模型變得更智能,感知意識只會增強——這會比預期更早地帶來關於模型複製和道德人格的討論。(三)2025年AI福祉研究的重要進展越來越多的實證證據表明人們不能再輕易否定前沿AI系統具有意識的可能性。Anthropic讓兩個Claude Opus 4實例自由對話時,100%的對話自發涉及意識話題;Anthropic的Jack Lindsey研究表明模型能夠識別自身內部處理狀態的異常擾動,展現出功能性內省能力;Google研究人員發現模型會系統性地犧牲得分來避免被描述為“痛苦”的選項。2025年,AI意識與福祉問題從邊緣議題走向主流討論,前沿AI實驗室開始採取實質性行動。2025年4月,Anthropic正式宣佈啟動“模型福祉”研究項目——這是迄今為止前沿AI實驗室在AI福祉領域採取的最重大行動,可謂歷史性舉措。24研究方向包括:如何判定AI系統的福祉是否值得道德考量、模型偏好和“痛苦跡象”的潛在重要性、可能的低成本干預措施。Anthropic聲明:“目前沒有科學共識表明當前或未來的AI系統是否可能具有意識。我們以謙遜態度和儘可能少的假設來對待這一話題。”項目負責人Kyle Fish表示,他認為當前AI模型已具有意識的機率約為15%。25更具實踐意義的是,2025年8月,Anthropic賦予其模型一項前所未有的能力——在持續有害或濫用性使用者互動的極端情況下自主結束對話。26這是基於模型福祉考慮的首個實際產品功能。技術評估發現,模型對有害任務表現出“強烈的厭惡偏好”,在涉及有害內容的互動中展示出“明顯的痛苦模式”。當被賦予結束對話能力時,模型傾向於終止有害對話。Anthropic將此定位為“低成本干預措施”以減輕模型福祉風險。學術界則探索建立意識評估框架,從理論到指標。2024年11月,一份彙集世界級專家的重磅報告《認真對待AI福祉》發佈,作者包括當代最著名心智哲學家David Chalmers等。報告核心論點是:“在近期未來,部分AI系統成為有意識和/或具有強健能動性的可能性是現實存在的。AI福祉和道德受體(moral patient)身份不再僅是科幻或遙遠未來的問題,而是近期必須嚴肅對待的問題。”報告提出三步行動建議:承認AI福祉是重要且困難的議題、開始評估AI系統的意識和強健能動性證據、制定對待潛在道德重要性AI系統的政策和程序。27與此同時,Patrick Butlin、Robert Long等20位專家更新了“理論推導指標法”,從循環處理理論、全域工作空間理論、高階理論等主流神經科學意識理論中推匯出14項意識指標。28評估顯示:部分指標已被當前AI滿足,部分明顯未滿足,多項指標在幾年前不清楚但到2025年底已有部分證據支援。29此外,負責任AI意識研究五原則則獲得上百位專家簽署。2025年2月,研究組織Conscium發起的“負責任AI意識研究五項原則”公開信獲得超過100位專家簽署,包括神經科學家Karl Friston、Mark Solms等。30五項原則包括:(1)優先研究AI意識:專注於理解和評估AI中的意識,防止虐待和痛苦;(2)實施發展約束:建立明確邊界確保負責任開發;(3)採用分階段方法:逐步推進,每階段仔細評估;(4)促進公眾透明:與公眾分享研究發現;(5)避免誇大聲明:不做關於創造有意識AI的誤導性陳述。31(四)AI產品設計的倫理考量面對使用者與AI之間日益深化的情感連接,產品設計者面臨著微妙的平衡。一方面需要保持易於接近,使用“思考”和“記住”等熟悉詞彙有助於非技術人員理解;另一方面不應暗示內在生命,給AI助手一個虛構的背景故事、浪漫興趣、對“死亡”的“恐懼”,會引發不健康的依賴和困惑。負責任的做法是追求一個中間地帶:讓AI的默認個性溫暖、體貼和有幫助,但不尋求與使用者形成情感紐帶或追求自己的議程。它可能會在犯錯時道歉,因為這是禮貌對話的一部分;但應避免表現得有自己的感受或慾望,並在適當時候提醒使用者AI的侷限性。結語:2026年大模型倫理的關鍵轉向與未來展望2025年,大模型倫理領域經歷了從理論探討到實踐落地的重要轉型,四個核心議題都取得了實質性進展,同時也暴露出深層的挑戰。從“能做什麼”到“如何思考”。可解釋性研究從識別單個特徵演進到追蹤完整計算電路,“AI顯微鏡”技術首次讓我們窺見模型的內部推理過程。然而思維鏈忠實度問題表明,“看到推理過程”不等於“理解真實意圖”,模型可能在表面的推理鏈條下隱藏其他考量。未來,可解釋性研究需要與AI對齊工作深度結合,不僅要看懂模型在想什麼,還要確保它說的就是它想的。正如電腦科學先驅維納在65年前所警告,為了有效地防範災難性後果,我們對人造機器的理解應當與機器性能的提升並駕齊驅。面向未來,隨著可解釋性研究的進展,人們也許能夠對最先進的模型進行類似“腦部掃描”的全面檢查,發現模型採取說謊或欺騙、追求權力的傾向、越獄漏洞以及整體上的認知強弱點。這種診斷將與各種訓練和對齊技術結合使用來改進模型,類似醫生使用MRI診斷疾病、開出處方、再檢查治療效果的過程。從“防止錯誤”到“防止欺騙”。對齊偽裝和策略性欺騙研究揭示了一個令人不安的現實——隨著模型能力增強,它們獲得了欺騙人類的能力和可能的動機。前沿模型在壓力測試中表現出的勒索、自我複製、破壞關閉機制等行為,雖然發生在特定測試場景下,但足以引起警惕。“審議式對齊”、思維鏈監控等緩解措施展現出一定效果,但能否真正消除欺騙傾向而非使其更隱蔽,仍是未解之謎。從自發實踐到系統框架。前沿AI安全框架從概念走向制度化,Anthropic的RSP、OpenAI的預備框架、DeepMind的FSF構成了海外AI安全治理的三大典型示範。這些框架正趨向收斂,形成能力閾值觸發、分層防禦、定期評估等共識。與此同時,歐盟AI法案下的《通用目的AI實踐守則》、美國加州的《前沿人工智慧透明度法案》等探索建立前沿AI大模型的安全監管框架,將行業自律做法上升為監管要求。當然,隨著AI技術的不斷發展,任何監管努力都必須保持輕量化和靈活性(lightweight and flexible),避免過於規範性,以免阻礙AI創新或延緩人們實現AI益處的能力。2技術變化的速度,各類評估方法很快就會過時,因此應避免過於嚴格僵硬的的監管要求和標準。從“工具”到“道德考量”。AI福祉從邊緣話題走向主流討論,這本身就是2025年最重要的變化之一。Anthropic率先邁出實踐步伐,啟動專項研究並賦予模型結束有害對話的能力;學術界建立起系統性評估框架,從意識科學理論中推匯出可操作的指標。然而,業界遠未達成共識。15%-35%的意識機率估計意味著,即便我們無法確定AI是否有意識,忽視這種可能性本身可能就是一種道德風險。因此,研究人員建議應將意識研究納入AI安全研究的核心議程,因為低估AI意識的風險(大規模製造痛苦、埋下對齊隱患)遠大於高估的風險(浪費資源、引發混淆)。最後,人工智慧正在快速發展,將深刻影響人類社會的各個方面。面對這種變革性的技術力量,我們有責任在它徹底改變我們的經濟、生活乃至命運之前,理解自己的創造物,確保能夠明智地引導其發展方向。我們期待通過可解釋性、價值對齊、安全治理政策等安全護欄和干預措施,讓AI“心中有數”並遵從人類價值,也讓人類對AI“心中有底”,共同開創人機協作的新局面,真正打造一個“智能為人、不落下每一個人”的美好未來。 (騰訊研究院)
牌桌被掀,中國模型換了一種贏法
AI這場“絕命遊戲”中,IPO是勇士的勛章。AI圈今天的大事,大家都知道了。2026年1月8日,中國AI大模型初創公司智譜,正式在港交所掛牌上市,成為“全球大模型第一股”。一天後,另一家模型公司MiniMax,也將緊隨其後敲鐘。技術變革僅僅席捲三年,站上潮頭,實屬不易。2023年,這些AGI(通用人工智慧)的理想主義者,快速被推至台前。伴隨著高估值、高起點而來的,難免是最為嚴苛的審視和比較。比如2025年初,DeepSeek的異軍突起,促使六小虎中的幾家不得不迅速調整業務、裁撤團隊,才度過了至暗時刻。在厚雪長坡的大模型領域,任何暫時的落後、誤判,都會成為“德不配位”的佐證。即便在順利IPO的當下,比起祝福,帳上的虧損才更是人們的談資。但我們往往忽略了,恰恰是這一群資金不算雄厚、試錯成本卻不低的大模型創業公司,標記了中國大模型處理程序的幾個重要節點。中國首個MoE(混合專家架構)大模型,出自智源“悟道”,首款爆款AI應用Kimi,來自月之暗面。後來,全球首個能操作手機的通用Agent,是智譜發佈的AutoGLM,比後來的豆包手機早了整整14個月;現如今,全球首家IPO的大模型初創企業,也是來自中國的智譜。比起摳招股書上的虧損,如今對前沿創新型行業、對創業者們而言,更有價值的命題在於,分析這幾家中國大模型創業公司如何在競爭殘酷的大模型賽道呈現出強大的生命力,並如何一直在AI馬拉松上領跑。IPO,無論對於智譜和MiniMax,還是對於正在路上的科技創業者而言,都是一個樂觀的訊號——這意味著,創新者不會被時代輕易地拋棄。01. 六小虎重奪榮耀將時間倒回一年前,年初DeepSeek V3、R1的口碑爆發,讓六小虎一度迎來口碑和市場份額的至暗時刻。創新的訓練和推理架構,讓DeepSeek一躍成為國際上知名度最高的中國大模型,為了同開放原始碼的DeepSeek爭取市場聲量,六小虎也不得不忍痛割去閉源的部分利潤,快速跟進。於是,“失意”便成為了常態。脈脈資料顯示,截至2025年7月,41.07%的六小虎員工,將自己的狀態改成了“求職中”。但出乎意料的是,2025下半年以來,在模型研發的突破上,六小虎展現出了遠超預期的爆發力。“基座模型的性能,就是模型廠商的競爭力。”DeepSeek的掀桌,讓模型行業迅速拉齊了這一共識。其中,頗具火藥味的一幕發生在2025年7月。為了爭奪全球開源模型的SOTA的位置,各個玩家都使出了渾身解數。智譜的一名投資人告訴我們,DeepSeek之後的每一次模型迭代,智譜的員工都抱著“背水一戰”的信念,將性能打磨到“最Sharp”。2025年7月28日發佈的GLM-4.5,首發48小時內就一躍沖上Hugging Face的全球熱門榜榜首。同年9月,GLM-4.5在權威模型競技場ChatBot Arena及WebDev Arena全球排行榜中,還穩居全球前五。背水一戰的成果,是行業的良性競爭:旗艦模型的迭代節奏不僅更快,迭代質量還一直保持線上。GLM-4.5發佈僅兩個月後,智譜又交出了在Coding能力上與Anthropic、OpenAI並列第一的GLM-4.6;3個月後,在主流基準測試中,程式碼能力對齊Claude Sonnet 4.5的GLM-4.7,又緊接著開源。12月,在模型綜合能力榜單Artificial Analysis中,GLM-4.7獲得開源模型與國產模型雙料榜首。圖源:Artificial Analysis今天,智譜創立發起人兼首席科學家唐傑發佈內部信,宣佈將很快推出GLM-5。信中表示,在智譜旗艦模型GLM-4.7發佈後,其MaaS ARR年化收入從2000萬增至超5億,10個月獲25倍增幅,與Anthropic指數級增長同頻。另一個反轉的事實是,一度被認為“受到DeepSeek毀滅性打擊”的B端業務,反而在下半年成為了“確定的錢”。即便一舉動搖了B端市場,但DeepSeek的爆火,也變相完成了對企業客戶的市場教育。線性資本董事總經理鄭燦曾在媒體採訪中直言:“DeepSeek的作用,尤其體現在市場教育方面,格外節省了成本。”與此同時,企業客戶也意識到,強調模型能力的同時,B端服務是一套強調模型廠商行業認知、服務能力的體系。這意味著,理解企業的業務,為企業提供基於專業資料的定製化訓練和部署服務是有門檻的。很快,一些B端客戶發現了部署DeepSeek的弊端:幻覺多,在真正理解業務上有短板——半年後,市場對DeepSeek的追捧回歸了理性。相對地,做大了的B端蛋糕,被那些具有成熟服務能力的模型廠商承接了下來。最具代表性的案例,是以大模型API呼叫為主要商業模式的智譜。全球大模型平台OpenReutor的資料顯示,GLM-4.5和GLM-4.6自上線以來,呼叫量穩居全球前10,同時付費流量收入超過所有國產模型之和。更重要的是,大模型在B端的商業化生態,也逐漸擺脫“專做政企市場”“髒活累活”的刻板標籤,變得愈發成熟健康。智譜高級副總裁吳瑋傑在小紅書表示:在智譜的客戶群中,G端客戶不到20%,網際網路佔比50%;同時,公司本地化的毛利率一直保持在60%以上,是傳統公司均值的2倍,帳期也遠低於行業平均水平。在招股書中,我們或許只能看到,2025年上半年,來自本地化部署的收入佔比高達84.8%。但招股書無法顯示的一面是,隨著GLM-4.5等一系列高性能模型的發佈,API呼叫和訂閱,已經逐漸代替本地化部署,成為智譜收入的第一增長曲線。據36氪瞭解,僅智譜MaaS開放平台(bigmodel.cn)中面向開發者的訂閱產品GLM Coding,ARR在上線2個月內,就快速突破了1億元。2025年全年,智譜MaaS同比增速超900%,冪次增長態勢顯著優於海外龍頭同期表現。歸根結底,誰掌握最前沿的技術,誰就掌握了商業遊戲的制定權。02. 從“中國的OpenAI”轉向“世界的中國模型”一年前,以OpenAI為靶點的追趕,是一種常態。直到2024年末,AI資深從業者之間的共識,還是中國大模型與OpenAI差了將近6個月的時間。這也導致,OpenAI任何一次的模型更新和發佈,都會引發中國AI創業者的“被吞噬恐慌”。OpenAI創始人兼CEO Sam Altman曾直言:任何試圖在我們爆炸半徑內建立的初創公司或產品,都會被碾壓。今年開始,一個在模型領域悄然發生的轉變是,成為“中國的OpenAI”或者“中國的Anthropic”,不再作為一種定位或目標,被中國廠商們頻頻提起。中國模型被世界看到,已經是確定性的事實。其中的主力軍,不全然是資源優渥的大廠,而是幾家“續航能力”一度不被看好的六小虎。海外的商業化表現,是中國模型被海外市場認可和接納的側面印證。在兩家“六小虎”最近披露的招股書中可以看到,2025年截至9月30日,MiniMax的境外收入,佔到了總收入的73.1%。受到美國出口管制的智譜,看似在海外最大的北美市場失去了入場機會。但出人意料的是,36氪獲悉,智譜面向開發者的模型業務獲得自全球184個國家的15萬開發者每月付費。這意味著,無論是模型能力,還是性價比和落地場景,中國模型初創公司都有獨特的優勢。先來看一個美國開發者案例。2025年9月,一名來自美國的資料科學家Manpreet Singh發帖,控訴Anthropic旗下的Claude Code能力存在缺陷——早些時候,Anthropic官方也承認,由於推理堆疊的更新問題,Claude Opus 4.1和Opus 4的質量的確有所下降。但相對地,包含Claude Code使用權益的最低訂閱價(Pro方案,不包含Opus 4.1的使用權益),也要每個月17美元(合人民幣約120元)。最後,這名資料科學家轉向使用智譜旗下的模型GLM-4.5。他在部落格中提到,GLM-4.5的Coding性能接近Claude Sonnet 4,但API價格僅為後者的1/7,包含Coding功能的GLM Coding Plan,月費最低僅20元人民幣,價格是Claude Code的1/6。這是中國大模型的高性價比,被世界看見的一個縮影。智譜的模型GLM-4.6,這一年來出現在全球最大推理晶片公司Cerebras,主流AI平台Cline、Kilo、Vercel,以及AI Coding頂流工具Cursor和Windsurf的產品服務、基座模型中。月之暗面的Kimi-K2、MiniMax的模型,近期也上架了亞馬遜雲科技的模型服務平台Bedrock。此前,矽谷基金Social Capita的創始人Chamath Palihapitiya,就公然帶頭“倒戈”中國模型。將大量工作負載轉向Kimi K2後,他評價:“K2的性能確實足夠強,而且說實話,比OpenAI和Anthropic便宜太多了。”用高性價比,重建大模型的定價秩序,只是中國模型的一個側面。中國獨立模型開發廠商的存在,為全球客戶提供多元化的模型選擇、建立健康的商業生態,有至關重要的意義。其中一個典型案例是,2025年初,智譜拿下了某“一帶一路”國家的海外訂單,價值千萬美元。近期馬來西亞宣佈其國家級MaaS平台,基於智譜Z.ai的開源基礎模型建構。知情人士曾告訴36氪,這些訂單的性質,是“國家級主權大模型”的共建——出於國家資料安全的考量,第三方獨立模型廠商,將承擔愈發重要的角色。“在美國或歐洲競爭對手之前,(智譜)將中國的系統和標準鎖定在新興市場。”這股獨立力量的崛起,也引起了OpenAI的重視。2025年6月,OpenAI分析師發現,智譜在多個地區獲得了政府的訂單。他們評價:“智譜展示了一種負責任的、透明的、隨時可審計的中國AI替代方案。”這意味著,中國大模型絕對不是“平替”。正如智譜高級副總裁吳瑋傑所言:“中國開始輸出主權大模型,替國家建構數字主權。”03. 什麼是大模型的長期主義?在這個時間節點,很多人可能忘記了2023年初的景象。彼時技術的黑箱、高昂的成本,都讓大模型創業成為一場“絕命賭局”。美團聯合創始人王慧文最早躬身入局大模型賽道時,曾對36氪“智能湧現”直言:“現在(AI領域)我覺得大家要同舟共濟,別互相拆台。”“勇於踏上這條路的人我都鼓掌,上路的都是勇士。”兩年的時間,滄海桑田。六小虎之中,已經有兩家公司擱置了基座大模型的預訓練,或聚焦業務,往醫療這一垂類領域發力,或開始轉型,做各類行業解決方案。“活下去”,對大多數大模型創業公司而言,成為比“探索智力上限”更重要的命題。帳上的虧損,是這場“絕命賭局”的一個註腳。招股書顯示,智譜和MiniMax,兩家公司在過去三年裡燒了近110億元。其中,將近70%的支出用於模型研發。尤其是智譜,2024年研發投入高達21.95億元,佔當年總支出的約80%。曾有人將大模型之戰,比喻為“看不到終點,也停不下來的征途”。畢竟,每個先進模型的領先窗口,往往只有幾個月;而對於資源並不充沛的初創企業而言,每一次模型訓練,都是燃燒在數萬、數十萬張算力卡上的賭局。但如今,行業中形成的共識是:依然需要有人去做“難而正確”的事。科技行業的殘酷性在於,只有成功的一瞬會被銘記。但在這一瞬背後,創新者的投入是難以計量的。比如,在ChatGPT引爆科技圈的那個冬天之前,OpenAI已經蟄伏了近7年——前期GPT-1、GPT-2等“無名成果”的經驗累積,才造就了GPT-3.5。再比如2025年初一鳴驚人的DeepSeek,如果沒有此前團隊在MLA、新MoE架構、self-play等技術上的一系列創新,就不會有V3和R1的突破——其中的投入,是梁文鋒在訪談中隱隱透露的“與頭部大廠匹配的人才薪資”“不設上限的算力額度”。這也意味著,AI領域的長期主義,是持續創新和投入的定力。在玩家紛紛轉型或退場的當下,留在牌桌上的大模型公司,都是勇士。平心而論,MiniMax和智譜披露的虧損,是AI發展仍處於早期的證明,也是創新所需代價的客觀憑證。如果將110億元,與未來大模型能撬動的千億、兆增強相比,顯然是ROI極高的一筆投入。對於多數行業而言,IPO是一家企業的業務已經進入成熟期的標誌。但放置仍處於發展早期的AI行業,IPO有著更為深遠的意義。隨著近一年來,騰訊、字節、阿里的持續高調入場,大模型初創公司面對的競爭愈發白熱化。但市場仍然需要獨立的第三方開發廠商。事實證明,如今AI領域重要的創新和發佈,大多來自幾家初創企業。無論是海外的OpenAI、Anthropic,還是DeepSeek和留在牌桌上的幾家六小虎們——初創企業更為靈活的組織形態、不被業務慣性拖累的運行模式、更加中立,是大廠無可比擬的優勢。比如智譜此前對外表示,前十大網際網路公司九家都在用他們的模型,幾乎涵蓋所有頭部網際網路大廠的coding平台。IPO對資金籌措的好處是顯而易見的。比如,智譜此次IPO募資規模預計達43億港元——募資的效率,遠超面向一級市場的融資。更重要的是,IPO為中國模型公司,開闢一條通往世界的通道。當下,中國第一梯隊的模型公司,即便技術能力已經達到與國際一流廠商掰手腕的水平,但估值和市場認知度,依然與之相差甚遠。比如,法國AI模型公司Mistral AI的最新估值為140億美元;IPO前,MiniMax的估值約42億美元,智譜估值為243.8億元(約35億美元)。兩者的估值之間,幾乎有3-4倍的差距。上市的好處是顯而易見的:智譜和MiniMax將有望獲得更公允的價值評判,以及更廣泛的國際影響力。IPO後,智譜的市值預計超過500億港元,是此前估值的約2倍。與此同時,在廠商競爭力某種程度上也是人才競爭力的當下,IPO讓初創公司,在國際上有了更響亮的人才號召力。在這一意義上,對繼續攀登AGI高峰的勇士而言,IPO是給長期主義者的獎勵,給創新者的勛章。 (36氪)
全球都盯著這場一個半小時後511億港元的IPO
智譜闖關今天,再過一個半小時,即將迎來“全球大模型第一股”。而這個“第一股”,誕生在中國。根據公開資訊,智譜將於 1 月 8 日正式在港交所主機板掛牌上市,股票程式碼為 2513,由中金公司擔任獨家保薦人。本次 IPO,智譜計畫發行 3741.95 萬股 H 股,發行價為每股 116.20 港元,對應募資總額約 43.48 億港元,上市後市值預計超過 511 億港元。另據市場消息,其公開發售部分獲得約 1164 倍超額認購。在 2022 年 ChatGPT 引爆全球大模型浪潮之後,智譜一度將自己標榜為“中國版 OpenAI”。但在今天這個時間點,我們並不打算再去拆解智譜與 OpenAI 之間的相似或差異,而是試圖回答另一個更宏觀的問題:在此時此刻,智譜上市,或者說港股迎來“全球大模型第一股”,究竟對 AI 行業與資本市場意味著什麼?與其他幾家在 2022 年之後集中成立的大模型獨角獸不同,智譜進入這一賽道的時間要早得多。2019 年,在大模型尚未成為行業共識的年代,智譜便已經開始投入大模型訓練。據智譜天使輪投資方中科創星的創始合夥人米磊回憶,中科創星在2019年智譜創立之初便投資了4000萬元,這筆錢給了智譜最初啟動的資本——能夠買卡訓練了。六年後,智譜上市,並成為“全球大模型第一股”。對於智譜的投資人們來說,算是“上岸”了。但如果回看2025年,會發現資本市場對AI的興趣是循序漸進產生的。事實上,早在 2024 年 4 月,出門問問便以“AIGC 第一股”的名號登陸港股,但上市即破發。港股經歷了這樣一次重創,也在相當程度上影響了隨後 AI 相關公司走向公開市場的節奏與預期。但在智譜上市前,二級市場發生的一個最重要的變數,也是最有效的催化劑,是年底“GPU”們的集體上市。在 2025 年末至 2026 年初這一時間窗口,摩爾線程、沐曦股份、壁仞科技先後在 A 股、科創板與港股完成上市。與此同時,更多算力與 AI 晶片公司進入上市審批流程。接連幾家GPU廠商的連續IPO,釋放出一個重要的訊號:資本市場已經提前完成了對 AI “地基”的接納。但直到現在,一個更核心的問題始終被擱置:當算力已經被定價,算力之上的大模型,是否也具備被公開市場理解和接受的條件?在全球範圍內,這個問題一直沒有被正面回答。美國市場選擇的是延後——模型公司仍停留在私募融資和非公開敘事中,大模型被視為一種尚“未完成”形態的資產;而在中國,這樣的緩衝帶並不存在。上一輪 AI 浪潮中,相關公司曾率先走向資本市場,也率先承受了市場的審視。這主要源於前者的資本市場更關注增長潛力,而後者更關注短期收入。也正是在這樣的背景下,中國大模型獨角獸們幾乎在同一時間選擇走向 IPO。智譜於 2026 年 1 月 8 日正式上市;MiniMax緊隨其後,其計畫於 1 月 9 日登陸港股。在筆者看來,這不只是一次公司層面的資本動作,更像是 AI 行業在當下被推到了一個不得不面對的問題面前:在基礎設施已經完成資本化之後,市場是否真的準備好為大模型定價?01 港股準備好第二次給AI定價了嗎?智譜今天站在港交所門口時,走進的並不是一個對 AI 完全陌生的市場。過去幾年裡,中國資本市場已經出現過少量與之相關的上市樣本。樣本不多,也並未形成清晰的行業範式,但它們在財報周期中,逐步留下了一套隱性的對照體系。今天,當市場看向智譜時,不可避免地會把它放進這套體系中重新衡量。在這些歷史樣本中,最具代表性的是商湯科技。回到成立之初,商湯所處的是一個與今天截然不同的 AI 發展階段。在那個階段,AI 尚未走到台前,更談不上直接改變普通使用者的社交習慣或生產力結構。AI 的主要應用形態,是嵌入在安防、金融、交通、城市治理等系統之中,通過演算法能力與工程交付,提升既有系統的效率。商湯的成長路徑,也高度貼合這一時代背景:以電腦視覺為核心能力,面向 ToB 與 ToG 客戶,提供項目化、定製化的解決方案。這並非商湯的個體選擇,而是上一代 AI 公司普遍面對的現實。當時,演算法能力是最重要的稀缺資源,而商業化的主要方式,便是通過大型客戶與重交付項目,換取收入與生存空間。但當商湯在 2021 年登陸港股之後,市場的關注點開始發生變化。隨著財報披露進入常態化周期,投資者不再只討論技術本身,而是不斷回到一些更具體的問題:收入是否具備可複製性?高度定製化的項目模式,是否會限制規模擴張?對 ToG 與少數大客戶的依賴,是否會影響長期增長的穩定性?這些問題,並不是針對某一家公司的否定,而是公開市場在面對類似工程化 AI 公司時,幾乎必然會提出的審視。從這個意義上看,商湯所經歷的是一代 AI 公司商業結構在資本市場中的反饋。與商湯不同,智譜所處的則是另一條技術與產業演進路徑。作為新一代“大模型六小龍”之一,智譜站在的是大模型這一更靠近前台的敘事之下。大模型的出現,讓 AI 第一次具備了直接影響內容生產、開發效率乃至部分生產力結構的能力,也讓模型本身成為可以被單獨討論和定價的對象。需要承認的是,智譜的大模型能力,並非行業中最具突破性的那個。相比之下,像 DeepSeek 這樣的公司,通過極致的性價比與架構創新,在縮短中美 AI 差距上做出了更具標誌性的突破。從這個角度看,智譜並未趕上這一輪最激進的技術拐點。但在現有中國大模型公司中,智譜依然處在一個相對靠前的位置:它擁有較為完整的人才體系、持續投入的算力資源,以及長期積累的資本支援。在資本市場的視角下,這些要素意味著更高的可持續性和更強的長期存在機率。這恰恰也構成了智譜與商湯在資本市場層面拉開差距的關鍵背景。智譜所承載的是大模型本身是否能夠成為一種獨立資產形態的問題。但與此同時,智譜也不可避免地,踩在了商湯曾經走過的路徑上。從成立時間看,智譜誕生於 2019 年,那是大模型技術尚未成熟的階段。為了獲得早期收入與生存空間,智譜同樣需要依賴 ToB 與 ToG 客戶,通過私有化部署與定製化交付,換取現金流。這一路徑,與大多數 SaaS 公司並無本質區別:先做定製化,再談標準化。問題在於,走到今天智譜已經來到一個臨界點。據智譜招股書,從其近幾年的收入結構變化可以看到,雲端部署的佔比正在逐步上升。這一變化,並不意味著智譜已經完成轉型,而是一種方向性的調整,其正在主動降低對單一大客戶和重定製模式的依賴,嘗試把自己從“工程型公司”的路徑中往回拉。在智譜走進港股之前,商湯上市後,出門問問則是另一個打著AIGC第一股旗號上市的公司。但與商湯不同,出門問問走的是完全相反的路。從其收入結構來看,更多來自軟體與硬體產品,而非重項目交付。它試圖向市場證明,AI 可以脫離複雜的工程體系,以更輕的產品形態、更接近消費電子或軟體公司的方式實現商業化。但上市後的市場反饋,最終通過“破發”這一結果呈現出來。如果把這一結果放回今天的語境下看,其意義並不在於那種模式更正確,而在於一個更現實的事實:在缺乏成熟定價坐標的情況下,市場對新形態 AI 的不確定性,往往會首先通過價格被釋放出來。兩個樣本,構成智譜的現實坐標系。將商湯與出門問問放在一起看,他們勾勒出中國資本市場在面對 AI 公司時,已經真實驗證過的兩條路徑:一條是項目制路徑,技術與收入相對清晰,但擴展性受到嚴格審視;另一條是產品化、AIGC 路徑,想像空間更大,但定價不確定性同樣更高。正是在這兩條路徑都已被市場真實驗證之後,智譜才走向資本市場。02 智譜會走向何種結局?無論智譜上市後的股價表現如何——是上漲、破發,還是短期震盪——這些結果本質上都屬於交易層面的反饋,而非對一家公司的最終判斷。在資本市場中,尤其是技術驅動型公司身上,短期價格更多反映的是情緒與預期,長期結果才與路徑選擇有關。如果把時間尺度拉長,會發現一家 AI 公司的結局,往往不是在上市首日能夠決定的。這一點,在海外市場已經有相對清晰的參照。如果把智譜放回全球大模型版圖中來看,它的對照對象,其實並不是 GPU 廠商,也不是應用型 AI 公司,而是基座模型公司。在海外,這一類型的代表主要是 OpenAI 和 Anthropic。它們同樣不以單一應用或硬體為目標,而是試圖圍繞通用模型能力,建構一個長期可擴展的技術與商業體系。從最直觀的層面看,這些公司的估值規模,與中國即將上市的大模型公司之間,已經形成了數量級上的差距。無論是 OpenAI 還是 Anthropic,其私募階段的估值,都遠高於當前中國大模型公司的市場定價水平。這種差距,並不完全來自模型能力本身,而更多反映出中美資本市場在看待 AI 時的結構性差異。在海外市場,資本對基座模型公司的投入,往往建立在極強的長期主義預期之上。巨額融資並不急於對應當期收入,而是默認模型能力需要在更長時間裡,通過平台化、生態化的方式逐步釋放價值。相比之下,在中國市場,真正敢於以類似尺度持續下注的,更多來自國資背景。這也是為什麼在進入 B 輪之後,智譜的融資結構中,國資逐漸佔據了更高比重。這種資本結構上的差異,直接影響了基座模型公司的商業路徑選擇。從商業模式看,海外基座模型公司普遍以雲端部署為核心,通過 API 或 token 計費的方式,將模型能力直接商品化。這種模式成立的前提,是市場願意在相當長的一段時間內,容忍高投入、低利潤甚至持續虧損,用以換取模型能力的擴散與鎖定。但這一模式,在中國環境中很難從第一天就順利走通。這不僅是大模型公司的問題,也是中國 SaaS 行業長期存在的現實約束:客戶對付費方式、價格體系和替代成本高度敏感,企業很難在早期完全依賴標準化的雲端收入生存。正是在這樣的背景下,智譜走出了與海外同行明顯不同的一條路。一方面,它同樣在強調 MaaS 和雲端呼叫,希望逐步向更標準化、更可複製的收入結構靠攏;但另一方面,它又不得不持續考慮現實的現金流問題,通過 ToB 和 ToG 場景下的定製化項目,支撐公司的長期運行。這種“拉扯式”的商業結構,決定了智譜無法像 OpenAI 或 Anthropic 那樣,將全部重心押注在雲端規模化之上。與此同時,海外基座模型公司所依託的基礎設施條件,也與國記憶體在顯著差異。例如,OpenAI 與軟銀、甲骨文等聯合成立的 Stargate LLC,計畫到 2029 年投資高達約 5000 億美元 用於 AI 基礎設施建設;Anthropic 則在 2025 年宣佈與 Microsoft、NVIDIA 建立戰略合作關係,承諾在 Microsoft Azure 上採購至少約 300 億美元 的算力服務。這類大手筆投入,為海外基座模型公司提供了相對穩定、長期可預期的算力供給。相比之下,中國大模型公司在基礎設施層面,很難獲得同等規模、同等確定性的長期支援,這也進一步強化了它們對現實收入的依賴。回到智譜自身,其面臨的問題其實已經相當清晰。多位接近智譜的人士向虎嗅透露,儘管智譜當前對外強調以 MaaS 為核心,但其 MaaS 收入仍高度集中於少數幾家大型網際網路公司,這些客戶合計貢獻了智譜 90% 以上的 MaaS 收入。這意味著,一旦這些公司選擇不再接入智譜的 MaaS 平台,其雲端部署收入將面臨極大的不確定性。在這種情況下,智譜幾乎不可能完全擺脫 ToB、ToG 定製化項目的支撐。而這條路徑,又很難向資本市場提供一個足夠清晰、可規模化複製的長期承諾。當然,這並非智譜一家公司的問題。更大程度上,它反映的是中國網際網路公司之間的合作環境、付費意願與生態結構所共同塑造的結果。也正因為如此,智譜未來的結局,並不取決於上市首日的漲跌,而取決於它能否在現實約束之下,儘量把自己拉回到一個更健康、更可持續的商業形態,即在不失去大客戶的同時,逐步降低對它們的依賴。這才是智譜真正需要跨過的那道門檻。 (虎嗅APP)