#小模型
BBC:中國是否正在悄然贏得人工智慧競賽?
Is China quietly winning the AI race?每個月,數億使用者湧入 Pinterest,尋找最新潮流。一個名為“最荒謬的事物”的頁面充滿了各種奇思妙想,可以激發創意人士的靈感。比如,用洞洞鞋改造的花盆、芝士漢堡形狀的眼影、用蔬菜做成的薑餅屋等等。但潛在買家可能不知道,這項技術背後的技術未必是美國製造的。Pinterest 正在試驗中國產的人工智慧模型,以改進其推薦引擎。“我們實際上已經把 Pinterest 打造成了一個人工智慧驅動的購物助手,”該公司老闆比爾·雷迪告訴我。當然,這位總部位於舊金山的潮流引領者可以利用美國眾多人工智慧實驗室在幕後提供支援。但自中國 DeepSeek R-1 型號於 2025 年 1 月推出以來,中國的人工智慧技術已越來越多地融入 Pinterest。Ready 將所謂的“DeepSeek 時刻”稱為一項突破。他說:“他們選擇開源,這引發了一波開源模型的浪潮。”中國競爭對手包括阿里巴巴旗下的Qwen和Moonshot旗下的Kimi,而TikTok的母公司字節跳動也在研發類似技術。Pinterest 首席技術官 Matt Madrigal 表示,這些模型的優勢在於,像他這樣的公司可以免費下載和定製這些模型——而美國競爭對手 OpenAI(ChatGPT 的製造商)提供的絕大多數模型並非如此。Madrigal表示:“我們用於訓練我們自己內部模型的開源技術比領先的現成模型精準率高出30%。”他表示,這些改進後的建議成本要低得多,有時比使用美國人工智慧開發人員偏愛的專有模型的成本低 90%。“快速且便宜”Pinterest絕非唯一一家依賴中國人工智慧技術的美國企業。這些模式正在眾多財富 500 強公司中獲得認可。Airbnb 老闆 Brian Chesky 在 10 月份告訴彭博社,他的公司“非常”依賴阿里巴巴的 Qwen 來為其 AI 客服代理提供支援。他給出了三個簡單的理由——“非常好”、“速度快”、“價格便宜”。在 Hugging Face 上可以找到更多證據,人們可以在那裡下載現成的 AI 模型——包括來自主要開發商 Meta 和阿里巴巴的模型。在該平台負責產品開發的傑夫·布迪爾表示,成本因素促使年輕的創業公司考慮採用中國模式而不是美國模式。“如果你看看 Hugging Face 上最熱門的模型——也就是社區下載量和點贊量最高的模型——你會發現,前十名中通常有很多都是來自中國工作室的中國模型,”他告訴我。“在某些周裡,Hugging Face 排名前五的訓練模型中有四個來自中國實驗室。”9 月份,Qwen 超越 Meta 的 Llama,成為 Hugging Face 平台上下載量最高的大型語言模型系列。Meta於 2023 年發佈了其開源 Llama AI 模型。在 DeepSeek 和阿里巴巴的模型發佈之前,它們被認為是開發定製應用程式的開發人員的首選。但去年發佈的 Llama 4 讓開發者們感到失望,據報導,Meta 一直在與阿里巴巴、Google和 OpenAI 合作,利用開源模型訓練一套新的模型,計畫於今年春天發佈。Airbnb 也使用多種模型,包括一些美國本土的模型,並將它們安全地託管在公司自身的基礎設施中。據該公司稱,這些資料絕不會提供給他們所使用的 AI 模型的開發者。中國的成功展望 2025 年,人們普遍認為,儘管美國科技公司投入了數十億美元,但中國公司正威脅著要超越它們。“情況已經不同了,”布迪耶說。“現在,最好的模式是開源模式。”史丹佛大學上個月發佈的一份報告發現,中國的人工智慧模型“似乎已經趕上甚至超越”了全球同類產品——無論是在功能方面,還是在使用人數方面。英國前副首相尼克·克萊格爵士在最近接受BBC採訪時表示,他認為美國公司過於專注於人工智慧的研發,而人工智慧或許有一天會超越人類智能。去年,尼克爵士卸任了Llama開發商Meta的全球事務主管一職。其老闆馬克·祖克柏已投入數十億美元,致力於實現他所謂的“超級智能”。一些專家現在稱這些目標模糊不清,沒有明確定義,這給了中國主導開源人工智慧領域的機會。“諷刺的是,”尼克爵士說。 “在中國和美國——之間的競爭中,中國正在‘努力使它們競爭的技術民主化’”。在世界的另一端,像 OpenAI 這樣的美國公司正面臨著增加收入和實現盈利的巨大壓力——現在它們正轉向廣告來幫助實現這一目標。該公司去年夏天發佈了兩款開源模型——這是多年來的首次。但它仍將大部分資源投入到專有模型的開發中,以幫助其盈利。OpenAI 的老闆 Sam Altman 在 10 月份告訴我,該公司已積極投資,以確保與合作夥伴達成更多的計算能力和基礎設施協議。“收入將會飛速增長,但你們應該預料到我們會投入大量資金用於培訓,用於下一代、再下一代、再下一代、再下一代,”他說。 (invest wallstreet)
Google4D世界模型來了,比SOTA快300倍!
Google DeepMind 發佈 D4RT,徹底顛覆了動態 4D 重建範式。它拋棄了複雜的傳統流水線,用一個統一的「時空查詢」介面,同時搞定全像素追蹤、深度估計與相機位姿。不僅精度屠榜,速度更比現有 SOTA 快出 300 倍。這是具身智能與自動駕駛以及 AR 的新基石,AI 終於能像人類一樣,即時看懂這個流動的世界。如果是幾年前,你問一位電腦視覺工程師:「我想把這段視訊裡的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界裡重建出來,並且還能隨時知道它們下一秒會去那兒,需要多久?」他大概會遞給你一根菸,讓你先去買幾塊頂級顯示卡,然後給你畫一個由四五個不同模型拼湊起來的流程圖:先算光流,再算深度,再估相機位姿,最後還得用一晚上的時間去跑最佳化,祈禱結果別崩。但Google DeepMind 剛剛發佈的 D4RT(Dynamic 4D Reconstruction and Tracking),試圖終結這種混亂。這篇論文在電腦視覺領域扔下了一枚關於「效率革命」的重磅炸彈。它把原本割裂的 3D 重建、相機追蹤、動態物體捕捉,統一成了一個極簡的「查詢」動作。更重要的是,它的速度比現有 SOTA技術快了 18 到 300 倍。如果在你的認知裡,高品質的 4D 重建還是好萊塢特效工作室裡那些昂貴且緩慢的渲染農場,耗費漫長的時間等待生成完畢,那麼 D4RT 正在把這種能力變成一種可以塞進機器人大腦甚至 AR 眼鏡裡的即時直覺。Demo 演示為了理解 D4RT 到底做到了什麼,我們需要先看一眼它眼中的世界。在論文展示的演示中,最直觀的震撼來自於對「動態混亂」的駕馭能力。想像一下這個畫面:一隻天鵝在水面上劃過,或者一朵花在風中快速綻放。傳統的 3D 重建演算法(比如 MegaSaM 或 )處理這種場景通常是一場災難——因為它們假設世界是靜止的,所以它們往往會在 3D 空間裡留下一串「重影」,就像老式膠片重疊曝光一樣,天鵝變成了長著幾十個脖子的怪物,或者花朵直接變成了一團無法辨認的噪點。但 D4RT 給出的結果極其乾淨。它不僅可以精準還原天鵝的 3D 形態,還完美剝離了相機的運動和天鵝自身的運動。在它的視野裡,時間變成了一個可以隨意拖動的滑塊。更令人印象深刻的是它的全像素追蹤能力。你可以點選視訊中花瓣上的任意一個像素,D4RT 就能畫出這個點在過去和未來的完整 3D 軌跡,那怕這個點在中間幾幀被蜜蜂遮擋了,或者跑到了畫面之外,模型依然能根據上下文「腦補」出它的去向。這種視覺效果給人的感覺是:AI 不再是在一幀幀地「看」視訊,而是把整段視訊吞下去,在大腦裡生成了一個完整的、流動的全息全景圖,然後你可以隨意從任何角度、任何時間去檢視它。模型能力對比圖拆解「神話」是真的快,還是文字遊戲?科技公司發論文,資料通常都很漂亮。作為觀察者,我們需要剝離 PR 濾鏡,看看資料背後的定語。Google聲稱 D4RT 比之前的 SOTA 快了 300 倍,處理一分鐘的視訊只需要 5 秒鐘。這是真的嗎?答案是:在特定維度上,是真的。這裡的「300倍」指的是吞吐量,具體來說是「在保持相同影格率(FPS)的前提下,模型能同時追蹤多少條 3D 軌跡」。資料對比:在 24 FPS 的標準電影影格率下,之前的強者 SpatialTrackerV2 隻能同時追蹤 84條軌跡,再多就卡了;而 D4RT 可以輕鬆處理 1570條。如果是和 DELTA 這種更慢的模型比,那就是 314 倍的差距。實際意義:這意味著之前的技術可能只能盯著畫面裡的主角(比如一個人),而 D4RT 可以同時盯著背景裡走動的路人、飄落的樹葉和遠處的車流——即所謂的「全像素級感知」。它比同類技術強在那兒?目前市面上的 4D 重建技術主要分兩派:「拼裝派」(如 MegaSaM):把深度估計、光流、分割等多個現成模型串起來。雖然效果不錯,但不僅慢,而且一旦一個環節出錯(比如光流飄了),後面全完。「多頭派」(如 VGGT):雖然是一個大模型,但為了輸出不同的任務(深度、位姿、點雲),需要掛載不同的解碼頭,結構臃腫。D4RT 的牛,在於它做到了架構層面的統一。它不需要為深度單獨做一個解碼器,也不需要為位姿單獨做一個。它只用同一個介面解決所有問題。有沒有代價?當然有。D4RT 的「快」主要體現在推理階段。在訓練階段,它依然是一個龐然大物。它的編碼器使用了 ViT-g,擁有 10 億參數,並且需要在 64 個 TPU 晶片上訓練兩天。這絕不是普通開發者在自家車庫裡能復現的玩具,它是典型的「大廠重武器」。技術解碼 把 4D 重建變成「搜尋引擎」那麼,D4RT 到底是怎麼做到的?論文的核心邏輯可以用一句話概括:先全域「閱讀」視訊,再按需「搜尋」答案。不再逐幀解碼,而是「全域記憶」傳統的視訊處理往往是線性的,處理第 10 幀時可能已經「忘」了第 1 幀的細節。D4RT 的第一步是使用一個巨大的 Transformer 編碼器(Encoder),把整段視訊壓縮成一個全域場景表徵(Global Scene Representation, F)。你可以把這個 F 想像成 AI 對這段視訊形成的「長期記憶」。一旦這個記憶生成了,原本龐大的視訊資料就被濃縮在了這裡。「那裡不會點那裡」的查詢機制這是 D4RT 最天才的設計。它發明了一種通用的查詢(Query)語言。當 AI 想要知道某個像素的資訊時,它會向解碼器(Decoder)傳送一個查詢 q:這個公式翻譯成人話就是:平行計算的藝術因為每一個查詢(Query)都是獨立的,D4RT 不需要像穿針引線一樣按順序計算。它可以一次性扔出幾萬個問題,利用 GPU/TPU 的平行能力同時算出答案。這就是為什麼它能比別人快 300 倍的根本原因:它把一個複雜的序列幾何問題,變成了一個大規模平行的搜尋問題。關鍵的「作弊」技巧:9x9 Patch論文作者還發現了一個有趣的細節:如果只告訴解碼器坐標點,AI 有時候會「臉盲」,分不清紋理相似的區域。於是,他們在查詢時順便把那個像素點周圍 9x9的小方塊圖像(RGB Patch)也喂給了模型。這就像是你讓人在人群中找人,光給個坐標不行,還得給他一張那個人臉部的特寫照片。消融實驗證明,這個小小的設計極大地提升了重建的銳度和細節。產業影響 Google的野心與具身智能的眼睛D4RT 的出現,對Google現有的業務版圖和未來的 AI 戰略有著極強的互補性。具身智能與自動駕駛的最後一塊拼圖現在的機器人之所以笨,很大程度上是因為它們「看不懂」動態環境。一個掃地機器人能避開沙發,但很難預判一隻正在跑過來的貓。D4RT 提供的即時、密集、動態的 4D 感知,正是機器人急需的技能。它能讓機器人理解:那個東西不僅現在在那裡,而且下一秒它會出現在我左邊。對於自動駕駛而言,這種對動態物體(如行人、車輛)的像素級軌跡預測,是提升安全性的關鍵。增強現實(AR)的基石Google一直在 AR 領域尋找突破口(從當年的Google眼鏡,到現在的 Project Astra)。要在眼鏡端實現逼真的 AR,必須要有極低延遲的場景理解。D4RT 展示的高效推理能力(尤其是在移動端晶片上的潛力),讓「即時把虛擬怪獸藏在真實沙發後面」變得在工程上可行。對普通人的影響 視訊編輯的「魔法化」對於普通使用者,這項技術最快落地的場景可能是手機相簿和視訊編輯軟體。想像一下,你拍了一段孩子踢球的視訊。有了 D4RT,你可以像在《駭客帝國》裡一樣,在影片播放過程中隨意旋轉視角(儘管你拍攝時並沒有移動),或者輕易地把路人從複雜的背景中「扣」掉,甚至改變視訊中光源的方向。這是 D4RT 這種 4D 重建技術成熟後的應用之一。結語D4RT 讓我們看到了一種新的可能性:AI 對世界的理解,正在從二維的「圖像識別」跨越到四維的「時空洞察」。它告訴我們,要看清這個流動的世界,關鍵不在於每一幀都看得多仔細,而在於如何建立一個能夠隨時回應疑問的全域記憶。在 AI的眼中,過去並沒有消逝,未來也不再不可捉摸,它們只是同一個四維坐標系裡,等待被查詢的兩個不同參數而已。 (新智元)
黃仁勳談過去一年AI模型的三大突破
當地時間1月21日,輝達CEO黃仁勳在達沃斯論壇上談到過去一年AI模型的三大突破。“去年AI模型層發生了三件大事。第一,模型剛開始出現時還有很多幻覺,但在去年,這些模型可以應用在研究領域了,能在沒有受過相關領域訓練的情況下進行推理、計畫並回答問題,出現了Agentic(代理式AI)。”黃仁勳表示,第二個重大突破來自開源模型,首個開源推理模型DeepSeek的推出對大多數行業和公司而言都是一個重大事件,自那時起,開源推理模型生態開始繁榮,很多公司、研究機構、教育從業者都能利用開源模型做一些事情。黃仁勳表示,第三個取得巨大進展的領域是物理AI,物理AI不僅能理解語言,還能理解物理世界,例如理解生物蛋白質、化學、物理。在物理領域,AI能理解流體動力學、粒子物理、量子物理。“去年是不可思議的一年,因為AI模型取得如此大的進步。在應用層面,AI已經可以在金融服務、醫療保健、製造業等場景使用,由此產生經濟利益。風險投資的資金去向是一個重要指標。2025年是風險投資的投資規模最大的年份之一,大部分資金流向了AI原生公司,其中一些是醫療保健公司、機器人公司、製造業公司、金融服務公司。”黃仁勳表示。與此同時,黃仁勳談到,人類歷史上最大規模的AI基礎設施建設已在進行,業內現已投入了幾千億美元,還有價值數兆美元的基礎設施需要建設。黃仁勳稱,這種規模的AI基礎設施建設是合理的,因為AI需要處理很多上下文資訊以便產生足夠的智能,來驅動上層的應用程式。這種AI基礎設施建設熱潮也帶動相關產業建設。黃仁勳表示,晶片領域,台積電剛宣佈建設20座新的晶片工廠,此外,與輝達合作的富士康、緯創、廣達將建設30座新的電腦工廠,美光等記憶體廠商也在進行相應投資。“可以看到,現在AI產業在晶片層面的增長令人難以置信。”他表示。黃仁勳也談到AI給人類工作帶來的改變。他表示,AI基礎設施建設過程中將創造大量就業機會,例如需要水管工、電工、建築工人、網路技術人員。針對人們對AI取代人類工作的擔憂,黃仁勳則舉了一個例子:10年前,人們認為放射學相關職業將被淘汰,原因是AI計算視覺可以替代這部分工作,但10年過去,AI已滲透到放射學的各個方面,放射科的醫生反而增加了,因為醫生可以利用AI更高效工作,醫院能接待的病人數量也增加了。黃仁勳表示,類似的過程也發生在護士群體中,當AI提高了工作效率,美國護士人數短缺導致的問題得到瞭解決。黃仁勳還呼籲,人們應該積極使用AI。“每個國家都應該參與到AI基礎設施的建設中。AI的易用性可能會縮小各個地方的技術鴻溝。現在AI不再那麼難訓練,將開源模型結合各地的專有知識就能建立有用的模型。”黃仁勳稱,使用AI非常容易,現在沒有電腦學位的人也能成為程式設計師,開發中國家的人們、學生群體也應該學習使用AI、指導AI、評估AI。黃仁勳還談到AI泡沫爭議。他表示,評估AI泡沫是否存在可以看GPU的使用情況。實際情況是,輝達有數以百萬計的GPU在支撐雲端運算,現在要租用一塊輝達GPU並非易事。在需求帶動下,GPU租賃價格正在上漲,價格上漲的不僅是最新版本的GPU。計算需求增加的原因是AI公司的數量正在增加,且一些公司有很多經費投入AI。 (第一財經)
万鑫智投:让AI成为每个人的“首席投资官”
在全球金融市场波动加剧、分化显著的今天,绝大多数投资者面临一个根本性难题:如何在不依赖个人天赋与持续情绪消耗的前提下,获得长期、稳健的超额回报?过去,答案往往是雇佣顶级基金经理、组建专业投研团队,以机构化能力应对市场不确定性。然而,这对普通投资者而言门槛极高。近年来兴起的“跟单社交”“策略超市”等模式虽降低了参与门槛,却常陷入业绩不稳定、风险不透明、策略同质化等困境,投资者仍难以摆脱“情绪博弈”的宿命。困境:当工具升级不再是答案移动互联网与金融科技的上一发展阶段,本质解决的是“连接”问题——打通投资者与信息、市场及交易工具的壁垒。行情软件、资讯推送、交易终端迅速普及后,交易“入口”变得空前便捷。但现实并未如愿。连接并未自动转化为能力,反而在一定程度上放大了新的风险:信息密度与交易便利性提升后,投资者更容易陷入过度交易与情绪波动的怪圈,追涨杀跌、频繁切换策略、低胜率博弈频发……工具的迭代,并未带来收益的实质性改善。这正是当下财富管理领域的核心矛盾:信息更充分、市场更高效,个人投资者的盈利胜率却未同步提升。核心原因在于,机构化能力从不依赖信息量堆砌,而源于一套系统能力的协同发力:数据层面,需依托长周期、多市场、多维度数据开展模型训练与验证;纪律层面,要将交易执行从人的情绪中彻底剥离;风控层面,则需在极端行情中牢牢守住本金安全与风险边界。换言之,市场真正需要的不是“更多信息”,而是一套全新范式:将机构级能力转化为普通投资者可便捷使用的标准化服务,并使其具备持续适配市场动态变化的内在能力。新范式:AI作为“首席投资官”的崛起总部位于香港的万鑫智投,以“AI智能全品类聚合交易平台”为定位,提出一种更工程化的财富管理路径:以自研 AI 交易大模型为核心,通过“AI托管”机制,让 AI 成为用户的“首席投资官”,帮助用户在全球多市场环境中更高效地执行策略、控制风险,减少情绪干扰与人为误判。依托千万级 K 线数据训练,AI 模型可实现 7×24 小时扫描全球全品类市场,涵盖股指、商品、外汇、数字货币等核心资产。其核心逻辑并非预测单一资产涨跌,而是识别跨市场、跨品类的相对价值变化与套利机会,动态构建并调整投资组合,持续追求最优风险收益比,从根源上分散单一资产波动风险。在策略层面,平台搭建了包括强 CTA 策略在内的专业化策略库。以黄金期货这一验证路径最充分的核心标的为例,模型利用其参与者结构相对清晰、趋势性与避险属性突出的特点,执行高胜率量化交易。所有策略均经过严格历史回测与实盘验证,且具备动态自适应能力,可实时响应市场风格变化。而在风控层,系统构建了独立且完整的安全防线:预设动态风险阈值,极端行情中可自动触发减仓、平仓等应急响应;同时,与持牌券商的独立客户资产托管体系深度绑定,实现策略风险与资金安全的双重隔离与管控。对用户而言,投资流程被极致简化:无需参与繁琐的市场分析与操作执行,仅需确定“投入金额”与选择“投资策略”即可启动,最低100美金起投,大幅降低了全球化资产配置的专业门槛与操作复杂度。十年深耕:以数据积淀与合规落地筑牢根基当 AI 进入财富管理领域,单纯的技术能力并不足够,合规框架与交易基础设施是规模化发展的关键支柱。与许多诞生于短周期流量红利的金融科技平台不同,万鑫智投的成长更像一场注重内功的“慢长跑”:2013年:启动美黄金期货高频交易数据的系统性收集,搭建基础数据仓库;2015年:初代量化模型上线,完成趋势预测与仓位回测;2018年:引入机器学习,实现“自适应策略切换”,提升模型应变能力;2020年:面向核心用户内测AI策略,年化收益显著领先市场;2022年:联合香港主板上市公司及持牌券商成立运营实体;2023年:获香港证监会(SFC)1、2、4、5、9类牌照,产品正式开放;2025 年:平台用户突破 3 万人,托管资产稳步增长。平台的稳健发展,亦离不开其构建的顶级战略生态支撑:核心股东中国智能科技提供治理与合规框架;新加坡INTERNATIONAL基金会注入全球资源与科技视野;民锋金融筑牢全牌照合规与服务基础;瑞银集团为外汇品类提供核心流动性;并与HKEX/NYSE等交易所直连,保障了港股、美股及衍生品交易的高速与稳定。生态共建:投资者与AI的“协同进化”更值得关注的,是万鑫智投所构建的商业闭环。不同于传统资管产品“单向供给”的逻辑,其模式强调投资者与AI的协同进化:用户使用平台产生的真实交易数据,将持续反哺AI大模型,驱动其学习、迭代与优化;而模型升级后创造的更优回报,又会吸引更多用户加入,从而形成 “数据赋能AI→AI优化策略→策略创造回报→吸引更多资本与数据” 的增强循环。在这一模式下,用户不再是单纯的服务使用者,更是生态的共建者——每一次投资行为,都在为整个生态的“集体智慧”添砖加瓦,最终实现平台与投资者的长期共生、价值共赢。万鑫智投通过AI技术将机构级量化能力产品化,打破了专业壁垒,让普通投资者得以便捷、纪律化地参与全球资产配置。这不仅是一次财富管理效率的范式飞跃,更是对“信任、托付、共生”商业伦理的一次深刻重塑。十年积淀之后,万鑫智投已进入关键发展阶段。它要证明的,不再是“AI能否交易”,而是——AI能否成为长期可信赖的资产管理方式,真正让普通投资者享有机构级的收益能力。这场范式革命,才刚刚开始。
Google剛掀了模型記憶的桌子,輝達又革了注意力的命
近期,Google的 Nested Learning 引發了一場模型界的記憶地震。很多人重新意識到,大模型不必永遠是「訓練完就封存」的唯讀權重,它也可以在推理過程中繼續變化。在 Nested Learning 裡,當模型讀到新的上下文時,它不只是把文字塞進注意力的快取裡臨時翻找,而是允許自己在推理過程中更改參數,讓新資訊變成它內部記憶的一部分。但就在人們還在消化這個想法時,輝達在2025年12月28日給出了一個更激進的答案,一篇名為《End-to-End Test-Time Training for Long Context》的論文。Google的記憶增強路線,還在努力解決記憶問題,把過去重要的東西保存得更完整。但輝達的研究人員則認為,記憶其實就是學習,「記住」就是「繼續訓練」。就像人不會記得小學時的課文字句,但像《豐碑》這種文章當時給我們的感受,會深深塑造我們之後的價值觀。輝達和史丹佛的研究者們相信,AI也應該這樣工作。01. 用學習,替代注意力式的記憶如果沿著時間線往回翻,你會發現 TTT(test-time training)並不是憑空出現的發明。早在2013年,Mikolov 等人就在語言模型裡嘗試過 dynamic evaluation。當時放的是讓模型解除凍結,在測試文字上繼續用下一詞預測的交叉熵損失 CE(也就是我們最經常理解的大語言模型的參數學習損失目標)做小步梯度更新,讓參數對當前文體、主題、局部統計規律發生適應。Krause 等人在 2018 年把它完善得更系統,更可行。也就是說,在大語言模型的早期,大家已經發現了模型在推理時動參數,即不違背語言建模的基本邏輯,甚至能帶來收益。在分析Nested Learning時候,大家都在討論記憶力的革新。但很少人會注意到它在上下文這個語境下,對注意力層的替代。但TTT-E2E 的出現,更明確的提出這個可能性。過去十年,Transformer 的輝煌建立在很大程度建立在注意力機制上。它把讀過的每一句話都做成索引(KV Cache),每次回答問題都要回過頭去精準翻閱舊書 。這種機制精確,但非常耗費記憶體。因此也有了各種群組注意力、線性注意力的改良方針,試圖壓縮其記憶體佔用,提升模型的上下文長度。而TTT的方案,則是直接放棄通過「內化」(權重更新)知識,來解決上下文處理的問題。無論上下文多長,它的推理狀態大小和計算量都是永遠不變的。因此在TTT家族中,不論上下文如何增長,其Latency(生成延遲)都不會有任何變化。這是TTT帶來的,足以在推理階段替代的注意力的核心能力:無延遲的記住近乎無限的上下文。但dynamic evaluation 那條線一直沒真正變成主流部署範式。這是因為它當時在工程上還很稚嫩,很難被有效地使用。這裡的主要Gap存在於訓練階段和推理階段無法對齊。訓練階段最佳化的是「凍結參數時開箱即用的表現」,卻沒有把「推理時將進行若干步更新」這件事當作模型行為的一部分寫進目標函數。這就導致工程現實中充滿了不穩定性,模型在沒有約束的情況下持續更新,災難性遺忘(學新的忘了舊的)、參數漂移(模型參數分佈變得很怪)、對異常片段的過擬合(會重複說奇怪話)就會變成默認風險。早期方法能緩解的手段主要是「小學習率、少步數、勤重設」,它們能讓系統勉強可用,但也幾乎把 TTT 鎖死在“短暫適應”的尺度上,很難發展成真正的長期記憶。而Nested Learning / Titans所做的,正是把這套邏輯從架構層面上變得可行。通過分開不同更新頻率的層級,讓各層獨自更新這種方式,穩定了參數更新。這也讓TTT從短微調發展成長期內部記憶的方式。因此,我們可以說它帶來了穩定的長程記憶更新方式。不過這是有代價的。輝達在論文裡把Nested Learning、Titans 這一支,歸到 TTT‑KVB 上。因為它們的更新目標其實和傳統TTT有些不同。它們更像是在教模型「怎麼存」,而不是直接教它「怎麼預測」。我們都知道,大語言模型的最終目標是「預測下一個token」,這是原初的學習目的。而Nested Learning的更新目標通常是讓模型從某種壓縮表示(如 key)重構出對應的 value,或者讓隱狀態在層內自洽地演化,這些都是為了建構可快速索引的內部記憶結構。這樣做確實可以間接幫助語言模型完成任務,因為更好的內部關聯記憶可能帶來更好的預測。但它與最終目標之間始終隔著一層距離。而輝達提出的TTT‑E2E 則更像最原初的dynamic evaluation,它的測試時更新目標就是整個網路末端的下一詞預測交叉熵 CE。為了做到只有一個目標,這個方法端到端的,不分層,從頭到尾只更新這一個CE。當損失函數就是最終任務本身時,模型在上下文裡學到的任何東西,都更直接地最佳化了後續預測。與模型的最終目標完全對齊。為了把這個差別說明白,他們在論文裡設計了一個「玩具模型」,在Transformer中移除了所有的自注意力層,只留下多層感知機(MLP)。這基本上把模型降級成了一個只能記住前一個詞的「二元語法模型」(bigram),在這種設定下,任何長程記憶能力都不可能來自注意力或快取,只能來自「你在測試時更新權重,把上下文壓進參數」這件事本身。然後在測試時,他們讓模型在讀到 x1 ,x2 ,x3 ,… 時不斷做練習:用 xt−1 預測 xt ,計算 CE,並對這個損失做一次小步梯度下降。這像是一個只能看清腳下一米的探險者,只能憑剛邁出的那一步來猜下一步。而你需要穿越一個10公里的洞穴(歷遍所有上下文及更改)。每走一步,你會先預測"根據我的方向感,下一步我應該看到岩石還是水坑?"然後走一步,看預測對不對。如果錯了,你就調整身體的姿態和步伐(梯度更新)。在「預測—糾正—調整」的循環裡改變了你的「肌肉記憶」(權重)走到第1000步時,你雖然看不到第1步那裡的巨石,但那塊巨石的資訊已經編碼在你此刻的步態、重心和方向感裡了。它通過999次的「預測-糾正-調整」傳遞下來,融入了你的身體。結果,這個沒有任何注意力快取的模型,靠著「訓練對一下詞的預測」這個目標Loss 曲線(藍色)隨著閱讀長度的增加迅速下降 。它幾乎緊貼著全注意力 Transformer 的曲線(橙色線)。這意味著,它單純靠修改自己的神經網路參數(MLP權重),就完美編碼了上下文資訊,達到了和把所有字都存下來(Full Attention)幾乎一樣的效果。相比之下,TTT‑KVB 的設計初衷是作為一個自注意力層的直接替代品。它的核心思想仍然是「鍵值繫結」(Key-Value Binding)。也就是說,它雖然不用傳統的注意力機制去 儲存 KV Cache,但它試圖用神經網路去學習 Key 和 Value 之間的對應關係。這就像希望把洞穴每塊石頭都畫在地圖上,去隨時呼叫。甚至巨石的紋理這種和走出洞穴無關的資訊也會畫進去。它的訓練效率相對就比較慢。論文在過渡實驗結果中證明了這一點。研究人員把 TTT‑KVB 的層內鍵值繫結這個目標取代為預測端到端的 next-token 目標後,語言建模的評估 loss 明顯下降。從實驗資料看,這個改變確實帶來了實質性的提升。在760M參數的模型上,TTT-KVB在8K上下文的loss為2.818,而將其簡化版本改用next-token prediction損失後(TTT-E2E all layers MH),loss降至2.806。這提升的0.012,在語言模型評估中其實是顯著的差距。這說明了,經過端到端的改造,模型對於預測下一個token這件事確實更確信,更擅長了。而且長上下文能力真的可以純靠測試時學習獲得,而不必依賴注意力快取。在這個邏輯下,記憶不再被設計成一套儲存結構,而被重新定義為一次持續發生的學習過程。記憶的價值不在於把過去保存得多完整,而在於它能否改變你下一步的判斷。但是,過去的dynamic evaluation的問題就在於沒有穩定的工程模式,既然要用一樣的思路,TTT‑E2E怎麼克服這些問題呢?這正是輝達接下來要做的第二件事:用元學習與一整套工程護欄把這種端到端的測試時學習做成穩定、可擴展的上下文記憶系統。02. 元學習的迴響,和工程的穩定元學習,這個概念和實踐實際上也出現的很早。其中有一支顯性元學習的想法一直到去年發佈的Deepmind DiscoRL 都被繼承著。這就是2017 年Finn 的 MAML體系。它是由內外兩個循環巢狀而成,內循環負責適應學習(梯度下降),外循環負責把適應學習變得更有效(學習梯度的梯度)。這樣,外面那層循環更像是對內循環步驟的反思,通過它,就可以學會如何高效的學習。TTT‑E2E所做的,正是利用這一套元學習的體系,幫助它去穩定端到端的資料。輝達的研究人員認為,過去dynamic evaluation的問題,主要在「訓練-測試不匹配」上。如果只用傳統方式訓練一個凍結的語言模型,然後在測試時突然要求它邊讀邊更新參數,那整體肯定穩定不了,災難性的漂移、遺忘都是常事。因此,訓練階段就要把測試階段的學習流程包含進去,讓模型在出廠時就習慣在推理時繼續學。這就是元學習入場的時候。它要在訓練時幫助模型學會怎樣更新自己,才能更會回答接下來的問題。具體的操作,就是利用元學習,讓模型自己找到最適合推理時更新的初始參數W0。把它寫成更直觀的過程,就是兩段循環套在一起。內循環:就是模型讀到一段上下文時,給出下一個詞的猜測。然後立刻對照實際上出現的下一個詞,去更新自己的參數。這和傳統的下一個token 預測模型的訓練一致。外循環:是在訓練階段給內循環反覆模擬「上崗狀態」。它給內循環的模型很多段文字,讓它按同樣的復盤方式做幾次小校正,然後檢查校正之後,內循環後面的預測是不是確實更準、更穩。只有當內循環的參數更新真的帶來收益時,外循環才獎勵它,如果這種更新方式會造成漂移或遺忘,外循環就懲罰它。久而久之,模型學到了一種更合適的出廠狀態。帶著這些初始參數去上崗,內循環的小校正(梯度更新)就不容易把自己改壞。外循環的教師,在這裡學到的是在測試時更新中,那些方向的梯度更新是穩定的(防止梯度爆炸),那些更新能在不破壞通用能力的前提下快速吸收上下文規律(防止災難性遺忘),那些初始化讓同樣的學習率、同樣的步數能產生更可靠的收益(提升訓練效率)。再把這些都融合到模型初始的參數里。一個元學習,直接讓模型自己解決核心的工程困境,使得端到端的模式變為了可能。但這僅僅是可能,並不是達到了穩定。為了進一步確保工程上的可能性,TTT‑E2E還是在工程中做了多重折中的安全閥。第一個安全閥是 mini‑batch 化和滑動窗口注意力。理論上講,在測試時每讀一個 token 就更新一次參數,是最細粒度、最完美的線上學習,但它可成本太高了。但每次給他的的token batch太大,模型又根本沒有短期記憶,那麼它在更新之前對一個batch裡吼main的 token 就根本記不住,梯度也會越來越錯。所以,TTT‑E2E一方面把batch的大小做到相對較小。而且還保留滑動窗口注意力作為短期記憶的方法。窗口注意力像手電筒,保證你在一個更新塊內至少還看得見最近的上下文,從而讓 block 內的預測不至於崩壞。論文明確提出了一個窗口大小和batch大小的規範,即窗口大小 k 最好不小於測試時更新的塊大小 b,否則你會在塊內變回「局部失憶」的模型。第二個安全閥,目標是防止。他們沒有非常激進的把所有層都改成TTT層。而是凍結了 embedding、歸一化和注意力層,只更新 MLP。並且每次不更新整個神經網路,只更新最後 1/4 的 blocks。這樣底層的通用語言能力、注意力的讀寫通道保持不動,TTT只在上層做一種可控的學習模組。為了進一步防止線上更新把預訓練知識沖掉,他們還在可更新的 blocks 裡加了一套靜態的第二 MLP。有一套MLP 負責寫入當下上下文,另一套負責保住出廠能力。這是在結構上給災難性遺忘劃了一片隔離區。參數可以漂移抹去過去的記憶,但只能在一塊被圈起來的可寫區裡漂移。當這些部件拼好時,TTT-E2E終於實現了最早版本TTT未竟的目標,為它帶來了完整的工程化軀體。那麼它的結果如何呢?03. 用Loss證明自己我們看模型訓練效果,最主要的是看模型的loss變化。loss 指的是語言模型在下一詞預測任務上的平均損失,一般就是上面說的交叉熵CE的大小。它越小,說明模型預測越準。而在記憶中,則是看loss在上下文中的變化。如果 loss 在更長上下文裡持續下降,說明模型確實把更早的資訊用起來了,預測的更好了。反之,如果上下文變長但 loss 不降反升,說明資訊雖然記住了,但沒用,屬於學而不思則惘了。在這一項上,TTT‑E2E的優勢非常明顯。當上下文一路加到 64K、128K時,其他類型的架構,比如Mamba 2、Gated DeltaNet 這些線性時間模型就開始掉隊了,甚至連 TTT‑KVB,在更長上下文裡也沒能把曲線拉回來。只有 TTT‑E2E 的線幾乎像釘住了一樣,從 8K 到 128K 沒有出現優勢稀釋的跡象。這說明別人是上下文越長越難學到,而TTT‑E2E 則是越跑越會用上下文。而且,它也延續了學習參數最大的優勢,就是成本壓縮。如果用全注意力,上下文越長,prefill 的延遲就會一路飆升,因為它每生成一步都要掃描更長的歷史。相反,SWA、RNN/SSM、TTT‑KVB、TTT‑E2E 的延遲幾乎是平的。它是靠學進去,而不是一直看著舊上下文去處理新的上下文的。在 H100 上,128K prefill 時,TTT‑E2E 大約比 full attention 快 2.7×。另一項,則是看Loss的收斂速度,Loss收斂的越快,說明模型越高效的在學習。在 32K 和 128K 兩種長度下,TTT‑E2E 是唯一一種在整個上下文範圍裡都能壓過 full attention 的方法,而且它的總體優勢有很大一部分來自序列更早的位置。這正是「學習而非儲存」發揮特長的地方。模型不是等到最後才靠記憶取回某個細節,而是從一開始就讓每一段上下文都在把模型推向更適合下一段預測的參數區域。它是在背書,更是在邊讀邊形成更適合這本書的閱讀習慣。當然,這種方法並非面面俱到。TTT‑E2E 在海底尋針這種需要精確檢索的測試上仍然被full attention碾壓,包括 TTT‑E2E在內的線性路線一直在長上下文檢索上表現並不好。這並不矛盾,當記憶被定義為「學習帶來的預測收益」時,它就更像壓縮和概括,而不是逐字存檔。對寫作連貫性、長文理解、風格約束這種任務,這種壓縮很划算。用學習壓縮換取長上下文的可擴展性,讓模型在 128K 這樣的尺度上既跑得動,跑得省,又確實變得更會預測。這就是TTT的核心意義之一。另外一個可能制約這種架構落地的因素,是訓練成本。即使有了各種最佳化,TTT-E2E的訓練延遲仍然比標準Transformer高出50-100%。這在學術研究的規模上可以接受,但當擴展到工業級的數兆token訓練時,這個額外成本就有點略高了。04. 回歸原初的學習,可能才更符合持續學習的期待Nested Learning 這場革命的意義,是再一次把「推理時更新」從過去的沉寂中帶入了當下的討論的範疇,讓持續學習找到了新發力點。TTT-E2E 的意義,不只是又一個長上下文方案,而是重新定義了記憶這件事。記憶不是把過去搬進現在,而是讓過去改變未來。在注意力機制因二次方成本而逼近物理極限的今天,這種'把資訊學進參數'的路線,可能是唯一能讓模型真正從百萬 token 上下文裡持續成長的工程答案。在一個上下文窗口越來越長、資訊越來越多、但人們越來越不願意為傳統注意力二次方成本買單的時代,這種把記憶當作學習、把學習當作壓縮的路線,可能會在相當長一段時間裡成為持續學習最現實的工程答案之一。它不一定無所不能,但它比當下的任何記憶方案都更接近我們對智能的本質期待:「不是記住一切,而是能從一切中學會變聰明」。 (騰訊科技)
【CES 2026】突發開源!NVIDIA 宣佈推出用於物理 AI 的全新開放模型、框架和 AI 基礎設施之深度洞察!
引言:CES 2026 引爆行業革命,機器人開發的“ChatGPT時刻”正式到來太平洋時間2026年1月5日,拉斯維加斯國際消費電子展(CES)現場,NVIDIA創始人兼首席執行長黃仁勳的一句“機器人開發的ChatGPT時刻已然到來”,為全球機器人產業定下了新的發展基調。當天,NVIDIA正式宣佈推出用於物理AI的全新開放模型、框架和AI基礎設施,同時展示了Boston Dynamics、Caterpillar、Franka Robotics等全球領先企業基於其技術打造的多款新型機器人與自主機器,涵蓋移動機械臂、人形機器人、工業作業裝置等多個品類。這一系列發佈並非孤立的技術更新,而是NVIDIA對機器人產業發展瓶頸的精準突破,更是對未來“專家級通用”機器人開發範式的全面重構。長期以來,機器人產業始終面臨三大核心痛點:一是缺乏理解物理世界的通用智能,傳統機器人依賴預設程序,難以應對動態環境變化;二是開發流程分散複雜,模擬與現實存在巨大鴻溝,技術迭代效率低下;三是軟硬體協同不足,AI算力與能效難以匹配機器人輕量化、高即時性的應用需求。NVIDIA此次推出的全端技術體系——從Cosmos與GR00T開放模型,到Isaac Lab-Arena模擬框架與OSMO計算框架,再到Blackwell架構驅動的Jetson T4000硬體模組,形成了覆蓋“模型-框架-硬體-生態”的完整解決方案,旨在打通機器人開發的全生命周期,加速新一代AI驅動機器人的規模化落地。本文將從技術核心解析、產業鏈重構影響、應用場景突破、產業趨勢展望四大維度,深度拆解NVIDIA物理AI技術體系的核心價值與行業變革意義。一、技術核心解析:物理AI如何重構機器人的“認知與行動”能力黃仁勳所言的“機器人開發的ChatGPT時刻”,核心在於物理AI技術的突破性進展。不同於傳統AI聚焦數字世界的資訊處理,物理AI的核心目標是讓機器理解物理世界的運行規律,具備感知、推理、規劃與行動的閉環能力,實現從“執行指令”到“理解並決策”的跨越。NVIDIA此次發佈的技術體系,正是圍繞這一核心目標建構的全端解決方案,其技術核心可拆解為“感知-推理-行動-訓練”四大核心模組。1.1 核心模型 Cosmos與GR00T建構物理AI的“認知大腦”要實現機器人對物理世界的理解,首先需要建構能夠建模物理規律、融合多模態資訊的基礎模型。NVIDIA此次推出的Cosmos系列與GR00T N1.6模型,分別解決了“物理世界認知”與“人形機器人全身控制”兩大核心問題,共同構成了物理AI的“認知大腦”。1.1.1 Cosmos系列模型:賦予機器人“物理直覺”傳統機器人的最大短板在於缺乏“物理直覺”——無法預判環境變化對自身動作的影響,也難以理解物體的物理屬性(如重力、摩擦力、材質特性等)。這導致機器人在執行簡單任務時,一旦遇到未預設的場景(如地面油污、物體重量變化),就容易出現失穩或任務失敗的情況。Cosmos系列模型的核心價值,正是通過生成式AI技術,讓機器人內化物理世界的基本規律,具備即時預測、跨場景遷移與多步推理的能力。Cosmos系列包含三大核心模型,形成了“感知-預測-推理”的認知閉環:NVIDIA Cosmos Transfer 2.5:作為轉換模型,其核心功能是打通模擬與現實的“域鴻溝”。傳統機器人訓練依賴大量真實場景資料,成本高昂且周期漫長,而模擬資料又因與現實環境差異過大,導致訓練出的模型難以直接遷移。Cosmos Transfer 2.5支援空間條件控制的風格遷移,可將Isaac Sim中的合成資料轉換為帶有真實世界噪聲、光照幹擾、鏡頭畸變的等效資料,同時保持物理參數不變;反之,也能將真實世界的稀疏資料增強為多樣化的模擬場景,大幅提升模型從模擬到現實的零樣本遷移成功率。相較於前代模型,其體積更小、運行更快,生成質量顯著提升,域間遷移的誤差累積大幅減少。NVIDIA Cosmos Predict 2.5:聚焦物理世界的即時預測,解決機器人的“快思考”問題。該模型融合Text 2 World、Image 2 World、Video 2 World等生成能力,可根據文字、圖像或視訊輸入,生成連貫的環境演化序列。與傳統電腦視覺模型逐幀處理像素不同,Cosmos Predict 2.5直接對物理狀態的演化軌跡進行推演,能夠在毫秒級內預測環境變化對機器人動作的影響。例如在“機械臂倒水”任務中,傳統方法需要複雜的流體動力學方程求解,難以滿足即時性要求;而Cosmos Predict 2.5通過學習海量物理視訊資料,可即時預測下一時刻的流體分佈與不確定性,為控製器提供“是否會濺出”的預判依據,支撐機器人的動態微調。NVIDIA Cosmos Reason 2:作為開放推理視覺語言模型(VLM),負責機器人的“慢思考”——跨時間尺度的理解、推理與決策。該模型引入了大語言模型中成熟的思維鏈(CoT)機制,並將其擴展到視覺-動作領域,能夠直接從圖像中理解語義與空間關係,完成多步任務分解與因果推理。在“清理廚房檯面”這類複雜任務中,傳統規劃器依賴預定義的PDDL(規劃域定義語言),難以應對場景變化;而Cosmos Reason 2可自主分解任務(如“先移開水杯→再擦拭油污→最後整理餐具”),並通過反事實推理預判不同動作的後果,主動規避高風險操作(如避免碰撞易碎物品)。這種將感知、推理與決策緊密耦合的能力,有效解決了傳統模組化架構中資訊層層傳遞的損耗問題。三者的協同邏輯清晰:Cosmos Predict 2.5提供即時物理狀態預測,支撐毫秒級的動態反饋;Cosmos Reason 2負責長周期的任務規劃與風險預判;Cosmos Transfer 2.5則打通模擬與現實的資料通道,為前兩者的訓練提供高品質資料支撐,形成“預測-推理-資料迭代”的認知閉環。1.1.2 GR00T N1.6:解鎖人形機器人的“全身控制”能力如果說Cosmos系列模型解決了機器人“認知世界”的問題,那麼Isaac GR00T N1.6則聚焦於“如何行動”,特別是為人形機器人提供開放式的推理視覺語言行動(VLA)模型,實現全身動作的精準控制與上下文理解。人形機器人的控制難度遠超傳統機械臂,其擁有數十個自由度,需要兼顧平衡、協調、精準操作等多重目標,傳統控制方法難以實現複雜動作的靈活適配。GROOT N1.6的核心突破在於兩大技術創新:一是採用MoE(混合專家)架構,實現“通專融合”的控制能力。該架構包含多個獨立的“專家”子網路,在處理不同任務時啟動對應的專家模組——例如理解自然語言指令時啟動“通用語言專家”,執行精密銲接時啟動“運動控制專家”,既保證了通用任務的適應性,又提升了專項任務的精準度。二是深度整合Cosmos Reason 2模型,強化上下文理解與推理能力。通過融合視覺語言推理與動作控制,GR00T N1.6可直接將人類自然語言指令轉換為全身協調的動作序列,例如將“把桌子上的檔案遞給我”拆解為“移動至桌前→識別檔案位置→調整姿態→抓取檔案→精準遞出”的連貫動作,無需人工編寫複雜的運動控製程序。目前,Franka Robotics、NEURA Robotics、Humanoid等企業已開始利用GR00T賦能的工作流,進行機器人新行為的模擬、訓練與驗證。Salesforce則通過整合Agentforce、Cosmos Reason與NVIDIA Blueprint,對機器人採集的視訊片段進行分析,將事件解決時間縮短了50%,充分驗證了該模型在提升任務效率方面的核心價值。1.2 支撐框架 Isaac Lab-Arena與OSMO打通開發全流程物理AI模型的落地,離不開高效的開發與訓練框架支撐。長期以來,機器人開發麵臨兩大流程痛點:一是模擬評估體系分散,基準測試依賴人工操作,難以實現規模化驗證;二是端到端工作流複雜,需要跨工作站、雲端等異構計算資源,協同難度大,開發周期漫長。NVIDIA此次發佈的Isaac Lab-Arena開源模擬框架與OSMO雲原生計算框架,正是針對這兩大痛點的精準解決方案,旨在實現“模擬-訓練-評估-部署”的全流程閉環。1.2.1 Isaac Lab-Arena:標準化模擬評估的“協作平台”模擬訓練是機器人開發的核心環節,其質量直接決定了機器人在真實環境中的性能。但當前行業缺乏統一的模擬評估標準,不同開發者採用不同的測試體系,導致技術成果難以對比,且模擬場景與真實環境的差異過大,大幅降低了訓練效率。Isaac Lab-Arena的核心目標是建構一個開放原始碼的協作系統,實現大規模機器人策略評估與基準測試的標準化。該框架的核心優勢體現在三個方面:一是模組化設計,其評估層與任務層通過與光輪智能的深度合作完成建構,支援靈活配置不同任務場景與評估指標;二是多基準相容,可直接對接Libero、Robocasa等業界領先的基準測試體系,實現測試流程的標準化,確保機器人技能在部署至物理硬體前具備穩健性與可靠性;三是開源協作,現已在GitHub上公開發佈,開發者可基於該框架共享測試場景、驗證演算法效果,加速技術迭代。1.2.2 OSMO:跨環境協同的“開髮指揮中心”機器人開發涉及合成資料生成、模型訓練、軟體在環測試等多個環節,需要跨越工作站、邊緣裝置、混合雲等多種計算環境,傳統開發模式下,各環節相互獨立,資源調度複雜,嚴重影響開發效率。OSMO作為雲原生編排框架,將機器人開發整合至單一易用的命令中心,實現了全流程的高效協同。OSMO的核心功能包括:一是跨環境工作流定義,開發者可通過統一介面,定義覆蓋多計算環境的工作流,實現合成資料生成、模型訓練、測試驗證的自動化執行;二是資源智能調度,根據不同環節的算力需求,自動分配工作站、雲端等資源,提升資源利用率;三是快速整合適配,現已開放使用,並被Hexagon Robotics等企業採用,同時整合至Microsoft Azure Robotics Accelerator工具鏈中,大幅降低了開發者的接入門檻。1.3 硬體基石 Blackwell架構驅動的邊緣AI算力革命物理AI模型的即時運行,需要強大的邊緣AI算力支撐。機器人尤其是人形機器人、移動作業裝置等,對硬體的輕量化、低功耗、高即時性提出了嚴苛要求。傳統邊緣計算模組難以平衡算力與能效,無法滿足複雜物理AI模型的運行需求。NVIDIA此次發佈的Jetson T4000模組與IGX Thor工業邊緣平台,基於Blackwell架構打造,實現了算力與能效的跨越式提升,為物理AI的邊緣落地提供了核心硬體支撐。1.3.1 Jetson T4000:機器人的“高效小腦”Jetson T4000是Blackwell架構下放至邊緣端的首款機器人專用計算模組,現已正式發售,千片起訂量下單價為1999美元,為Jetson Orin客戶提供了高性價比的升級路徑。相較於上一代Jetson AGX Orin,該模組在核心性能上實現了全方位突破:Jetson T4000的核心突破在於NVFP4 4位浮點精度推理技術。對於物理AI應用而言,感知環節的精度可適當降低,但決策與控制的即時性至關重要。該技術允許機器人在邊緣端直接運行複雜的VLA模型,無需依賴不穩定的雲端網路,既保證了即時響應,又提升了運行安全性。在70瓦的可配置功率範圍內,其可提供1200 FP4 TFLOPS的算力,足以支撐Cosmos與GR00T模型的即時運行,是能耗受限型自主系統的理想選擇。1.3.2 IGX Thor:工業邊緣的“安全算力核心”除了面向通用機器人的Jetson T4000,NVIDIA還宣佈IGX Thor將於2026年1月晚些時候上市,聚焦工業邊緣場景,提供高性能AI計算與功能安全保障。該平台將機器人技術擴展到工業生產、建築採礦等複雜邊緣環境,具備企業級軟體支援能力,可滿足工業級應用對穩定性、安全性的嚴苛要求。目前,AAEON、Advantech、ADLINK等眾多合作夥伴已推出搭載Thor的系統,覆蓋邊緣AI、機器人和嵌入式應用等多個領域。1.4 生態協同 NVIDIA與Hugging Face打通開源開發鏈路技術的規模化落地離不開生態的支撐。當前,機器人已成為Hugging Face平台上增長最快的領域,而NVIDIA的開放模型與資料集在該平台的下載量持續領先。為進一步加速開源物理AI的開發,NVIDIA與Hugging Face達成深度合作,將開放原始碼的Isaac與GR00T技術整合到領先的LeRobot開源機器人框架中,建構了“軟硬體一體化”的開源開發生態。此次合作的核心價值在於打通了兩大開發者社區:NVIDIA的200萬機器人開發者與Hugging Face的1300萬全球AI開發者,實現了技術、工具與資源的雙向流動。具體來看,GR00T N系列模型與Isaac Lab-Arena已正式上線LeRobot庫,開發者可直接基於該框架進行模型微調和策略評估;同時,Hugging Face開放原始碼的Reachy 2人形機器人與NVIDIA Jetson Thor機器人電腦實現完全互操作,可運行包括GR00T N1.6在內的任何VLA模型;Reachy Mini桌面機器人則與NVIDIA DGX Spark實現相容,支援開發者基於NVIDIA大語言模型及本地運行的語音、電腦視覺開放模型打造自訂體驗。這種開源生態的協同,大幅降低了機器人開發的門檻,讓中小企業與個人開發者能夠快速接入頂尖的物理AI技術,加速了創新應用的孵化。正如Hugging Face首席技術官所言:“與NVIDIA的合作將徹底改變開源機器人開發的格局,讓更多開發者能夠聚焦應用創新,而非基礎技術建構。”二、產業鏈重構:從“碎片化”到“生態化”的全鏈路變革機器人產業鏈傳統上呈現“上游高壁壘、中游低利潤、下游分散化”的碎片化格局。上游核心零部件(控製器、伺服系統、減速器)佔據工業機器人總成本的60%以上,利潤分配比例超過40%,但技術門檻高,長期被海外企業壟斷;中游整機製造依賴上游零部件,同質化競爭激烈,毛利率普遍偏低;下游應用場景分散,不同行業的需求差異大,難以形成規模化效應。NVIDIA此次發佈的全端技術體系,將通過“技術賦能-生態整合-成本最佳化”三大路徑,重構機器人產業鏈的價值分配與協作模式。2.1 上游核心零部件 AI驅動的技術升級與國產化機遇上游核心零部件是機器人產業的“卡脖子”環節,也是利潤最集中的領域。NVIDIA的物理AI技術體系,將對上游零部件產業產生兩大關鍵影響:一是推動零部件的“智能化升級”,二是為國產零部件企業提供彎道超車的機遇。在智能化升級方面,傳統零部件以“高精度執行”為核心目標,而物理AI時代的零部件需要具備“感知-反饋-協同”的智能能力。例如,伺服電機需要即時採集運動資料,並與AI模型協同調整參數,以適應動態環境下的動作需求;減速器則需要具備更高的動態響應速度,配合機器人的即時微調動作。NVIDIA的GR00T模型與Jetson硬體平台,為零部件的智能化升級提供了標準介面與算力支撐,推動上游零部件從“被動執行”向“主動協同”轉變。在國產化機遇方面,長期以來,國內零部件企業受制於核心技術不足,難以與海外巨頭競爭。而NVIDIA的開放模型與框架,降低了零部件企業的智能化研發門檻。例如,國內控製器企業可基於NVIDIA的CUDA架構與GR00T模型,快速開發具備物理AI能力的智能控製器,無需從零建構演算法體系。伺服系統企業可借助Jetson平台的算力,實現運動資料的即時分析與參數最佳化。同時,隨著國內機器人產業政策的支援(如廣西出台的機器人產業發展政策,對核心零部件企業給予最高300萬元的年度獎勵),國產零部件企業將在技術升級與市場拓展中獲得更多助力。此外,NVIDIA Jetson T4000的量產與普及,將帶動上游晶片供應鏈的發展。該模組採用的Blackwell架構晶片,其國產化替代(如封裝測試、配套元器件)將為國內半導體企業提供新的市場機遇,進一步完善機器人產業鏈的國產化生態。2.2 中游整機製造 從“組裝整合”到“應用創新”的價值躍升中游整機製造是傳統機器人產業鏈的“薄弱環節”,長期依賴上游零部件進口,以組裝整合為主,缺乏核心技術,毛利率普遍低於20%。NVIDIA的全端技術體系,將徹底改變中游整機企業的發展模式,推動其從“組裝商”向“應用解決方案提供商”轉型。首先,降低研發成本與周期。傳統整機企業需要投入巨額資金建構AI演算法、模擬平台與硬體適配體系,研發周期長達1-2年。而基於NVIDIA的Cosmos模型、Isaac Lab-Arena模擬框架與Jetson硬體,整機企業可直接復用成熟的技術模組,聚焦行業應用場景的定製化開發,研發周期可縮短至3-6個月,研發成本降低50%以上。例如,智元機器人基於NVIDIA技術推出的面向工業和消費行業的人形機器人,以及配套的Genie Sim 3.0模擬平台,正是借助NVIDIA的技術賦能,快速實現了產品落地與迭代。其次,提升產品競爭力。借助NVIDIA的物理AI技術,中游整機企業的產品將具備“通用智能”能力,能夠適配更多場景,擺脫同質化競爭。例如,NEURA Robotics推出的第3代人形機器人(由保時捷設計),基於GR00T模型與Jetson Thor平台,具備精細化控制能力,可同時適配工業裝配、服務接待等多個場景;Richtech Robotics的移動人形機器人Dex,借助NVIDIA的導航與操作技術,能夠在複雜工業環境中實現精細操作與自主導航,大幅提升了產品的市場競爭力。最後,推動商業模式創新。隨著產品競爭力的提升,中游整機企業將從“賣裝置”向“提供服務”轉型,例如通過機器人租賃、按效果收費等模式,提升客戶粘性與長期盈利能力。例如,智元機器人推出的國內首個機器人租賃平台“擎天租”,正是基於其技術領先的機器人產品,開啟了新的商業模式探索。2.3 下游應用場景 從“單一化”到“規模化”的全面滲透下游應用場景的分散化是制約機器人產業規模化發展的關鍵因素。傳統機器人主要應用於汽車製造、電子加工等少數標準化場景,而醫療、建築、消費等領域的應用相對有限。NVIDIA的物理AI技術體系,通過提升機器人的環境適應性與任務通用性,將推動下游應用場景從“單一化”向“規模化”全面滲透,尤其是在工業、醫療、建築採礦、消費四大領域實現突破性進展。在工業領域,機器人將從“固定工位操作”向“全流程協同作業”升級。例如,富臨精工工廠引入的近百台遠征A2-W機器人(基於NVIDIA技術),已實現與AMR的協同作業,自主完成周轉箱的搬運、轉移與精準放置,覆蓋三條不同裝配線,涉及20余種物料,承載重量提升至14千克,且未發生一起物料傾倒事故。隨著NVIDIA技術的普及,更多製造企業將實現“機器人+智能製造”的升級,推動工業機器人的規模化應用。在醫療領域,物理AI技術將推動手術機器人與輔助診療裝置的精準化升級。LEM Surgical借助NVIDIA Isaac for Healthcare和Cosmos Transfer模型,訓練Dynamis手術機器人(搭載Jetson AGX Thor與Holoscan),大幅提升了手術操作的精準度;XRLabs則利用Thor平台與Isaac for Healthcare,為手術內窺鏡提供即時AI分析支援,幫助外科醫生精準判斷手術部位,降低手術風險。這些應用將推動醫療機器人從“高端試點”向“常規應用”普及。在建築採礦領域,Caterpillar與NVIDIA的深化合作將推動自主作業裝置的規模化落地。建築與採礦行業屬於典型的“危險、骯髒、枯燥”場景,對機器人的需求迫切,但環境複雜,傳統裝置難以適配。Caterpillar將借助NVIDIA的物理AI技術,開發具備自主導航、精準作業能力的重型裝置,提升作業效率與安全性。在2026年1月7日的CES主題演講中,Caterpillar CEO Joe Creed與NVIDIA高管將披露更多合作細節,預計將推出多款基於Blackwell架構的自主作業裝置。在消費領域,人形機器人將從“高端玩具”向“家庭助手”轉型。LG Electronics發佈的全新家用機器人,基於NVIDIA技術,可執行各種室內家務,具備動態環境適應能力,能夠應對家庭中的複雜場景(如躲避障礙物、處理不同材質的物品);宇樹科技推出的小型人形機器人Unitree R1,起售價僅2.99萬元,借助NVIDIA的輕量化AI技術,實現了低成本與高智能的平衡,大幅拉近了與人消費市場的距離。2.4 價值分配重構 生態主導者引領的利潤再平衡隨著NVIDIA全端技術體系的普及,機器人產業鏈的價值分配將發生重大變化:從“上游零部件企業主導”向“生態主導者+應用創新者”共同主導的格局轉變。NVIDIA作為生態主導者,將通過“模型授權+硬體銷售+生態服務”獲取穩定的利潤回報;而中游整機企業與下游應用解決方案提供商,將通過場景創新與服務增值,提升利潤佔比;上游零部件企業則需要通過智能化升級,維持其利潤優勢。這種價值分配的重構,將推動產業鏈從“零和博弈”向“共贏發展”轉變。NVIDIA通過開放模型與框架,幫助上游零部件企業實現智能化升級,提升其產品附加值;中游整機企業借助NVIDIA技術推出高競爭力產品,帶動上游零部件的需求;下游應用場景的規模化落地,又將反哺中游整機與上游零部件企業的發展,形成良性循環。據行業預測,隨著這種生態化格局的形成,2027年將成為中國機器人產業的“大規模商業化元年”,整個產業鏈的規模將突破兆級。三、應用場景突破:物理AI技術的落地案例與價值驗證技術的價值最終需要通過應用場景來驗證。NVIDIA此次發佈的物理AI技術體系,已在工業、醫療、消費、建築採礦等多個領域實現落地,通過一系列標竿案例,充分驗證了其在提升效率、降低成本、保障安全等方面的核心價值。本節將重點解析四個典型應用場景的落地案例,深入探討物理AI技術的實際應用效果。3.1 工業製造 富臨精工的“人形機器人+智能製造”升級富臨精工是國內領先的汽車零部件製造商,其生產車間涵蓋多條裝配線,物料搬運、上料等環節傳統上依賴人工操作,存在效率低、誤差率高、勞動強度大等問題。為實現智能製造升級,富臨精工與智元機器人達成合作,引入近百台基於NVIDIA Jetson Thor與GR00T模型的遠征A2-W人形機器人,建構了“智能中樞平台+人形機器人+AMR”的協同作業體系。該體系的核心優勢在於三個方面:一是全流程自動化,智能中樞平台即時監控線邊物料剩餘量,當觸及預設水位線時,自動觸發配送任務,人形機器人與AMR協同作業,自主完成周轉箱的搬運、轉移與精準放置,無需人工干預;二是動態適應性強,借助NVIDIA Cosmos Reason 2模型的推理能力,人形機器人能夠應對車間內的動態環境變化,如躲避移動的工人與裝置、調整物料放置角度等;三是規模化擴展能力,從最初的1個搬運工位擴展至4個,覆蓋三條不同裝配線,涉及物料種類從4種增至20余種,承載重量從5-6千克提升至14千克,且線邊上料場景至今未發生一起物料傾倒事故。據富臨精工相關負責人介紹,引入該體系後,物料搬運效率提升了60%,人工成本降低了40%,同時物料配送的誤差率降至0.1%以下。這一案例充分驗證了NVIDIA物理AI技術在工業製造場景的規模化應用價值,為其他製造企業的智能化升級提供了可複製的方案。3.2 醫療健康 LEM Surgical的精準手術機器人訓練體系手術機器人是醫療領域的高端裝備,其訓練需要大量的臨床資料與模擬場景,但傳統訓練方式存在資料稀缺、風險高、周期長等問題。LEM Surgical作為專注於手術機器人研發的企業,借助NVIDIA Isaac for Healthcare和Cosmos Transfer 2.5模型,建構了高效的手術機器人訓練體系,用於其Dynamis手術機器人的研發與最佳化。Dynamis手術機器人搭載了NVIDIA Jetson AGX Thor與Holoscan平台,具備高精度的手術操作能力。其訓練體系的核心的是Cosmos Transfer 2.5模型的域遷移能力:通過將Isaac Sim中的模擬手術場景,轉換為帶有真實手術環境噪聲、光照條件的等效資料,大幅提升了模擬訓練的真實性;同時,將少量真實手術資料增強為多樣化的模擬場景,解決了臨床資料稀缺的問題。借助這一體系,LEM Surgical的研發團隊能夠快速驗證手術機器人的操作策略,最佳化運動控制參數,大幅縮短了研發周期。此外,XRLabs利用NVIDIA Jetson Thor與Isaac for Healthcare,開發了智能手術內窺鏡系統。該系統通過外接手術內鏡採集即時圖像,借助Cosmos Predict 2.5模型的即時預測能力,分析手術部位的解剖結構與操作風險,為外科醫生提供即時引導,降低了手術難度與併發症風險。目前,該系統已在多家醫院開展試點應用,手術精準度提升了30%,手術時間縮短了20%。3.3 消費服務 LG Electronics的家用智慧型手機器人家用機器人是消費領域的重要增長點,但傳統家用機器人功能單一,難以應對複雜的家庭環境。LG Electronics在CES 2026上發佈的全新家用機器人,基於NVIDIA的Cosmos系列模型與Jetson T4000模組,具備全方位的家務處理能力與動態環境適應能力。該機器人的核心優勢在於其強大的物理AI能力:通過Cosmos Reason 2模型,能夠理解自然語言指令,並分解為具體的家務任務,如“清理客廳檯面”可拆解為“整理物品→擦拭灰塵→分類收納”;借助Cosmos Predict 2.5模型,能夠即時預測動作後果,如避免碰撞易碎物品、調整拖地力度以適應不同地面材質;依託Jetson T4000的高效算力,實現了即時感知與決策,響應速度提升至毫秒級。此外,該機器人還具備自主充電、故障自診斷等智能功能,能夠適應不同戶型的家庭環境。LG Electronics相關負責人表示,這款家用機器人的目標是成為“家庭助手”,而非簡單的“家務工具”,其定價將控制在萬元以內,以實現規模化普及。該產品的推出,標誌著消費級家用機器人正式進入“通用智能”時代。3.4 建築採礦 Caterpillar的自主作業裝置升級建築與採礦行業是典型的高危、高勞動強度行業,對自主作業裝置的需求迫切。Caterpillar作為全球領先的工程機械製造商,正在擴大與NVIDIA的合作,將先進的AI和自主系統引入建築和採礦領域的裝置及作業現場。基於NVIDIA的Blackwell架構與物理AI模型,Caterpillar正在開發多款自主作業裝置,包括自主挖掘機、自主礦用卡車等。這些裝置具備三大核心能力:一是自主導航,借助Cosmos模型的環境感知與推理能力,能夠在複雜的施工現場與礦區環境中精準定位,躲避障礙物;二是精準作業,通過GR00T模型的動作控制能力,實現挖掘、裝載、運輸等作業的精準執行,提升作業效率;三是協同作業,多台裝置可通過OSMO框架實現資料共享與協同調度,形成自主作業車隊。據Caterpillar透露,其自主礦用卡車已在澳大利亞某金礦開展試點應用,借助NVIDIA的技術,作業效率提升了25%,事故率降低了80%,同時減少了人工成本。在2026年1月7日的CES主題演講中,Caterpillar CEO Joe Creed將與NVIDIA高管共同披露更多合作細節,預計將推出面向建築行業的首款自主挖掘機,計畫2027年實現規模化量產。四、產業趨勢展望:物理AI驅動下的機器人產業未來圖景NVIDIA此次發佈的物理AI技術體系,不僅解決了當前機器人產業的核心痛點,更勾勒出未來機器人產業的發展圖景。結合行業發展規律與技術迭代趨勢,未來3-5年,機器人產業將呈現“通用化、輕量化、開源化、規模化”四大核心趨勢,而NVIDIA將在這一處理程序中扮演關鍵的引領角色。4.1 趨勢一 從“專用機器人”到“專家級通用機器人”的跨越傳統機器人多為“專用裝置”,針對特定場景開發,功能單一,難以跨場景應用。而物理AI技術的發展,將推動機器人從“專用”向“通用”跨越,最終實現“專家級通用”的目標——即能夠快速學習多種任務,適配不同行業場景的需求。NVIDIA的Cosmos與GR00T模型,正是這一趨勢的核心驅動力。通過內化物理世界的通用規律,機器人能夠快速適應新場景、學習新任務,無需針對每個場景進行重新程式設計。一款基於GR00T模型的人形機器人,既可以在工廠完成精密裝配,也可以在醫院協助護理,還可以在家庭處理家務,只需通過少量場景資料微調即可實現功能適配。據行業預測,到2028年,專家級通用機器人的市場佔比將超過30%,成為機器人產業的主流產品形態。4.2 趨勢二 硬體輕量化與能效比的持續提升機器人尤其是人形機器人、移動服務機器人,對硬體的輕量化、小型化、低功耗提出了嚴苛要求。隨著Blackwell架構的普及與技術迭代,邊緣AI算力模組將實現“更高算力、更低功耗”的持續突破,推動機器人硬體的輕量化發展。NVIDIA的Jetson系列模組已展現出這一趨勢:從Jetson AGX Orin到Jetson T4000,算力提升4.3倍,而功耗控制在70瓦以內;未來,隨著晶片製程的進步與架構的最佳化,Jetson系列模組的算力有望進一步提升,功耗則持續降低,甚至可能出現50瓦以下、算力突破2000 TFLOPS的產品。這將推動機器人的小型化發展,如宇樹科技的小型人形機器人、松延動力的Bumi小布米等輕量化產品將成為消費市場的主流,進一步擴大機器人的應用範圍。4.3 趨勢三 開源生態成為創新核心驅動力機器人產業的創新需要大量的技術積累與資源投入,單一企業難以完成全鏈條的創新。開源生態將成為未來機器人產業創新的核心驅動力,吸引全球開發者共同參與技術突破與應用創新。NVIDIA與Hugging Face的合作,正是開源生態發展的重要里程碑。隨著LeRobot框架的普及,越來越多的開發者將接入NVIDIA的物理AI技術體系,孵化出更多創新應用。同時,開源生態的發展將推動技術標準的統一,降低行業的協作成本,加速創新成果的轉化。預計到2027年,全球將有超過50%的機器人創新應用基於開源框架開發,開源生態將成為機器人產業競爭的核心戰場。4.4 趨勢四 規模化落地與成本快速下降隨著技術的成熟與生態的完善,機器人的規模化落地將推動成本快速下降,形成“規模效應-成本下降-需求擴大”的良性循環。據資料顯示,2025年國內人形機器人出貨量預計達1.8萬台,2026年有望攀升至6.25萬台;多位行業專家預測,2026年國內人形機器人產量將突破10萬台,2028年有望達到百萬台級。成本下降的主要驅動力包括三個方面:一是核心零部件的國產化替代,如國內企業已實現減速器、伺服系統的批次供貨,成本較海外產品降低30%以上;二是規模化生產帶來的製造費用降低,隨著產量的提升,整機製造的單位成本將大幅下降;三是開源技術的應用,降低了研發成本。預計到2030年,人形機器人的售價將降至5萬元以下,消費級市場將全面爆發。4.5 挑戰與應對 技術、倫理與政策的協同推進儘管機器人產業前景廣闊,但仍面臨技術、倫理與政策三大挑戰。在技術層面,機器人的泛化能力、安全性仍需進一步提升,尤其是在複雜動態環境中的可靠性;在倫理層面,機器人的廣泛應用可能帶來就業結構變化、隱私洩露等問題;在政策層面,相關的法律法規、標準體系尚未完善,如機器人決策失誤的責任界定、資料安全規範等。應對這些挑戰,需要政府、企業與科研機構的協同推進:一是加強核心技術研發,聚焦泛化能力、安全性等關鍵痛點,推動技術標準的統一;二是建立健全倫理規範與法律法規,平衡技術創新與社會影響;三是出台針對性的政策支援,如職業培訓、資料安全保障等,確保機器人產業的健康發展。NVIDIA作為行業引領者,已通過開放模型與框架,推動技術標準的統一;同時,其與全球企業的合作,也在積極探索機器人應用的倫理邊界。五、結語:物理AI開啟機器人產業的“黃金十年”CES 2026上NVIDIA的系列發佈,標誌著機器人產業正式進入物理AI驅動的新時代。從技術核心來看,Cosmos與GR00T模型建構了機器人理解物理世界的“認知大腦”,Isaac Lab-Arena與OSMO框架打通了開發全流程,Jetson T4000硬體模組提供了高效算力支撐,形成了覆蓋“模型-框架-硬體-生態”的全端解決方案;從產業鏈影響來看,其推動上游零部件智能化升級、中游整機企業嚮應用創新轉型、下游場景規模化滲透,重構了產業價值分配模式;從應用前景來看,工業、醫療、消費、建築採礦等多個領域的落地案例,充分驗證了技術的實用價值。黃仁勳所言的“機器人開發的ChatGPT時刻”,不僅是技術的突破,更是產業範式的變革。未來十年,隨著物理AI技術的持續迭代、開源生態的不斷完善、成本的快速下降,機器人將從“工業裝備”全面走向“生活助手”,深度融入製造業、醫療健康、家庭服務等多個領域,成為推動經濟社會轉型的重要力量。對於企業而言,接入NVIDIA的物理AI技術體系,將成為把握產業機遇的關鍵;對於行業而言,建構開放協同的生態,推動技術標準的統一,將加速產業的規模化發展;對於社會而言,擁抱機器人技術帶來的變革,做好就業轉型與倫理規範,將實現技術創新與社會福祉的共贏。我們有理由相信,在物理AI的驅動下,機器人產業將迎來前所未有的“黃金十年”,為人類社會帶來更高效、更安全、更便捷的生活與生產方式。這些新模型均可通過 Hugging Face 獲取,包括:NVIDIA Cosmos™ Transfer 2.5和NVIDIA Cosmos Predict 2.5:開放、完全可定製的世界模型,為物理 AI 實現基於物理原理的合成資料生成與機器人策略評估的模擬支援。NVIDIA CosmosReason 2:開放推理視覺語言模型(VLM),使智慧型手機器能夠像人類一樣看見、理解物理世界並採取行動。NVIDIA Isaac™ GR00T N1.6:專為人形機器人打造的開放式推理視覺語言行動(VLA)模型,可解鎖全身控制能力,並借助 NVIDIA Cosmos Reason 增強推理和上下文理解。 (AI雲原生智能算力架構)
Nature Medicine:一夜睡眠質量就能預測你患100多種疾病的風險
一種由史丹佛大學研究人員及其合作者開發的獨特 AI 模型,未來或許能夠在你甚至不需要清醒的情況下,預測你罹患 100 多種健康狀況的風險。根據一篇近期發表的論文所述,名為 SleepFM 的 AI 模型可分析一整套全面的生理記錄,僅基於一晚睡眠的資料,就能預測個體未來發生痴呆、心力衰竭以及全因死亡的風險。SleepFM 是一種基礎模型(foundation model),類似於 ChatGPT。它在一個龐大的資料集上訓練而成:來自 65,000 名參與者、近 600,000 小時的睡眠資料。正如 ChatGPT 從詞語與文字中學習,SleepFM 則從各類睡眠門診採集的記錄中,以5 秒為單位的睡眠資料片段進行學習。科學家雜誌AI繪圖 GPT5.2睡眠臨床醫生通過一種廣泛使用但相對不適的技術——多導睡眠監測(polysomnography,PSG)——收集這些資料。PSG 被稱為睡眠研究的“金標準”,利用多種感測器在無意識狀態下追蹤腦、心臟與呼吸系統的活動,以及腿部與眼球運動等訊號。“我們在研究睡眠時會記錄數量驚人的訊號,”史丹佛大學睡眠醫學教授、論文共同資深作者 Emmanuel Mignot 表示。PSG 使用各種感測器來追蹤睡眠期間的活動。(Thapa 等人,《自然醫學》,2026)研究人員通過其新開發的學習技術對 SleepFM 進行測試,該技術稱為留一模態對比學習(leave-one-out contrastive learning):在訓練過程中,將某一模態的資料(例如脈搏讀數或呼吸氣流)排除,迫使 SleepFM 基於其他生物資料流來外推缺失資訊。為補上關鍵拼圖,研究團隊將 PSG 資料與數以萬計的患者長期健康結局報告進行配對,覆蓋不同年齡層,並納入最長 25 年的隨訪健康記錄。在分析健康記錄中 1,041 個疾病類別後,SleepFM 僅憑患者的睡眠資料就能以合理的精準度預測其中 130 類疾病。SleepFM 在預測癌症、妊娠併發症、循環系統疾病以及精神障礙方面尤其出色,“其一致性指數(C-index)超過 0.8”。史丹佛大學生物醫學資料科學家、論文共同資深作者 James Zou 解釋說:“C-index 為 0.8 意味著在 80% 的情況下,模型的預測與實際發生的結果保持一致(concordant)。”SleepFM 在 **AUROC(受試者工作特徵曲線下面積)**這一分類評估指標上也表現良好。該指標用於評估 SleepFM 在一個(6 年)預測期內區分“發生某健康事件”和“不發生該事件”患者的能力。總體而言,SleepFM 優於現有預測模型,並且在預測帕金森病、心肌梗死、卒中、慢性腎病、攝護腺癌、乳腺癌以及全因死亡方面表現尤為突出,進一步印證了睡眠不佳與不良健康結局之間的關聯。這也可能提示:某些疾病在早期就已通過影響睡眠而顯露端倪。儘管部分資料類型與睡眠分期對預測的貢獻更高,但最好的結果主要歸功於生理系統之間的相互關聯與對比。具體而言,最可靠的疾病預測訊號往往來自那些不同步(out of sync)的生理功能:“例如,大腦看起來在睡覺,但心臟看起來仍然清醒——這種情況似乎預示著麻煩,”Mignot 解釋道。研究人員也指出了若干侷限性,例如過去幾十年臨床實踐與患者人群的變化。此外,資料來自被轉診進行睡眠檢查的患者,因此 PSG 資料對普通人群的代表性不足。儘管 AI 在藝術等領域引發爭議,但其在醫療健康領域的潛力提醒我們:AI 智能體具有挽救生命、並在科學上令人驚嘆的能力。舉例而言,未來可將 SleepFM 與可穿戴睡眠裝置結合,實現即時健康監測。因此,正如大語言模型(LLM)通過關聯詞語與文字來學習我們的語言,“SleepFM 本質上是在學習睡眠的語言,”Zou 表示。該研究發表在《Nature Medicine》(《自然·醫學》)。(科學家雜誌)