眾多巨頭佈局“全能”世界模型，物理 AI 爆發臨近？

2026/06/07

•

一周之內，三件大事同時發生，物理 AI 的引爆點到了。

2026年6月第一周，三條消息幾乎同時落地：輝達在台北 GTC 發佈 Cosmos 3，宣稱是全球首款完全開放的"全能"物理 AI 模型；OpenAI 時隔六年高調重啟機器人業務，奧特曼親自在社交平台發帖招人；宇樹科技科創板 IPO 過會，中國機器人第一股正式進入倒計時。

這不是巧合，而是一個行業拐點同時向多個方向爆發的訊號。

什麼是"世界模型"？

在聊這些大新聞之前，先解釋一個關鍵概念——世界模型（World Model）。

過去幾年，AI 最大的進步發生在語言和圖像領域：ChatGPT 能寫文章，Midjourney 能畫畫，Sora 能生成視訊。但這些 AI 有個共同的短板：它們不理解物理世界。

你讓 ChatGPT 告訴你怎麼疊一件襯衫，它能說得頭頭是道。但如果是一個機器人要真的去疊這件襯衫——它需要知道布料會怎麼變形，手指要施加多大力，每一步操作會帶來什麼物理後果。這種對物理世界的理解，傳統 AI 模型完全沒有。

世界模型要解決的，就是這個問題。它不只是理解語言和圖像，而是要讓 AI 真正"懂"物理規律、能夠預測現實世界中的因果關係、能把這些理解直接轉化為機器的動作指令。

簡單的說：世界模型是讓 AI 長出手和腳的關鍵。 沒有世界模型的機器人只是一個遙控玩具，即使它們能跳舞，打功夫和跑馬拉松，但卻不能幹任何真正有用的工作。

輝達發佈"全能"模型

6月1日，黃仁勳在台北 Computex GTC 上發佈 Cosmos 3。

這個模型最大的亮點是"全模態"——它不是把視覺、語言、動作幾個模型拼在一起，而是用一套統一的混合 Transformer 架構（Mixture-of-Transformers），原生理解和生成文字、圖像、視訊、環境聲音和動作指令。換句話說，你給它一段場景視訊，它能直接輸出機器人下一步該怎麼動、關節角度和軌跡是什麼。

最硬核的資料是：用了 20 兆多模態訓練 token，跟頂尖大語言模型的訓練規模相當，但用在了一個完全不同的領域——物理和運動。

實際效果有多顯著？輝達表示，Cosmos 3 能把物理 AI 的訓練和評估周期從數月縮短到數天。這對機器人開發來說是本質性的提速，開發者不用再花幾個月在真實世界裡收集資料，直接用 Cosmos 3 生成高品質的合成訓練資料就行。

黃仁勳在發佈會上說："得益於多模態推理、視覺和世界模型領域的多項突破，物理 AI 爆發的時刻已經到來。"

同時，輝達還宣佈成立 Cosmos Coalition（Cosmos 聯盟），聯合 Agile Robots、Skild AI、Runway 等機器人和 AI 公司，共同推動下一代世界模型發展。Cosmos 3 完全開源開放權重，任何開發者都可以免費下載使用——這是明顯的生態卡位動作。

OpenAI重啟機器人團隊

同一天，奧特曼在 X 上發了一條招聘帖，宣佈成立 OpenAI Robotics 團隊。

這家公司六年前因為"缺乏現實資料"解散了自己的機器人團隊。六年後重啟，背後是一個叫"世界模擬（Worldsim）"的內部研究項目悄悄發展了一年的成果。

領隊人物是阿迪亞·拉梅什——DALL-E 的發明者、Sora 的核心開發者。這個人一直在做同一件事：教 AI 理解這個世界如何運轉。從文生圖，到視訊生成，再到世界模擬，現在到機器人。邏輯其實很清晰——視訊生成模型訓練的是對時空連續性的理解，機器人需要的是對物理因果關係的掌握，兩者在"世界模型"這個底層技術上高度同構。

奧特曼給出了兩個時間節點的目標：短期內，專注開發能幫助技術工人建設基礎設施的特定功能機器人；長遠目標，讓每個人都能擁有一台個人機器人。

"讓每個人擁有一台機器人"——這句話讓人想起賈伯斯當年說的"讓每個人都擁有一台電腦"。這是對行業終局的判斷。

量產訊號亮起

光有技術突破還不夠，最關鍵的是——這些東西真的要量產了。

特斯拉 Optimus Gen-3 已於 2026 年第二季度在弗裡蒙特工廠啟動量產，首批機型已下線並開展內部測試。更激進的是，特斯拉正在德克薩斯州超級工廠建設專屬人形機器人生產線，規劃年產能最高可達 1000 萬台，計畫 2027 年夏季實現大規模量產。馬斯克直言，Optimus 將是特斯拉有史以來生產規模最大的產品。

宇樹科技科創板 IPO 過會，G1 機器人已出現在東京羽田機場，中國機器人行業正式進入資本化處理程序。輝達則在台北 GTC 上發佈了聯合宇樹共同推出的 Isaac GR00T 參考人形機器人，把宇樹的 H2 機器人本體、輝達端側算力、Cosmos 開發流程整合到一套驗證配置裡，直接給開發者提供"開箱即用"的人形機器人開發平台。

國金證券明確表態：2026 年是人形機器人 0→1 兌現的重要節點。預計國內頭部企業出貨量有望從數千台跨越到數萬台。

爆發前夜

為什麼偏偏是現在？因為有幾個關鍵條件在這一兩年內同時成熟了。

第一，合成資料問題被解決了。 訓練機器人最大的難題不是演算法，是資料——在真實世界裡採集數百萬次運算元據，成本極高、周期極長。Cosmos 3 這類世界模型的出現，讓合成資料的質量和規模都上了一個台階，"從真實資料中學習→用合成資料增強→訓練更強的策略模型"這個飛輪開始轉起來了。

第二，硬體成本在快速下降。 宇樹的人形機器人售價已壓到 39,998 元人民幣。三年前，同等等級的機器人要幾十萬。

第三，巨頭們同時入場，形成集體背書效應。 輝達、OpenAI、特斯拉、宇樹，各自在產業鏈的不同位置同時發力，這不是單點突破，而是整條鏈路同步成熟的訊號。

Cosmos 3 完全開放，意味著未來的差異化競爭將發生在誰能用這個基礎模型訓練出更好的機器人策略。做垂直場景資料和訓練的公司，可能會抓住下一輪的機會。

黃仁勳說物理 AI 爆發的時刻已經到來。我覺得他說的是真的，只是大家還沒有意識到這一輪的速度。 (火星袋鼠)