黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒

2026/07/02

•

AI速讀

Om AI 聯匯發布 VLX 端側流式多模態模型，定義物理 AI 新範式。該系列透過 Flow、Seek、Go 三層能力，實現「持續感知 $\rightarrow$ 精準定位 $\rightarrow$ 行動決策」的毫秒級閉環，解決了傳統 AI 在物理世界中反應遲緩且被動的痛點。VLX 採取「端側優先」設計，以小參數實現超越旗艦大模型的精度，且推理延遲僅 0.1 秒。目前已完成與輝達、蘋果等硬體巨頭及華為昇騰等國產晶片的適配，並成功應用於機器人、無人機及視障輔助工具，標誌著物理 AI 從 Demo 演示正式進入量產交付階段。

物理AI的新答案：三個模型、三層能力、一條鏈路。

“物理AI的ChatGPT時刻已經到來。”

2026年1月5日，拉斯維加斯CES展會，輝達創始人兼CEO黃仁勳宣告AI正式進入新階段。

在他看來，AI的演進可以分為四個階段：Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆，AI才真正走出螢幕。他同時指出，要讓機器人理解物理世界，不能僅靠單一模型，而是需要建立一整套智能系統。

黃仁勳描繪了未來願景，但一個問題擺在了所有人面前——物理世界的AI，到底需要什麼樣的技術能力？

AI真正走向物理世界，機器人、無人機、安防攝影機、可穿戴裝置這些場景，需要的不是回答問題，而是持續工作。物理AI最重要的，也就是主動執行的能力。

Om AI聯匯CEO兼首席科學家趙天成博士表示：“之前整個業內對通用視覺智能的關注度偏低，大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的，而且可能是更加現實、更加直接的核心技術，會更廣泛地應用到所有物理AI場景。”

通用視覺智能（General Vision Intelligence），即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動，且這一切必須在端側完成。

近日發佈的VLX端側流式多模態模型系列，正是這一路徑的最新實踐。

這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑，VLX系列面向物理世界中持續湧入的視訊流，實現毫秒級即時感知，並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。

01. 三個模型、三層能力、一條鏈路

什麼是通用視覺智能（General Vision Intelligence）？

Om AI聯匯的定義是三項核心能力：持續感知（無需人工觸發）、空間智能（精準定位目標）、行動輸出（直接驅動裝置）。VLX系列的Flow、Seek、Go三個模型剛好對應這三項能力：

VLX-Flow是持續感知層：

傳統視訊AI普遍採用離散式處理邏輯，通過擷取畫面完成單次問答互動，觀測存在明顯間斷。而VLX-Flow採用流式視訊輸入架構，圖像資料流不間斷送入模型，實現持續觀測與時序記憶留存。VLX-Flow的即時性聚焦底層感知，無需人工下發指令觸發，可自主不間斷運行。

VLX-Seek是精準定位層：

市面上通用視覺大模型僅能實現畫面內容文字描述，只能告知畫面存在物體，卻無法輸出精準空間位置，難以回答目標坐標、數量等實操性問題。VLX-Seek更換底層技術思路，採用區域指代機制，直接輸出毫米級精準空間錨點。

VLX-Go是行動輸出：

傳統視覺模型解析畫面後僅能生成文字化操作指令，無法直接驅動硬體執行。VLX-Go更進一步，能夠輸出裝置可直接呼叫的導航航點，支撐機器人自主完成移動動作，實現低延時即時反饋。

視訊流持續進入，Flow負責“看懂”，Seek負責“找對”，Go負責“動起來”。三塊拼圖拼在一起，才構成完整的物理世界AI。

在基準測試中，VLX用三組資料印證了一個趨勢：參數規模與物理世界的實際表現，正在脫鉤。

Seek-3B在目標檢測基準MSCOCO val2017、複雜語義基準RefCOCO、開放詞彙檢測基準ODinW13以及目標計數基準PixMo Count，均大幅超越Gemini 3.1 Pro和GPT-5等旗艦大模型，用3B小參數做到了旗艦精度。

在機器人導航與跟蹤任務中，Go（0.6B）以極小的參數量實現了85.42%的高成功率，超越參數大其13倍的Qwen-RobotNav-8B；同時以94.08%的跟蹤率顯著領先所有對比模型，證明其在動態目標跟隨方面具備極強的視覺-運動協同能力，更加有力證明了針對端側物理場景進行專用架構設計的有效性。

在延遲方面，端側推理僅需0.1秒，而云端推理通常超過5秒，這50倍的差距直接決定了系統“可用”與“不可用”的邊界。

結果證明，當模型必須跑在端側、必須即時響應、必須自主決策時，“大”反而成了包袱。VLX的真正價值，是用更小的模型在端側晶片上跑出更好的結果，證明了“為場景設計模型”這條路，比“把通用模型塞進場景”更高效。

02. 給物理世界造一套“視覺中樞”

這樣亮眼的測試成績，根源於架構層面的差異。

傳統模型處理視覺資訊的方式是“截幀-上傳-提問-回答”，即拍一張照片或上傳一段視訊，問一句，答一句。這種模式本質上是離散的、被動的。目前多數模型的解決方案依賴長上下文來處理視訊輸入，本質仍是“離線看一遍”。

Om AI聯匯提出的流式多模態，相當於給裝置裝上一套持續運轉的“視覺中樞”。攝影機採集的視訊流像水一樣流入模型，模型持續接收、理解、記憶，形成一個不間斷的感知流。使用者或開發者通過提示詞自由定義輸出目標，這套中樞可以按需輸出文字描述、空間錨點或行動軌跡。

在技術路徑上，VLX的流式能力則面向即時互動場景設計，系統可以自主持續觀察、精準鎖定、即刻行動。二者應用場景不同，架構設計也隨之分化。

行業通用做法是先訓練大參數模型，再通過量化、蒸餾等方式壓縮至端側，Om AI聯匯採取了一條不同的技術路徑。

據該公司技術團隊介紹，VLX從設計起點即圍繞端側算力約束展開架構設計。Flow採用Linear Attention機制替代標準Attention，保證視訊流持續輸入時視訊記憶體不溢出；Seek以區域指代替代坐標生成，在提升精度的同時降低計算量；Go採用短時航點預測，以快速響應周圍環境的快速變化。

03. 不再紙上談兵 Om AI聯匯定義物理AI新範式

此前，物理AI的落地一直卡在一個尷尬的位置：Demo驚豔，但量產乏力。VLX從頭就是為了落地而設計的，並也已經大規模落地：

具身智能領域：

行業長期面臨的一個痛點是：不同機器人平台的系統架構、感測器方案、執行機構高度異構，演算法從A機器人遷移到B機器人往往需要大量適配工作。VLX大腦具備跨平台能力，已全面支援雲深處、宇樹等頭部企業的端側裝置，開發者在不同機器人平台上的適配週期大幅縮短。

無人機領域：

傳統無人機巡檢依賴飛手人工操作或拍完視訊回傳後台稽核，耗時耗力。搭載VLX的無人機具備了自主視覺導航和精準目標鎖定能力，可自主識別違章、自主避障、自主規劃航線。巡檢效率提升數倍，響應時間從小時級縮短至秒級。

可穿戴裝置領域：

中國有超過1700萬視障人士，但市面上的輔助工具大多停留在語音播報或簡單障礙物提醒，無法解決“我在哪、周圍有什麼、怎麼走過去”的連貫需求。Om AI聯匯Homer平台旗下好馬APP已服務近10萬視障使用者，通過AI助視眼鏡幫助使用者安全避障、出行導航、空間尋物。

安防攝影機領域：

客戶無需更換現有硬體，只需在邊緣側或輕量化閘道器中接入VLX，即可讓攝影機升級為可24小時自主研判的AI哨兵。原有硬體資產得到保護，避免了推倒重來的高額成本。

AI PC領域：

PC上的端側AI長期停留在文字對話和簡單圖像生成層面，缺乏真正的視覺理解與空間互動能力。VLX已完成與蘋果、聯想、惠普、輝達四大頭部品牌的端側適配，為PC裝置注入了即時視覺理解能力。

中國國產晶片方面：

端側AI的算力部署長期依賴輝達等海外高端晶片，中國國產晶片受限於算力與生態，難以承載大參數模型。VLX針對算力約束做了專門最佳化，已在華為昇騰、地瓜、RK3588等中國國產平台完成適配。

VLX的行業價值，在於驗證了一條不同於數字AI的架構路徑。

當行業仍在比拚誰把雲端模型壓縮得更小時，VLX選擇從端側算力約束出發設計模型。測試資料顯示這條路無需等待算力迭代即可落地，部署成本大幅壓縮，即時響應能力提升數十倍，中國國產晶片即可流暢運行。

與此同時，這套流式多模態路線已覆蓋具身智能、無人機、可穿戴、安防、AI PC等多個場景，物理AI從“Demo展示”到“量產交付”的拐點正在顯現。而VLX系列模型向開發者開放體驗平台，則進一步降低了端側智能應用的研發門檻，為產業鏈協同創新提供了更大的想像空間。

04. 結語：用流式架構為物理世界重新設計AI

回到一開始的那個問題：物理世界，究竟需要怎樣的AI？

Om AI聯匯用VLX系列模型給出了答案：用流式架構為物理世界重新設計AI。

這背後，是Om AI聯匯多年的長線佈局與持續深耕。從2016年切入生成式對話技術，到2021年押注多模態賽道，再到2022年拿下國內首張多模態大模型測評證書，團隊始終走在行業趨勢之前，持續沉澱底層技術能力。

放眼整個物理AI賽道，行業從不缺願景、概念與演示Demo。真正稀缺的，是能夠適配真實場景、穩定運行、可規模化落地的成熟系統。更重要的是，它需要被百萬級裝置驗證過。

VLX為物理AI的端側化路徑，提供了一個可參考的樣本。 (智東西)

科技

黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒

01. 三個模型、三層能力、一條鏈路

02. 給物理世界造一套“視覺中樞”

03. 不再紙上談兵 Om AI聯匯定義物理AI新範式

04. 結語：用流式架構 為物理世界重新設計AI

04. 結語：用流式架構為物理世界重新設計AI