黃仁勳的物理AI ChatGPT時刻,正被這家中國公司的“流式多模態”接棒

物理AI的新答案:三個模型、三層能力、一條鏈路。

“物理AI的ChatGPT時刻已經到來。”

2026年1月5日,拉斯維加斯CES展會,輝達創始人兼CEO黃仁勳宣告AI正式進入新階段。

在他看來,AI的演進可以分為四個階段:Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆,AI才真正走出螢幕。他同時指出,要讓機器人理解物理世界,不能僅靠單一模型,而是需要建立一整套智能系統

黃仁勳描繪了未來願景,但一個問題擺在了所有人面前——物理世界的AI,到底需要什麼樣的技術能力?

AI真正走向物理世界,機器人、無人機、安防攝影機、可穿戴裝置這些場景,需要的不是回答問題,而是持續工作。物理AI最重要的,也就是主動執行的能力。

Om AI聯匯CEO兼首席科學家趙天成博士表示:“之前整個業內對通用視覺智能的關注度偏低,大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的,而且可能是更加現實、更加直接的核心技術,會更廣泛地應用到所有物理AI場景。”

通用視覺智能(General Vision Intelligence),即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動,且這一切必須在端側完成。

近日發佈的VLX端側流式多模態模型系列,正是這一路徑的最新實踐。

這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑,VLX系列面向物理世界中持續湧入的視訊流,實現毫秒級即時感知,並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。

01. 三個模型、三層能力、一條鏈路

什麼是通用視覺智能(General Vision Intelligence)?

Om AI聯匯的定義是三項核心能力:持續感知(無需人工觸發)、空間智能(精準定位目標)、行動輸出(直接驅動裝置)。VLX系列的Flow、Seek、Go三個模型剛好對應這三項能力:

VLX-Flow是持續感知層:

傳統視訊AI普遍採用離散式處理邏輯,通過擷取畫面完成單次問答互動,觀測存在明顯間斷。而VLX-Flow採用流式視訊輸入架構,圖像資料流不間斷送入模型,實現持續觀測與時序記憶留存。VLX-Flow的即時性聚焦底層感知,無需人工下發指令觸發,可自主不間斷運行。

VLX-Seek是精準定位層:

市面上通用視覺大模型僅能實現畫面內容文字描述,只能告知畫面存在物體,卻無法輸出精準空間位置,難以回答目標坐標、數量等實操性問題。VLX-Seek更換底層技術思路,採用區域指代機制,直接輸出毫米級精準空間錨點。

VLX-Go是行動輸出:

傳統視覺模型解析畫面後僅能生成文字化操作指令,無法直接驅動硬體執行。VLX-Go更進一步,能夠輸出裝置可直接呼叫的導航航點,支撐機器人自主完成移動動作,實現低延時即時反饋。

視訊流持續進入,Flow負責“看懂”,Seek負責“找對”,Go負責“動起來”。三塊拼圖拼在一起,才構成完整的物理世界AI。

在基準測試中,VLX用三組資料印證了一個趨勢:參數規模與物理世界的實際表現,正在脫鉤

Seek-3B在目標檢測基準MSCOCO val2017、複雜語義基準RefCOCO、開放詞彙檢測基準ODinW13以及目標計數基準PixMo Count,均大幅超越Gemini 3.1 Pro和GPT-5等旗艦大模型,用3B小參數做到了旗艦精度。

在機器人導航與跟蹤任務中,Go(0.6B)以極小的參數量實現了85.42%的高成功率,超越參數大其13倍的Qwen-RobotNav-8B;同時以94.08%的跟蹤率顯著領先所有對比模型,證明其在動態目標跟隨方面具備極強的視覺-運動協同能力,更加有力證明了針對端側物理場景進行專用架構設計的有效性。

在延遲方面,端側推理僅需0.1秒,而云端推理通常超過5秒,這50倍的差距直接決定了系統“可用”與“不可用”的邊界。

結果證明,當模型必須跑在端側、必須即時響應、必須自主決策時,“大”反而成了包袱。VLX的真正價值,是用更小的模型在端側晶片上跑出更好的結果,證明了“為場景設計模型”這條路,比“把通用模型塞進場景”更高效。

02. 給物理世界造一套“視覺中樞”

這樣亮眼的測試成績,根源於架構層面的差異。

傳統模型處理視覺資訊的方式是“截幀-上傳-提問-回答”,即拍一張照片或上傳一段視訊,問一句,答一句。這種模式本質上是離散的、被動的。目前多數模型的解決方案依賴長上下文來處理視訊輸入,本質仍是“離線看一遍”。

Om AI聯匯提出的流式多模態,相當於給裝置裝上一套持續運轉的“視覺中樞”。攝影機採集的視訊流像水一樣流入模型,模型持續接收、理解、記憶,形成一個不間斷的感知流。使用者或開發者通過提示詞自由定義輸出目標,這套中樞可以按需輸出文字描述、空間錨點或行動軌跡。

在技術路徑上,VLX的流式能力則面向即時互動場景設計,系統可以自主持續觀察、精準鎖定、即刻行動。二者應用場景不同,架構設計也隨之分化。

行業通用做法是先訓練大參數模型,再通過量化、蒸餾等方式壓縮至端側,Om AI聯匯採取了一條不同的技術路徑。

據該公司技術團隊介紹,VLX從設計起點即圍繞端側算力約束展開架構設計。Flow採用Linear Attention機制替代標準Attention,保證視訊流持續輸入時視訊記憶體不溢出;Seek以區域指代替代坐標生成,在提升精度的同時降低計算量;Go採用短時航點預測,以快速響應周圍環境的快速變化。

03. 不再紙上談兵 Om AI聯匯定義物理AI新範式

此前,物理AI的落地一直卡在一個尷尬的位置:Demo驚豔,但量產乏力。VLX從頭就是為了落地而設計的,並也已經大規模落地

  • 具身智能領域:

行業長期面臨的一個痛點是:不同機器人平台的系統架構、感測器方案、執行機構高度異構,演算法從A機器人遷移到B機器人往往需要大量適配工作。VLX大腦具備跨平台能力,已全面支援雲深處、宇樹等頭部企業的端側裝置,開發者在不同機器人平台上的適配週期大幅縮短。

  • 無人機領域:

傳統無人機巡檢依賴飛手人工操作或拍完視訊回傳後台稽核,耗時耗力。搭載VLX的無人機具備了自主視覺導航精準目標鎖定能力,可自主識別違章、自主避障、自主規劃航線。巡檢效率提升數倍,響應時間從小時級縮短至秒級

  • 可穿戴裝置領域:

中國有超過1700萬視障人士,但市面上的輔助工具大多停留在語音播報或簡單障礙物提醒,無法解決“我在哪、周圍有什麼、怎麼走過去”的連貫需求。Om AI聯匯Homer平台旗下好馬APP已服務近10萬視障使用者,通過AI助視眼鏡幫助使用者安全避障、出行導航、空間尋物。

  • 安防攝影機領域:

客戶無需更換現有硬體,只需在邊緣側或輕量化閘道器中接入VLX,即可讓攝影機升級為可24小時自主研判的AI哨兵。原有硬體資產得到保護,避免了推倒重來的高額成本。

  • AI PC領域:

PC上的端側AI長期停留在文字對話和簡單圖像生成層面,缺乏真正的視覺理解與空間互動能力。VLX已完成與蘋果、聯想、惠普、輝達四大頭部品牌的端側適配,為PC裝置注入了即時視覺理解能力

  • 中國國產晶片方面:

端側AI的算力部署長期依賴輝達等海外高端晶片,中國國產晶片受限於算力與生態,難以承載大參數模型。VLX針對算力約束做了專門最佳化,已在華為昇騰、地瓜、RK3588等中國國產平台完成適配。

VLX的行業價值,在於驗證了一條不同於數字AI的架構路徑

當行業仍在比拚誰把雲端模型壓縮得更小時,VLX選擇從端側算力約束出發設計模型。測試資料顯示這條路無需等待算力迭代即可落地,部署成本大幅壓縮,即時響應能力提升數十倍,中國國產晶片即可流暢運行。

與此同時,這套流式多模態路線已覆蓋具身智能、無人機、可穿戴、安防、AI PC等多個場景,物理AI從“Demo展示”到“量產交付”的拐點正在顯現。而VLX系列模型向開發者開放體驗平台,則進一步降低了端側智能應用的研發門檻,為產業鏈協同創新提供了更大的想像空間。

04. 結語:用流式架構 為物理世界重新設計AI

回到一開始的那個問題:物理世界,究竟需要怎樣的AI?

Om AI聯匯用VLX系列模型給出了答案:用流式架構為物理世界重新設計AI。

這背後,是Om AI聯匯多年的長線佈局與持續深耕。從2016年切入生成式對話技術,到2021年押注多模態賽道,再到2022年拿下國內首張多模態大模型測評證書,團隊始終走在行業趨勢之前,持續沉澱底層技術能力。

放眼整個物理AI賽道,行業從不缺願景、概念與演示Demo。真正稀缺的,是能夠適配真實場景、穩定運行、可規模化落地的成熟系統。更重要的是,它需要被百萬級裝置驗證過。

VLX為物理AI的端側化路徑,提供了一個可參考的樣本。 (智東西)