開源模型竟在空間智能領域超越GPT-5?商湯日日新打破AI三維認知瓶頸

開源模型竟在空間智能領域超越GPT-5?商湯日日新打破AI三維認知瓶頸一項評測資料顯示,商湯開放原始碼的8B參數模型在空間理解任務中以60.99分碾壓GPT-5的49.68分,這場看似不可能的反超,揭示了AI從“語言天才”邁向“物理世界通才”的關鍵轉折。

一、空間智能:AI融入現實世界的最後一道壁壘

當前大模型在知識推理、程式碼生成等領域已接近人類水平,卻在看似簡單的空間問題上頻頻“翻車”。例如,GPT-5能破解《最強大腦》級圖形推理題,卻敗給兒童等級的立方體俯檢視選擇題,錯誤選擇選項A(正確答案為B)。這種“二維智能”與“三維現實”的割裂,成為自動駕駛、機器人等具身智能落地的核心瓶頸。

圖片來源:商湯科技 人類兒童可輕易解決的空間問題,卻難倒頂級大模型(來源:商湯評測案例)

二、技術破局:Scale Law在空間認知領域的首次驗證

商湯SenseNova-SI的突破性表現,源於對空間智能的系統性重構

1. 六大能力維度覆蓋

首次建立覆蓋空間測量、重構、關係、視角轉換、形變與推理的完整能力體系,避免單一能力短板。

1. 資料尺度效應實證

通過高品質資料規模化訓練,使8B模型在VSI/MMSI/MindCube/ViewSpatial四大基準平均分達60.99,較同規格開源模型(如Qwen3-VL-8B的40.16分)領先超50%。

1. 通用增強範式

訓練方法適配InternVL等主流架構,實現基模型空間能力的“無損升級”。

圖片來源:商湯科技 四大權威基準評測結果(來源:商湯GitHub)

三、性能碾壓:開源模型為何能反超閉源巨頭?

在關鍵場景測試中,SenseNova-SI-8B展現出壓倒性優勢

• 俯檢視推理:GPT-5誤選D,商湯模型正確選B(SITE-Bench題庫)

• 相對方位判斷:GPT-5錯誤判斷摩托車在左側,商湯正確識別右側

• 動態場景預測:在多車道場景中,GPT-5錯誤預測車輛靜止,商湯精準判斷右轉動作

圖片來源:商湯科技 空間推理任務對比:GPT-5(左)vs SenseNova-SI(右)

更值得關注的是,該模型以僅8B參數量實現對GPT-5(49.68分)和Gemini 2.5 Pro(48.81分)的超越,證明性能突破並非依賴參數堆砌,而是技術範式的本質創新。

四、生態衝擊:開源戰略重構AI競爭格局

商湯此次同步開源測評平台EASI與“英雄榜”,意圖明顯:

1. 標準定義權爭奪

通過建立空間智能評估基準,引導行業技術發展方向。

1. 開發者生態建構

降低企業應用門檻,加速技術在下游場景滲透。

1. 反哺閉源業務

開源模型為商湯“悟能”具身智能平台提供技術驗證與人才引流。

圖片來源:商湯科技 空間智能測評平台EASI架構(來源:GitHub)

五、商業化前景:給AI裝上“空間GPS”

空間智能的技術突破,將直接推動三大場景落地加速:

1. 自動駕駛

車輛對複雜路況的時空關係理解能力提升,減少Corner Case事故。

1. 工業機器人

機械臂在非結構化環境中的物體抓取、避障精度顯著提高。

1. AR/VR應用

虛擬物體與物理空間的即時精準疊加,提升沉浸式體驗。

圖片來源:宸境科技 空間智能技術在自動駕駛、城市管理等場景的應用(來源:行業方案)

六、未來挑戰:開源模型能否持續領跑?

儘管SenseNova-SI取得突破,但仍需面對:

• 資料壁壘:閉源廠商可能通過私有場景資料重建優勢

• 算力門檻:大規模空間資料訓練仍需高昂成本

• 泛化能力:當前評測集中於靜態任務,動態互動能力待驗證

結語:AI三維認知的時代拐點

商湯此次開源不僅是一次技術展示,更標誌著AI從“感知二維訊號”邁向“理解三維世界”的範式轉換。當開源模型在核心能力上比肩甚至超越閉源巨頭,整個行業的技術擴散速度與創新節奏將被重新定義。對於技術決策者而言,現在正是佈局空間智能應用場景的關鍵窗口期——因為能“看懂”世界的AI,終將重塑所有與物理空間互動的行業。 (Mr.velar)