開源模型竟在空間智能領域超越GPT-5?商湯日日新打破AI三維認知瓶頸一項評測資料顯示,商湯開放原始碼的8B參數模型在空間理解任務中以60.99分碾壓GPT-5的49.68分,這場看似不可能的反超,揭示了AI從“語言天才”邁向“物理世界通才”的關鍵轉折。
當前大模型在知識推理、程式碼生成等領域已接近人類水平,卻在看似簡單的空間問題上頻頻“翻車”。例如,GPT-5能破解《最強大腦》級圖形推理題,卻敗給兒童等級的立方體俯檢視選擇題,錯誤選擇選項A(正確答案為B)。這種“二維智能”與“三維現實”的割裂,成為自動駕駛、機器人等具身智能落地的核心瓶頸。
商湯SenseNova-SI的突破性表現,源於對空間智能的系統性重構:
1. 六大能力維度覆蓋
首次建立覆蓋空間測量、重構、關係、視角轉換、形變與推理的完整能力體系,避免單一能力短板。
1. 資料尺度效應實證
通過高品質資料規模化訓練,使8B模型在VSI/MMSI/MindCube/ViewSpatial四大基準平均分達60.99,較同規格開源模型(如Qwen3-VL-8B的40.16分)領先超50%。
1. 通用增強範式
訓練方法適配InternVL等主流架構,實現基模型空間能力的“無損升級”。
在關鍵場景測試中,SenseNova-SI-8B展現出壓倒性優勢:
• 俯檢視推理:GPT-5誤選D,商湯模型正確選B(SITE-Bench題庫)
• 相對方位判斷:GPT-5錯誤判斷摩托車在左側,商湯正確識別右側
• 動態場景預測:在多車道場景中,GPT-5錯誤預測車輛靜止,商湯精準判斷右轉動作
更值得關注的是,該模型以僅8B參數量實現對GPT-5(49.68分)和Gemini 2.5 Pro(48.81分)的超越,證明性能突破並非依賴參數堆砌,而是技術範式的本質創新。
商湯此次同步開源測評平台EASI與“英雄榜”,意圖明顯:
1. 標準定義權爭奪
通過建立空間智能評估基準,引導行業技術發展方向。
1. 開發者生態建構
降低企業應用門檻,加速技術在下游場景滲透。
1. 反哺閉源業務
開源模型為商湯“悟能”具身智能平台提供技術驗證與人才引流。
空間智能的技術突破,將直接推動三大場景落地加速:
1. 自動駕駛
車輛對複雜路況的時空關係理解能力提升,減少Corner Case事故。
1. 工業機器人
機械臂在非結構化環境中的物體抓取、避障精度顯著提高。
1. AR/VR應用
虛擬物體與物理空間的即時精準疊加,提升沉浸式體驗。
儘管SenseNova-SI取得突破,但仍需面對:
• 資料壁壘:閉源廠商可能通過私有場景資料重建優勢
• 算力門檻:大規模空間資料訓練仍需高昂成本
• 泛化能力:當前評測集中於靜態任務,動態互動能力待驗證
商湯此次開源不僅是一次技術展示,更標誌著AI從“感知二維訊號”邁向“理解三維世界”的範式轉換。當開源模型在核心能力上比肩甚至超越閉源巨頭,整個行業的技術擴散速度與創新節奏將被重新定義。對於技術決策者而言,現在正是佈局空間智能應用場景的關鍵窗口期——因為能“看懂”世界的AI,終將重塑所有與物理空間互動的行業。 (Mr.velar)