【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準,強調真實結構與約束條件,通過排序任務考察模型是否能精準理解三維結構的幾何與拓撲關係,揭示當前大模型在空間智能上嚴重依賴2D資訊,實際表現遠低於人類。研究指出,模型需提升三維構型識別和約束推理能力,才能真正理解空間問題。
如果你把一個在空間理解榜單上刷分很高的多模態大模型,直接丟進真實世界,它很可能會在看起來很簡單的問題上翻車。
不是因為它不會「看」,而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、資料集套路,走捷徑拿分。
而現實世界裡,很多空間問題的本質恰恰相反:能怎麼擺、怎麼連、怎麼受力,不是隨意的;可行解往往只存在於一個被幾何、拓撲、物理強約束「壓扁」的空間裡。
為此,清華大學的研究團隊推出SSI-Bench,從AI與結構工程的交叉視角出發,為空間智能評估提供了一種新的場景化思路——將評測置於複雜三維結構的約束流形中,系統檢驗多模態大模型的空間智能表現。
項目首頁:https://ssi-bench.github.io/
Arxiv論文:https://arxiv.org/abs/2602.07864
Hugging Face資料集:https://huggingface.co/datasets/cyang203912/SSI-Bench
Github程式碼庫:https://github.com/ccyydd/SSI-Bench
論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):
在此類任務中,潛在三維狀態並非可被任意「臆測」,而是受到顯式約束的限定,僅能落在一個可行解集合內——既需要滿足等式約束(如幾何一致性、連接關係等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。
更重要的是,強約束會顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關係在不同合理解釋下更具穩定性,從而使評測結果具備更好的可量化性與可比性。
SSI-Bench正是在這一背景下提出:它不再將模型置於約束較弱、可自由組合的日常場景中,而是面向複雜真實工程結構建構評測環境,要求模型形成約束一致的三維結構假設,並在此基礎上完成空間推理。
任務形式:用排序題「逼出」真3D
SSI-Bench不再讓模型做選擇題,而是統一成排序任務:每題給出3或4個候選「構件/構件組」,要求在指定幾何/拓撲準則下輸出正確的全排列順序。
覆蓋能力:幾何+拓撲+多視角一致性
全基準共1,000道排序題,任務分兩大類:
並額外引入多視角題目:以兩張圖配合,一張提供參考構件,一張給出待比較目標,重點考察跨視角構件對應與整體結構一致性。
建構過程:十位研究者耗費400+小時純人工打磨
為了保證資料集的質量與多樣性,同時也由於缺乏真實結構構件的標註資料,SSI-Bench的建構流程非常「硬核」——10位研究者投入超過400小時,從大量真實結構圖片中進行人工篩選與題目設計:
SSI-Bench系統評測了31個主流VLM,結論非常直接:人類幾乎「碾壓式領先」。
人類平均91.6%,最強閉源33.6%(Gemini-3-Flash),最強開源22.2%(GLM-4.6V),隨機猜測基線12.85%
也就是說,那怕拿到當下最強大模型,人類仍然領先58個百分點(91.6 − 33.6)。
更為關鍵的是,即使鼓勵模型生成更長的推理過程,整體提升也多停留在邊際層面,難以觸及問題的核心瓶頸。並且在部分高度依賴全域三維一致性的任務(如Multi-View、Volume)中,過度推理反而可能在錯誤的結構假設上持續累積偏差,使結果進一步偏離正確答案。
論文對代表模型做了人工復盤,歸納出四類高頻錯誤:
這也解釋了SSI-Bench的「硬核」並不在於題目刻意刁鑽,而在於它迫使模型直面並補齊兩項關鍵短板:三維結構構型識別與約束一致的空間推理。
SSI-Bench的價值,並不是再造一個「更難的VQA」,而是把空間智能評估拉回一個更接近現實的坐標系:
當場景是複雜真實結構、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩定地建構約束一致的3D結構假設並完成推理?
從目前結果看,答案仍然很殘酷:模型還在起跑線,人類已在終點線附近。
但也正因如此,SSI-Bench給出了一個非常明確的研究方向:
讓空間智能體從「會看圖說話」,走向「會在結構裡思考」。 (新智元)