Gemini 3僅得33.6分！清華發佈首個「約束流形」空間智能基準

2026/02/25

•

【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準，強調真實結構與約束條件，通過排序任務考察模型是否能精準理解三維結構的幾何與拓撲關係，揭示當前大模型在空間智能上嚴重依賴2D資訊，實際表現遠低於人類。研究指出，模型需提升三維構型識別和約束推理能力，才能真正理解空間問題。

如果你把一個在空間理解榜單上刷分很高的多模態大模型，直接丟進真實世界，它很可能會在看起來很簡單的問題上翻車。

不是因為它不會「看」，而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、資料集套路，走捷徑拿分。

而現實世界裡，很多空間問題的本質恰恰相反：能怎麼擺、怎麼連、怎麼受力，不是隨意的；可行解往往只存在於一個被幾何、拓撲、物理強約束「壓扁」的空間裡。

為此，清華大學的研究團隊推出SSI-Bench，從AI與結構工程的交叉視角出發，為空間智能評估提供了一種新的場景化思路——將評測置於複雜三維結構的約束流形中，系統檢驗多模態大模型的空間智能表現。

項目首頁：https://ssi-bench.github.io/

Arxiv論文：https://arxiv.org/abs/2602.07864

Hugging Face資料集：https://huggingface.co/datasets/cyang203912/SSI-Bench

Github程式碼庫：https://github.com/ccyydd/SSI-Bench

論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning（CMSR，約束流形空間推理）：

在此類任務中，潛在三維狀態並非可被任意「臆測」，而是受到顯式約束的限定，僅能落在一個可行解集合內——既需要滿足等式約束（如幾何一致性、連接關係等），也需要滿足不等式約束（如非相交條件、支撐條件與物理可行性等）。

更重要的是，強約束會顯著收縮可行三維配置空間，使「高度、距離、最短路徑」等空間關係在不同合理解釋下更具穩定性，從而使評測結果具備更好的可量化性與可比性。

SSI-Bench正是在這一背景下提出：它不再將模型置於約束較弱、可自由組合的日常場景中，而是面向複雜真實工程結構建構評測環境，要求模型形成約束一致的三維結構假設，並在此基礎上完成空間推理。

聚焦複雜三維結構

純人工硬核打造

任務形式：用排序題「逼出」真3D

SSI-Bench不再讓模型做選擇題，而是統一成排序任務：每題給出3或4個候選「構件/構件組」，要求在指定幾何/拓撲準則下輸出正確的全排列順序。

覆蓋能力：幾何+拓撲+多視角一致性

全基準共1,000道排序題，任務分兩大類：

幾何類（Geometric）：Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume；
拓撲類（Topological）：Hop Distance / Cycle Length等圖結構關係；

並額外引入多視角題目：以兩張圖配合，一張提供參考構件，一張給出待比較目標，重點考察跨視角構件對應與整體結構一致性。

建構過程：十位研究者耗費400+小時純人工打磨

為了保證資料集的質量與多樣性，同時也由於缺乏真實結構構件的標註資料，SSI-Bench的建構流程非常「硬核」——10位研究者投入超過400小時，從大量真實結構圖片中進行人工篩選與題目設計：

資料收集：研究中共計審閱約20,000張結構相關圖片，結構形式包括空間網架、鐵塔、斜拉橋、木竹結構、鋼筋籠、管道等，最終保留2,000+候選；主要來自免版稅來源（Unsplash / Pexels / Pixabay），多視角部分還補充了自採圖像。
任務設計：結合空間智能需求與結構工程專業知識，共精心設計2大類、10小類任務。
中繼資料標註：判斷每張圖片適用的任務類型，使用Label Studio提供構件定位標註；
問題生成：依據圖片色彩自動選取標註顏色，並按構件位置自動佈局標註文字；問題生成後，由人工覆核清晰度與遮擋情況。
質量檢驗：每題均由獨立檢查者覆核，若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。