實測:15秒出高密度資訊圖,還能圖文一步到位。當GPT images 2.0又再一次搶佔頭條,人們對多模態模型的關注也在悄然變化:“畫得好”已經不再是問題了,我們還想要“速度快、效率高、成本低”。過去很長一段時間裡,視覺理解與圖像生成,往往被拆分為兩套體系:前者負責“看懂”,後者負責“畫出”,中間通過不同模組進行銜接。這種在底層邏輯上的割裂,是阻礙模型效率的核心。商湯這次的思路,是從架構層面直接處理這個問題。他們剛剛開源了原生理解生成統一模型SenseNova U1,便基於自研的NEO-unify架構,將圖像與文字的理解與生成能力統一到同一體系中,沒有了“中間商”之後,效率得到大幅提升。在圖像理解與生成的多項基準測試中,SenseNova U1 Lite在同量級開源模型中達到SOTA水平,並在多項指標上逼近商業閉源模型表現。以8B參數規模,實現接近更大模型的能力,得到“以小搏大”的表現。▲高密度資訊圖(en)▲高密度資訊圖(zh)目前,使用者可以在Hugging Face、GitHub獲取開源模型。同時,商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1,使用者可直接體驗相關能力。01. 不堆參數,靠效率取勝:8B模型拿下開源SOTA本次開源包含兩個版本:SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT,均基於統一的多模態理解、推理與生成架構,面向圖文理解、生成及複雜互動任務。如果從測評結果來看,SenseNova U1最突出的優勢,在於整體效率——在理解、生成、推理與圖文交錯多個維度上,用更小的模型規模,跑出了接近甚至逼近商業閉源模型的表現。在理解側,SenseNova-U1-8B-MoT在AI2D、IFBench等基準上均取得領先表現,例如在AI2D上達到91.7分。結合空間理解相關測試,可以看到模型在複雜結構與關係判斷等任務中表現穩定,具備一定的邏輯推理能力。在生成側,模型在GenEval、OneIG、LongTextBench等任務中表現穩定,能夠同時兼顧複雜結構生成與文字一致性。尤其是在資訊圖生成(Infographics)任務中,平均得分達到50.7,是開源模型最強,媲美部分閉源商業模型。進一步看編輯與圖文交錯能力,在Editing、Visual Reasoning等任務中,SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測試中表現突出。例如在OpenING相關任務中達到91分,在視覺推理任務中也明顯優於傳統圖像生成模型。但相比這些分項成績,更關鍵的是它的“性能—效率比”。從對比結果來看,在資訊圖生成與長文字等任務中,SenseNova U1在約15秒延遲下即可取得接近60分的平均成績,整體屬於“高性能、低延遲”。對比Qwen-Image 2.0 Pro、Seedream 4.5等模型,其在生成質量接近商業閉源模型的同時,響應速度更快。▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench這些性能表現背後,主要還是來自底層架構的優勢。SenseNova U1基於商湯自研的NEO-unify原生統一架構,在設計上減少了中間環節帶來的資訊損耗,因此在資料利用效率和推理開銷上更有優勢。最終呈現出來的,才得以是“以小搏大”的優勢:僅用8B參數規模,在多個維度達到同量級開源模型SOTA,並在部分任務上逼近商業閉源模型。從測評結果來看,這種優勢已經比較清晰。至於落到真實使用場景中,SenseNova U1是否同樣穩定、好用,我們來實測一番。02. 一手實測揭秘:從立體排版到“言出法隨”智東西選取了多個不同類型的任務進行測試,覆蓋高密度資訊圖、趣味創意圖以及技術流程圖等典型場景。創作資訊圖可以說是最能“精準擊中”職場人的能力。使用者只需要輸入文章、資料或文字說明,模型就能將其中的關鍵資訊提煉出來,並生成一張具備結構、層級和視覺重點的資訊圖。在“蘇超出圈之路”這一案例中,模型就生成了一張多層蛋糕式資訊圖。不同階段以立體分層形式呈現,文字隨著結構自然分佈在不同空間層級中,而不是簡單平鋪。這背後其實反映的是模型對結構的理解能力。更關鍵的是,在這種複雜排版下,整張圖沒有出現明顯的文字錯位、遮擋或渲染錯誤,整體可讀性很高。換一個更複雜的文字場景來看,模型對富文字結構的理解能力,體現得更明顯:那些資訊需要突出,那些適合做流程,那些更適合用圖表表達,那些需要用圖示輔助理解。“龍蝦使用指南”這個案例,就更能體現細節處理能力。這一任務中包含大量中英文混排、不同字號文字以及情緒化表達。模型不僅把“禁止模糊指令”“禁止無限重試”這些核心文案寫對了,還自動匹配了對應的圖示和帶情緒的畫面,比如龍蝦被“壓榨”、被“投喂指令”等。不同模組之間的文字大小、間距和佈局都處理得較為合理,沒有擠在一起,已經達到直接商用的水準了。在人物與指令理解方面,“馬斯克vs奧特曼”這一案例更具代表性。在提示詞中僅輸入“奧特曼”這一暱稱,模型直接生成了一個穿西裝的“奧特曼形象”,與旁邊的馬斯克形成對比,既符合語義又帶有明顯的趣味性。與此同時,馬斯克的表情、動作以及整個對峙氛圍也都比較到位,可見模型在人物理解和場景建構上具備較強的語義對齊能力。到了技術表達這一步,難度其實更高。在“SenseNova U1技術解讀”這一案例中,模型需要生成的是一張邏輯清晰的技術流程圖。從結果來看,整體結構層級清晰,資訊分區明確、表達直觀,對於非技術讀者也較為友好。一輪實測下來,另一個比較直觀的感受是速度。這類圖像的生成基本都在十幾秒內完成,有點接近“言出法隨”的感覺。在這樣的生成效率下,各種應用場景也不在話下。目前,SenseNova U1可生成資訊圖譜、專業簡歷、生活指南、產品說明、百科知識、漫畫創作等多種內容。對行銷、辦公、設計、商業分析等場景來說,這類能力直接對應的是內容生產效率提升。03. 告別“縫合”,NEO-unify架構如何成為理解與生成的“通才”?測評整合績有優勢,實測效果也毫不遜色,這個原生框架究竟好在那裡,我們來拆解一下。過去,多模態模型的工作方式更像是“分工協作”:視覺編碼器負責理解圖像,變分自編碼器負責生成圖像。前者看圖,後者畫圖,中間再通過不同模組完成銜接。理解與生成更像兩條平行的流程,能配合,但很難真正融合,所以SenseNova U1這次選擇直接推倒重建,從底層架構上直接改掉這套“拼接式”體系。其採用的自研NEO-unify架構,不再把語言和視覺當作需要中間轉換的兩種訊號,而是從一開始就把它們當作同一類資訊來建模。換句話說,語言與視覺不再各走各路,在同一套表徵體系裡共同參與理解、推理和生成。這種設計本質上回到了“多模態AI第一性原理”:不同模態之間本來就是內在關聯的。在具體實現上,模型儘量減少中間壓縮與轉換環節,直接從接近原始的像素和文字資訊中學習,讓資訊在傳遞過程中損耗更小。同時,它的資料和推理效率也更高。這也是SenseNova U1值得關注的地方:並不是單純靠堆參數規模換效果,而是在底層架構上重新處理多模態模型的協作方式。04. 當AI學會“帶圖思考”展開空間智能更多想像不同於GPT-image2單純圖像上的“卷王體質”,SenseNova U1也展示了另一種可能:讓圖像成為邏輯的一部分,並在推理過程中引入對空間結構的理解。這也是其“連續性圖文創作輸出”的能力核心。SenseNova U1是業內首個能夠在單一模型上進行連貫圖文交錯生成的模型。這意味著,在處理複雜任務時,模型可以一邊解釋邏輯,一邊生成對應的示意圖、流程圖、草圖或設計圖。例如在教學、在繪本故事等場景中,它可以讓文字敘事、插圖風格、人物事件等保持一致性與連貫。同時,SenseNova U1並不是先生成一段完整文字,再去“補圖”,而是從材料準備或構圖草稿開始,一步步輸出關鍵操作,並同步生成對應畫面。整個生成過程是連續的:步驟之間有承接關係,圖像之間保持風格一致,文字和視覺內容也始終圍繞同一上下文展開。這種連貫性,在過去依賴多模型串聯的方案中很難穩定實現,往往會出現風格漂移或資訊斷裂。本質上,這得益於SenseNova U1所具備的原生圖文理解生成能力,能天然將圖像和文字底層融合訊號完整的保留上下文中,在統一表徵空間進行高效連貫思考。這也讓它和空間智能產生了更直接的聯絡。空間智能關注的是模型如何理解位置、方向、佈局、關係和結構,而這些能力恰恰會在圖像生成、高密度資訊圖排版、流程圖建構和場景示意中反覆出現。如果繼續往後看,這類能力也可能成為具身智能的重要基礎。機器人要在真實環境中完成任務,不僅要“看見”物體,還要理解物體之間的關係、判斷行動路徑,並根據任務目標做出連續決策。從這個角度看,SenseNova U1的意義不只是生成更好看的圖,而是在單一模型中嘗試打通理解、推理和視覺表達。它距離真正成為機器人的“具身大腦”還有距離,但這類統一架構,至少提供了一條更接近多模態閉環的技術路徑。05. 結語:理解與生成走向統一多模態模型進入分岔口從底層架構的NEO-unify創新,到應用層面的原生圖文交錯與高密度資訊圖生成,商湯的全面開源,不僅是參數規模上的“以小搏大”,更是對多模態第一性原理的深度回歸。當行業還在討論生圖模型的真實邊界時,SenseNova U1已經通過理解與生成的統一,為AGI的到來鋪就了一條更具效率的路徑。開放原始碼的力量將讓這種原生多模態能力迅速滲透進每一個垂直行業,我們正在見證的是一個“圖文同構、思畫合一”的全新時代的開啟。在大模型全球競賽的下半場,國產模型正在輸出屬於自己的硬核解法。 (智東西)