X平台瘋傳!這個中國開源模型,把資訊圖生成整明白了 | 附實測

8B參數,實現純粹端到端像素-文字建模。

今年4月底,GPT-Image 2發佈,帶動了一波資訊圖(Infographic)生成熱潮。從書籍摘要到商業報告,過去需要設計師才能完成的複雜版面,開始被AI批次生成。“AI資訊圖”成為近期內容創作領域討論熱度最高的話題之一。

但熱潮背後,一個問題隨之浮現:GPT-Image 2是閉源的,按Token計費,每百萬輸出Token高達30美元,對於有本地部署和二次開發需求的團隊來說,它並不是一個可以長期依賴的選項。

“有沒有可商用的開源替代方案”成為開發者社區的高頻討論。在這個背景下,商湯科技4月底開放原始碼的SenseNova U1開始進入越來越多開發者的視野,並在X平台引發了大量討論。

SenseNova U1採用了商湯自研的創新NEO-unify架構,徹底丟棄了傳統圖像模型必備的VAE和視覺編碼器,將像素與文字放入同一表徵空間原生建模。這意味著模型不再“翻譯”圖像,而是同時用兩種語言思考,從根源上解決了壓縮帶來的細節丟失和噪聲問題。

Hugging Face中國開發者社區工作人員Adina Yakup評價道:“這一模型實現了純粹的端到端像素-文字建模。”

在結構化版面、密集中英文混排、圖文精準對齊任務上,SenseNova U1實現了不錯的效果,而這些歷來是開源生圖模型的軟肋。AI博主Rohan Paul評價它:“攻克了圖像生成最難啃的骨頭。”

成本是SenseNova U1的另一大亮點。這一模型採用Apache 2.0 協議,支援商用,權重全開,單卡可跑,科技分析媒體Testing Catalog認為,其成本約為閉源方案的十分之一。開源不到一周,社區已自發提供GGUF量化權重,進一步降低部署門檻。

持續的高關注度下,近日,商湯進一步開源了SenseNova-U1-8B-MoT-Infographic(資訊圖增強版),直接接瞄準資訊圖這一高需求場景。與GPT-Image 2等主流閉源方案相比,它在成本、可部署性和二次開發空間上提供了截然不同的選擇。

實際效果究竟如何?我們通過一輪實測,看看這款開源模型能交出怎樣的答卷。

01. 七大硬核任務實測:梳理老黃行程、直出海報與論文高密度文字渲染已無明顯破綻

開發者在X平台討論SenseNova U1時,反覆提到兩個核心問題:文字渲染能不能穩?複雜版面能不能控?這也是資訊圖生成最本質的難點所在。我們把這兩個問題放在實測的最前面,先驗證基礎能力,再延伸到海報、學術文件等更多場景,最後與GPT-Image 2進行橫向對比,看兩款模型的設計取向究竟有何不同。

(1)還原老黃“特種兵式”訪華細節,梳理大模型演進時間線

第一個案例是最近很火的黃仁勳同款行程,老黃先到訪了人民大會堂,在北京南鑼鼓巷開啟特種兵般的行程,吃炸醬麵、喝豆汁兒、買蜜雪冰城,還嘗了稻香村,隨後開啟台北之旅。

面對這個任務,SenseNova U1資訊圖增強版先對複雜行程做了完整拆解,並按照合適的方式安排佈局。生成的資訊圖結構清晰,圖文結合也較為符合場景,還配有生動形象的描述,十分有現場感。

文字渲染方面,在這種高密度的場景下,依然能精準呈現地點、餐品名稱及細節,整體可讀性很強,展現了模型在複雜版面中對文字的穩定控制力。

看完這個輕鬆的案例,我們又讓SenseNova U1資訊圖增強版打造了一張“LLM Architectures 大語言模型架構演進”的橫向知識圖解。這個案例的難點在於包含大量資料,如何在柱狀圖中調整110M到1.8T的懸殊比例、讓表格內的中英雙語參數精準對齊,都是不小的挑戰。

SenseNova U1資訊圖增強版完美渲染了我們提供所有的文字資訊,從BERT到GPT-5,年代和參數規模一目瞭然,沒有出現文字亂碼。在圖表部分,柱狀圖渲染的效果基本符合資料大小,SenseNova U1資訊圖增強版還用箭頭體現了模型之間的技術傳承。

(2)生成音樂節與詩歌節海報,審美和精準度都線上

資訊圖還有一個十分常見的用法,就是海報生成。相比知識圖解對資料精度的嚴苛要求,海報更考驗模型對視覺衝擊力、排版美學的理解能力。

在音樂節海報任務中,我們要求SenseNova U1資訊圖增強版生成一張以富士山為主要視覺元素的海報。圖片中央的富士山元素和舞台元素融合自然,下半部分的演出陣容以網格狀整齊排列,12組音樂人的英文名和時間清晰列出。整體資訊層級按照大標題、日期、陣容的順序依次展開,視覺引導流暢。

總體來看,SenseNova U1資訊圖增強版很好地還原了深夜音樂節的氛圍。

在詩歌節海報任務中,我們在提示詞中強調了“中間留白約佔畫面40%”以及“呼吸感極強”。模型精準地理解了這些要求,沒有因為追求視覺效果而塞入多餘裝飾,而是嚴格遵循了克制的原則。

它還執行了深色襯線字型與米色紙張紋理的搭配,呈現出畫面整體氣質沉靜,左下角豎排小字與右下角線描月亮的構圖,精準捕捉到了東方留白詩意與現代排版的平衡感。這種對“少即是多”的理解能力在文生圖中並不多見。

SenseNova U1資訊圖增強版在應對精準排版指令時展現出了不錯的執行力,生成的畫面不僅好看,更能用於實際宣發場景。

(3)結構化文件生成,直出一頁學術論文

最後,我們還考驗了SenseNova U1資訊圖增強版在辦公場景的應用。這類場景要求模型能精準理解文件的常見格式要求,並精準渲染所有文字。

第一個案例是Q2業務回顧的簡報單頁。SenseNova U1資訊圖增強版生成了深灰底、左側豎排標題、右側進度條的分欄結構,中英文副標題右對齊到位,進度條上“Revenue 128%”標註清晰,底部頁碼與公司名擺放工整。

處理這類商務頁面時,模型對版面的留白控制得很舒適,沒有多餘的裝飾元素去幹擾資訊層級,重點資料一目瞭然。

第二個案例是生成高密度的論文頁面。生成高密度學術論文頁面的核心難度在於對複雜視覺元素與嚴謹邏輯關係的精確控制。提示詞中的要求按照arXiv 風格進行頁面渲染,且需要符合嚴格的學術排版規範(如斜體、加粗及專有名詞標註)。

最終,SenseNova U1資訊圖增強版精準輸出了完整的頁面排版,格式清晰、段落完整,複雜的數學公式也沒有出現結構性錯誤,尤其在這類文字密度極高、格式複雜的情況下。整體呈現出可直接使用的完成度。

最後一個案例是難度拉滿的高密度中文小字。下圖中是一家企業的品牌營運邏輯和市場表現全景解析,SenseNova U1資訊圖增強版不僅精準渲染了幾乎所有中文小字,排版也較為清晰易讀。

總體來看,SenseNova U1資訊圖增強版在資訊圖任務上展現出了不錯的版面控制力與複雜指令遵循能力。這讓它有潛力成為內容創作與辦公場景中的得力視覺工具。

02. 與GPT-Image 2橫向對比兩種不同的設計取向

X平台上有不少網友把SenseNova U1資訊圖增強版與GPT-Image 2放在一起討論。我們也做了對照的測試,看看這兩個模型在實際任務中有何異同。

我們的首個案例聚焦於當前火爆的分鏡生成玩法,要求兩個模型分別生成一段跑酷動作序列:在未完工的灰色混凝土建築內,一名運動員以動作捕捉剪影的形式,完成精準跳躍、牆跑和落地翻滾等一系列連貫動作。

GPT-Image 2先交出了生成結果:

SenseNova U1資訊圖增強版隨後完成了生成:

從視覺質感與逼真度的維度來看,GPT-Image 2生成的光影、材質、環境氛圍比較逼真,富有視覺衝擊力。SenseNova U1資訊圖增強版則偏向概念化,強調動作路徑和圖形化表達。

從資訊呈現與分鏡實用性來說,SenseNova U1資訊圖增強版的生成結果專業且清晰。它將每個鏡頭細緻拆解為:鏡頭語言(怎麼拍)、動作(怎麼做)、視覺特效(加什麼特效)。拿到這個分鏡指令碼已經基本可以開始製作了。

GPT-Image 2的生成結果在實用性上稍遜一籌。它看起來很酷、很科幻,但缺乏具體的製作指令。

在另一個資訊圖生成測試中,我們為兩個模型輸入了同一份復古航海圖風格的提示詞:要求生成一張橫版資訊圖,以做舊紙張為基底,用虛線航線串聯起從“創意萌芽”到“產品上市”的六個階段島嶼,並標註風險暗礁、資源漩渦等危險標記。GPT-Image 2與 SenseNova U1 資訊圖增強版再次展現出不同的設計取向。

GPT-Image 2在航海圖任務中延續了藝術化取向,較好地還原了做舊紙張紋理、手繪風格地標與古典裝飾元素,整體沉浸感強;但細節繁複,字號較小,閱讀效率不高。

SenseNova U1資訊圖增強版則選擇弱化了厚重紋理,視覺負擔更輕,資訊獲取更直接,更契合商業圖表的高效傳遞需求。

綜合以上兩個實測案例,我們可以清晰看到兩款模型在資訊圖生成領域呈現出的分化。

GPT-Image 2是“視覺派”,擅長通過光影、材質,打造具有衝擊力和情緒的視覺作品。但在需要精確拆解邏輯、清晰傳遞密集資訊的場景中,它的生成結果往往過於重視覺而輕資訊,導致可讀性下降。

SenseNova U1 資訊圖增強版則更像是“生產工具派”:它優先保障資訊的結構清晰與獲取效率,而它的短板在於視覺質感和穩定性仍有提升空間。

03. 回到開發者的問題架構、部署與真實價值

實測結果回應了X平台上那些討論的核心判斷,但也帶來了一些新的問題值得深挖:這款模型為什麼能用8B參數做到這些?開發者真正部署時會遇到什麼成本?它在那些場景下是可靠的生產工具,在那些場景下還需要謹慎?

作為一款僅有8B參數的大模型,尺寸並不是SenseNova U1系列模型唯一的特點。過去,多模態大模型長期受困於“理解”與“生成”的二分——通過視覺編碼器(VE)看懂圖像,再經由變分自編碼器(VAE)生成圖像,中間依靠介面卡連接。

這種拼接式架構如同一個“講不同語言的工作組”,資訊在模組間來回傳遞,不僅損耗大,更讓模型不得不依賴堆參來彌補性能損失。

商湯科技發佈的SenseNova-U1系列模型從根本上解決了這一難題——它採用了自研的NEO-unify架構範式,在單一模型中原生統一了多模態理解、推理與生成,真正將圖像與文字放到同一個表徵空間中直接建模。

在此前發佈的SenseNova-U1基礎上,商湯專門強化了SenseNova U1資訊圖增強版的資訊圖生成能力。為了避免通用理解能力在生成能力提升的過程中退化,商湯用高品質資料延長了MT訓練階段、在MT與SFT階段最佳化了理解與生成任務的資料配比、在 RL階段進一步打磨了獎勵設計。

最終,增強版模型在資訊圖相關基準上實現了顯著提升:在 BizGenEval(Hard) 任務中,較原版模型提升了6.8分;而在 IGenBench 的 Q-ACC(問答精準率) 測試裡,該基準用於評估資訊圖是否同時滿足文字、圖表、資料與結構等多重要求,增強版較原版更是大幅躍升了18.2分。

統一架構還賦予了SenseNova U1資訊圖增強版更豐富的任務邊界:它不只是一個生圖工具,還可以完成多類型任務,讓內容創作的整個鏈路都能在一個模型內閉環。

在上述的資訊圖、視覺理解任務中,SenseNova U1資訊圖增強版都展現出了紮實的實力。而更值得開發者關注的是,這份實力並非以高昂的算力或API呼叫成本為代價。

作為一款Apache 2.0協議全開源、支援商用的模型,SenseNova U1資訊圖增強版支援輕量化的本地部署。本次實測中我們選擇的是一張RTX 5880顯示卡,擁有48GB視訊記憶體,實際跑下來視訊記憶體佔用大概在30多GB。我們還試著將顯示卡視訊記憶體大小調整至24GB、8GB,結合虛擬視訊記憶體後,這些配置也能成功跑出結果。

而在RTX 5880的配置下,SenseNova U1資訊圖增強版生成一張資訊圖的時間大概在70秒左右(2048x2048,推理步數30)。同時,GGUF量化後的模型,適用於約10–12 GB視訊記憶體的消費級顯示卡。

這讓SenseNova-U1系列模型具有較強的性價比。以GPT-Image 2為代表的主流閉源模型採用按Token計費的模式,每百萬輸出Token價格高達30美元,生成一張高解析度資訊圖的估算成本在0.005美元至0.4美元不等。單張呼叫似乎不貴,但對於日均生成上千張圖像的團隊來說,成本壓力迅速累積。

相比之下,SenseNova-U1系列模型可在開發者自己的伺服器上無限次運行。這種成本結構對團隊而言是高度可預測、極低邊際成本的。

04. 結語:統一架構的想像力遠不止資訊圖

回到最初網友們討論的焦點,實測給出了答案。SenseNova-U1系列模型的架構突破是真實的,NEO-Unify去掉VAE和視覺編碼器之後,模型在資訊層級理解和版面控制上確實獲得了結構性的改善,而不只是基準分數的躍升。

此外,模型在資訊圖這一場景的細分能力也十分突出。在行程梳理、海報生成、學術文件等高密度場景中,它能交出可用的結果,並非噱頭。

而其開放的姿態和極低的部署成本,讓這種能力不再只是實驗室裡的演示,而是真正有機會落地到開發者自己的產品和工作流中。

當然,極高密度文字場景下偶發的亂碼、視覺質感與GPT-Image 2之間的差距,都是它還在打磨的空間。但一個8B的開源模型,能把這場對話推進到這裡,本身已經說明了一件事:統一架構的想像力,遠不止資訊圖。 (智東西)