#開源模型
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)
DeepSeek V4:是AI開源大事件,更是產業變革新開端
推理效率提升74%、KV快取壓縮90%、API定價不及閉源競品1%。當大模型的邊際成本趨近於零,AI產業的真正變局才剛剛開始。2026年4月24日,DeepSeek在沉寂長達15個月後,正式發佈並開源新一代旗艦模型DeepSeek-V4。這不是一次常規的模型迭代,而是一次從架構底層到價格體系、從算力生態到產業邏輯的全方位重塑。如果說過去兩年AI圈的競爭是“誰能做出更聰明的模型”,那麼從這一天開始,競爭正在轉向:“誰能讓AI變成人人用得起的水電煤”。一、暴力破解的終結:當AI開始“聰明地花算力”DeepSeek-V4系列包含兩款模型:V4-Pro(1.6兆總參數,每次推理啟動490億參數)和V4-Flash(2840億總參數,每次推理啟動130億參數),兩者均原生支援100萬token超長上下文。1M上下文從此不再是一個“高端功能”——一年前它還是Gemini獨家的王牌,如今被DeepSeek直接挪成了行業標配的“水電煤”。這組資料之所以震驚業界,不是因為參數大,而是因為效率做到了前所未有的極致。在100萬token的極端長度下,V4-Pro的單token推理FLOPs僅為上一代V3.2的27%,KV快取佔用僅為10%。V4-Flash則更進一步,只需要10%的單token FLOPs和7%的KV快取。這意味著什麼?處理同樣長度的超長文件,V4不僅讀得更多,而且讀得更快、更省、更穩。效率提升的核心來自一系列值得深挖的架構創新:壓縮稀疏注意力(CSA) :每4個token合併成一個壓縮條目,然後用閃電索引器快速篩選出最相關的少量塊進行注意力計算——“拿著放大鏡找關鍵線索的偵探”。重度壓縮注意力(HCA) :以高達128倍的壓縮率濃縮全域資訊——“站在山頂俯瞰全景的指揮官”。兩者交錯部署在模型的各層中,形成精準定位與全域把握的互補。流形約束超連接(mHC) :給訊號傳播加上“安全閥”,從根本上保證訓練穩定性。Muon最佳化器:取代業界標配的AdamW,進一步降低訓練成本。這一切的底層哲學,不是“堆參數”,而是“每瓦特算力的最大產出”。DeepSeek V4把注意力機製做了一次“手術級”的改造,讓超長上下文從實驗室裡的“高端展示”變成了普通開發者也能跑得動的日常工具。這種效率革命帶來的是價格上的斷崖式下降。DeepSeek V4-Flash每百萬token輸出價僅0.279美元,而同期OpenAI發佈的GPT-5.5 Pro輸出價高達180美元——價差整整645倍。V4-Pro輸出端成本則僅為GPT-5.5 Pro的2%。如果把V4-Pro考慮折扣後的API輸入價壓到0.25元/百萬詞元,與GPT-5.5 Pro加權平均價格30美元/百萬token相比,價差超過700倍。更直觀地說:V4呼叫一次的價格,還不到對手的千分之一。 在推理效率層面,華為昇騰950超節點的測試資料顯示,V4-Pro單卡Decode吞吐可達4700TPS,V4-Flash在8K長序列場景下單卡Decode吞吐1600TPS。DeepSeek V4的回答是:快,是能力的下限;省,才是格局的起點。二、一扇門打開,另一扇門關上當DeepSeek V4以700倍的價格差距直插市場時,它激發的連鎖反應遠遠超出模型本身。開源vs閉源:矽谷在“造牆”,中國在“修路”。矽谷的頭部玩家們不約而同地選擇了閉源路線。OpenAI、Anthropic、Google的Gemini,當前沿技術創新被鎖死在各自的資料中心裡,玩家們不可避免地陷入了零和博弈的“權力遊戲”。就在V4發佈前夕,一場圍繞新模型的輿論狙擊戰剛剛上演——4月16日Anthropic剛發佈Claude Opus 4.7,OpenAI兩個多小時後便宣佈Codex大幅更新;隨後又圍繞營收資料互相拆台,敵意滲透進每一個決策環節。而DeepSeek走了一條完全不同的路。它聚焦基礎模型的核心能力攻堅,進一步築牢了全球開源大模型的性能天花板,為全行業提供了性能比肩閉源旗艦的基礎底座。巧合的是,就在V4發佈前後,國內的Kimi也開源了K2.6,兩個兆參數模型同時亮相,卻沒有一絲互掐,甚至還在技術底層進行了“換防”。正如大量評論所指出的,這背後是中美AI路線的一次分岔:矽谷在“造牆”,守住既得利益;中國在“修路”,走開源協同之路。這種路線的分野,背後是根本邏輯的差異。閉源路線的本質是技術作為“護城河”和賺錢的工具,一旦共享就會失去競爭優勢;而開放原始碼的邏輯是模型越開放,生態越繁榮,蛋糕才能越做越大。網際網路巨頭:戰火從“參數比拚”燒向“應用落地”。DeepSeek V4發佈僅一天後,阿里雲百煉就火速上線,API價格與官網一致;國家超算網際網路同步上線服務。科大訊飛、中關村科金、華為昇騰等廠商也在第一時間完成了適配對接。對於騰訊、字節跳動、阿里這樣的巨頭來說,V4的衝擊更多是戰略層面的:以前大家的競爭焦點是“誰的模型參數更大、榜單更高”,現在V4用700倍的成本優勢提醒所有人——接下來真正決定勝負的戰場,是誰能在真實業務場景中用模型創造價值。誰先學會“用好V4”,誰就可能在下一階段佔據卡位優勢。各行各業:一次從“能不能用”到“用不用得起”的跨越。在此之前,企業引入大模型最大的瓶頸不是技術夠不夠好,而是成本夠不夠低。一次API呼叫幾十上百美元的成本,對中小企業來說等於把AI鎖在實驗室裡。V4的出現改變了這一切。在金融行業,國泰海通率先完成DeepSeek-V4基於昇騰的本地化部署,將依託模型實現在智能投行、智能投研、智能投顧、智能風控等八大業務領域的全面突破。保險行業聚焦投保、核保、理賠查勘等高重複性、知識密集型和互動高頻度場景展開部署。在醫療領域,深圳市南山區人民醫院基於昇騰率先部署V4,全面升級了政策諮詢、醫保監管、門診病歷質控等30余項應用,全方位覆蓋醫療全流程。廣西移動落地部署V4,聚焦行銷服務、研發設計等核心領域,全面賦能16個業務場景。河北交投智能科技公司在行業內率先完成V4本地化部署,建構了“自主創新算力+頂尖大模型”的全端自主創新AI底座。從金融到醫療,從通訊到交通——DeepSeek V4發佈後24小時內,各行業頭部企業就火速跟進部署。這本身就是最好的訊號:當AI足夠便宜,企業就不再觀望。“用得起”的真正意義,在於讓AI從實驗室資源變成基礎設施,從而催生前所未有的創新。三、AI便宜到人人敢用,模式才敢真變如果說過去兩年AI的變革是“天變了”,那麼V4之後,我們才第一次站在真正的變局起點上。為什麼這麼說?因為模式創新的土壤不是技術能力本身,而是足夠低的試錯成本。當一個團隊可以毫不心疼地跑十次不同提示詞、對比輸出質量而不是在意API帳單,產品經理可以大膽設想的每個互動都即時呼叫AI,企業可以把AI植入到那些“不太重要但希望更好的環節”——這才是模式創新真正開始的時候。DeepSeek V4的Agent能力經過了專門最佳化。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,交付質量接近Claude Opus 4.6非思考模式;在世界知識測評中大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1;在數學、STEM、競賽型程式碼等推理任務中超越所有已公開評測的開源模型。V4-Pro還在Codeforces程式設計任務中拿下3206分的測評成績,位列全球活躍使用者第23位。這意味著,過去只有頂級閉源模型才具備的強大執行能力,現在以1/700的價格向所有人開放。中小企業可以部署自動處理客戶問題的7×24小時AI客服系統;個體開發者建構的Agent能自主呼叫API完成多步任務;創業公司可以在產品中“鋪滿AI”,讓大模型程式碼改寫、文件生成、資料清洗成為功能的默認組成部分。當AI便宜到可以和“發一條簡訊”比較成本的時候,所有行業都值得重新問自己一個問題:如果AI呼叫幾乎是免費的,我的產品應該長什麼樣?四、Token經濟的興起:當消耗量三年增長一千多倍在把模型做得更高效、更便宜的同時,一個更深層的經濟變革正在發生。Token——大模型的基本計量單位——正在從後台技術參數變成AI經濟的前台結算單位。商湯科技大裝置產品總經理盧國強在2026中國生成式AI大會上提出的“AI Token Factory”概念,精準概括了這一趨勢:行業正在從“AI原生”邁向“Agent原生”,Token替代Flops成為新的度量衡,AI系統的核心使用者將從人轉向Agent。Token消耗量的增長數字令人震撼。國家資料局公佈的資料顯示,到2026年3月,中國日均Token呼叫量已超過140兆,相比2024年初的1000億增長了1000多倍,相比2025年底的100兆,短短三個月又增長了40%以上。中國工程院院士鄭緯民指出,AI產業的競爭核心正從MaaS(模型即服務)向TaaS(Token即服務)躍遷,從比拚算力叢集規模轉向比拚每瓦Token生產效率。圍繞Token經濟的整套產業邏輯正在逐步成型:生產層:對應算力、晶片、資料中心與推理引擎,把Token作為核心產品來組織基礎設施。分發層:對應雲平台、大模型廠商與API服務商,將底層能力打包按量計費分發。轉化層:對應各行業的AI原生應用和Agent系統,將Token轉化為實際的業務結果。阿里巴巴已正式成立Alibaba Token Hub事業群,騰訊雲將MaaS平台升級為TokenHub,行業從藍海迅速變為紅海。Token兩年激增千倍,智能體市場規模2025年達78.4億元,預計2026年將達135.3億元,增速超過70%。Token正從技術參數,變成AI時代最核心的生產資料和度量衡。誰能高效生產Token、精準分發Token、有效轉化Token,誰就能在智能經濟的新賽道上佔據先機。五、變局中的挑戰與耐心V4帶來的不可能全是好消息。巨大的機遇背後,挑戰同樣不容迴避。安全邊界重構需要時間。 當模型能夠讀取百萬token的超長上下文,風險不再只存在於使用者的當前問題中,而可能藏在龐大材料的某個角落——長長的郵件鏈的腳註裡、PDF的不可見區域中、程式碼註釋裡或歷史聊天記錄中。攻擊者可以把惡意指令藏在這些地方,在模型執行複雜的跨文件推理時“潛伏發動”。強制長上下文安全做前置治理,對使用者指令和外部資料做來源標註和風險掃描,已經成為迫在眉睫的工程需求。落地到用好有個過程。 企業部署了V4並不等於馬上獲得商業價值。從部署到真正融入核心業務流程創造收益,中間還有漫長的產品化、場景適配和組織變革之路。Token成本大幅下降後,產品經理如何在AI能力邊界內重新設計功能,才是決定成敗的關鍵因素之一。地緣政治與算力安全需要關注。 DeepSeek-V4首次在官方技術報告中,將華為昇騰與輝達GPU並列寫進硬體驗證清單,這是中國大模型首次將國產晶片與進口晶片放到了同等戰略高度。適配的昇騰新款推理晶片採購價格僅為輝達晶片的1/4,端到端延遲比原有叢集降低35%。輝達CEO黃仁勳此前警告稱:“如果頂尖的AI模型被最佳化在華為晶片上運行,對美國而言將是可怕的後果”。V4的發佈標誌著中國AI基礎設施的重心正從依賴美國半導體轉向本土化算力底座建構。但技術代差客觀存在,DeepSeek也坦承其能力整體落後於同期主要閉源對手約3至6個月。六、變局的開端才剛剛到來回到標題的那個判斷:DeepSeek V4是AI開源大事件,更是產業變革新開端。是的,事件已經發生——V4-Pro和V4-Flash雙雙開源,百萬上下文成為標配,API定價低至全球閉源競品的1/700,Agent能力逼近頂尖水平。但真正的變革才剛剛開始。因為V4真正的意義,不在於它本身有多強,而在於它重新定義了什麼才是AI產業真正的“兵家必爭之地” 。V4向行業宣告:當模型能力開始逐步趨同(開源會逐步追平閉源),真正決定勝負的將是:誰能讓AI更便宜、更易用、更快地融入真實世界。從長遠來看,AI產業的終極形態是:大模型成為像電力一樣的基礎設施,上面的Agent和智能應用才是創造價值的核心。而DeepSeek V4用700倍的成本優勢一次性把基礎設施的“電費”降到了幾乎可以忽略不計的水平。接下來,誰能在上面建造出更有創造力的智能應用,誰才是真正的贏家。2026年4月24日以前,AI還在比拚“能力的天花板”。從這一天開始,AI產業的真正競賽才剛剛開始。 (數字新財報)
商湯發佈多模態“效率怪獸”,開源即SOTA!最小僅8B,比肩商用
實測:15秒出高密度資訊圖,還能圖文一步到位。當GPT images 2.0又再一次搶佔頭條,人們對多模態模型的關注也在悄然變化:“畫得好”已經不再是問題了,我們還想要“速度快、效率高、成本低”。過去很長一段時間裡,視覺理解與圖像生成,往往被拆分為兩套體系:前者負責“看懂”,後者負責“畫出”,中間通過不同模組進行銜接。這種在底層邏輯上的割裂,是阻礙模型效率的核心。商湯這次的思路,是從架構層面直接處理這個問題。他們剛剛開源了原生理解生成統一模型SenseNova U1,便基於自研的NEO-unify架構,將圖像與文字的理解與生成能力統一到同一體系中,沒有了“中間商”之後,效率得到大幅提升。在圖像理解與生成的多項基準測試中,SenseNova U1 Lite在同量級開源模型中達到SOTA水平,並在多項指標上逼近商業閉源模型表現。以8B參數規模,實現接近更大模型的能力,得到“以小搏大”的表現。▲高密度資訊圖(en)▲高密度資訊圖(zh)目前,使用者可以在Hugging Face、GitHub獲取開源模型。同時,商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1,使用者可直接體驗相關能力。01. 不堆參數,靠效率取勝:8B模型拿下開源SOTA本次開源包含兩個版本:SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT,均基於統一的多模態理解、推理與生成架構,面向圖文理解、生成及複雜互動任務。如果從測評結果來看,SenseNova U1最突出的優勢,在於整體效率——在理解、生成、推理與圖文交錯多個維度上,用更小的模型規模,跑出了接近甚至逼近商業閉源模型的表現。在理解側,SenseNova-U1-8B-MoT在AI2D、IFBench等基準上均取得領先表現,例如在AI2D上達到91.7分。結合空間理解相關測試,可以看到模型在複雜結構與關係判斷等任務中表現穩定,具備一定的邏輯推理能力。在生成側,模型在GenEval、OneIG、LongTextBench等任務中表現穩定,能夠同時兼顧複雜結構生成與文字一致性。尤其是在資訊圖生成(Infographics)任務中,平均得分達到50.7,是開源模型最強,媲美部分閉源商業模型。進一步看編輯與圖文交錯能力,在Editing、Visual Reasoning等任務中,SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測試中表現突出。例如在OpenING相關任務中達到91分,在視覺推理任務中也明顯優於傳統圖像生成模型。但相比這些分項成績,更關鍵的是它的“性能—效率比”。從對比結果來看,在資訊圖生成與長文字等任務中,SenseNova U1在約15秒延遲下即可取得接近60分的平均成績,整體屬於“高性能、低延遲”。對比Qwen-Image 2.0 Pro、Seedream 4.5等模型,其在生成質量接近商業閉源模型的同時,響應速度更快。▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench這些性能表現背後,主要還是來自底層架構的優勢。SenseNova U1基於商湯自研的NEO-unify原生統一架構,在設計上減少了中間環節帶來的資訊損耗,因此在資料利用效率和推理開銷上更有優勢。最終呈現出來的,才得以是“以小搏大”的優勢:僅用8B參數規模,在多個維度達到同量級開源模型SOTA,並在部分任務上逼近商業閉源模型。從測評結果來看,這種優勢已經比較清晰。至於落到真實使用場景中,SenseNova U1是否同樣穩定、好用,我們來實測一番。02. 一手實測揭秘:從立體排版到“言出法隨”智東西選取了多個不同類型的任務進行測試,覆蓋高密度資訊圖、趣味創意圖以及技術流程圖等典型場景。創作資訊圖可以說是最能“精準擊中”職場人的能力。使用者只需要輸入文章、資料或文字說明,模型就能將其中的關鍵資訊提煉出來,並生成一張具備結構、層級和視覺重點的資訊圖。在“蘇超出圈之路”這一案例中,模型就生成了一張多層蛋糕式資訊圖。不同階段以立體分層形式呈現,文字隨著結構自然分佈在不同空間層級中,而不是簡單平鋪。這背後其實反映的是模型對結構的理解能力。更關鍵的是,在這種複雜排版下,整張圖沒有出現明顯的文字錯位、遮擋或渲染錯誤,整體可讀性很高。換一個更複雜的文字場景來看,模型對富文字結構的理解能力,體現得更明顯:那些資訊需要突出,那些適合做流程,那些更適合用圖表表達,那些需要用圖示輔助理解。“龍蝦使用指南”這個案例,就更能體現細節處理能力。這一任務中包含大量中英文混排、不同字號文字以及情緒化表達。模型不僅把“禁止模糊指令”“禁止無限重試”這些核心文案寫對了,還自動匹配了對應的圖示和帶情緒的畫面,比如龍蝦被“壓榨”、被“投喂指令”等。不同模組之間的文字大小、間距和佈局都處理得較為合理,沒有擠在一起,已經達到直接商用的水準了。在人物與指令理解方面,“馬斯克vs奧特曼”這一案例更具代表性。在提示詞中僅輸入“奧特曼”這一暱稱,模型直接生成了一個穿西裝的“奧特曼形象”,與旁邊的馬斯克形成對比,既符合語義又帶有明顯的趣味性。與此同時,馬斯克的表情、動作以及整個對峙氛圍也都比較到位,可見模型在人物理解和場景建構上具備較強的語義對齊能力。到了技術表達這一步,難度其實更高。在“SenseNova U1技術解讀”這一案例中,模型需要生成的是一張邏輯清晰的技術流程圖。從結果來看,整體結構層級清晰,資訊分區明確、表達直觀,對於非技術讀者也較為友好。一輪實測下來,另一個比較直觀的感受是速度。這類圖像的生成基本都在十幾秒內完成,有點接近“言出法隨”的感覺。在這樣的生成效率下,各種應用場景也不在話下。目前,SenseNova U1可生成資訊圖譜、專業簡歷、生活指南、產品說明、百科知識、漫畫創作等多種內容。對行銷、辦公、設計、商業分析等場景來說,這類能力直接對應的是內容生產效率提升。03. 告別“縫合”,NEO-unify架構如何成為理解與生成的“通才”?測評整合績有優勢,實測效果也毫不遜色,這個原生框架究竟好在那裡,我們來拆解一下。過去,多模態模型的工作方式更像是“分工協作”:視覺編碼器負責理解圖像,變分自編碼器負責生成圖像。前者看圖,後者畫圖,中間再通過不同模組完成銜接。理解與生成更像兩條平行的流程,能配合,但很難真正融合,所以SenseNova U1這次選擇直接推倒重建,從底層架構上直接改掉這套“拼接式”體系。其採用的自研NEO-unify架構,不再把語言和視覺當作需要中間轉換的兩種訊號,而是從一開始就把它們當作同一類資訊來建模。換句話說,語言與視覺不再各走各路,在同一套表徵體系裡共同參與理解、推理和生成。這種設計本質上回到了“多模態AI第一性原理”:不同模態之間本來就是內在關聯的。在具體實現上,模型儘量減少中間壓縮與轉換環節,直接從接近原始的像素和文字資訊中學習,讓資訊在傳遞過程中損耗更小。同時,它的資料和推理效率也更高。這也是SenseNova U1值得關注的地方:並不是單純靠堆參數規模換效果,而是在底層架構上重新處理多模態模型的協作方式。04. 當AI學會“帶圖思考”展開空間智能更多想像不同於GPT-image2單純圖像上的“卷王體質”,SenseNova U1也展示了另一種可能:讓圖像成為邏輯的一部分,並在推理過程中引入對空間結構的理解。這也是其“連續性圖文創作輸出”的能力核心。SenseNova U1是業內首個能夠在單一模型上進行連貫圖文交錯生成的模型。這意味著,在處理複雜任務時,模型可以一邊解釋邏輯,一邊生成對應的示意圖、流程圖、草圖或設計圖。例如在教學、在繪本故事等場景中,它可以讓文字敘事、插圖風格、人物事件等保持一致性與連貫。同時,SenseNova U1並不是先生成一段完整文字,再去“補圖”,而是從材料準備或構圖草稿開始,一步步輸出關鍵操作,並同步生成對應畫面。整個生成過程是連續的:步驟之間有承接關係,圖像之間保持風格一致,文字和視覺內容也始終圍繞同一上下文展開。這種連貫性,在過去依賴多模型串聯的方案中很難穩定實現,往往會出現風格漂移或資訊斷裂。本質上,這得益於SenseNova U1所具備的原生圖文理解生成能力,能天然將圖像和文字底層融合訊號完整的保留上下文中,在統一表徵空間進行高效連貫思考。這也讓它和空間智能產生了更直接的聯絡。空間智能關注的是模型如何理解位置、方向、佈局、關係和結構,而這些能力恰恰會在圖像生成、高密度資訊圖排版、流程圖建構和場景示意中反覆出現。如果繼續往後看,這類能力也可能成為具身智能的重要基礎。機器人要在真實環境中完成任務,不僅要“看見”物體,還要理解物體之間的關係、判斷行動路徑,並根據任務目標做出連續決策。從這個角度看,SenseNova U1的意義不只是生成更好看的圖,而是在單一模型中嘗試打通理解、推理和視覺表達。它距離真正成為機器人的“具身大腦”還有距離,但這類統一架構,至少提供了一條更接近多模態閉環的技術路徑。05. 結語:理解與生成走向統一多模態模型進入分岔口從底層架構的NEO-unify創新,到應用層面的原生圖文交錯與高密度資訊圖生成,商湯的全面開源,不僅是參數規模上的“以小搏大”,更是對多模態第一性原理的深度回歸。當行業還在討論生圖模型的真實邊界時,SenseNova U1已經通過理解與生成的統一,為AGI的到來鋪就了一條更具效率的路徑。開放原始碼的力量將讓這種原生多模態能力迅速滲透進每一個垂直行業,我們正在見證的是一個“圖文同構、思畫合一”的全新時代的開啟。在大模型全球競賽的下半場,國產模型正在輸出屬於自己的硬核解法。 (智東西)