DeepSeek多模態模式相信有很多人已經灰度到了,對應的技術報告也來了,可以說DeepSeek 解決了可靠且廉價的電腦代理的最後一個難題DeepSeek放出了一篇新論文,解決的是多模態大模型裡一個被長期忽視的根本性問題。不是看不清圖,而是說不清位置。論文名叫 Thinking with Visual Primitives(基於視覺原語的思考),來自DeepSeek、北大和清華的聯合團隊。paper:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf問題出在那裡現有的多模態大模型,推理過程基本被鎖死在文字空間裡。模型用Chain-of-Thought(CoT)一步步推導,聽起來很合理,但有個致命缺陷:語言本身是模糊的,它沒辦法精確指向圖像裡某個具體位置。比如你問模型:圖裡左邊那個小杯子旁邊的那個東西是什麼顏色?模型的語言推理鏈條很快就會亂掉,它"想著"一個物體,實際上卻已經搞混了另一個。這就是論文裡定義的Reference Gap(指代鴻溝)。和它對應的是另一個已經被廣泛研究的問題:Perception Gap(感知鴻溝),即模型看不清高解析度圖像裡的細節。前者已有不少工作在做,比如高解析度裁切、動態分塊。但後者一直沒有被正面解決。論文的核心判斷是:就算感知做到完美,只要指代還靠自然語言,模型在密集計數、複雜空間推理、拓撲導航這類任務上就會持續出錯,產生連鎖幻覺。DeepSeek解法:讓模型一邊想一邊指DeepSeek的方案叫 Thinking with Visual Primitives,思路:把空間標記,也就是點(point)和邊界框(bounding box),升格為"最小思維單元",直接插進模型的推理鏈條裡。人類數一堆密集的東西時,會用手指逐個點過去。這個框架做的事情和這個一樣:模型每推理一步,就可以在圖上"戳一下",把抽象的語言思維錨定到圖像的物理坐標上。兩種視覺原語各有分工:邊界框適合捕捉具體物體的位置和大小;點則更適合抽象的視覺指代,比如軌跡追蹤或拓撲推理中的路徑節點。架構:極致的token壓縮這套框架建立在一個對token效率做到極致的架構上。語言骨幹是 DeepSeek-V4-Flash,總參數284B,推理時啟動參數13B。視覺編碼用的是 DeepSeek-ViT,一個從頭訓練的ViT,支援任意解析度輸入。它先用14×14的patch大小把圖像切成patch token,然後在ViT輸出端用3×3空間壓縮,把每9個相鄰patch token合併成1個。進入LLM之後,還有一層 Compressed Sparse Attention(CSA) 機制,對視覺token的KV cache再壓縮4倍。整體下來的壓縮比是7056倍。舉個具體的數字:一張756×756的圖,原始像素展開是571,536個,經過patch embedding變成2,916個ViT token,3×3壓縮後變成324個,進入LLM後KV cache裡只剩81個視覺條目。如圖所示,處理一張800×800的圖,本文模型消耗約361個token(KV cache裡只有約90條),而Claude-Sonnet-4.6需要約870個,Gemini-3-Flash需要約1100個,GPT-5.4需要約740個。token用量不到競品的三分之一,但在7個基準測試上的平均分是77.2%,高於Gemini-3-Flash的76.5%和GPT-5.4的71.1%。訓練:四個階段,從專才到通才訓練流程分為預訓練和後訓練兩大階段預訓練目標是讓模型學會輸出視覺原語。訓練資料來自大規模網路爬取。僅在Huggingface上,團隊就用官方API篩選了帶有Object Detection或Grounding標籤的資料集,按熱度排名初篩,排除所有驗證集和測試集,再用LLM agent解析README檔案,統一格式。最終爬取了97,984個box grounding相關資料來源。原始資料質量參差不齊,團隊設計了兩步過濾流程:第一步是語義審查,用MLLM自動識別並丟棄三類問題資料:無意義的機器碼和亂碼標籤、無法泛化的私有實體(比如MyRoommate這類私人稱呼)、歧義縮寫和主觀評價(比如工業檢測裡的OK/NG)。這一步從97,984個源過濾到43,141個。第二步是視覺幾何質量審查,排除三類標註缺陷:嚴重漏標(漏標率超50%)、嚴重截斷或偏移(切掉了物體關鍵視覺特徵)、無意義的超大框(覆蓋超過90%圖像面積,通常是圖像分類資料被強行轉成檢測資料)。過濾後剩31,701個資料來源。最終通過類別均衡採樣,得到超過4000萬個高品質樣本。格式上,box grounding任務的prompt範本類似於:Locate TARGET in this image and report its bounding box coordinates,響應格式使用特殊token包裹坐標,坐標歸一化到0到999的離散整數。point任務同理,但響應不要求輸出物體名稱,以便將點標記擴展到軌跡等更抽象的概念。後訓練:冷啟動資料後訓練需要少量但高精度的冷啟動資料。團隊圍繞四類任務建構這些資料:1. 計數(Counting)分粗粒度和細粒度兩類,如圖粗粒度計數:聚合多個密集檢測資料集,過濾掉物體過密、框太小、召回率低的樣本,用MLLM生成推理內容,分三步走:意圖分析、批次定位(同時找出所有候選物體)、基於視覺原語統計求和。細粒度計數:因為公開資料集太少,團隊基於GQA資料集建構了專屬流程,用MLLM生成帶有屬性約束的計數問題,再合成包含視覺原語的推理鏈。同時建構了ground truth為零的負樣本,增強模型抗幻覺能力。冷啟動計數資料共約10,000條。2. 空間推理和通用視覺問答如圖所示,資料來源包括自然場景(基於GQA)和合成場景(基於CLEVR工具鏈,支援可控場景生成和多跳推理)。還建構了負樣本,當查詢的物體或關係不存在時,模型學會基於視覺證據給出忠實的拒絕回答。共約9,000條冷啟動樣本。3. 迷宮導航如圖所示,這是為瞭解決純語言CoT無法精準描述不規則形狀軌跡的問題。迷宮用DFS、Prim和Kruskal演算法生成,確保路徑不能被輕易猜到。設計了三種拓撲結構:矩形網格、同心圓形迷宮、六邊形蜂巢迷宮。同時設計了無解迷宮,方法是先生成有解迷宮,找到解路徑後,在路徑中段故意放置幾堵牆,使迷宮看似可解但實際需要完整搜尋才能確認無解。難度通過網格大小控制:簡單迷宮只需串聯少量本地連通性檢查,最難的噩夢級迷宮需要持續追蹤數百步而不丟失已探索區域資訊。推理內容記錄了基於DFS的探索過程,每一步都用point坐標錨定到圖像上。共生成460,000條冷啟動樣本。4. 路徑追蹤如圖所示,任務是在一堆相互纏繞的線條中,沿指定曲線追蹤到它的終點。圖像由多條貝塞爾曲線生成,每條連接一個標記起點和終點。關鍵挑戰在於交叉點消歧:在兩條線交叉的地方,模型必須判斷那個分支是目標曲線的延續。設計了純色統一風格模式,所有線條顏色和粗細相同,強迫模型只靠曲率連續性判斷,而不是靠顏色捷徑。推理內容用一系列坐標序列表示追蹤過程,在曲率大或交叉密集的區域坐標點更密,在平直段坐標點更稀疏,模仿人類在視覺複雜區域放慢注意力的行為。共生成125,000條冷啟動樣本。後訓練流程:專才訓練再合併後訓練採用專才訓練後合併的策略,分四個子階段:專項SFT:訓練資料由70%通用多模態和純文字資料、30%視覺原語專項資料構成。box(thinking with grounding)和point(thinking with pointing)分開訓練,避免在專項資料量較少時產生模式衝突,分別得到專才模型FTwG和FTwP。專項RL:對FTwG和FTwP分別獨立進行強化學習,使用GRPO演算法。設計了三類獎勵模型同時監督:格式RM(規則型,驗證視覺原語格式是否正確,同時檢查是否存在重複框)、質量RM(基於LLM的生成式獎勵模型,檢查回答冗餘、思維與回答是否一致、是否存在自相矛盾、獎勵駭客行為等)、精準性RM(針對不同任務定製)。計數任務的精準性獎勵採用平滑指數衰減函數,對接近正確的預測輕懲,對偏差大的預測重懲,而非簡單的二值精確匹配。迷宮導航的獎勵分解為探索進展、探索完整性、穿牆懲罰、最終路徑有效性、答案正確性五個分項,確保獎勵訊號密集且資訊豐富。路徑追蹤的獎勵包含雙向軌跡評估:正向懲罰偏離真實路徑的預測點,反向懲罰模型跳過的路徑段,兩者缺一不可。RL結束後,將資料池按難度分為三級:所有N次rollout全對(Easy)、部分對(Normal)、全錯(Hard),只選Normal級資料用於GRPO訓練。訓練完成得到專才模型ETwG和ETwP。統一RFT:用ETwG和ETwP對資料池做rollout,生成RFT資料,保留所有Normal級樣本,隨機子採樣5%的Easy級樣本防止災難性遺忘,重新從預訓練基礎模型初始化訓練一個統一SFT模型F。On-Policy Distillation(OPD):RFT模型F相比專才模型ETwG/ETwP仍有性能差距。用線上蒸餾彌合這一差距,讓學生模型基於自己生成的軌跡學習教師模型(ETwG和ETwP)的輸出分佈,使用全詞表logit蒸餾,損失函數為反向KL散度的加權求和。實驗結果模型在多個任務上達到前沿水平:計數任務:Pixmo-Count上以89.2%的精確匹配率超過Gemini-3-Flash的88.2%,在DS_Finegrained_Counting上以88.7%超過Qwen3-VL-235B-A22B的87.2%。空間推理和通用VQA:在SpatialMQA(69.4% vs 67.0%)、MIHBench(85.3% vs 83.5%)、DS_Spatial_Reasoning(98.7% vs 97.2%)上均排名第一。拓撲推理:這是本文最突出的貢獻之一。所有前沿模型在DS_Maze_Navigation上的得分都在50%上下浮動,而本文模型達到66.9%。DS_Path_Tracing上,本文模型56.7%,排名第二的GPT-5.4隻有46.5%,Claude-Sonnet-4.6是30.6%。論文指出,這說明多模態大模型在拓撲推理上仍有大量提升空間。定性結果方面,如圖所示,在使用邊界框作為視覺原語的任務上,模型展示了粗粒度計數、細粒度計數、反常識視覺問答(判斷天平兩側那個更重)、世界知識關聯(識別金門大橋後判斷附近是否有NBA球隊)、行動建議(根據咖啡機和原料給出拿鐵製作步驟)等能力。此外,儘管後訓練的視覺原語資料不包含任何中文語料,模型仍能用中文進行思考和回答,這來自基礎模型繼承的多語言能力。如圖在使用點作為視覺原語的任務上,模型能對迷宮生成逐步DFS探索軌跡,並對路徑追蹤任務生成完整的坐標序列追蹤過程。侷限性論文也列出了三個當前的侷限:第一,受輸入解析度限制,模型在極細粒度場景下的視覺原語輸出精度有時不夠高。論文認為可以通過和現有解決感知鴻溝的方法結合來彌補。第二,當前的視覺原語思維能力依賴顯式的觸發詞才能啟動,未來目標是讓模型根據具體情境自主判斷是否呼叫這一機制。第三,用點作為視覺原語來解決複雜拓撲推理問題仍然困難,模型的跨場景泛化能力有限,這是重要的未來研究方向。訓練框架使用的是High-flyer的HAI-LLM(https://www.high-flyer.cn/en/blog/hai-llm),一個基於PyTorch的輕量級分佈式訓練框架。預訓練階段使用64K序列長度和FP8精度,後訓練階段序列長度擴展到256K,在Unified RFT和OPD階段使用FP4(MXFP4)量化。 (AI寒武紀)