DeepSeek“開眼”背後的技術，公開了！

2026/05/01

•

讓大模型學會邊指邊想。

智東西4月30日報導，今天，DeepSeek發佈多模態技術報告《用視覺原語思考（Thinking with Visaul Primitives）》，詳細闡釋了昨日灰度上線的DeepSeek識圖模式背後的技術細節。

DeepSeek識圖模式所使用的是一個284B參數、13B啟動多模態推理模型，其正式名稱尚未對外發佈，基座模型是DeepSeek-V4-Flash。DeepSeek稱，這一模型的權重將整合進DeepSeek的基礎模型，並在未來發佈。

當前，傳統的思維鏈仍然停留在語言領域，但視覺推理所需要的資訊更多。DeepSeek的新一代多模態推理模型的核心升級就在於，它把純粹的語言推理鏈條，升級成了一種“語言邏輯+空間坐標”交織的雙軌思維。

當模型對著一張圖進行推理時，它是會像人一樣，直接輸出一個具體的框或者點，在圖中精準地“指”出它當下正在想的那個東西。

DeepSeek多模態團隊負責人陳小康分享了一張動圖，形象地闡釋了這一運作機制。圖中，DeepSeek多模態模型可以在思維鏈中使用框進行定位，並在後續的推理步驟中持續引用這些被框定的視覺錨點，基於空間坐標進行下一步判斷，極大提升了視覺推理的精準性。

在一系列高難度視覺QA任務中，這一模型的表現超過了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。

較高的token效率也是這一模型的亮點。與當前主流的多模態大模型將一張圖片轉化為成百上千個視覺token不同，DeepSeek這套架構通過視覺壓縮策略，將高解析度圖像從原始像素開始，經過ViT特徵提取、空間壓縮以及稀疏注意力機制的多級處理，最終在KV快取中僅保留約90個視覺條目，實現超7000倍的壓縮。

這意味著模型在進行複雜空間推理時，無需在海量視覺資訊中反覆檢索，思考過程的每一步都較為“輕量”。

項目地址：
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
技術報告：
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

01. 自然語言存在“指代鴻溝”視覺標記介入有望破解

這篇論文中，DeepSeek多模態團隊提出了對現有多模態大模型缺陷的洞察。過去，當業界談論提升視覺模型的推理能力時，幾乎所有的努力都集中在“感知鴻溝”上，也就是讓模型“看得更清楚”：通過更高解析度的圖像切分、更精細的動態分塊，確保模型不會遺漏圖中的細節。

但DeepSeek多模態團隊認為，即便把這一切做到極致，模型依然會在複雜的視覺推理任務中崩潰。

自然語言在描述連續視覺空間時，天然存在一種“指代鴻溝”：當你說“左邊那個東西”時，在擁擠的場景中，這個“東西”到底指那一個，模型無法精確鎖定。

於是，模型的思維鏈條看似環環相扣，實則每一步都存在偏離的風險，一旦涉及到密集計數、多步空間推理或者拓撲導航這種需要逐步推理的任務，邏輯就會因為指代不清而逐漸崩塌。

基於這個判斷，DeepSeek多模態團隊嘗試讓模型在思考時“邊想邊指”，也就是讓模型用點坐標和邊界框來“指”，把這些人類的視覺原語，變成模型思維鏈條上的最小認知單元。

架構層面，這一多模態模型通過DeepSeek-ViT負責將圖像轉換為視覺特徵，下圖右下方的文字分詞器負責處理使用者的語言指令，兩者輸入至基座模型DeepSeek-V4-Flash進行推理融合，最後由去分詞器輸出包含自然語言與視覺原語（如坐標框、區域標記）的聯合響應。這種設計使模型兼顧文字理解能力和原生視覺定位能力。

02. 篩選超4000萬個高品質樣本對四類任務針對性最佳化

要把點和框變成模型思維的一部分，首先要解決的問題，就是如何讓模型真正“學會指”。模型需要把“指”這個動作內化成一種思維習慣。

為此，DeepSeek多模態團隊建構了一條貫穿預訓練、冷啟動和強化學習的訓練流水線。

在預訓練階段，他們從網際網路上爬取了97984個與目標檢測相關的資料來源，設計了自動化的語義和幾何質量審查機制，過濾掉亂碼標籤、不可泛化的私人實體、嚴重截斷的框以及覆蓋全圖90%面積的“巨型框”等低品質標註，最終篩選出31701個高品質資料來源，總計超過4000萬個的精準樣本，先讓模型掌握基本定位能力。

接下來是冷啟動資料建構。DeepSeek多模態團隊針對計數、空間推理、迷宮導航和路徑追蹤這四類最能體現視覺原語價值的任務，合成了一套帶有精確思考軌跡監督的資料。

以計數任務為例，模型被明確教導，在思考時要先批次框選所有候選對象，然後再對這些錨定好的框進行逐一總和檢查碼累加。

在迷宮任務中，模型的每一步探索都必須輸出一個點坐標來標記當前所在，一旦失誤撞牆，整個後續探索在因果上就自動失效，模型必須學會回溯。

這種把視覺原語操作直接整合進思維鏈的做法，讓模型在冷啟動階段就建立起“指向-推理”的強耦合。

03. 採用稠密獎勵機制視覺編碼壓縮比超7000倍

有了冷啟動模型之後，DeepSeek多模態團隊通過一套“訓練專家再融合”的後訓練策略，將模型的能力進一步精細化。其中的創新點在於強化學習階段的獎勵模型。

以迷宮任務為例，獎勵分解為探索進度、撞牆懲罰、路徑有效性和探索完整性等多個維度。模型每正確探索一個儲存格、沒有非法穿越牆壁，都會獲得正向訊號，而一旦發生撞牆，即便最終的答案為“可解”，也會被嚴格扣分。

這種稠密的獎勵機制，讓模型必須認真對待每一個視覺原語操作，無法靠猜答案實現獎勵破解。

為了同時掌握框定位和點指向這兩種視覺原語，該團隊還分別訓練了兩個專家模型，最後通過線上策略蒸餾將它們融合成一個統一模型，讓學生模型在自己生成的思維軌跡上，學習兩位專家老師的輸出分佈。這種設計有效避免了兩種異構原語在訓練中的相互干擾。

值得一提的是，這項工作的技術路線建立在一個高效的視覺編碼架構之上。

首先，Vision Transformer以14×14的塊大小將圖像切分成視覺token；然後，在ViT輸出端進行3×3的空間壓縮，將每9個相鄰token沿通道維度合併為1個；最後，利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機制，將KV快取中的視覺條目再壓縮4倍。

以一張756×756解析度的圖像為例，它原本會產生2916個patch token，經過三級壓縮後最終僅保留81個視覺KV條目，整體壓縮比高達7056倍。

這種token效率意味著，模型在展開複雜的空間推理時擁有了一份“提煉好的索引”，可以拿著索引直接進行思考，從工程上就減弱了無關像素對推理鏈路的干擾。

04. 結語：多模態智能的“系統二”進化

DeepSeek多模態團隊也在報告中提到了當前技術的邊界。模型在複雜拓撲推理任務上的跨場景泛化能力尚未完善，且思考中視覺基元的啟動目前仍依賴顯式的觸發詞，尚未實現完全的自發呼叫。

但他們也認為，這套框架為多模態社區展示了通往系統二等級的多模態智能的路徑。這一路徑沒有一味地堆高圖像解析度，而在建構了更精準從參照指標。

用空間坐標錨定抽象思維，讓模型像人類一樣“邊指邊想”，這本身就是一個值得繼續深挖的方向。 (智東西)