#多模態技術 | 熱門關鍵字 | 鉅亨號

昨晚 DeepSeek 多模態研究員陳小康在 X 上發了一條推，並公佈了DeepSeek 關於多模態技術的新論文《Thinking with Visual Primitives》，表示「Excited to release」。今天一早，推文刪了，GitHub 上的論文也撤了。但 APPSO 在它消失之前把全文讀完了。讀完之後覺得，這篇論文被撤可能不是因為內容有問題。恰恰相反，它可能透露了太多了。前天我們剛實測完 DeepSeek 的識圖模式，讓它數手指，它思考了一通，自己吐槽「我真的是數暈了」，然後答錯了。當時以為是灰測階段的小問題。這篇論文告訴我們，數手指數暈這件事，背後藏著一個 GPT、Claude、Gemini 集體沒解好的技術瓶頸。而 DeepSeek 給出的解法，說出來幾乎有點可笑的樸素：給 AI 裝一根手指。陳小康在那條推文裡寫道：「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」「傳統的思維鏈停留在語言空間裡，但視覺推理需要更多。通過使用點和框作為認知錨點，我們的模型彌合了「引用鴻溝」，模擬了人類「邊指邊想」的協同機制。」看得清和指得準，是兩回事目前所有多模態大模型做圖像推理，本質都是把看到的畫面轉化成文字，然後在文字空間裡做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash，全是這個路子。過去兩年，OpenAI、Google、Anthropic 的改進方向集中在一個問題：怎麼讓模型看得更清楚。高解析度裁切、動態分塊、把圖片放大再塞進去。DeepSeek 管這個叫 Perception Gap，感知鴻溝。但這篇論文指出了另一個瓶頸：Reference Gap，引用鴻溝。模型看清了，但在推理過程中沒法精確指向圖中的某個東西。你可以這樣理解：一張圖裡 25 個人密密麻麻站在一起，你用語言去描述「左邊第三排穿藍色球衣那個人旁邊的那個」，描述本身就是模糊的。模型數著數著就丟了上下文，忘了剛才數到誰。人類怎麼解決這個問題？夠原始的：伸出手指，指一個數一個。284B 參數的模型，裝上了一根手指DeepSeek 的方案：讓模型在思考過程中直接輸出圖片上的坐標。想像一下，模型看到一張圖裡有很多人，它的思維鏈不再是「我看到左邊有個穿藍衣服的人」，而是「我看到這個人」然後附上一個框的坐標，把人圈出來。每數一個人就圈一個框，圈完之後數框的數量就行了。兩種坐標格式：一種是框（bounding box），畫個矩形把物體圈住，適合標定物體位置；一種是點（point），在圖上戳一個位置，適合追蹤路徑和走迷宮。DeepSeek 管這兩種東西叫「視覺原語」，最小的思維單元。關鍵變化在這裡：以前模型輸出坐標是作為最終答案（「目標在這裡」），現在坐標嵌入了思考過程本身。坐標是草稿紙上的標記，不是答捲上的答案。把一張圖壓縮 7056 倍，然後還能數清楚裡面有幾個人模型底座是 DeepSeek-V4-Flash，一個 284B 參數的 MoE 模型。MoE 的意思是：模型腦子很大，但每次回答問題只呼叫一小部分神經元來幹活，推理時只啟動 13B 參數。類似於一個百人團隊，每個任務只派 5 個人上場。視覺編碼器這邊，做了三級壓縮。打個比方：你有一張照片要發給朋友，網速很慢。第一步，你把照片切成小方格備用；第二步，每 9 個小方格合併成 1 個（3×3 壓縮）；第三步，再在傳輸時進一步精簡掉冗餘資訊（KV Cache 壓縮 4 倍）。實際數字：一張 756×756 的圖，57 萬像素，一路壓下去變成 81 個資訊單元。壓縮比 7,056 倍。我看到這個數字的第一反應是：這還能看清東西？但論文裡的結果說明，確實能。不光能看清，還能精確數出圖裡有 25 個人。對比一下：同樣 800×800 的圖，Gemini-3-Flash 消耗約 1100 個 token 來表示這張圖，Claude-Sonnet-4.6 約 870 個，GPT-5.4 約 740 個。DeepSeek 在最終計算時只用 90 個資訊單元。別人用一千多個格子來記住一張圖，DeepSeek 用 90 個格子就夠了，然後騰出來的算力全拿去「指」。4000 萬條訓練資料怎麼攢出來的DeepSeek 從 Huggingface 等平台把所有帶「目標檢測」標籤的資料集都爬了下來，初篩得到 97,984 個資料來源。然後做了兩輪篩選。第一輪查標籤質量。用 AI 自動稽核三類問題：標籤是無意義的數字編號（類別名叫「0」「1」的那種）、標籤是私人實體（「MyRoommate」）、標籤是模糊縮寫（工業檢測裡的「OK」「NG」，一個蘋果「OK」和一個電路板「OK」長得完全不一樣，AI 學不了）。這輪砍掉 56%，剩 43,141 個。第二輪查框的質量。三個標準：漏標太多的（標了一半就不標了）、框畫歪了切掉物體一半的、框大到把整張圖都框住的（說明原始資料是圖片分類硬轉成的檢測資料，沒有定位資訊）。再砍 27%，剩 31,701 個。最後按類別採樣、去重，產出超過 4000 萬高品質樣本。DeepSeek 選擇先把框的資料做大，點的資料後面再補。原因也簡單：你讓 AI 標一個框，答案基本唯一（把物體剛好圈住）；但讓 AI 標一個點，物體上那個位置都算對，沒有唯一正確答案，訓練訊號太模糊。而且框本身就包含了兩個點（左上角和右下角），學會畫框之後標點就是降維操作。怎麼把「指」這個能力教給模型後訓練的策略是「先分頭練，再合併」。DeepSeek 先拿框的資料訓練一個專門畫框的專家模型，再拿點的資料訓練一個專門標點的專家模型。分開訓練是因為資料量還不夠大，兩種能力混在一起容易互相干擾。然後對兩個專家分別做強化學習。怎麼判斷模型「畫對了框」或「走對了路」？DeepSeek 設計了一套多維度的打分系統：格式對不對（坐標語法正確嗎）、邏輯通不通（思考過程有沒有自相矛盾）、答案准不准（最終結果和標準答案差多少）。強化學習的資料篩選也有講究：先讓模型做 N 遍同一道題，全做對的題太簡單沒訓練價值，全做錯的題太難學不到東西，只留「有對有錯」的題來練。最後一步是把兩個專家的能力合到一個模型裡。具體做法：讓統一模型照著兩個專家的輸出去學，類似於一個學生同時跟兩個老師學不同科目。給了它手指之後，它是怎麼數數的數 25 個人給模型一張足球隊合照，問「圖裡有多少人？」思考過程：先判斷「這是團隊合照，要數所有人，包括球員和教練」。然後一次性輸出 25 個框坐標，每個人身上圈一個框。接著按排數統計：前排坐著 4 個 + 中排 9 個 + 後排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。「地上的熊有幾隻？」圖中有三隻熊。模型逐一給每隻畫框並判斷位置：第一隻，在樹幹上垂直攀爬，排除；第二隻，在岩石邊緣走動，算；第三隻，在碎木和泥土間，算。答案：2 隻。不是先數出三隻再減一隻，而是對每隻都做了「是不是在地面上」的判斷，每個判斷背後都有一個具體坐標錨定。它真的在逐個檢查，不是在猜。多跳空間推理一個 3D 渲染場景裡有一堆彩色幾何體。問題：「存不存在一個紫色橡膠物體跟灰色金屬物體一樣大？」模型先框出灰色金屬球體，確認是個小號物體。然後逐一框出場景裡其他小號物體：棕色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物體逐個查，顏色、材質、大小三個屬性一一核對。結論：不存在紫色橡膠的。六次定位，六次判斷。每一步都有坐標錨著，不會出現「等等剛才查到那了」的情況。論文中更多案例參考：迷宮導航：別人擲硬幣，DeepSeek 真的在搜尋論文測了四種任務，迷宮是差距拉得最開的一個。任務很直接：給一張迷宮圖，問從起點到終點有沒有路，有的話畫出來。迷宮有三種形狀，方格的、圓環的、蜂巢的。模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣：選一條岔路走到頭，走不通就退回來試另一條。區別是它每走一步都在圖上標一個坐標點，留下記錄。論文裡展示了一個圓形迷宮的完整過程：模型先標出起點和終點的位置，然後開始探索。走了 18 步，中間兩次鑽進死胡同又退出來，最後繞出了一條通路，把整條路徑的坐標點串起來輸出。DeepSeek 還設計了一批陷阱迷宮：乍一看有路，但中間某段被偷偷堵住了。這種迷宮考的是耐心，模型不能只看起點附近的走勢就下結論，得老老實實把能走的路都試一遍才能確認走不通。精準率對比：- DeepSeek：66.9%- GPT-5.4：50.6%- Claude-Sonnet-4.6：48.9%- Gemini-3-Flash：49.4%- Qwen3-VL：49.6%迷宮只有兩種答案：有路，或者沒路。隨機猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃，跟擲硬幣沒什麼區別。DeepSeek 的 66.9% 不算高，但它確實是在一步步走的，不是在蒙。路徑追蹤：大家來找茬的終極版本這個任務更直觀：一堆線纏在一起，每條線從一個標記通向另一個標記。你的耳機線從口袋裡掏出來是什麼樣，畫面就是什麼樣。題目問你：C 這條線通向那個終點？模型的做法是沿著線一路輸出坐標點，像手指劃過紙面。線彎得厲害的地方點標得密，直線段標得疏。人用眼睛追一根線的時候也是這樣，彎道處慢下來，直線處一掃而過。論文還加了一個加難版測試：所有線顏色粗細都一樣。不能靠顏色區分是那根線了，只能靠曲線本身的走勢連續性來判斷交叉口該跟著那條走。- DeepSeek：56.7%- GPT-5.4：46.5%- Claude-Sonnet-4.6：30.6%- Gemini-3-Flash：41.4%Claude 的 30.6% 有點出乎意料。終點一般有四五個選項，隨機猜也該有 20% 出頭，30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上，語言推理的慣性反而幫了倒忙。怎麼教 AI 走迷宮不作弊迷宮的訓練有一個現實問題：如果只看最終答對沒答對來給分，模型很快就學精了，與其費勁搜尋還可能答錯，不如直接猜一個，反正認真走了答錯跟沒走答錯，分數一樣是零。DeepSeek 的解決辦法是把過程也算進分數。每一步合法的探索都給分，穿牆扣分，走得越遠越好。那怕最後沒到終點，只要認真搜尋了大部分區域，也能拿到不錯的成績。這樣一來，模型就沒有偷懶的動力了。不可解迷宮的要求更高：不能光說一句「走不通」，還得證明你確實把能到的地方都走遍了。搜尋覆蓋率也算分。一個彩蛋，三個侷限後訓練資料裡沒有中文。但模型能用中文做視覺原語推理。給它一張咖啡機的照片，用中文問「怎麼做拿鐵」，它用中文標註了蒸汽棒、奶壺、咖啡豆、拿鐵按鈕的位置坐標，然後給出操作步驟。多語言能力是從基座模型那裡繼承的，視覺原語的訓練沒有把它破壞掉。它還能把看圖和世界知識結合起來：給一張金門大橋的照片問「這附近有 NBA 球隊嗎？」它先框出金門大橋，推理出這是舊金山，然後回答金州勇士隊。能理解幽默：一塊水果切面上的天然斑點恰好組成了一張憂鬱貓臉的模樣，模型能指出相似點在那裡並解釋為什麼好笑。能做密室逃脫指導：框出高處的鑰匙、地板上的椅子、帶鎖的門，建議「把椅子搬到鑰匙下方 → 踩上去拿鑰匙 → 去開門」。論文很坦誠地寫了目前做不到的事。輸入解析度有限制。ViT 輸出被卡在 81 到 384 個視覺資訊單元之間，遇到很精細的場景（比如數手指這種），坐標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。目前需要特定觸發詞才能啟動視覺原語模式。模型還不能自己判斷「這道題我該伸手指來做」，得有人提醒它。拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好，換一種新的空間結構就可能掉鏈子。陳小康在那條已刪推文裡也說了：「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」「我們還在早期階段，複雜拓撲推理任務的泛化還不完善，但我們會持續解決。」前天實測時，DeepSeek 識圖模式展現的那些能力（追問發佈者身份、聯想鯨魚 logo 含義、自我糾正、給自己開「小型答辯會」），和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點，圍繞錨點做推理，碰到矛盾就回溯修正。而數手指數暈了，就是 Reference Gap 的活體演示。手指交叉重疊的畫面裡，純靠語言描述去區分「從左數第三根」和「從右數第二根」，跟你自己不伸手指去數一群擠在一起的人一個道理，註定混亂。這篇論文指向的方向是：多模態推理的下一步進化在錨定機制上。DeepSeek 用 90 個資訊單元就打平了別人用上千 token 的效果，省下來的算力全拿去讓模型「一邊想一邊指」。解析度軍備競賽可以緩一緩了，教會模型伸出手指，比給它配一副更貴的眼鏡管用。這只鯨魚開了眼之後，還長出了手指。66.9% 的迷宮精準率離完美還遠，但至少它在認真走，不像隔壁那幾位在擲硬幣。 (APPSO)