#開源多模態 | 熱門關鍵字 | 鉅亨號

DeepSeek正式發佈多模態大模型及技術報告《Thinking with Visual Primitives》。同日，GitHub開源上線，網頁端與App端"識圖模式"灰度發佈。5月1日，核心技術免費商用。這意味著什麼？DeepSeek首次在多模態領域拿出主戰場級成果，提出了一個被長期忽視的根本問題："看見"和"指准"是兩件事。01. 從"看不見"到"指不准"：多模態的真正瓶頸給GPT-5.4一張密集人群的照片，問"圖裡有多少人"，它很可能數錯。給Claude Sonnet 4.6一張複雜迷宮圖，問"從起點到終點有沒有路"，正確率接近50%——和擲硬幣差不多。圖：傳統多模態模型在複雜視覺任務中容易"指錯對象"這不是模型"看不清"的問題。它們能識別出圖片裡的每個元素，但一旦開始用語言"思考"，邏輯就崩了。你說"左邊那個紅色的"，在擁擠的場景裡，這個"紅色的"到底指那一個？模型的注意力在推理過程中像沒拴住的船，慢慢漂移，最後得出錯誤結論。DeepSeek將這個問題命名為"指代鴻溝"（Reference Gap）：看見和能說清楚在說那個，是兩件完全不同的事。業界此前的思路，是讓模型"看得更清"：提高圖片解析度、動態切割分塊。這解決的是"感知鴻溝"（Perception Gap）——確保模型能看見細節。但論文指出：感知能力再好，也無法解決"指不准"的問題。02. 視覺原語思考：給AI裝上"數字手指"DeepSeek的解法簡單粗暴：讓模型"邊想邊指"。它不再只用文字思考，而是把點坐標和邊界框變成了思維鏈的基本單位。圖：AI在推理過程中同步輸出坐標，像人"用手指著思考"舉個例子，它的思考過程會這樣呈現：找到一隻熊[452,23,804,411]，正在爬樹，排除。再往左下看，找到另一隻[50,447,647,771]，站在岩石邊緣，符合條件。這裡的坐標不再是事後標註的答案，而是推理過程中消除歧義的空間錨點。每提到一個對象，就用一個"圖釘"把它釘死在圖像的物理位置上。這套機制有兩種"視覺原語"（Visual Primitives）：邊界框（Bounding Box）：用於錨定對象，定位物體範圍。適合計數、屬性對比、多物體空間推理。點坐標（Point）：用於追蹤軌跡，描畫路徑。適合迷宮導航、曲線追蹤等連續空間描述任務。03. 7056倍壓縮：極致的效率藝術讓模型每一步思考都帶坐標，聽起來計算量會爆炸。但DeepSeek通過壓縮稀疏注意力（Compressed Sparse Attention，CSA）機制，實現了極致的效率。圖：7056倍壓縮流程示意架構基於DeepSeek V4-Flash：284B總參數，13B啟動參數（MoE架構）。視覺壓縮流程：① 圖片經ViT處理，生成2916個圖像塊token② 3×3空間壓縮，合併為324個token③ CSA機制壓縮4倍，最終只剩81個視覺KV條目端到端壓縮比：7056倍。論文的核心論點：不需要"看更多"，而需要"指更準"。04. 跑分屠榜：在"最難"的題上碾壓對手在11個benchmark橫評中，DeepSeek展現了強大實力。圖：11個基準測試性能對比最具代表性的差距出現在拓撲推理上：迷宮導航任務中，GPT-5.4、Claude、Gemini的正確率在48.9%至50.6%之間——幾乎就是在隨機猜。DeepSeek達到66.9%，提升約17個百分點。模型解迷宮時會一邊走一邊把當前位置point出來，遇到死路就回溯，一步步走出來的。這種"邊推理邊落點"的形態，是純語言CoT做不到的。05. 訓練哲學：先專家化，後統一DeepSeek的訓練策略可以用一句話概括：先讓專家各司其職，再合併成全科醫生。圖：從專家模型到統一模型的訓練流程預訓練階段：團隊從近10萬個目標檢測資料集中篩選，經過語義稽核和幾何質量稽核，最終保留約3.17萬個高品質資料來源。生成超過4000萬條訓練樣本，覆蓋計數、空間推理、迷宮導航、路徑追蹤四類任務。冷啟動資料設計：團隊故意構造了一批"看似可解實則不可解"的迷宮。破壞點放在中段而非起終點附近，逼模型完整搜尋而不是憑直覺判斷。專門化訓練：先分別訓練邊界框專家和點坐標專家兩個"專科醫生"。經強化學習最佳化後，通過線上策略蒸餾合併為統一模型。RL階段還有一個細緻設計：訓練資料按N次rollout的正確數分Easy/Normal/Hard三檔，只用Normal檔訓練。06. 開源與時間線：48小時完整動作閉環這次發佈的節奏乾淨利落，48小時內完成全域覆蓋。圖：DeepSeek多模態GitHub開源倉庫4月29日：DeepSeek多模態組負責人陳小康在X平台發佈"Now, we see you"預告，暗示識圖功能即將上線。4月30日：GitHub正式發佈模型權重+技術報告《Thinking with Visual Primitives》，網頁端/App端灰度上線"識圖模式"。5月1日：核心技術開源，免費商用，引發全球開發者熱議。開源策略：無隱藏後門、無強制雲端繫結、無商用額度鎖。開發者僅需基礎適配硬體，即可完成本地離線完整部署。值得注意的是，論文曾短暫被刪除後恢復。有分析認為可能因技術細節曝光度較高，團隊進行了內容稽核調整。此外，模型同步完成輝達通用算力、華為昇騰國產算力雙生態深度適配最佳化，兼顧效率與安全合規。07. 侷限與展望：多模態競賽的新起點論文坦誠列出了當前的三條侷限：圖：多模態AI的未來發展方向第一：坐標精度有限。極細粒度場景（如數手指）下，視覺原語的輸出可能不夠精確。第二：需要觸發詞啟動。"用視覺原語思考"的能力依賴於顯式的觸發詞才能啟用。第三：泛化能力待提升。跨場景的通用性仍在探索中。但從更宏觀的視角看，這篇論文標誌著多模態競賽從"廣度"轉向"深度"。別人卷"看更多像素"，DeepSeek這次卷的是"看更少像素，但思考時手指點得更準"。競爭焦點正在從"看更多像素"轉向"指更準坐標"。DeepSeek產品矩陣趨於完整：快速模式+專家模式+視覺模式。低價策略極可能延伸至多模態，掀起新一輪價格戰。從純文字強者到多模態全能選手，DeepSeek用硬核技術打破行業痛點，補上國產AI關鍵短板。這不僅是DeepSeek的里程碑，更是國產AI從單點突破到全面開花的新起點。 (熱火AI)