#開源多模態
DeepSeek多模態上線開源:給AI裝上"數字手指",視覺推理碾壓GPT-5.4
DeepSeek正式發佈多模態大模型及技術報告《Thinking with Visual Primitives》。同日,GitHub開源上線,網頁端與App端"識圖模式"灰度發佈。5月1日,核心技術免費商用。這意味著什麼?DeepSeek首次在多模態領域拿出主戰場級成果,提出了一個被長期忽視的根本問題:"看見"和"指准"是兩件事。01. 從"看不見"到"指不准":多模態的真正瓶頸給GPT-5.4一張密集人群的照片,問"圖裡有多少人",它很可能數錯。給Claude Sonnet 4.6一張複雜迷宮圖,問"從起點到終點有沒有路",正確率接近50%——和擲硬幣差不多。圖:傳統多模態模型在複雜視覺任務中容易"指錯對象"這不是模型"看不清"的問題。它們能識別出圖片裡的每個元素,但一旦開始用語言"思考",邏輯就崩了。你說"左邊那個紅色的",在擁擠的場景裡,這個"紅色的"到底指那一個?模型的注意力在推理過程中像沒拴住的船,慢慢漂移,最後得出錯誤結論。DeepSeek將這個問題命名為"指代鴻溝"(Reference Gap):看見和能說清楚在說那個,是兩件完全不同的事。業界此前的思路,是讓模型"看得更清":提高圖片解析度、動態切割分塊。這解決的是"感知鴻溝"(Perception Gap)——確保模型能看見細節。但論文指出:感知能力再好,也無法解決"指不准"的問題。02. 視覺原語思考:給AI裝上"數字手指"DeepSeek的解法簡單粗暴:讓模型"邊想邊指"。它不再只用文字思考,而是把點坐標和邊界框變成了思維鏈的基本單位。圖:AI在推理過程中同步輸出坐標,像人"用手指著思考"舉個例子,它的思考過程會這樣呈現:找到一隻熊[452,23,804,411],正在爬樹,排除。再往左下看,找到另一隻[50,447,647,771],站在岩石邊緣,符合條件。這裡的坐標不再是事後標註的答案,而是推理過程中消除歧義的空間錨點。每提到一個對象,就用一個"圖釘"把它釘死在圖像的物理位置上。這套機制有兩種"視覺原語"(Visual Primitives):邊界框(Bounding Box):用於錨定對象,定位物體範圍。適合計數、屬性對比、多物體空間推理。點坐標(Point):用於追蹤軌跡,描畫路徑。適合迷宮導航、曲線追蹤等連續空間描述任務。03. 7056倍壓縮:極致的效率藝術讓模型每一步思考都帶坐標,聽起來計算量會爆炸。但DeepSeek通過壓縮稀疏注意力(Compressed Sparse Attention,CSA)機制,實現了極致的效率。圖:7056倍壓縮流程示意架構基於DeepSeek V4-Flash:284B總參數,13B啟動參數(MoE架構)。視覺壓縮流程:① 圖片經ViT處理,生成2916個圖像塊token② 3×3空間壓縮,合併為324個token③ CSA機制壓縮4倍,最終只剩81個視覺KV條目端到端壓縮比:7056倍。論文的核心論點:不需要"看更多",而需要"指更準"。04. 跑分屠榜:在"最難"的題上碾壓對手在11個benchmark橫評中,DeepSeek展現了強大實力。圖:11個基準測試性能對比最具代表性的差距出現在拓撲推理上:迷宮導航任務中,GPT-5.4、Claude、Gemini的正確率在48.9%至50.6%之間——幾乎就是在隨機猜。DeepSeek達到66.9%,提升約17個百分點。模型解迷宮時會一邊走一邊把當前位置point出來,遇到死路就回溯,一步步走出來的。這種"邊推理邊落點"的形態,是純語言CoT做不到的。05. 訓練哲學:先專家化,後統一DeepSeek的訓練策略可以用一句話概括:先讓專家各司其職,再合併成全科醫生。圖:從專家模型到統一模型的訓練流程預訓練階段:團隊從近10萬個目標檢測資料集中篩選,經過語義稽核和幾何質量稽核,最終保留約3.17萬個高品質資料來源。生成超過4000萬條訓練樣本,覆蓋計數、空間推理、迷宮導航、路徑追蹤四類任務。冷啟動資料設計:團隊故意構造了一批"看似可解實則不可解"的迷宮。破壞點放在中段而非起終點附近,逼模型完整搜尋而不是憑直覺判斷。專門化訓練:先分別訓練邊界框專家和點坐標專家兩個"專科醫生"。經強化學習最佳化後,通過線上策略蒸餾合併為統一模型。RL階段還有一個細緻設計:訓練資料按N次rollout的正確數分Easy/Normal/Hard三檔,只用Normal檔訓練。06. 開源與時間線:48小時完整動作閉環這次發佈的節奏乾淨利落,48小時內完成全域覆蓋。圖:DeepSeek多模態GitHub開源倉庫4月29日:DeepSeek多模態組負責人陳小康在X平台發佈"Now, we see you"預告,暗示識圖功能即將上線。4月30日:GitHub正式發佈模型權重+技術報告《Thinking with Visual Primitives》,網頁端/App端灰度上線"識圖模式"。5月1日:核心技術開源,免費商用,引發全球開發者熱議。開源策略:無隱藏後門、無強制雲端繫結、無商用額度鎖。開發者僅需基礎適配硬體,即可完成本地離線完整部署。值得注意的是,論文曾短暫被刪除後恢復。有分析認為可能因技術細節曝光度較高,團隊進行了內容稽核調整。此外,模型同步完成輝達通用算力、華為昇騰國產算力雙生態深度適配最佳化,兼顧效率與安全合規。07. 侷限與展望:多模態競賽的新起點論文坦誠列出了當前的三條侷限:圖:多模態AI的未來發展方向第一:坐標精度有限。極細粒度場景(如數手指)下,視覺原語的輸出可能不夠精確。第二:需要觸發詞啟動。"用視覺原語思考"的能力依賴於顯式的觸發詞才能啟用。第三:泛化能力待提升。跨場景的通用性仍在探索中。但從更宏觀的視角看,這篇論文標誌著多模態競賽從"廣度"轉向"深度"。別人卷"看更多像素",DeepSeek這次卷的是"看更少像素,但思考時手指點得更準"。競爭焦點正在從"看更多像素"轉向"指更準坐標"。DeepSeek產品矩陣趨於完整:快速模式+專家模式+視覺模式。低價策略極可能延伸至多模態,掀起新一輪價格戰。從純文字強者到多模態全能選手,DeepSeek用硬核技術打破行業痛點,補上國產AI關鍵短板。這不僅是DeepSeek的里程碑,更是國產AI從單點突破到全面開花的新起點。 (熱火AI)