2025 年 10 月 20 日,DeepSeek-AI 團隊重磅發佈《DeepSeek-OCR:Contexts Optical Compression》論文,同步開源 3B 參數量的 DeepSeek-OCR 模型。這款看似專注 OCR 任務的模型,實則以 "光學壓縮" 技術重構了長文字處理範式 —— 通過將文字轉化為視覺模態,實現 10 倍 Token 壓縮率下 97% 的識別精準率,為大語言模型(LLM)突破上下文長度限制提供了顛覆性思路。
截至發稿,該模型在 Hugging Face 平台下載量已突破千次,GitHub 倉庫星標量快速攀升。由曾主導 GOT-OCR2.0(7800 + 星標)的 Haoran Wei 領銜打造的核心團隊,更讓業界對這款 "小而美" 的模型充滿期待。
(一)核心創新:視覺 - 文字壓縮的底層邏輯
傳統 LLM 處理長文字時,計算複雜度隨序列長度呈平方級增長,導致算力成本激增。DeepSeek 團隊的核心洞見在於:視覺模態天然具備高密度資訊承載能力—— 一張包含文字的圖像所需視覺 Token 數量僅為等效文字 Token 的 1/10 至 1/20。
這種 "光學壓縮" 技術通過三步實現:
OCR 任務因天然具備 "視覺→文字" 轉換屬性,成為驗證該範式的理想載體,其量化評估指標更讓技術效果可精準衡量。
(二)DeepEncoder:高壓縮比的視覺引擎
作為模型核心編碼器,DeepEncoder(3.8 億參數)創造性融合 SAM-base 與 CLIP-large 的優勢,解決了 "高解析度處理與低算力消耗" 的矛盾,其架構設計包含三大關鍵創新:
借鑑 Vary 模型設計的 2 層摺積模組(核大小 3×3,步長 2),在局部與全域特徵層之間實現 16 倍下採樣。以 1024×1024 圖像為例,4096 個 patch token 經壓縮後僅保留 256 個,啟動記憶體開銷降低 94%,卻仍保持關鍵資訊完整性。
支援從 512×512(Tiny 模式,64 Token)到 1280×1280(Large 模式,400 Token)的動態輸入調整,配合 Gundam 動態解析度模式,可根據文件複雜度智能分配算力。實驗顯示:
(三)MoE 解碼器:高效能的文字重建核心
採用 DeepSeek-3B-MoE 架構的解碼器,通過混合專家機制實現 "大模型能力 + 小模型效率" 的平衡:
64 個專家模組中僅啟動 6 個任務相關專家,搭配 2 個共享專家,實際啟動參數約 5.7 億。這種設計使 3B 模型既具備大模型的表達能力,又保持 500M 模型的推理速度。
解碼器通過 OCR 風格訓練學習非線性對應函數 f_dec,從壓縮視覺 Token(Z)中重建文字表示。訓練流程分為兩階段:
(一)基準測試:Token 效率碾壓競品
在 OmniDocBench 權威測試中,DeepSeek-OCR 展現出驚人的 Token 利用效率:
(二)壓縮性能:精度與效率的最優解
Fox 資料集文字壓縮測試顯示:
性能下降原因經分析主要來自兩方面:長文件版面資訊分佈不均,以及低解析度(≤640×640)下文字模糊導致的特徵丟失。
(三)算力效率:生產級部署的成本優勢
在 A100-40G 顯示卡上的實測資料顯示:
這一效率使其在大規模資料預處理場景具備極強競爭力,如古籍數位化、財報解析等領域。
(一)算力需求重構:從 "堆卡" 到 "精準分配"
DeepSeek-OCR 的高效設計正在改變 AI 算力需求結構:
(二)國產算力卡適配潛力
模型核心部件國產化率超 90%,為適配國產算力硬體奠定基礎:
(三)算力成本革命的產業影響
按日均處理 100 萬頁文件計算,不同方案成本對比:
成本降低 85% 以上,將加速 OCR 技術在中小企業的普及。
(一)OCR 市場格局重構
長期以來,國外廠商佔據高端 OCR 市場主導地位:
DeepSeek-OCR 的出現打破了這一格局,其核心替代優勢體現在:
(二)關鍵技術自主可控
對比國內外主流 OCR 模型技術依賴:
DeepEncoder 的自主設計使模型擺脫對國外閉源編碼器的依賴,更符合信創要求。
(三)開源生態的替代加速效應
開源策略極大降低了替代門檻:
(一)信創核心需求的精準匹配
DeepSeek-OCR 完美契合信創 "自主可控、安全可靠、高效易用" 三大核心要求:
(二)重點行業信創應用場景
(三)信創產業的協同價值
(一)技術演進方向
DeepSeek 團隊在論文中披露三大後續研究方向:
(二)"遺忘機制" 的革命性潛力
模型提出的模擬人類記憶衰退的 "光學遺忘" 機制,為 LLM 突破上下文限制提供可能:
該機制若成熟,理論上可支撐 "無限上下文" 處理,徹底解決 LLM 的 "記憶短板"。
(三)跨領域應用拓展
2. 多模態內容理解
在 LAION 資料集測試中,模型對自然圖像的密集描述(dense captions)生成質量接近 BLIP-2,而 Token 用量僅為後者的 1/8。
基於清華天機芯的邊緣推理測試顯示,Tiny 模式可在 5W 功耗下實現每秒 10 張圖像處理,適用於物聯網裝置。
(一)當前技術侷限
(二)解決方案路徑
DeepSeek-OCR 的發佈,標誌著 AI 技術從 "參數競賽" 轉向 "效率革命" 的重要拐點。3B 參數量的模型通過架構創新實現對億級參數模型的超越,印證了 "做減法" 的 AI 進化邏輯。
在算力成本高企、信創需求迫切的當下,這款模型不僅提供了高效的 OCR 解決方案,更開闢了視覺 - 文字融合的新賽道。其光學壓縮技術若成功遷移至 LLM,有望徹底解決長上下文處理難題,推動通用人工智慧向更高效、更經濟的方向發展。
從產業視角看,DeepSeek-OCR 的開源策略將加速技術普惠,帶動國產算力、軟體生態協同發展,為中國在 AI 領域實現 "換道超車" 提供重要支撐。這場由 3B 模型引發的效率革命,才剛剛拉開序幕。 (AI雲原生智能算力架構)