DeepSeek-OCR-2 正式上線

2026/01/28

•

DeepSeek-OCR-2 正式上線

文件解析性能顯著提升

昨天，深度求索（DeepSeek）正式推出新一代文件解析模型「DeepSeek-OCR 2」。該模型採用全新的視覺編碼器架構 DeepEncoder V2，在文件解析能力上實現重要突破。

技術架構升級

視覺因果流 是核心創新，引入類似大語言模型的因果推理機制，使圖像理解更貼近人類閱讀邏輯。

視覺編碼器 DeepEncoder：約3.8億參數，用於圖像轉視覺標記序列
解碼器：30億參數 MoE 模型，推理時表現為5.7億參數模型

性能表現優異

OmniDocBench v1.5 測試得分：91.09%，較上代提升3.73%
閱讀順序精準率大幅提升
純文字提取精度達97%-98%

多模態能力突出

不僅限於文字提取，還支援：

圖表、公式、化學結構識別
表格圖像轉 HTML 或 Markdown
豐富結構化輸出，滿足多種場景需求

開源策略促進發展

MIT 許可證開源，可在 Hugging Face 和 GitHub 獲取
支援動態解析度與多裁剪策略
提供 Transformers 和 vLLM 推理示例

部署靈活性優勢

本地運行，保障資料隱私
支援自訂輸出格式，提示詞靈活引導
適用於敏感文件處理場景

技術發展前景

未來有望擴展至多模態統一編碼器
共享因果推理框架，融合圖像、文字、語音等輸入
社區驅動開發，加速模型迭代

行業影響初顯

推動多模態模型走向開源生態
打破傳統OCR服務商壟斷格局
降低使用門檻，增強市場活力

應用場景廣泛

涵蓋 OCR、版面解析、圖像描述等任務
適合企業級文件處理與科研機構定製化開發
本地部署保障資料安全

技術路線清晰

雙階段訓練策略：先獨立訓練視覺編碼器，再聯合訓練
提高OCR魯棒性與佈局適應性

市場定位明確

精準性高、靈活性強、成本可控
超越部分傳統OCR服務
通過社區反饋持續最佳化產品體驗

小結

DeepSeek-OCR 2 的發佈是開源多模態AI的重要里程碑。它不僅提升了文件解析性能，也通過開源策略賦予使用者更高的自由度和掌控力。這一變革或將重塑OCR服務市場的競爭格局，值得長期關注。 (MaXTe)