DeepSeek-OCR-2 正式上線

DeepSeek-OCR-2 正式上線

文件解析性能顯著提升

昨天,深度求索(DeepSeek)正式推出新一代文件解析模型「DeepSeek-OCR 2」。該模型採用全新的視覺編碼器架構 DeepEncoder V2,在文件解析能力上實現重要突破。

技術架構升級

視覺因果流 是核心創新,引入類似大語言模型的因果推理機制,使圖像理解更貼近人類閱讀邏輯。

  • 視覺編碼器 DeepEncoder:約3.8億參數,用於圖像轉視覺標記序列
  • 解碼器:30億參數 MoE 模型,推理時表現為5.7億參數模型

性能表現優異

  • OmniDocBench v1.5 測試得分:91.09%,較上代提升3.73%
  • 閱讀順序精準率大幅提升
  • 純文字提取精度達97%-98%

多模態能力突出

不僅限於文字提取,還支援:

  • 圖表、公式、化學結構識別
  • 表格圖像轉 HTML 或 Markdown
  • 豐富結構化輸出,滿足多種場景需求

開源策略促進發展

  • MIT 許可證開源,可在 Hugging Face 和 GitHub 獲取
  • 支援動態解析度與多裁剪策略
  • 提供 Transformers 和 vLLM 推理示例

部署靈活性優勢

  • 本地運行,保障資料隱私
  • 支援自訂輸出格式,提示詞靈活引導
  • 適用於敏感文件處理場景

技術發展前景

  • 未來有望擴展至多模態統一編碼器
  • 共享因果推理框架,融合圖像、文字、語音等輸入
  • 社區驅動開發,加速模型迭代

行業影響初顯

  • 推動多模態模型走向開源生態
  • 打破傳統OCR服務商壟斷格局
  • 降低使用門檻,增強市場活力

應用場景廣泛

  • 涵蓋 OCR、版面解析、圖像描述等任務
  • 適合企業級文件處理與科研機構定製化開發
  • 本地部署保障資料安全

技術路線清晰

  • 雙階段訓練策略:先獨立訓練視覺編碼器,再聯合訓練
  • 提高OCR魯棒性與佈局適應性

市場定位明確

  • 精準性高、靈活性強、成本可控
  • 超越部分傳統OCR服務
  • 通過社區反饋持續最佳化產品體驗

小結

DeepSeek-OCR 2 的發佈是開源多模態AI的重要里程碑。它不僅提升了文件解析性能,也通過開源策略賦予使用者更高的自由度和掌控力。這一變革或將重塑OCR服務市場的競爭格局,值得長期關注。 (MaXTe)