文件解析性能顯著提升
昨天,深度求索(DeepSeek)正式推出新一代文件解析模型「DeepSeek-OCR 2」。該模型採用全新的視覺編碼器架構 DeepEncoder V2,在文件解析能力上實現重要突破。
視覺因果流 是核心創新,引入類似大語言模型的因果推理機制,使圖像理解更貼近人類閱讀邏輯。
- 視覺編碼器 DeepEncoder:約3.8億參數,用於圖像轉視覺標記序列
- 解碼器:30億參數 MoE 模型,推理時表現為5.7億參數模型
- OmniDocBench v1.5 測試得分:91.09%,較上代提升3.73%
- 閱讀順序精準率大幅提升
- 純文字提取精度達97%-98%
不僅限於文字提取,還支援:
- 圖表、公式、化學結構識別
- 表格圖像轉 HTML 或 Markdown
- 豐富結構化輸出,滿足多種場景需求
- MIT 許可證開源,可在 Hugging Face 和 GitHub 獲取
- 支援動態解析度與多裁剪策略
- 提供 Transformers 和 vLLM 推理示例
- 本地運行,保障資料隱私
- 支援自訂輸出格式,提示詞靈活引導
- 適用於敏感文件處理場景
- 未來有望擴展至多模態統一編碼器
- 共享因果推理框架,融合圖像、文字、語音等輸入
- 社區驅動開發,加速模型迭代
- 推動多模態模型走向開源生態
- 打破傳統OCR服務商壟斷格局
- 降低使用門檻,增強市場活力
- 涵蓋 OCR、版面解析、圖像描述等任務
- 適合企業級文件處理與科研機構定製化開發
- 本地部署保障資料安全
- 雙階段訓練策略:先獨立訓練視覺編碼器,再聯合訓練
- 提高OCR魯棒性與佈局適應性
- 精準性高、靈活性強、成本可控
- 超越部分傳統OCR服務
- 通過社區反饋持續最佳化產品體驗
DeepSeek-OCR 2 的發佈是開源多模態AI的重要里程碑。它不僅提升了文件解析性能,也通過開源策略賦予使用者更高的自由度和掌控力。這一變革或將重塑OCR服務市場的競爭格局,值得長期關注。 (MaXTe)