#文件解析
DeepSeek-OCR-2 正式上線
DeepSeek-OCR-2 正式上線文件解析性能顯著提升昨天,深度求索(DeepSeek)正式推出新一代文件解析模型「DeepSeek-OCR 2」。該模型採用全新的視覺編碼器架構 DeepEncoder V2,在文件解析能力上實現重要突破。技術架構升級視覺因果流 是核心創新,引入類似大語言模型的因果推理機制,使圖像理解更貼近人類閱讀邏輯。視覺編碼器 DeepEncoder:約3.8億參數,用於圖像轉視覺標記序列解碼器:30億參數 MoE 模型,推理時表現為5.7億參數模型性能表現優異OmniDocBench v1.5 測試得分:91.09%,較上代提升3.73%閱讀順序精準率大幅提升純文字提取精度達97%-98%多模態能力突出不僅限於文字提取,還支援:圖表、公式、化學結構識別表格圖像轉 HTML 或 Markdown豐富結構化輸出,滿足多種場景需求開源策略促進發展MIT 許可證開源,可在 Hugging Face 和 GitHub 獲取支援動態解析度與多裁剪策略提供 Transformers 和 vLLM 推理示例部署靈活性優勢本地運行,保障資料隱私支援自訂輸出格式,提示詞靈活引導適用於敏感文件處理場景技術發展前景未來有望擴展至多模態統一編碼器共享因果推理框架,融合圖像、文字、語音等輸入社區驅動開發,加速模型迭代行業影響初顯推動多模態模型走向開源生態打破傳統OCR服務商壟斷格局降低使用門檻,增強市場活力應用場景廣泛涵蓋 OCR、版面解析、圖像描述等任務適合企業級文件處理與科研機構定製化開發本地部署保障資料安全技術路線清晰雙階段訓練策略:先獨立訓練視覺編碼器,再聯合訓練提高OCR魯棒性與佈局適應性市場定位明確精準性高、靈活性強、成本可控超越部分傳統OCR服務通過社區反饋持續最佳化產品體驗小結DeepSeek-OCR 2 的發佈是開源多模態AI的重要里程碑。它不僅提升了文件解析性能,也通過開源策略賦予使用者更高的自由度和掌控力。這一變革或將重塑OCR服務市場的競爭格局,值得長期關注。 (MaXTe)