歐洲AI明星公司Mistral AI 今日發佈 Mistral OCR,一款號稱“世界最佳文件理解 API”的全新產品。
Mistral OCR 是一款光學字元識別(OCR)API,但它遠不止於簡單的文字辨識。與其他模型不同,Mistral OCR 能夠全面理解文件的每一個元素,包括媒體、文字、表格、公式等,並展現出前所未有的精準性和認知能力。它支援圖像和 PDF 作為輸入,並能從中提取出有序的、交錯的文字和圖像內容
這種強大的理解能力使得 Mistral OCR 成為與 RAG(檢索增強生成)系統結合使用的理想模型,尤其擅長處理多模態文件,例如幻燈片或複雜的 PDF 檔案
Mistral OCR 具備以下六大亮點功能:
1. 頂尖的複雜文件理解能力: Mistral OCR 擅長理解複雜的文件元素,包括交錯的圖像、數學表示式、表格以及 LaTeX 等高級排版格式。這使得模型能夠更深入地理解富文件,例如包含圖表、圖形、公式和圖像的科學論文。
2. 原生多語言和多模態支援: Mistral OCR 天生具備多語言和多模態處理能力,能夠處理多種語言和不同類型的內容。
3. 頂級的基準測試表現: Mistral OCR 在多項基準測試中都取得了領先地位,展現了其卓越的性能
4. 同類產品中最快速度: Mistral OCR 的輕量化設計使其速度遠超同類模型,單節點每分鐘可處理高達 2000 頁的文件。快速的處理能力確保了即使在高吞吐量環境下也能持續學習和改進。
5. “文件即提示”的結構化輸出: Mistral OCR 創新性地引入了“文件即提示”的概念,使用者可以使用文件作為提示,實現更強大、更精確的指令。它允許使用者從文件中提取特定資訊,並將其格式化為 JSON 等結構化輸出。使用者可以將這些結構化輸出串聯到下游函數呼叫和建構代理中。
6. 選擇性提供自託管部署: 對於有嚴格資料隱私要求的組織,Mistral OCR 提供自託管選項。這確保了敏感或機密資訊在您自身的基礎設施內保持安全,符合監管和安全標準。
Mistral OCR 與其他主流 OCR 產品的性能對比,包括 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o。在總體精準率、數學公式識別、多語言處理等方面,Mistral OCR 均表現出色,尤其在 Mistral OCR 2503 版本中,各項指標都達到了新的高度
Mistral OCR 的功能可以在https://chat.mistral.ai/chat上免費試用。想要體驗 API 的使用者,可以訪問http://console.mistral.ai/
參考:
https://mistral.ai/news/mistral-ocr (AI寒武紀)