沉寂很久的Mistral AI推出號稱世界最強OCR

2025/03/07

•

歐洲AI明星公司Mistral AI 今日發佈 Mistral OCR，一款號稱“世界最佳文件理解 API”的全新產品。

Mistral OCR 是一款光學字元識別（OCR）API，但它遠不止於簡單的文字辨識。與其他模型不同，Mistral OCR 能夠全面理解文件的每一個元素，包括媒體、文字、表格、公式等，並展現出前所未有的精準性和認知能力。它支援圖像和 PDF 作為輸入，並能從中提取出有序的、交錯的文字和圖像內容

這種強大的理解能力使得 Mistral OCR 成為與 RAG（檢索增強生成）系統結合使用的理想模型，尤其擅長處理多模態文件，例如幻燈片或複雜的 PDF 檔案

亮點

Mistral OCR 具備以下六大亮點功能：

1. 頂尖的複雜文件理解能力： Mistral OCR 擅長理解複雜的文件元素，包括交錯的圖像、數學表示式、表格以及 LaTeX 等高級排版格式。這使得模型能夠更深入地理解富文件，例如包含圖表、圖形、公式和圖像的科學論文。

2. 原生多語言和多模態支援： Mistral OCR 天生具備多語言和多模態處理能力，能夠處理多種語言和不同類型的內容。

3. 頂級的基準測試表現： Mistral OCR 在多項基準測試中都取得了領先地位，展現了其卓越的性能

4. 同類產品中最快速度： Mistral OCR 的輕量化設計使其速度遠超同類模型，單節點每分鐘可處理高達 2000 頁的文件。快速的處理能力確保了即使在高吞吐量環境下也能持續學習和改進。

5. “文件即提示”的結構化輸出： Mistral OCR 創新性地引入了“文件即提示”的概念，使用者可以使用文件作為提示，實現更強大、更精確的指令。它允許使用者從文件中提取特定資訊，並將其格式化為 JSON 等結構化輸出。使用者可以將這些結構化輸出串聯到下游函數呼叫和建構代理中。

6. 選擇性提供自託管部署： 對於有嚴格資料隱私要求的組織，Mistral OCR 提供自託管選項。這確保了敏感或機密資訊在您自身的基礎設施內保持安全，符合監管和安全標準。

Mistral OCR 與其他主流 OCR 產品的性能對比，包括 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o。在總體精準率、數學公式識別、多語言處理等方面，Mistral OCR 均表現出色，尤其在 Mistral OCR 2503 版本中，各項指標都達到了新的高度

體驗 Mistral OCR

Mistral OCR 的功能可以在https://chat.mistral.ai/chat上免費試用。想要體驗 API 的使用者，可以訪問http://console.mistral.ai/

參考：

https://mistral.ai/news/mistral-ocr (AI寒武紀)

科技