百度開源拿下全球第一！作者疑似DeepSeek出走大神

2026/06/23

•

百度開源Unlimited OCR！3B參數500M啟動，一口氣讀完40頁不失憶。作者疑似DeepSeek出走的OCR核心大神。

就在剛剛，百度悶聲幹了票大的！

最新開放原始碼的Unlimited OCR，總參數3B，實際啟動僅500M——放在大模型時代幾乎是個零頭。

但就是這個小到離譜的模型，在OmniDocBench v1.5上拿下93.23%的綜合分，v1.6更是達到93.92%，直接刷新了端到端SOTA。

什麼概念？v1.5同台競技的選手裡，235B的Qwen3-VL拿了89.15，72B的Qwen2.5-VL拿了87.02，不公佈參數量的Gemini-2.5 Pro也只有88.03。啟動參數不到它們零頭的選手，反手把它們全甩了。

更離譜的是，它還幹了件之前沒有OCR模型幹成過的事：一口氣解析40多頁文件，不失憶、不降速，一次推理從第一頁讀到最後一頁。

目前，模型和程式碼都已同步上線GitHub和HuggingFace。

GitHub：
https://github.com/baidu/Unlimited-OCR
Hugging Face：
https://huggingface.co/baidu/Unlimited-OCR

為什麼所有模型都在「逐頁失憶」

說到OCR，現在模型笨得讓人意外。

它們會把一件原本連貫的長程任務，硬生生切成幾十個互不相干的小任務，再靠一個外部調度器把結果勉強縫起來。就像在跑一個for循環，處理完一頁就把記憶清空，再從頭開始下一頁。

能用，但本質上只是工程的權宜之計，離真正的智能還差著一大截。

究其原因在於，隨著輸出越來越長，標準注意力機制下的KV快取像滾雪球一樣瘋漲——記憶體吃不消，速度越來越慢。

這才是逼著所有模型逐頁處理、頻頻「失憶」的真正元兇。

但人類抄書，從來不是這麼幹的。

我們會維持一種連續的認知狀態——眼睛盯著三個點：原書、剛寫下的一小段、即將要寫的下一個字。

早些寫過的內容慢慢淡出腦海，最近的上下文用來盯住當前進度。

這種能力有個很妙的名字：「軟遺忘」（soft forgetting）。

正是靠著這種「該忘就忘」的本事，人才能在極低認知負荷下扛住超長任務。比如，抄一本書、譯幾百頁、連續轉錄數小時音訊。

百度想做的，就是把人類這種「原文全域可見、記憶只保留最近幾行」的注意力方式，搬進模型裡。讓OCR告別失憶。

R-SWA：把「抄書的秘密」寫進注意力

順著這個思路，百度提出了報告裡的核心技術——參考滑動窗口注意力（Reference Sliding Window Attention，R-SWA），精確對應前面說的人抄書時的注意力模式。

具體來說，每生成一個token，R-SWA都會去看全部「參考token」，也就是整張圖像的視覺token和提示詞，保證模型始終「看得見」完整原文。

但在輸出這一側，它只回看前面128個token，就像你抄書時只瞄一眼剛寫的那幾行。

落到實現上，Unlimited OCR把所有注意力層全換成R-SWA，從而把KV快取變成一個固定容量的佇列。

每生成一個新token，最老的那個就被擠出去，大小始終不變。輸出1萬個token和10萬個token，記憶體佔用是完全一樣的。

報告中Flash Attention v3的延遲測試也一目瞭然。

DeepSeek OCR的標準MHA隨著解碼步數增加，每步耗時穩步攀升；而Unlimited OCR的R-SWA從頭到尾一條平線，紋絲不動。

一次推理，讀完幾十頁

這裡還有一個至關重要的配合：DeepEncoder。

這個最初在DeepSeek OCR中登場的編碼器，能把一張1024×1024的PDF頁面壓縮到僅僅256個視覺token，壓縮率高達16倍。

而且由於視覺token在R-SWA下不參與狀態轉移，因此無論文件多長，圖像資訊永遠清清楚楚，不會隨解碼過程逐漸退化。

配合DeepEncoder的極致壓縮和R-SWA的恆定快取，Unlimited OCR在標準的32K上下文裡，一次前向推理就能轉錄數十頁文件。

結果顯示，同時輸入20頁文件，轉錄與原文逐字比對的編輯距離僅0.057；即便輸入40頁以上，依然控制在0.11以下，衡量重複輸出的Distinct-35高達97%——幾十頁一口氣轉錄，幾乎沒有復讀。

在OmniDocBench v1.5上，Unlimited OCR拿到93.23%的綜合得分，比DeepSeek OCR的87.01%高出6.22個百分點。

文字編輯距離從0.073降到0.038，公式CDM從83.37飆到92.61，表格TEDS從84.97升至90.93。

在更新的v1.6上，同樣以93.92%拿下端到端SOTA。

效率方面同樣碾壓。

輸出達到6144個token時，Unlimited OCR的TPS是7847，DeepSeek OCR已經掉到5822，差距高達35%。

別忘了，這是一個500M啟動的MoE小模型，在DeepSeek OCR基礎上僅繼續訓練4000步的結果。

投入不算大，但效果拔群——R-SWA對解析任務是一種真正的「免費午餐」。

九大文件類型的細分對比中，PPT、論文、雜誌、報紙無一短板，Unlimited OCR在文字和閱讀順序兩項上全面超越DeepSeek OCR，且在七個類別中領先DeepSeek OCR 2。

一位神秘的技術總監

跑分說完了。但這份報告真正有意思的地方，是行文方式。

從副標題的語氣到技術的敘事，讀過DeepSeek那幾份技術報告的人，幾頁下來就會覺得似曾相識。

末尾還斷言R-SWA是通用解析機制，而OCR只是第一站。

一篇OCR報告，硬是寫出了探索通用智能的味道。

然後，是那個最讓人在意的地方——作者名單。

核心貢獻者三位：Youyang Yin，Huanhuan Liu*（項目leader），YY†（技術總監）。

兩個人用真名，唯獨技術總監掛了個兩字母縮寫。有點意思。

雖然論文沒多說，但GitHub致謝欄卻把線索遞了過來：Deepseek-OCR和Deepseek-OCR-2，排在致謝前兩位。

順著這條線往回找。DeepSeek OCR從一代到二代，核心作者始終三個人：魏浩然、孫耀峰、李宇琨。同一支小隊伍，從無到有。

今年4月DeepSeek發V4，魏浩然名字後面多了星號——已離職。

三個人裡，只有他已經公開離開。

再看履歷。魏浩然，階躍星辰出身，主導開發了端到端OCR最早跑通的開源標竿GOT-OCR2.0。到DeepSeek後，更是一手搭起整條OCR線，DeepEncoder、MoE解碼器，一代到二代都是他的團隊。

能力、時間線、署名方式，三條都對得上。

國內OCR圈不大，能做出R-SWA這種等級突破、還對DeepSeek OCR架構有「親手做過」等級熟悉的人，一隻手數得過來。魏浩然是其中最顯眼的那一個。

如此一來，YY大機率就是魏浩然了。

百度，依然能打

過去幾年，PaddleOCR幾乎是國產OCR的代名詞。開源、輕量，產業落地最廣——從手機端到伺服器到嵌入式裝置，覆蓋了最主流的應用場景。

不過之前百度更側重產業應用。穩定性、部署成本、場景覆蓋是強項，「用前沿研究理念重塑OCR範式」這個方向並非其敘事重點。

而魏浩然做的，恰好就是這件事。

從GOT-OCR2.0的端到端一次解析，到DeepSeek-OCR的視覺壓縮，再到R-SWA——先想清楚OCR應該長什麼樣，再做出來。

一邊是產業落地最成熟、場景覆蓋最廣的工程底座；一邊是端到端長程解析最前沿的研究品味。兩者疊加，補齊的不只是一個技術短板，而是一種「既能大規模鋪開、又能持續引領範式」的完整能力。

百度今年把AIDU人才計畫升級為集團級項目、薪酬不設上限。對一個想把研究做到落地的人來說，百度多年鋪下來的產業底座，比單純的高薪更有說服力。

魏浩然如果真的選了百度，邏輯就很清楚——這裡有最成熟的產業底座，也有把研究推到前沿的空間和資源。

如果他真的把R-SWA推廣到ASR和翻譯，那百度手裡握著的就不只是一個OCR模型，而是一套通用長程解析的技術框架。

論文展望裡還留了一句：下一步，上下文窗口訓到128K，建構prefill pool讓模型學會自動翻頁。

如果做到了，OCR就不再是識別一頁文字，而是理解一整本書。 (新智元)

科技