DeepSeek，重大發佈！

2026/01/28

•

中國國產AI大模型再度掀起熱潮。

今日（1月27日），DeepSeek團隊發佈《DeepSeek-OCR 2: Visual Causal Flow》論文，並開源DeepSeek-OCR 2模型，採用創新的DeepEncoder V2方法，讓AI（人工智慧）能夠根據圖像的含義動態重排圖像的各個部分，更接近人類的視覺編碼邏輯。

與此同時，國內人工智慧初創公司月之暗面Kimi正式發佈了新一代開源模型 Kimi K2.5。據介紹，Kimi K2.5基於原生多模態架構設計，支援視覺與文字輸入，將視覺理解與推理、程式設計、Agent等能力全部整合到一個模型當中。

另外，阿里昨日（1月26日）晚間正式發佈千問旗艦推理模型Qwen3-Max-Thinking，在多項關鍵性能基準測試中，千問表現超過了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等頂尖模型，刷新全球紀錄，進一步拓展了AI系統的推理性能邊界。

DeepSeek發佈新模型

1月27日，DeepSeek發佈全新DeepSeek-OCR 2模型，採用創新的DeepEncoder V2方法，讓AI能夠像人類一樣按照邏輯順序“看”圖像。這項技術的核心創新在於改變了傳統AI處理圖像的方式。DeepEncoder V2讓AI基於圖像含義動態重新排列圖像片段，而非傳統的從左到右剛性掃描。這種方法模仿了人類追隨場景邏輯流的方式。

根據DeepSeek公佈的技術報告，DeepSeek-OCR 2在多項關鍵指標上展現出顯著優勢。在OmniDocBench v1.5基準測試中，該模型取得了91.09%的成績，相較於前代DeepSeek-OCR提升了3.73%。

值得注意的是，該模型在保持極高精度的同時，嚴格控制了計算成本，其視覺Token數量被限制在256至1120之間，這一上限與Google的Gemini-3 Pro保持一致。在實際生產環境中，該模型在處理線上使用者日誌和PDF預訓練資料時的重複率分別下降了2.08%和0.81%，顯示出極高的實用成熟度。

根據DeepSeek公佈的技術報告，現有的視覺語言模型（VLMs）通常採用固定的光柵掃描順序（光柵掃描順序）處理圖像切片，即機械地從左上角掃描至右下角。DeepSeek團隊指出，這種方式引入了不必要的歸納偏差，與人類視覺感知背道而馳。人類在閱讀複雜文件、表格或追蹤螺旋線條時，視線是受語義理解驅動的“因果流”，後一次注視往往因果依賴於前一次注視，而非單純的空間坐標移動。

受此認知機制啟發，DeepSeek-OCR 2的核心元件DeepEncoder V2被設計用於賦予編碼器因果推理能力。通過引入可學習的“因果流查詢”（Causal Flow Queries），模型能夠在進入LLM解碼器進行內容解釋之前，先在編碼階段就對視覺資訊進行智能重排序。這實際上建構了一個兩級級聯的1D因果推理結構：首先由編碼器在語義上重組視覺Token，隨後由解碼器對有序序列進行自回歸推理。

這種設計不僅符合光學文字、表格和公式的非線性佈局特徵，還有效彌補了2D圖像結構與1D語言建模之間的鴻溝。

DeepSeek-OCR 2的發佈不僅是一次OCR性能的升級，更具有深遠的架構探索意義。DeepEncoder V2初步驗證了使用語言模型架構作為視覺編碼器的潛力。這種架構天然繼承了LLM社區在基礎設施最佳化方面的成果，如混合專家（MoE）架構和高效注意力機制。

DeepSeek團隊認為，這為邁向統一的全模態編碼器提供了一條有希望的路徑。未來，單一編碼器可能通過配置特定模態的可學習查詢，在同一參數空間內實現對圖像、音訊和文字的特徵提取與壓縮。DeepSeek-OCR 2所展示的“兩個級聯的1D因果推理器”模式，通過將2D理解分解為“閱讀邏輯推理”和“視覺任務推理”兩個互補子任務，或許代表了實現真正2D推理的一種突破性架構方法。

阿里、月之暗面也有大動作

同日，月之暗面Kimi正式發佈了新一代開源模型 Kimi K2.5。

此次升級通過靜默推送方式實現在官網聊天介面的自動更新，原K2模型已無縫切換為K2.5，使用者無需手動操作。更新旨在提升響應速度、推理能力與多輪對話穩定性，覆蓋全部Web端使用者。該版本未開放獨立入口或下載安裝包，僅以伺服器端模型替換形式落地。

據介紹，作為Kimi目前最智能的模型，K2.5在HLE（人類最後的考試）、BrowseComp、 DeepSearchQA等多項agent評測中均取得全球開源模型的最佳成績。

作為一個全能型模型，Kimi K2.5基於原生多模態架構設計，支援視覺與文字輸入，將視覺理解與推理、程式設計、Agent等能力全部整合到一個模型當中。

Kimi創始人、CEO楊植麟表示：“我們重構了強化學習的基建，並專門最佳化了訓練演算法，以確保它能達到極致的效率和性能。”

另外，阿里巴巴26日晚間正式發佈千問旗艦推理模型Qwen3-Max-Thinking，在多項關鍵性能基準測試中，千問表現超過了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等頂尖模型，刷新全球紀錄，進一步拓展了AI系統的推理性能邊界。

通過總參數、強化學習、推理計算的極致規模擴展，千問新模型實現了性能的大幅飛躍，刷新科學知識（GPQA Diamond）、數學推理（IMO-AnswerBench）、程式碼程式設計（LiveCodeBench）等多項關鍵性能基準測試的全球紀錄。

具體來看，在關鍵的模型推理能力提升中，千問新模型採用了一種全新的測試時擴展（Test-time Scaling）機制，推理性能提升的同時還更經濟。

阿里方面表示，Qwen3-Max-Thinking總參數超兆，進行了更大規模的強化學習後訓練，並通過推理技術的系列創新，最終完成模型性能的大幅飛躍。其還大幅增強了自主呼叫工具的原生Agent能力，模型可像專業人士一樣邊用工具邊思考。同時，模型幻覺也大為降低，為解決真實複雜任務打下基礎。目前，普通使用者可通過千問PC端和網頁端試用新模型，千問APP也即將接入，所有使用者都可免費體驗。 (券商中國)