Artificial Analysis重磅發佈《2025年Q2中國AI現狀報告》：中國與美國差距已從一年縮短至3個月

2025/08/14

•

Artificial Analysis 最近發佈了《State of AI: China Q2 2025 Highlights Report》（2025年Q2 中國人工智慧現狀分析報告），聚焦中國 AI 發展現狀。

報告通過全面基準測試，包括語言模型API的性能評估和人群 sourced 競技場投票，分析了AI技術和用例。資料來源於 Artificial Analysis Intelligence Index，該指數整合了7項評估：MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 和 MATH-500。報告強調，中國 AI 實驗室在前沿模型智能上迅速追趕美國，差距顯著縮小。以下是報告的核心內容整理，力求精準、客觀。

中美 AI 前沿差距縮小

報告指出，中國領先 AI 實驗室與美國領導者的性能差距已從 ChatGPT 發佈後的超過一年，縮小到不到三個月。具體而言，自 2022 年 ChatGPT 發佈以來，中美前沿語言模型的差距持續存在，但如今已達到歷史最小。DeepSeek的開源權重模型 R1（2025 年5月發佈）領導中國AI實驗室，而 OpenAI 的 o3 是美國最領先模型。中國進展主要由 DeepSeek 和 Alibaba 驅動，美國則主要依賴 OpenAI。

在開源權重模型方面，中國於2024年11月通過 Alibaba 的 QwQ 32B Preview 超過美國（超越 Meta 的 Llama 3.1 405B）。DeepSeek 的 R1（2025年1月）是首個與中國 OpenAI o1 競爭的開源權重推理模型，而 R1 0528（2025年5月）則是當前最智能的開源權重模型。這反映了中國頂級AI實驗室傾向於發佈旗艦模型權重，與美國實驗室（如 OpenAI、Anthropic 和 Google）的封閉策略形成對比。

中國領先 AI 實驗室的穩步推進

DeepSeek 和 Alibaba 是中國AI前沿的主要推動者。截至2025年5月，DeepSeek R1 0528 在智能上略領先 Alibaba 的 Qwen3 235B A22B。兩家公司均採用開源權重策略，促進模型在國內外廣泛採用。在過去兩年，它們每隔最多約3個月發佈新模型。

DeepSeek 的模型智能自2023年11月首次發佈以來快速提升：從 DeepSeek LLM 67B（智能指數20）到 V2（35）、V2.5（46）、V3（60）、R1（68），再到 R1-0528（68）。R1-0528 是對 V3/R1 架構的後訓練更新，無需改變671B參數（活躍37B），突顯強化學習（RL）技術在推理模型中的重要性。這使 DeepSeek 躍升為全球第二AI實驗室，與 xAI、Meta 和 Anthropic 並列，並成為無可爭議的開源權重領導者。

美國AI實驗室競爭加劇

在美國，OpenAI 的主導地位減弱。其他實驗室如 Google、xAI 和 Anthropic 已縮小差距。截至2025年5月，OpenAI o3 是美國最智能模型（整體最智能）。Google 的 Gemini 2.5 Pro、xAI 的 Grok3 mini reasoning (high) 和 Anthropic 的 Claude Opus 4 (Extended Thinking) 緊隨其後。

中國AI玩家的分類與生態

報告將中國AI玩家分為三類：大科技公司、AI初創公司，以及其他有 AI 野心的公司。

大科技公司包括：

Alibaba：市值約300B美元，策略包括發佈領先開源模型（如 Qwen）和通過 Alibaba Cloud 提供推理。最佳非推理模型 Qwen3-235B-A22B（智能47），最佳推理模型 **Qwen3-235B-A22B (Reasoning)**（62）。消費者應用 Tongyi Qianwen（約150M MAU）。
ByteDance：私有公司，擁有 Doubao（約110M MAU）。最佳非推理 Doubao 1.5 Pro（48），最佳推理 Seed-Thinking-v1.5（62）。通過 Volcano Engine 提供服務。
Huawei：私有，專注晶片和硬體。最佳非推理 Pangu 5.0 Large（未基準），無公開推理模型。應用 Celia（約200M MAU）。
Tencent：市值約575B美元。最佳非推理 Hunyuan TurboS（47），最佳推理 Hunyuan T1（59）。應用 Yuanbao 和 Yuanqi（約40M MAU）。
Baidu：市值約30B美元。最佳非推理 ERNIE 4.5（46），最佳推理 ERNIE X1（60）。應用 Wenxin Yiyan（約13M MAU）。

AI初創公司包括：

DeepSeek（2023年5月成立）：最佳非推理 DeepSeek V3（52），最佳推理 DeepSeek R1（68）。應用 DeepSeek Chat（約100M MAU）。資金 undisclosed。
Moonshot AI（2023年3月）：最佳非推理 Moonshot v1（30），最佳推理 Kimi K1.5（58）。應用 Kimi（約25M MAU）。資金約1.6B美元。
Zhipu（2019年6月）：最佳非推理 GLM-4-32B（46），最佳推理 GLM-Z1-32B（56）。應用 ChatGLM（約9M MAU）。資金約1.1B美元。
StepFun（2023年4月）：最佳非推理 Step-2（44），最佳推理 Step-R1-V-Mini（55*）。應用 Yuewen 和 PopDuck（<1M MAU）。資金 undisclosed。
MiniMax（2021年12月）：最佳非推理 MiniMax-Text-01（40）。應用 Talkie AI（約35M MAU）。資金約0.85B美元。
01.AI（2023年3月）：最佳非推理 Yi-Lightning（37*）。應用 YiChat（<1M MAU）。資金約0.2B美元。
Baichuan（2023年4月）：最佳非推理 Baichuan 4（31），最佳推理 Baichuan M1（52）。應用 Bai Xiaoying（<1M MAU）。資金約1.0B美元。

其他公司如 Kunlun Tech、360 Security、iFlytek、Meituan 和 Xiaomi 也在AI領域活躍。

領先語言模型與開源前沿

中美領先模型比較顯示，美國整體領先，但中國不再落後。頂級中國模型包括 DeepSeek R1 (May 2025)（68）、Alibaba Qwen3 235B A22B (Reasoning)（62）、ByteDance Seed-Thinking-v1.5（62）。美國包括 OpenAI o3（70）、Google Gemini 2.5 Pro（68）、**xAI Grok 3 Mini Reasoning (high)**（67）。

開源權重前沿由 DeepSeek 領導：推理模型 **R1 (May 2025)**（68），非推理 V3（52）。中國在推理（如 Qwen3 235B A22B (Reasoning) 62）和非推理（如 Qwen3 235B A22B 47）中佔有顯著份額。

多模態AI與媒體生成進展

中國公司在語言、語音、圖像、視訊和 3D 生成中全面參與。例如，Alibaba 在圖像（LHM）和視訊（Wan 2.1），ByteDance 在 TTS（Seed-TTS）和視訊（Seaweed-7B）。

在文字到圖像，2025年中美達到 parity，OpenAI GPT-4o（1165 ELO）略領先 ByteDance Seedream 3.0（1161）。其他如 MiniMax Image-01（1111）。

文字到視訊由美國領導，Google Veo 3 Preview（1247 ELO）遠超 Kuaishou Kling 2.0（1133*）。中國如 MiniMax T2V-01（1053）、Alibaba Wan 2.1（1039）。

圖像到視訊類似，美國領先，Google Veo 3（1222）略超 Kuaishou Kling 2.0（1206）和 Runway Gen 4（1199）。

結語

《2025年Q2 中國人工智慧現狀分析報告》顯示，中國 AI 生態處於蓬勃發展中，尤其是在開源和多模態領域，並且正在快速縮小與美國的差距。

關注公眾號【AI 資訊風向】，回覆 666，即可獲取這份 AI 行業報告-《2025年Q2 中國人工智慧現狀分析》。

AI 技術正以前所未有的速度發展，它將如何塑造我們的未來？讓我們拭目以待。 (AI資訊風向)

科技