Artificial Analysis重磅發佈《2025年Q2中國AI現狀報告》:中國與美國差距已從一年縮短至3個月

Artificial Analysis 最近發佈了《State of AI: China Q2 2025 Highlights Report》(2025年Q2 中國人工智慧現狀分析報告),聚焦中國 AI 發展現狀。

報告通過全面基準測試,包括語言模型API的性能評估和人群 sourced 競技場投票,分析了AI技術和用例。資料來源於 Artificial Analysis Intelligence Index,該指數整合了7項評估:MMLU-ProGPQA DiamondHumanity's Last ExamLiveCodeBenchSciCodeAIME 和 MATH-500。報告強調,中國 AI 實驗室在前沿模型智能上迅速追趕美國,差距顯著縮小。以下是報告的核心內容整理,力求精準、客觀。

中美 AI 前沿差距縮小

報告指出,中國領先 AI 實驗室與美國領導者的性能差距已從 ChatGPT 發佈後的超過一年,縮小到不到三個月。具體而言,自 2022 年 ChatGPT 發佈以來,中美前沿語言模型的差距持續存在,但如今已達到歷史最小。DeepSeek的開源權重模型 R1(2025 年5月發佈)領導中國AI實驗室,而 OpenAI 的 o3 是美國最領先模型。中國進展主要由 DeepSeek 和 Alibaba 驅動,美國則主要依賴 OpenAI

在開源權重模型方面,中國於2024年11月通過 Alibaba 的 QwQ 32B Preview 超過美國(超越 Meta 的 Llama 3.1 405B)。DeepSeek 的 R1(2025年1月)是首個與中國 OpenAI o1 競爭的開源權重推理模型,而 R1 0528(2025年5月)則是當前最智能的開源權重模型。這反映了中國頂級AI實驗室傾向於發佈旗艦模型權重,與美國實驗室(如 OpenAIAnthropic 和 Google)的封閉策略形成對比。

中國領先 AI 實驗室的穩步推進

DeepSeek 和 Alibaba 是中國AI前沿的主要推動者。截至2025年5月,DeepSeek R1 0528 在智能上略領先 Alibaba 的 Qwen3 235B A22B。兩家公司均採用開源權重策略,促進模型在國內外廣泛採用。在過去兩年,它們每隔最多約3個月發佈新模型。

DeepSeek 的模型智能自2023年11月首次發佈以來快速提升:從 DeepSeek LLM 67B(智能指數20)到 V2(35)、V2.5(46)、V3(60)、R1(68),再到 R1-0528(68)。R1-0528 是對 V3/R1 架構的後訓練更新,無需改變671B參數(活躍37B),突顯強化學習(RL)技術在推理模型中的重要性。這使 DeepSeek 躍升為全球第二AI實驗室,與 xAIMeta 和 Anthropic 並列,並成為無可爭議的開源權重領導者。

美國AI實驗室競爭加劇

在美國,OpenAI 的主導地位減弱。其他實驗室如 GooglexAI 和 Anthropic 已縮小差距。截至2025年5月,OpenAI o3 是美國最智能模型(整體最智能)。Google 的 Gemini 2.5 ProxAI 的 Grok3 mini reasoning (high) 和 Anthropic 的 Claude Opus 4 (Extended Thinking) 緊隨其後。

中國AI玩家的分類與生態

報告將中國AI玩家分為三類:大科技公司AI初創公司,以及其他有 AI 野心的公司

大科技公司包括:

  • Alibaba:市值約300B美元,策略包括發佈領先開源模型(如 Qwen)和通過 Alibaba Cloud 提供推理。最佳非推理模型 Qwen3-235B-A22B(智能47),最佳推理模型 **Qwen3-235B-A22B (Reasoning)**(62)。消費者應用 Tongyi Qianwen(約150M MAU)。
  • ByteDance:私有公司,擁有 Doubao(約110M MAU)。最佳非推理 Doubao 1.5 Pro(48),最佳推理 Seed-Thinking-v1.5(62)。通過 Volcano Engine 提供服務。
  • Huawei:私有,專注晶片和硬體。最佳非推理 Pangu 5.0 Large(未基準),無公開推理模型。應用 Celia(約200M MAU)。
  • Tencent:市值約575B美元。最佳非推理 Hunyuan TurboS(47),最佳推理 Hunyuan T1(59)。應用 Yuanbao 和 Yuanqi(約40M MAU)。
  • Baidu:市值約30B美元。最佳非推理 ERNIE 4.5(46),最佳推理 ERNIE X1(60)。應用 Wenxin Yiyan(約13M MAU)。

AI初創公司包括:

  • DeepSeek(2023年5月成立):最佳非推理 DeepSeek V3(52),最佳推理 DeepSeek R1(68)。應用 DeepSeek Chat(約100M MAU)。資金 undisclosed。
  • Moonshot AI(2023年3月):最佳非推理 Moonshot v1(30),最佳推理 Kimi K1.5(58)。應用 Kimi(約25M MAU)。資金約1.6B美元。
  • Zhipu(2019年6月):最佳非推理 GLM-4-32B(46),最佳推理 GLM-Z1-32B(56)。應用 ChatGLM(約9M MAU)。資金約1.1B美元。
  • StepFun(2023年4月):最佳非推理 Step-2(44),最佳推理 Step-R1-V-Mini(55*)。應用 Yuewen 和 PopDuck(<1M MAU)。資金 undisclosed。
  • MiniMax(2021年12月):最佳非推理 MiniMax-Text-01(40)。應用 Talkie AI(約35M MAU)。資金約0.85B美元。
  • 01.AI(2023年3月):最佳非推理 Yi-Lightning(37*)。應用 YiChat(<1M MAU)。資金約0.2B美元。
  • Baichuan(2023年4月):最佳非推理 Baichuan 4(31),最佳推理 Baichuan M1(52)。應用 Bai Xiaoying(<1M MAU)。資金約1.0B美元。

其他公司如 Kunlun Tech360 SecurityiFlytekMeituan 和 Xiaomi 也在AI領域活躍。

領先語言模型與開源前沿

中美領先模型比較顯示,美國整體領先,但中國不再落後。頂級中國模型包括 DeepSeek R1 (May 2025)(68)、Alibaba Qwen3 235B A22B (Reasoning)(62)、ByteDance Seed-Thinking-v1.5(62)。美國包括 OpenAI o3(70)、Google Gemini 2.5 Pro(68)、**xAI Grok 3 Mini Reasoning (high)**(67)。

開源權重前沿由 DeepSeek 領導:推理模型 **R1 (May 2025)**(68),非推理 V3(52)。中國在推理(如 Qwen3 235B A22B (Reasoning) 62)和非推理(如 Qwen3 235B A22B 47)中佔有顯著份額。

多模態AI與媒體生成進展

中國公司在語言、語音、圖像、視訊和 3D 生成中全面參與。例如,Alibaba 在圖像(LHM)和視訊(Wan 2.1),ByteDance 在 TTS(Seed-TTS)和視訊(Seaweed-7B)。

在文字到圖像,2025年中美達到 parityOpenAI GPT-4o(1165 ELO)略領先 ByteDance Seedream 3.0(1161)。其他如 MiniMax Image-01(1111)。

文字到視訊由美國領導,Google Veo 3 Preview(1247 ELO)遠超 Kuaishou Kling 2.0(1133*)。中國如 MiniMax T2V-01(1053)、Alibaba Wan 2.1(1039)。

圖像到視訊類似,美國領先,Google Veo 3(1222)略超 Kuaishou Kling 2.0(1206)和 Runway Gen 4(1199)。

結語

2025年Q2 中國人工智慧現狀分析報告》顯示,中國 AI 生態處於蓬勃發展中,尤其是在開源多模態領域並且正在快速縮小與美國的差距

關注公眾號【AI 資訊風向】,回覆 666,即可獲取這份 AI 行業報告-《2025年Q2 中國人工智慧現狀分析》。

AI 技術正以前所未有的速度發展,它將如何塑造我們的未來?讓我們拭目以待。 (AI資訊風向)