Artificial Analysis 最近發佈了《State of AI: China Q2 2025 Highlights Report》(2025年Q2 中國人工智慧現狀分析報告),聚焦中國 AI 發展現狀。
報告通過全面基準測試,包括語言模型API的性能評估和人群 sourced 競技場投票,分析了AI技術和用例。資料來源於 Artificial Analysis Intelligence Index,該指數整合了7項評估:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 和 MATH-500。報告強調,中國 AI 實驗室在前沿模型智能上迅速追趕美國,差距顯著縮小。以下是報告的核心內容整理,力求精準、客觀。
報告指出,中國領先 AI 實驗室與美國領導者的性能差距已從 ChatGPT 發佈後的超過一年,縮小到不到三個月。具體而言,自 2022 年 ChatGPT 發佈以來,中美前沿語言模型的差距持續存在,但如今已達到歷史最小。DeepSeek的開源權重模型 R1(2025 年5月發佈)領導中國AI實驗室,而 OpenAI 的 o3 是美國最領先模型。中國進展主要由 DeepSeek 和 Alibaba 驅動,美國則主要依賴 OpenAI。
在開源權重模型方面,中國於2024年11月通過 Alibaba 的 QwQ 32B Preview 超過美國(超越 Meta 的 Llama 3.1 405B)。DeepSeek 的 R1(2025年1月)是首個與中國 OpenAI o1 競爭的開源權重推理模型,而 R1 0528(2025年5月)則是當前最智能的開源權重模型。這反映了中國頂級AI實驗室傾向於發佈旗艦模型權重,與美國實驗室(如 OpenAI、Anthropic 和 Google)的封閉策略形成對比。
DeepSeek 和 Alibaba 是中國AI前沿的主要推動者。截至2025年5月,DeepSeek R1 0528 在智能上略領先 Alibaba 的 Qwen3 235B A22B。兩家公司均採用開源權重策略,促進模型在國內外廣泛採用。在過去兩年,它們每隔最多約3個月發佈新模型。
DeepSeek 的模型智能自2023年11月首次發佈以來快速提升:從 DeepSeek LLM 67B(智能指數20)到 V2(35)、V2.5(46)、V3(60)、R1(68),再到 R1-0528(68)。R1-0528 是對 V3/R1 架構的後訓練更新,無需改變671B參數(活躍37B),突顯強化學習(RL)技術在推理模型中的重要性。這使 DeepSeek 躍升為全球第二AI實驗室,與 xAI、Meta 和 Anthropic 並列,並成為無可爭議的開源權重領導者。
在美國,OpenAI 的主導地位減弱。其他實驗室如 Google、xAI 和 Anthropic 已縮小差距。截至2025年5月,OpenAI o3 是美國最智能模型(整體最智能)。Google 的 Gemini 2.5 Pro、xAI 的 Grok3 mini reasoning (high) 和 Anthropic 的 Claude Opus 4 (Extended Thinking) 緊隨其後。
報告將中國AI玩家分為三類:大科技公司、AI初創公司,以及其他有 AI 野心的公司。
大科技公司包括:
其他公司如 Kunlun Tech、360 Security、iFlytek、Meituan 和 Xiaomi 也在AI領域活躍。
中美領先模型比較顯示,美國整體領先,但中國不再落後。頂級中國模型包括 DeepSeek R1 (May 2025)(68)、Alibaba Qwen3 235B A22B (Reasoning)(62)、ByteDance Seed-Thinking-v1.5(62)。美國包括 OpenAI o3(70)、Google Gemini 2.5 Pro(68)、**xAI Grok 3 Mini Reasoning (high)**(67)。
開源權重前沿由 DeepSeek 領導:推理模型 **R1 (May 2025)**(68),非推理 V3(52)。中國在推理(如 Qwen3 235B A22B (Reasoning) 62)和非推理(如 Qwen3 235B A22B 47)中佔有顯著份額。
中國公司在語言、語音、圖像、視訊和 3D 生成中全面參與。例如,Alibaba 在圖像(LHM)和視訊(Wan 2.1),ByteDance 在 TTS(Seed-TTS)和視訊(Seaweed-7B)。
在文字到圖像,2025年中美達到 parity,OpenAI GPT-4o(1165 ELO)略領先 ByteDance Seedream 3.0(1161)。其他如 MiniMax Image-01(1111)。
文字到視訊由美國領導,Google Veo 3 Preview(1247 ELO)遠超 Kuaishou Kling 2.0(1133*)。中國如 MiniMax T2V-01(1053)、Alibaba Wan 2.1(1039)。
圖像到視訊類似,美國領先,Google Veo 3(1222)略超 Kuaishou Kling 2.0(1206)和 Runway Gen 4(1199)。
《2025年Q2 中國人工智慧現狀分析報告》顯示,中國 AI 生態處於蓬勃發展中,尤其是在開源和多模態領域,並且正在快速縮小與美國的差距。
關注公眾號【AI 資訊風向】,回覆 666,即可獲取這份 AI 行業報告-《2025年Q2 中國人工智慧現狀分析》。
AI 技術正以前所未有的速度發展,它將如何塑造我們的未來?讓我們拭目以待。 (AI資訊風向)