Google史上最強推理模型全面屠榜！擊敗DeepSeek斷層第一，“人類最後考試”暴碾OpenAI，免費可用

2025/03/26

•

Google發佈新一代思考模型，斬獲多項基準測試冠軍。

智東西3月26日報導，今天，Google發佈了Gemini 2.5思考模型家族的第一個成員——Gemini 2.5 Pro實驗版本。這一模型在多項基準測試中全面超越OpenAI o3-mini，Claude 3.7 Sonnet、Grok-3和DeepSeek-R1，一經亮相便在大模型競技場獲得1443分，憑藉39分的大幅優勢，獲得斷層第一。

不過，Google並未放出Gemini 2.5 Pro與OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基準測試中的對比。此外，在智能體程式設計評估基準SWE-bench verified上，其得分要低於Claude 3.7 Sonnet。

Gemini 2.5 Pro除了在衡量人類偏好的大模型競技場領先之外，還在常見的程式設計、數學和科學基準測試中處於領先地位，包括Humanity’s Last Exam（人類最後考試）這一難度超高的基準測試，與OpenAI o3-mini相比，其得分提升了近5%，提升比例達34%。這款模型現已支援100萬tokens上下文窗口，並將很快拓展至200萬tokens。

目前，Gemini 2.5 Pro已上線面向開發者的GoogleAI Studio平台，並很快會在Google的線上AI開發平台Vertex AI上線。普通使用者若要體驗這款新模型，需要具備Gemini Advanced訂閱帳號。

未來幾周，Google還將推出模型的定價，允許使用者使用具有更高速率的2.5 Pro進行大規模商用。

01. Google大秀新模型程式設計能力，

一句話生成互動式圖表

Gemini 2.5 Pro發佈後，GoogleDeepMind在其YouTube帳號上發佈了多個演示視訊，主要展現了其程式設計能力與其他領域能力的結合。

例如，Gemini 2.5 Pro可以根據使用者提出的簡單指令，在p5.js中探索曼德博集合。這要求大模型具備較好的數學、程式設計和可視化能力。最終，較好的可視化效果應包括清晰的邊緣、平滑的顏色過渡等。

Gemini 2.5 Pro還能根據提示詞，建立互動式的圖表。下方案例中，它便將過去幾十年的人均GDP資料與健康資料結合，在一張圖表內呈現了數百個國家過去幾十年的變化，從而揭示財富與健康之間的關係。

對於一些更為日常的任務，如遊戲開發，Gemini 2.5 Pro也能在指定特定程式語言的情況下，給出兼具審美和可玩性的遊戲。下方的這一恐龍小遊戲與Chrome內自帶的遊戲畫風頗為接近。

02. 獲得多項SOTA成績，

將支援200萬tokens長上下文

Google稱，Gemini 2.5 Pro在一系列需要高級推理能力的基準測試中獲得了最佳表現，包括GPQA和AIME 2025。參與測試時，Gemini 2.5 Pro沒有使用多數投票等token消耗量巨大的測試時計算技巧。

Gemini 2.5 Pro在Humanity's Last Exam中獲得了18.8%的最佳得分，且並未呼叫工具。這一測試集由數百位人類專家設計，包含了人類最前沿深奧的知識和推理。

高級程式設計能力方面，Gemini 2.5 Pro在2.0版本的基礎上實現了較大提升，新模型擅長建立美觀的Web應用和智能體程式設計方面表現突出，同時擅長程式碼轉換與編輯任務。

在行業標準的智能體程式設計評估基準SWE-bench verified上，Gemini 2.5 Pro採用定製智能體組態取得了63.8%的得分，不過這一得分仍然低於Claude 3.7 Sonnet。

與Gemini模型家族的其他成員一樣，Gemini 2.5 Pro具備原生多模態處理能力和超長上下文窗口。目前，其支援100萬tokens的上下文窗口，並很快將升級至200萬tokens，讓該模型能夠解析海量資料集，處理來自文字、音訊、圖像、視訊乃至完整程式碼庫等多元資訊源的複雜問題。

03. 結語：程式設計成為AI玩家角力新前線

本次Gemini 2.5 Pro的發佈，與昨日DeepSeek-V3新版本的發佈相隔不到30個小時。與DeepSeek-V3一樣，Google也選擇提升了Gemini在程式設計、審美、數學等方面的能力，並將其作為模型的亮點重點展示，放出的6個演示視訊均為AI程式設計相關。

AI程式設計能力的提升，既能給普通使用者帶來直觀的感知變化，也有望在生產場景中帶來明顯的效益提升。這一領域或將在未來很長一段時間內，成為大模型廠商們競相角力的方向。 ( 智東西 )