Google發佈新一代思考模型,斬獲多項基準測試冠軍。
智東西3月26日報導,今天,Google發佈了Gemini 2.5思考模型家族的第一個成員——Gemini 2.5 Pro實驗版本。這一模型在多項基準測試中全面超越OpenAI o3-mini,Claude 3.7 Sonnet、Grok-3和DeepSeek-R1,一經亮相便在大模型競技場獲得1443分,憑藉39分的大幅優勢,獲得斷層第一。
不過,Google並未放出Gemini 2.5 Pro與OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基準測試中的對比。此外,在智能體程式設計評估基準SWE-bench verified上,其得分要低於Claude 3.7 Sonnet。
Gemini 2.5 Pro除了在衡量人類偏好的大模型競技場領先之外,還在常見的程式設計、數學和科學基準測試中處於領先地位,包括Humanity’s Last Exam(人類最後考試)這一難度超高的基準測試,與OpenAI o3-mini相比,其得分提升了近5%,提升比例達34%。這款模型現已支援100萬tokens上下文窗口,並將很快拓展至200萬tokens。
目前,Gemini 2.5 Pro已上線面向開發者的GoogleAI Studio平台,並很快會在Google的線上AI開發平台Vertex AI上線。普通使用者若要體驗這款新模型,需要具備Gemini Advanced訂閱帳號。
未來幾周,Google還將推出模型的定價,允許使用者使用具有更高速率的2.5 Pro進行大規模商用。
Gemini 2.5 Pro發佈後,GoogleDeepMind在其YouTube帳號上發佈了多個演示視訊,主要展現了其程式設計能力與其他領域能力的結合。
例如,Gemini 2.5 Pro可以根據使用者提出的簡單指令,在p5.js中探索曼德博集合。這要求大模型具備較好的數學、程式設計和可視化能力。最終,較好的可視化效果應包括清晰的邊緣、平滑的顏色過渡等。
Gemini 2.5 Pro還能根據提示詞,建立互動式的圖表。下方案例中,它便將過去幾十年的人均GDP資料與健康資料結合,在一張圖表內呈現了數百個國家過去幾十年的變化,從而揭示財富與健康之間的關係。
對於一些更為日常的任務,如遊戲開發,Gemini 2.5 Pro也能在指定特定程式語言的情況下,給出兼具審美和可玩性的遊戲。下方的這一恐龍小遊戲與Chrome內自帶的遊戲畫風頗為接近。
Google稱,Gemini 2.5 Pro在一系列需要高級推理能力的基準測試中獲得了最佳表現,包括GPQA和AIME 2025。參與測試時,Gemini 2.5 Pro沒有使用多數投票等token消耗量巨大的測試時計算技巧。
Gemini 2.5 Pro在Humanity's Last Exam中獲得了18.8%的最佳得分,且並未呼叫工具。這一測試集由數百位人類專家設計,包含了人類最前沿深奧的知識和推理。
高級程式設計能力方面,Gemini 2.5 Pro在2.0版本的基礎上實現了較大提升,新模型擅長建立美觀的Web應用和智能體程式設計方面表現突出,同時擅長程式碼轉換與編輯任務。
在行業標準的智能體程式設計評估基準SWE-bench verified上,Gemini 2.5 Pro採用定製智能體組態取得了63.8%的得分,不過這一得分仍然低於Claude 3.7 Sonnet。
與Gemini模型家族的其他成員一樣,Gemini 2.5 Pro具備原生多模態處理能力和超長上下文窗口。目前,其支援100萬tokens的上下文窗口,並很快將升級至200萬tokens,讓該模型能夠解析海量資料集,處理來自文字、音訊、圖像、視訊乃至完整程式碼庫等多元資訊源的複雜問題。
本次Gemini 2.5 Pro的發佈,與昨日DeepSeek-V3新版本的發佈相隔不到30個小時。與DeepSeek-V3一樣,Google也選擇提升了Gemini在程式設計、審美、數學等方面的能力,並將其作為模型的亮點重點展示,放出的6個演示視訊均為AI程式設計相關。