【新智元導讀】Gemini 2.5 Pro,剛剛深夜上線了!這個「思考」模型專為複雜任務打造,推理能力強大,一經誕生就橫掃各大榜單、拿下各類TOP 1,還創下了歷史上最大分數飛躍紀錄。
就在剛剛,Google的全新模型Gemini 2.5 Pro,果然深夜上線了!
Gemini 2.5 Pro是一個「思考」模型,能夠在回應前先進行思考推理,從而提升性能,並改善精準性。
Google稱,它是世界上最強大的模型,具備統一的推理能力,以及使用者所喜愛的Gemini的所有功能(長上下文、工具等)。
它在多個基準測試中達到了SOTA水平,並且以顯著的優勢在LMArena上排名第一。
現在,Gemini 2.5 Pro已經登頂了Arena排行榜的第一位,而且創下了歷史最大分數飛躍,比Grok-3/GPT-4.5整整高出了40分!
在代號「nebula」的測試中,它也橫掃所有類別奪得第一,並且獨攬數學、創意寫作、指令遵循、長查詢和多輪對話五大領域的冠軍!
在困難提示詞和程式設計兩大領域,它與Grok-3/GPT-4.5拿到了並列冠軍,而且在所有其他比拚中都以微弱優勢勝出,成功問鼎榜首!
此外,Gemini 2.5 Pro還成功登頂了視覺競技場(Vision Arena)排行榜榜首!
在網頁開發領域,它也同樣大放異彩,成功斬獲網頁開發競技場(WebDev Arena)亞軍寶座!
它是首個實力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的Gemini更是實現了質的飛躍。
這一次,Google的模型又展現出巨大的飛躍,OpenAI、Anthropic、DeepSeek等競爭對手,在多久時間內會趕上?
目前,Gemini 2.5 Pro已在Google AI Studio和Gemini應用中,向Gemini Advanced使用者開放,並將很快在Vertex AI上推出。
而它的定價方案,會在未來幾周內公佈,使用者可以在更高使用配額下,將模型應用於大規模生產環境。
網友實測後發現,它果然實力驚人,在所有模型中效果拔群,第一次嘗試就只用幾秒解決了一道難題。
Gemini 2.5 Pro上線!
Google表示,在AI領域,系統的「推理」能力不僅僅指分類和預測,而是指系統分析資訊、得出邏輯結論、融入上下文和細微差別,以及做出明智決策的能力。
長期以來,Google一直在探索通過強化學習和思維鏈提示詞等技術,讓AI更智能、更具推理能力的方法。
正是在此基礎上,他們在2月推出了第一個思考模型,Gemini 2.0 Flash Thinking。
而今天,通過Gemini 2.5,他們結合了顯著增強的基礎模型和改進的後期訓練,讓模型達到了新的性能水平。
Gemini 2.5 Pro展現出了強大的推理和程式碼能力,在常見的程式設計、數學和科學基準測試中均處於領先地位。
另外,在各類需要高級推理能力的基準測試中,它都達到了SOTA水平。
無需使用測試階段會增加計算成本的技術(如多數投票法),2.5 Pro就能在GPQA和 AIME 2025等數學和科學基準評測中表現卓越。
而且,在不使用任何外部工具的條件下,它就在挑戰人類知識和推理能力的極限前沿「人類最後的考試」中取得了18.8%的精準率,達到業界領先。
在程式設計能力上,Gemini 2.5相比2.0版本也實現了質的飛躍,而這,僅僅是個開始。
2.5 Pro在建立視覺精美的網頁應用和AI智能體程式碼應用方面都表現卓越,在程式碼轉換和編輯領域中,也同樣實力出色。
在智能體程式碼評估的行業標準測試SWE-Bench Verified上,Gemini 2.5 Pro靠使用自訂智能體組態,就獲得了63.8%的優異成績。
以下這波demo,就展示了Gemini 2.5 Pro如何運用強大推理,僅通過一行提示詞,就能生成可執行程式碼,來建立完整的動畫和遊戲。
在下面這個demo中,僅僅根據下面這行prompt,它就生成了一段p5js的互動式動畫,展示了「宇宙魚」的場景,並且還顯示了魚們都在想什麼。
它還根據以下prompt,生成了一個無限的恐龍跑酷遊戲。
按照要求,它生成了像素化的恐龍圖像和有趣的遊戲背景。
隨後,Gemini 2.5 Pro還通過程式設計實現了分形可視化。
它建立出了精細分形圖案的模擬程序,展現出了神奇的曼德布洛特集合。
此外,它還能建構一個互動式氣泡圖,直觀展示出了每個大陸的經濟與健康指標隨時間的變化。
或者用一段互動式的Javascript動畫,展示了旋轉六邊形內多彩的人工生命群體,並且按要求做成了「超新星星雲」的感覺。
另外,它還能開發粒子系統模擬,給出了一個HTML檔案,創造出了反射星雲的沉浸式互動模擬場景。
Gemini 2.5繼承並行揚了Gemini 模型的優勢——原生多模態能力和超長上下文長度。
自己發佈之初,2.5 Pro就支援100萬token的上下文窗口(而200萬token也即將推出!),性能顯著超越了前代模型。
這能讓它理解海量資料集,並處理來自多種資訊源的複雜問題,包括文字、音訊、圖像、視訊,甚至完整的程式碼倉庫。