Gemini 2.5 Pro強勢更新並霸榜,Claude 3.7首次遭遇全方位碾壓!

Gemini 2.5 Pro 更新來了,這次的Claude 3.7被打得毫無還手之力!

這兩天AI界最引人注目的新聞莫過於Google DeepMind推出的最新模型Gemini 2.5 Pro在LMArena各大排行榜全面登頂了!

而且,這不僅僅是簡單的一兩個領域的領先,而是首次實現了文字、視覺、Web開發全方位霸榜,Claude 3.7甚至首次在WebDev Arena上失守。

Gemini 2.5 Pro霸榜之路,勢不可擋!

根據LMArena(@lmarena_ai)的消息,Gemini 2.5 Pro橫掃多個AI競技場:

  • 文字領域(程式碼生成、風格控制、創意寫作等)穩居第一;
  • 視覺能力碾壓其他選手,領先幅度高達70分;
  • Web開發能力首次超越Claude 3.7,躍居榜首!

這也是史上第一次有單一模型在文字、視覺和Web開發領域實現如此全面的統治。

從LMArena公佈的資料來看,Gemini 2.5 Pro的表現不僅贏得了榜單,更贏得了社區使用者的高度認可。

Google DeepMind的新大招:編碼能力再升級

Google DeepMind官方發推表示,他們推出的Gemini 2.5 Pro(I/O版)在編碼能力上做了重大升級:

你可以用一個提示詞建構更豐富的網頁應用、遊戲、模擬環境等等。

他們還展示了通過@GeminiApp如何從自然界的圖片中快速生成對應的程式碼,展示了模型令人驚豔的創造力:

不僅如此,Gemini 2.5 Pro在WebDev Arena中首次超過Claude 3.7,這個榜單主要測試模型建構吸引人的網頁應用的能力。

Google官方也在推特中強調了這一突破:

此外,這個版本還顯著提升了程式碼轉換、編輯能力和開發複雜智能體的表現。開發者們現在可以在Google AI Studio、Vertex AI以及Gemini App中使用這個強大的新工具。

為什麼新版Gemini 2.5 Pro如此厲害?

Gemini 2.5 Pro能有如此表現,並非偶然。

官方表示,此次更新主要針對使用者在實際編碼中的痛點做了針對性的最佳化,例如:

  • 顯著減少呼叫工具的失敗率;
  • 增強了多模態推理能力;
  • 改進了視訊理解能力,在VideoMME基準測試中取得了高達84.8%的表現;
  • 全新升級的UI介面建構能力,讓Web應用更美觀、功能更強大。

Google DeepMind CEO Michael Truell還特別強調了其內部觀察:

「新版Gemini 2.5 Pro顯著降低了呼叫工具的失敗率,極大提高了實際編碼場景中的效率。」

創造力的新天地

Google發佈的官方部落格中表示,Gemini 2.5 Pro已通過Google AI Studio和Vertex AI全面向開發者開放,使用者可以在Gemini App中體驗各種豐富的功能,如Canvas功能。


部落格地址:

https://blog.google/products/gemini/gemini-2-5-pro-updates/

TheQuickTechGuy(@GoogleDeepMind) 表示對Gemini 2.5 Pro能力的認可:

「將自然圖片轉化為程式碼,這種創意真是太棒了!期待它在更複雜的Web應用和模擬環境中的表現。」

而Andrew Hoskins(@NeuralNinjas)也對Gemini 2.5 Pro給出了很高的評價,同時好奇下一次能否有競爭對手@Grok出來挑戰一下:

「Google DeepMind 🔥恭喜!不知道@grok能不能下一次奪回冠軍?」

一些質疑和看法

但並非所有人都盲目樂觀,比如Vladimir Goncharov提出了一些嚴肅的質疑,他表示新版本在幾個測試中反而有退步,比如:

  • HLE測試:18.8 → 17.8 🔴
  • GPQA:84.0 → 83.0 🔴
  • SimpleQA:52.9 → 50.8 🔴

雖然有一些指標有提升,比如LiveCodeBench和Aider,但整體上表現不如預期,他認為Gemini 2.5 Pro實際表現更像是Gemini 2.4。

Gemini 2.5 Pro全面領跑

儘管存在一些質疑,但Gemini 2.5 Pro此次的表現足以證明,它在文字、視覺和Web開發領域的綜合能力已經登頂,目前看來,短期內難有對手。

這個最新版本甚至提前在Google I/O大會之前發佈,也引發了許多使用者對大會將有更多驚喜的期待。

此外Google DeepMind首席科學家Jeff Dean還指出,Gemini 2.5 Pro的更新修復了03-25初始版本中人們注意到的功能呼叫問題:

Gemini 2.5 Pro,AI領域的全新標竿,喊話Anthropic 將全面取代Claude 3.7成為當下最炙手可熱的模型:不服來戰!

(AGI Hunt)