Gemini 2.5 Pro強勢更新並霸榜，Claude 3.7首次遭遇全方位碾壓！

2025/05/07

•

Gemini 2.5 Pro 更新來了，這次的Claude 3.7被打得毫無還手之力！

這兩天AI界最引人注目的新聞莫過於Google DeepMind推出的最新模型Gemini 2.5 Pro在LMArena各大排行榜全面登頂了！

而且，這不僅僅是簡單的一兩個領域的領先，而是首次實現了文字、視覺、Web開發全方位霸榜，Claude 3.7甚至首次在WebDev Arena上失守。

根據LMArena（@lmarena_ai）的消息，Gemini 2.5 Pro橫掃多個AI競技場：

這也是史上第一次有單一模型在文字、視覺和Web開發領域實現如此全面的統治。

從LMArena公佈的資料來看，Gemini 2.5 Pro的表現不僅贏得了榜單，更贏得了社區使用者的高度認可。

Google DeepMind官方發推表示，他們推出的Gemini 2.5 Pro（I/O版）在編碼能力上做了重大升級：

你可以用一個提示詞建構更豐富的網頁應用、遊戲、模擬環境等等。

他們還展示了通過@GeminiApp如何從自然界的圖片中快速生成對應的程式碼，展示了模型令人驚豔的創造力：

不僅如此，Gemini 2.5 Pro在WebDev Arena中首次超過Claude 3.7，這個榜單主要測試模型建構吸引人的網頁應用的能力。

Google官方也在推特中強調了這一突破：

此外，這個版本還顯著提升了程式碼轉換、編輯能力和開發複雜智能體的表現。開發者們現在可以在Google AI Studio、Vertex AI以及Gemini App中使用這個強大的新工具。

Gemini 2.5 Pro能有如此表現，並非偶然。

官方表示，此次更新主要針對使用者在實際編碼中的痛點做了針對性的最佳化，例如：

Google DeepMind CEO Michael Truell還特別強調了其內部觀察：

「新版Gemini 2.5 Pro顯著降低了呼叫工具的失敗率，極大提高了實際編碼場景中的效率。」

Google發佈的官方部落格中表示，Gemini 2.5 Pro已通過Google AI Studio和Vertex AI全面向開發者開放，使用者可以在Gemini App中體驗各種豐富的功能，如Canvas功能。

部落格地址：

https://blog.google/products/gemini/gemini-2-5-pro-updates/

TheQuickTechGuy(@GoogleDeepMind) 表示對Gemini 2.5 Pro能力的認可：

「將自然圖片轉化為程式碼，這種創意真是太棒了！期待它在更複雜的Web應用和模擬環境中的表現。」

而Andrew Hoskins(@NeuralNinjas)也對Gemini 2.5 Pro給出了很高的評價，同時好奇下一次能否有競爭對手@Grok出來挑戰一下：

「Google DeepMind 🔥恭喜！不知道@grok能不能下一次奪回冠軍？」

但並非所有人都盲目樂觀，比如Vladimir Goncharov提出了一些嚴肅的質疑，他表示新版本在幾個測試中反而有退步，比如：

雖然有一些指標有提升，比如LiveCodeBench和Aider，但整體上表現不如預期，他認為Gemini 2.5 Pro實際表現更像是Gemini 2.4。

儘管存在一些質疑，但Gemini 2.5 Pro此次的表現足以證明，它在文字、視覺和Web開發領域的綜合能力已經登頂，目前看來，短期內難有對手。

這個最新版本甚至提前在Google I/O大會之前發佈，也引發了許多使用者對大會將有更多驚喜的期待。

此外Google DeepMind首席科學家Jeff Dean還指出，Gemini 2.5 Pro的更新修復了03-25初始版本中人們注意到的功能呼叫問題：

Gemini 2.5 Pro，AI領域的全新標竿，喊話Anthropic 將全面取代Claude 3.7成為當下最炙手可熱的模型：不服來戰！

(AGI Hunt)