Gemini 2.5 Pro 更新來了,這次的Claude 3.7被打得毫無還手之力!
這兩天AI界最引人注目的新聞莫過於Google DeepMind推出的最新模型Gemini 2.5 Pro在LMArena各大排行榜全面登頂了!
而且,這不僅僅是簡單的一兩個領域的領先,而是首次實現了文字、視覺、Web開發全方位霸榜,Claude 3.7甚至首次在WebDev Arena上失守。
根據LMArena(@lmarena_ai)的消息,Gemini 2.5 Pro橫掃多個AI競技場:
這也是史上第一次有單一模型在文字、視覺和Web開發領域實現如此全面的統治。
從LMArena公佈的資料來看,Gemini 2.5 Pro的表現不僅贏得了榜單,更贏得了社區使用者的高度認可。
Google DeepMind官方發推表示,他們推出的Gemini 2.5 Pro(I/O版)在編碼能力上做了重大升級:
你可以用一個提示詞建構更豐富的網頁應用、遊戲、模擬環境等等。
他們還展示了通過@GeminiApp如何從自然界的圖片中快速生成對應的程式碼,展示了模型令人驚豔的創造力:
不僅如此,Gemini 2.5 Pro在WebDev Arena中首次超過Claude 3.7,這個榜單主要測試模型建構吸引人的網頁應用的能力。
Google官方也在推特中強調了這一突破:
此外,這個版本還顯著提升了程式碼轉換、編輯能力和開發複雜智能體的表現。開發者們現在可以在Google AI Studio、Vertex AI以及Gemini App中使用這個強大的新工具。
Gemini 2.5 Pro能有如此表現,並非偶然。
官方表示,此次更新主要針對使用者在實際編碼中的痛點做了針對性的最佳化,例如:
Google DeepMind CEO Michael Truell還特別強調了其內部觀察:
「新版Gemini 2.5 Pro顯著降低了呼叫工具的失敗率,極大提高了實際編碼場景中的效率。」
Google發佈的官方部落格中表示,Gemini 2.5 Pro已通過Google AI Studio和Vertex AI全面向開發者開放,使用者可以在Gemini App中體驗各種豐富的功能,如Canvas功能。
部落格地址:
https://blog.google/products/gemini/gemini-2-5-pro-updates/
TheQuickTechGuy(@GoogleDeepMind) 表示對Gemini 2.5 Pro能力的認可:
「將自然圖片轉化為程式碼,這種創意真是太棒了!期待它在更複雜的Web應用和模擬環境中的表現。」
而Andrew Hoskins(@NeuralNinjas)也對Gemini 2.5 Pro給出了很高的評價,同時好奇下一次能否有競爭對手@Grok出來挑戰一下:
「Google DeepMind 🔥恭喜!不知道@grok能不能下一次奪回冠軍?」
但並非所有人都盲目樂觀,比如Vladimir Goncharov提出了一些嚴肅的質疑,他表示新版本在幾個測試中反而有退步,比如:
雖然有一些指標有提升,比如LiveCodeBench和Aider,但整體上表現不如預期,他認為Gemini 2.5 Pro實際表現更像是Gemini 2.4。
儘管存在一些質疑,但Gemini 2.5 Pro此次的表現足以證明,它在文字、視覺和Web開發領域的綜合能力已經登頂,目前看來,短期內難有對手。
這個最新版本甚至提前在Google I/O大會之前發佈,也引發了許多使用者對大會將有更多驚喜的期待。
此外Google DeepMind首席科學家Jeff Dean還指出,Gemini 2.5 Pro的更新修復了03-25初始版本中人們注意到的功能呼叫問題:
Gemini 2.5 Pro,AI領域的全新標竿,喊話Anthropic 將全面取代Claude 3.7成為當下最炙手可熱的模型:不服來戰!
(AGI Hunt)