力壓群雄!GoogleGemini 3橫掃各項基準,網友大呼超預期,奧特曼、馬斯克都稱讚

儘管OpenAI、xAI和Google在大模型領域存在激烈競爭,但這次連奧特曼和馬斯克都佩服不已發出賀電:恭喜GoogleGemini 3!它看起來是個很棒的模型。幹得漂亮!

按照Google的技術規劃,每一代Gemini都以前一代為基礎,Gemini 1引入了原生多模態和長上下文資訊,幫助人工智慧理解世界;Gemini 2則增加了思考、推理和工具使用功能,為智能體奠定了基礎, Gemini 2.5 Pro曾連續六個月蟬聯LMArena榜首。

現在,Gemini 3是GoogleAI技術集大成者,讓開發者和使用者可以將任何想法變為現實,它具備最先進的推理能力、深度多模態理解能力、Vibe編碼功能以及增強代理能力。

GoogleCEO桑達爾·皮查伊表示,目前GoogleAI Overviews每月使用者量已達20億,Gemini應用程式每月使用者量超過6.5億,1300萬開發者使用Google生成模型進行開發,Gemini 3將是Google邁向通用人工智慧(AGI)的關鍵一步。

與大模型友商拉開顯著差距

Gemini 3 Pro憑藉其先進的推理和多模態能力,以突破性的1501 Elo分數榮登LMArena排行榜榜首,它在“人類最後的考試”(不使用任何工具,得分37.5%)和GPQA Diamond(得分91.9%)測試中均取得了頂尖成績,展現了博士等級的推理能力。此外,它還在MathArena Apex測試中取得了23.4%的全新最高分,為數學領域的前沿模型樹立了新的標竿。

除了文字推理之外,Gemini 3 Pro在MMMU-Pro測試中取得了81%的正確率,在Video-MMMU測試中取得了87.6%的正確率,重新定義了多模態推理能力,它在SimpleQA Verified測試中也獲得了72.1%的領先成績,展現了在事實精準性方面的顯著進步。

這意味著Gemini 3 Pro能夠以高度的可靠性解決涵蓋科學和數學等眾多領域的複雜問題,而且每一個基準測試得分都要比GPT-5.1更好。

此外,Gemini 3還有一個深度思考模式。在測試中,Gemini 3 Deep Think在人類最後的考試中不使用工具的情況下得分41.0%、GPQA Diamond得分93.8%,表現均優於Gemini 3 Pro已經相當出色的成績。

此外,它在ARC-AGI-2(程式碼執行,已通過ARC Prize驗證)上也取得了前所未有的45.1%的得分,展現了其解決全新挑戰的能力。

官方表示,Gemini 3可以幫助你學習、建構和規劃任何事物。

1、學習任何知識

Gemini從一開始就致力於無縫整合任何主題的多種模態資訊,包括文字、圖像、視訊、音訊和程式碼,Gemini 3結合了先進的推理、視覺和空間理解能力、多語言性能以及百萬級上下文窗口,進一步拓展了多模態推理的邊界,幫助使用者以最適合自己的方式學習。

例如,它可以解讀並翻譯不同語言的手寫食譜,生成可與家人分享的食譜。

2、開發任何東西

Gemini 3在零樣本生成方面表現出色,能夠處理複雜的提示和指令,從而渲染出更豐富、更具互動性的Web使用者介面。

這是Google迄今為止建構的最佳Vibe編碼和代理編碼模型,它在WebDev Arena排行榜上名列榜首,獲得了1487 Elo分數。此外,它在Terminal-Bench 2.0測試中也取得了54.2%的成績,該測試旨在評估模型通過終端操作電腦的工具使用能力。同時,還在SWE-bench Verified測試中大幅超越了2.5 Pro版本得分76.2%,該測試用於衡量編碼代理的性能。

3、計畫任何事

自Gemini 2開啟智能體時代以來,Google一直在提升模型的在長期規劃方面的可靠性。Vending-Bench 2通過管理模擬的自動售貨機業務來測試長期規劃能力。Gemini 3 Pro在模擬的一整年營運中始終保持工具使用和決策的一致性,在不偏離任務的情況下實現更高的收益。

這意味著Gemini 3可以更好地幫助使用者完成日常生活中的各項事務,例如預訂本地服務或整理收件箱,從頭到尾處理更複雜的多步驟工作流程。

網友實測:遠超預期

Google這波模型迭代讓開發者們讚歎不已,來看看網友們的第一波實測效果。

一句話生成蒸汽機原理的svg動畫:

一張棋盤圖可以變成可互動的棋盤遊戲:

它甚至可以做一個模擬mac os或者web系統的介面,而且各種功能真的可以用起來,網友表示使用前預期已經很高了,但它仍然超出了預期。

使用Gemini 3+Rodin API,幾分鐘內建構一個零成本的圖像到3D流水線,效果好得離譜:

再看看它的物理演示效果,提示詞:“製作一個逼真的水物理測試,全3D,可以互動,有反射、波浪等效果,點選任意位置就可以把檸檬扔進水裡。”

建立一個魔方模擬程序,Gemini 3只用了300行程式碼,實現完美的效果呈現和互動設計:

網友們戲稱,Gemini 3 Pro才是達到了原本世界對“GPT-5”水平的期待。

劍指IDE工具市場

Google這波打出了一套組合拳,除了Gemini 3,還趁熱打鐵推出了Google Antigravity,一個將IDE推向代理優先時代的代理開發平台,被網友稱作是Google自己的“cursor”,適用於在MacOS、Windows和Linux系統上進行開發的開發者。

幾個月前,Google斥資24億美元截胡OpenAI,收編了AI程式設計公司Windsurf的人才和技術,可能正是為此做準備。

Antigravity是一個全新的智能體開發平台,其核心是使用者熟悉的AI驅動型IDE體驗,並融合了Google最優秀的模型。它具備瀏覽器控制功能、非同步互動模式以及智能體優先的產品形態,這些特性共同使智能體能夠自主規劃和執行複雜的端到端軟體任務。代理程序內目前可訪問Google的Gemini 3、Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-OSS模型。

Google表示,如今大多數產品都走在兩個極端:要麼向使用者展示智能體執行的每一個操作和工具呼叫,要麼只展示最終的程式碼更改,卻不提供智能體如何執行更改的上下文,也沒有簡便的方法來驗證其工作。這兩種方式都無法讓使用者信任智能體所完成的工作,Antigravity旨在終結這個問題。

Antigravity中的智能體使用“工件”向使用者表明它理解自身正在執行的操作,並且正在對其工作進行徹底驗證。

此外,Antigravity的主要“編輯器檢視”是一款AI驅動型IDE,具備自動補全、內聯命令以及側邊欄中功能齊全的代理程序。

關於問題回報,Antigravity能從本地操作入手,支援在所有介面和元件上提供直觀的非同步使用者反饋,無論是文字元件上的Google文件式評論,還是螢幕截圖上的選擇和評論反饋,這些反饋將自動融入智能體的執行過程中,無需使用者停止智能體的處理程序。

業內分析認為,Google這次發佈給AI大模型、開發者工具等領域帶來了頗具顛覆性的衝擊,既重塑了行業競爭焦點,也倒逼競品加速迭代,整個行業的技術範式正在發生變化。

這一波操作,壓力給到了OpenAI、Anthropic、xAI,下一代新模型如何擊敗Google可謂挑戰重重。 (頭部科技)