力壓群雄！GoogleGemini 3橫掃各項基準，網友大呼超預期，奧特曼、馬斯克都稱讚

2025/11/20

•

儘管OpenAI、xAI和Google在大模型領域存在激烈競爭，但這次連奧特曼和馬斯克都佩服不已發出賀電：恭喜GoogleGemini 3！它看起來是個很棒的模型。幹得漂亮！

按照Google的技術規劃，每一代Gemini都以前一代為基礎，Gemini 1引入了原生多模態和長上下文資訊，幫助人工智慧理解世界；Gemini 2則增加了思考、推理和工具使用功能，為智能體奠定了基礎， Gemini 2.5 Pro曾連續六個月蟬聯LMArena榜首。

現在，Gemini 3是GoogleAI技術集大成者，讓開發者和使用者可以將任何想法變為現實，它具備最先進的推理能力、深度多模態理解能力、Vibe編碼功能以及增強代理能力。

GoogleCEO桑達爾·皮查伊表示，目前GoogleAI Overviews每月使用者量已達20億，Gemini應用程式每月使用者量超過6.5億，1300萬開發者使用Google生成模型進行開發，Gemini 3將是Google邁向通用人工智慧（AGI）的關鍵一步。

與大模型友商拉開顯著差距

Gemini 3 Pro憑藉其先進的推理和多模態能力，以突破性的1501 Elo分數榮登LMArena排行榜榜首，它在“人類最後的考試”（不使用任何工具，得分37.5%）和GPQA Diamond（得分91.9%）測試中均取得了頂尖成績，展現了博士等級的推理能力。此外，它還在MathArena Apex測試中取得了23.4%的全新最高分，為數學領域的前沿模型樹立了新的標竿。

除了文字推理之外，Gemini 3 Pro在MMMU-Pro測試中取得了81%的正確率，在Video-MMMU測試中取得了87.6%的正確率，重新定義了多模態推理能力，它在SimpleQA Verified測試中也獲得了72.1%的領先成績，展現了在事實精準性方面的顯著進步。

這意味著Gemini 3 Pro能夠以高度的可靠性解決涵蓋科學和數學等眾多領域的複雜問題，而且每一個基準測試得分都要比GPT-5.1更好。

此外，Gemini 3還有一個深度思考模式。在測試中，Gemini 3 Deep Think在人類最後的考試中不使用工具的情況下得分41.0%、GPQA Diamond得分93.8%，表現均優於Gemini 3 Pro已經相當出色的成績。

此外，它在ARC-AGI-2（程式碼執行，已通過ARC Prize驗證）上也取得了前所未有的45.1%的得分，展現了其解決全新挑戰的能力。

官方表示，Gemini 3可以幫助你學習、建構和規劃任何事物。

1、學習任何知識

Gemini從一開始就致力於無縫整合任何主題的多種模態資訊，包括文字、圖像、視訊、音訊和程式碼，Gemini 3結合了先進的推理、視覺和空間理解能力、多語言性能以及百萬級上下文窗口，進一步拓展了多模態推理的邊界，幫助使用者以最適合自己的方式學習。

例如，它可以解讀並翻譯不同語言的手寫食譜，生成可與家人分享的食譜。

2、開發任何東西

Gemini 3在零樣本生成方面表現出色，能夠處理複雜的提示和指令，從而渲染出更豐富、更具互動性的Web使用者介面。

這是Google迄今為止建構的最佳Vibe編碼和代理編碼模型，它在WebDev Arena排行榜上名列榜首，獲得了1487 Elo分數。此外，它在Terminal-Bench 2.0測試中也取得了54.2%的成績，該測試旨在評估模型通過終端操作電腦的工具使用能力。同時，還在SWE-bench Verified測試中大幅超越了2.5 Pro版本得分76.2%，該測試用於衡量編碼代理的性能。

3、計畫任何事

自Gemini 2開啟智能體時代以來，Google一直在提升模型的在長期規劃方面的可靠性。Vending-Bench 2通過管理模擬的自動售貨機業務來測試長期規劃能力。Gemini 3 Pro在模擬的一整年營運中始終保持工具使用和決策的一致性，在不偏離任務的情況下實現更高的收益。

這意味著Gemini 3可以更好地幫助使用者完成日常生活中的各項事務，例如預訂本地服務或整理收件箱，從頭到尾處理更複雜的多步驟工作流程。

網友實測：遠超預期

Google這波模型迭代讓開發者們讚歎不已，來看看網友們的第一波實測效果。

一句話生成蒸汽機原理的svg動畫：

一張棋盤圖可以變成可互動的棋盤遊戲：

它甚至可以做一個模擬mac os或者web系統的介面，而且各種功能真的可以用起來，網友表示使用前預期已經很高了，但它仍然超出了預期。

使用Gemini 3+Rodin API，幾分鐘內建構一個零成本的圖像到3D流水線，效果好得離譜：

再看看它的物理演示效果，提示詞：“製作一個逼真的水物理測試，全3D，可以互動，有反射、波浪等效果，點選任意位置就可以把檸檬扔進水裡。”

建立一個魔方模擬程序，Gemini 3只用了300行程式碼，實現完美的效果呈現和互動設計：

網友們戲稱，Gemini 3 Pro才是達到了原本世界對“GPT-5”水平的期待。

劍指IDE工具市場

Google這波打出了一套組合拳，除了Gemini 3，還趁熱打鐵推出了Google Antigravity，一個將IDE推向代理優先時代的代理開發平台，被網友稱作是Google自己的“cursor”，適用於在MacOS、Windows和Linux系統上進行開發的開發者。

幾個月前，Google斥資24億美元截胡OpenAI，收編了AI程式設計公司Windsurf的人才和技術，可能正是為此做準備。

Antigravity是一個全新的智能體開發平台，其核心是使用者熟悉的AI驅動型IDE體驗，並融合了Google最優秀的模型。它具備瀏覽器控制功能、非同步互動模式以及智能體優先的產品形態，這些特性共同使智能體能夠自主規劃和執行複雜的端到端軟體任務。代理程序內目前可訪問Google的Gemini 3、Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-OSS模型。

Google表示，如今大多數產品都走在兩個極端：要麼向使用者展示智能體執行的每一個操作和工具呼叫，要麼只展示最終的程式碼更改，卻不提供智能體如何執行更改的上下文，也沒有簡便的方法來驗證其工作。這兩種方式都無法讓使用者信任智能體所完成的工作，Antigravity旨在終結這個問題。

Antigravity中的智能體使用“工件”向使用者表明它理解自身正在執行的操作，並且正在對其工作進行徹底驗證。

此外，Antigravity的主要“編輯器檢視”是一款AI驅動型IDE，具備自動補全、內聯命令以及側邊欄中功能齊全的代理程序。

關於問題回報，Antigravity能從本地操作入手，支援在所有介面和元件上提供直觀的非同步使用者反饋，無論是文字元件上的Google文件式評論，還是螢幕截圖上的選擇和評論反饋，這些反饋將自動融入智能體的執行過程中，無需使用者停止智能體的處理程序。

業內分析認為，Google這次發佈給AI大模型、開發者工具等領域帶來了頗具顛覆性的衝擊，既重塑了行業競爭焦點，也倒逼競品加速迭代，整個行業的技術範式正在發生變化。

這一波操作，壓力給到了OpenAI、Anthropic、xAI，下一代新模型如何擊敗Google可謂挑戰重重。 (頭部科技)

科技