Google Gemini 3夜襲全球，暴擊GPT-5.1！奧特曼罕見祝賀

2025/11/19

•

凌晨，Google終極殺器Gemini 3重磅來襲，一出手就是Pro頂配版，號稱「史上最強推理+多模態+氛圍程式設計」三合一AI戰神！基準測試橫掃全場，就連GPT-5.1也被斬於馬下，AI的下一個時代開啟。

它來了，它來了！

就在剛剛，萬眾期待的年度壓軸之王，Google新一代旗艦Gemini 3炸裂登場。

而且，一上來就是頂配的Gemini 3 Pro——

迄今推理最強，多模態理解最強，以及「智能體」+「氛圍程式設計」最強的模型！

強到什麼程度？

發佈一小時後，就連OpenAI CEO奧特曼，都親自發推表示祝賀！

而且，還是區分大小寫的版本。（不知道是不是親自試了一下）

從實測來看，也的確如此。

在眾多基準測試中，Gemini 3 Pro一舉封神——

不僅相較於2.5 Pro實現了性能的全方位躍升，甚至直接把OpenAI剛上新的GPT-5.1甩出了好幾條街。

用Google的話來總結，Gemini 3 Pro頂尖的核心在於這三點——

霸榜LMArena（1501分）和WebDev（1487分）
人類最後考試（HLE）刷出45.8%最高分，人類博士級推理
長程任務規劃Vending-Bench 2上的王者

不僅如此，增強推理模式下的Gemini 3 Deep Think，更是在HLE拿下41%、GPQA 93.8%，以及ARC-AGI-2上45.1%的成績。

這一天，註定是被載入史冊的一天。Gemini 3一露面，全網徹底沸騰。

Gemini 3正開啟AI下一個時代，準備好上車了嗎？

即日起，Gemini 3 Pro預覽版將全面上線。

而Deep Think模式還需要一段時日，才會向Google AI Ultra訂閱使用者開放。

三大重點（濃縮版）

Gemini 3的誕生，標誌著Google在通往AGI的道路上，邁出了又一大步！

首先，它思考能力特別強，能深入理解問題，回答更有見地。

尤其是，特別擅長回答各種複雜的科學問題。

用程式碼建構、解構和重組詳細的3D體素藝術

其次，它有著世界領先的多模態理解力，不論是文字、視訊，還是程式碼都不在話下。

比如解讀長視訊，或是把論文變成互動指南，Gemini3都可以接得住。

在氛圍程式設計上，Gemini 3直接刷爆了天花板。

簡單一句話，它就能做出一個美觀且靈動的應用。而且，還能精準get意圖，知道如何去實現。

同時，它的智能體編碼本領更強了，無縫銜接現有工具，與全新平台Google Antigravity搭配，堪稱天作之合。

Gemini 3 Pro博士級推理碾壓一切

憑藉頂尖推理與多模態能力，Gemini 3 Pro可以將任何想法變為現實！

它全面碾壓前代2.5 Pro，所有核心基準測試成績，斷層領先。

· LMArena排行榜上名列榜首，狂攬1501 Elo突破性高分；

· 人類最後考試（HLE）上，在不使用任何工具的情況下拿下37.5%成績；

· GPQA Diamond上斬獲91.9%的高分，展現出博士級的推理能力；

· MathArena Apex上以23.4%刷新SOTA，在數學領域樹立新標竿。

在一系列關鍵AI基準測試中，Gemini 3遙遙領先

除了在文字測試中的優異表現，Gemini 3 Pro還是多模態王者——

MMMU-Pro強勢斬獲81%高分，以及Video-MMMU更以87.6%成績，重新定義了多模態推理。

它還在SimpleQA Verified上獲72.1%業界領先分數，在事實精準性方面進步巨大。

這意味著 Gemini 3 Pro具備超高可靠性攻克科學、數學等眾多領域的複雜問題的能力。

每一次互動，Gemini 3 Pro都帶著前所未有的「深度和細膩度」。

它的回答聰明、簡潔、直接，摒棄了陳詞濫調和奉承，提供真正的見解——告訴你需要聽到的，而不僅僅是你想聽到的。

它就像一位真正的思想夥伴，提供理解資訊和表達自我的新方式。

不管是生成高保真可視化程式碼，闡釋晦澀的科學概念，還是展開一場激發創造性的頭腦風暴，Gemini 3 Pro都能做到。

Gemini 3可以編寫托卡馬克裝置中電漿體流動的可視化程式碼，並寫一首捕捉聚變物理學精髓的詩

在Google AI Studio上，Gemini 3 Pro的API定價如下——

Gemini 3 Deep Think智能新高峰

這一次，Gemini 3 Deep Think正式開啟「深度思考」新紀元，讓智能的邊界再次拓展。

它在Gemini 3推理和多模態理解能力的基礎上，實現了質的飛躍，更能攻克複雜問題。

多項基準測試中，Gemini 3 Deep Think表現超越Gemini 3 Pro：

在HLE和GPQA Diamond上，分別拿下了41%（不使用工具）和93.8%的優異成績。

而且，更在ARC-AGI-2（帶程式碼執行，ARC Prize Verified）中創下45.1%歷史新高，一展應對未知與新穎問題的強大能力。

Gemini 3 Deep Think在一些最具挑戰性的AI基準測試中表現出色

重塑世界，新時代開啟

可以說，Gemini 3正式開啟了新一輪的全模態革命！

百萬token，全模態爆發

從誕生之初，Gemini就為「跨多模態」而生，包括文字、圖像、視訊、音訊、程式碼，能在各種資訊形態中，自由穿梭。

Gemini 3更是實現了破級進階，整合最先進的推理、視覺和空間理解、領先的多語言性能，以及100萬token上下文。

它能夠幫助人們，以最適合自己的方式進行學習。

假設你想學習家族傳統的烹飪方法，Gemini 3可以破譯並將不同語言的手寫食譜，翻譯成一本可共享的家庭食譜。

或是想要學習一個新主題，直接扔給它學術論文、長視訊講座或教學，Gemini 3自動生成互動式抽認卡、可視化效果或其他格式的程式碼。

它甚至可以分析匹克球比賽視訊，找出可以改進的地方，並生成針對性的訓練計畫以全面提升表現。

不僅如此，在搜尋中的AI模式（AI Mode），現可用Gemini 3實現新的生成式UI體驗。

包括沉浸式視覺佈局，以及互動式工具和模擬，所有這些都是根據查詢完全即時生成。

在搜尋中的AI模式下，可通過生成式UI學習像RNA聚合酶如何工作這樣的複雜主題

氛圍程式設計，純靠嘴

在2.5 Pro成功的基礎上，Gemini 3兌現了——為開發者將任何想法變為現實的承諾。

它在零樣本學習（zero-shot）生成方面表現出色，並能處理複雜的提示詞和指令，以渲染更豐富、更具互動性的 Web UI。

如前所述，Gemini 3是Google迄今為止打造的最優秀的「氛圍程式設計」和智能體編碼模型。

在WebDev Arena排行榜上，Gemini 3以1487 Elo高分強勢登頂。

它在Terminal-Bench 2.0上也獲得了54.2%高分，該測試衡量模型通過終端操作電腦的工具使用能力；

並且在衡量編碼智能體SWE-bench Verified測試上，以76.2%成績遠超2.5 Pro。

接下來一波演示中，便可見識Gemini 3真正實力。

編寫一個復古3D太空飛船遊戲，要有豐富的視覺效果，以及更強的互動性——沒問題。

借助著色器，建構一個可玩的科幻世界——so easy。

打造一個更豐富、更具互動性的Web UI和應用程式——還是輕鬆搞定！

前端不再需要人類，是真的...

目前，全球開發者可在Google AI Studio、Vertex AI、Gemini CLI，以及全新智能體開發平台 Google Antigravity中使用Gemini 3進行建構。

它也接入了多個第三方平台，包括Cursor、GitHub、JetBrains、Manus、Replit等。

長程規劃，人類手替

自Google通過Gemini 2開啟智能體時代以來，一直在不斷進化。

他們不僅提升了Gemini的編碼智能體能力，還提高了其在更長時間範圍內可靠規劃未來的能力。

而這一切，剛剛在Vending-Bench 2排行榜上得到實力認證——

Gemini 3以絕對優勢登頂。

而這個測試，通過模擬營運一個自動售貨機業務，深度考驗AI在複雜場景下的長程規劃能力。

令人欣喜的是，在整個模擬營運年度中，Gemini 3 Pro通過保持一致的工具使用和決策，在不偏離任務的情況下，實現了更高的回報。

與其他前沿模型相比，Gemini 3 Pro展示了更好的長程規劃能力，從而產生顯著更高的回報

這意味著， Gemini 3能在日常生活中更好地幫人類完成任務。

它把更深度的推理與改進、更一致的工具使用相結合，通過從頭到尾處理更複雜、多步驟的工作流來代表人採取行動。

就比如，幫你預定本地服務，或是整理收件箱。而人類，全程只需把控方向，下達指令。

今天起，Google AI Ultra訂閱使用者可在Gemini應用中，通過Gemini Agent搶先體驗智能體能力。

「Google反重力」革命性智能體開發平台

Gemini 3的問世，Google在智能體能力上已開始邁入一個新的階段：

模型能夠在多個平台上長時間運行，且無需人工干預。

雖尚未達到「完全無人干預+連續運行數天」的程度，但Google正日益接近這樣一個世界——

不再通過單個提示詞或工具呼叫，而是在更高的抽象層面上與智能體進行互動。

因此，Google智能體開發平台Google Antigravity正式上線，一個讓開發者以「任務」為維度與智能體協同的全新平台。

借助Gemini 3高級推理、工具使用和智能體編碼能力，Google Antigravity將AI輔助從開發者工具包中的一種工具，升級為全程參與的主動協作者。

在熟悉的AI IDE體驗基礎上，Google Antigravity為智能體開闢一個專用介面，可直接訪問編輯器、終端和瀏覽器。

現在，智能體可以代表你自主規劃並同時執行複雜的端到端軟體任務，同時驗證其生成的程式碼。

如下案例中，在Google Antigravity上，用Gemini 3驅動飛行跟蹤應用程式的「端到端智能體工作流」。

該智能體獨立規劃、編寫應用程式程式碼，並通過基於瀏覽器的電腦操作驗證其執行。

除了Gemini 3 Pro，Google Antigravity還與Gemini 2.5 電腦使用模型，以及圖像編輯模型Nano Banana（Gemini 2.5 Image）緊密整合。

網友玩瘋了

現在，Gemini 3承包了全網熱點，一系列驚豔實測demo全部放出了。

Google AI Studio負責人Logan進行了彈跳球測試，並且難度提升了10倍。

結果，Gemini 3 Pro一次就完美搞定！（並非N選一，真的是第一個提示詞就生成了）

曾在Anthropic擔任AI工程師的MagicPath創始人Pietro Schirano，首先讓Gemini 3 Pro建立了一個3D樂高編輯器。

沒想到，它僅憑一次生成就完美實現了使用者介面、複雜的空間邏輯以及所有功能。

同時，Gemini 3 Pro在遊戲開發方面的表現也令人驚嘆。

僅僅通過一個文字提示詞，它就重現了經典的iOS遊戲《荒謬釣魚》（Ridiculous Fishing），甚至包括了音效和背景音樂。

此外，它還完成了一項之前大模型幾乎都做不到的任務——建構一個功能完備的Game Boy模擬器。

而且沒錯，它甚至直接用SVG繪製出了Game Boy的外觀。

最值得一提的是，Gemini 3竟完全在GoogleTPU上完成訓練。這就是Google的護城河。

(新智元)