Gemini 3 正式發佈!一句話生成一個世界,奧特曼親自點贊

剛剛,Google正式發佈了Gemini 3。

從今天起,Gemini 3 Pro 已在全球範圍內向 Gemini App 和 Google AI Studio 使用者推送。甚至在正式官宣之前,Google已經悄悄把模型提前上線。

作為Google迄今最強的一代基礎模型,Gemini 3 在推理、多模態、工具使用等核心維度上全面超越了 2.5 和 2.0 系列,也被Google內部定義為一次“代際升級”。就連奧特曼在看到相關案例展示時,都忍不住點了贊。

那麼,Gemini 3 的實力究竟如何?下面我們結合Google發佈的技術細節和實際案例,一起來拆解。

/ 01 / 跑分更猛了,推理能力是亮點

Gemini 3 Pro 的核心變化,是推理能力的全面上升。Google在Gemini 3發佈時反覆強調一句話:這一代模型“能把任何想法變成現實”。


誇張成分先放在一邊,從各類基準看,它的確在關鍵維度上拉開了與2.5 Pro 的差距。


最能體現整體實力的LMArena 排行榜裡,它拿到 1501 分,排在第一。這種 Elo 式評分既考模型在開放問答裡的穩定性,也考它在長對話和任務拆解中的一致性,從結果看,Gemini 3 Pro 的表現明顯更“穩”了,也更擅長把複雜問題講清楚。

▲Gemini 3系列的推理模式在多項高難度AI基準測試中成績突出


在衡量思維深度的兩個基準上,它同樣給出更具有像徵意義的成績。Humanity’s Last Exam 與 GPQA 都不考知識,而是看模型能不能在沒有工具的情況下推理出正確結論。


Gemini 3 Pro 在這兩項上分別達到 37.5% 和 91.9%,已經接近博士研究等級。


這次Google也跟進了類似o1 的Deep Think(深度思考)模式。Gemini 3 Deep Think 會花更多時間去推理,專門解決那種需要剝絲抽繭的複雜問題。

這個技術讓它在真正困難的任務上出現了非線性躍遷:在Humanity’s Last Exam上取得41.0%的成績,在GPQA Diamond上達到93.8%,在ARC-AGI-2里拿到45.1%。這些都是最考模型創造性與新穎推理的任務。

隨著Google同步推出的Deep Think 模式打開“慢思考”,這些數字進一步上升:GPQA 升到 93.8%,ARC-AGI-2 第一次衝到45.1%。


ARC的特點是不給先驗、不給範本,讓模型從頭找規律,因此被視為測試“通用智能苗頭”的指標。通常超過 30% 就被認為出現結構性提升,而 Gemini 3 已經逼近 50%。


數學依然是衡量模型推理真實性的那道最硬門檻。在MathArena Apex 中,Gemini 3 得到 23.4%。


雖然數字不高,卻是目前所有模型中最好的,數學推理既難以靠記憶補齊,也難以通過堆資料提升,能把分數抬上去往往意味著模型內部結構發生了變化。


多模態方面,它在MMMU-Pro 和 Video-MMMU 上分別拿到 81% 和 87.6%,這組資料的重要性在於,它證明模型不只是“看見”圖像和視訊,而是能夠從中抽象出結構和因果關係。


Google展示了一個很有趣的用法:做一個電漿體流在托卡馬克里的可視化展現,同時用一首詩來捕捉核聚變的美。

事實一致性上,SimpleQA Verified 的 72.1% 則顯示它“胡編”的情況減少了。這項指標對任何需要大規模商用的產品都至關重要,因為它直接代表模型是否值得信任。

程式碼能力是Gemini 3 的另一條增長曲線。它在 WebDev Arena 上拿到 1487 Elo,在 Terminal-Bench 2.0 中達到 54.2%,意味著它不僅能寫程式碼段,還能通過終端呼叫工具、運行程序,形成一個完整的執行鏈條。


在 SWE-bench Verified 上的 76.2% 則讓它在修復真實程式碼問題時,比2.5 Pro穩定得多。


綜合來看,Gemini 3 的變化並不是“某一項能力突然變強”,而是推理、工具使用、多模態理解、事實一致性幾個關鍵維度同步上揚。


同時,Deep Think的加入,讓它第一次具備了可以“沉下去思考”的能力。對Google來說,這意味著模型開始具備解決全新問題的基礎,而不是只在過去熟悉的軌道里提升分數。

/ 02 / 從生成式介面到自動寫程式碼,Gemini 3到底有多能打?

測試成績之外,Gemini 3 在實際場景中的表現更能說明問題。

根據Google發佈的一系列Gemini 3 案例,展示了模型能力已經從“能回答問題”,走向“能處理真實任務”。


例如,它可以識別並翻譯手寫的家族菜譜,也能讀懂學術論文和長視訊講座,自動生成結構化的學習卡片。甚至,使用者上傳一段打球的比賽視訊,它也能分析動作、識別弱點,再給出一套可執行的訓練計畫。


真正的變化發生在搜尋端。Gemini 3首次引入“生成式介面”,讓搜尋結果從過去的文字和連結,變成現場生成的可視化工具。


簡單來說,現在用一句話,就能讓Gemini 做出高品質的互動式 SVG。


比如,當你搜尋“RNA 聚合酶是如何工作的”,傳統搜尋會給你十幾個網頁,生成式 AI 只能給你一段解釋,而 Gemini 3 會直接做出一個可旋轉、可放大的 3D 分子模型,步驟演示以動畫形式呈現,你還能拖著看每個結構在起什麼作用。


再比如,下面這個在X 上很火的“電風扇”,不僅圖像精美,而且還能動、能互動,完全到了可以直接拿來用的程度。

整個體驗像是一個為你的問題臨時搭建的定製網頁,理解效率遠高於翻百科。


另一項變化來自開發工具。Google發佈了全新的AI IDE——Google Antigravity。


過去的AI 輔助開發工具大多停留在補全、解釋、改 Bug 的層面,而在 Gemini 3 之後,智能體開始成為一個真正能“自己做項目”的合作夥伴。

內建的Agent 能規劃並執行完整的軟體任務鏈條,從查資料、寫程式碼到測試驗證都能自動完成。Google將推理、工具呼叫、程式碼生成能力深度整合,並接入了 Gemini 2.5 的電腦控制模型和圖像處理模型,構成一個能夠獨立跑通任務的執行系統。它也能分析動作、識別弱點,再給出一套可執行的訓練計畫。

從Gemini 2 開始,Google就把“模型能不能自己做事”作為核心方向。Gemini 3 在這一點上更穩,也更能“堅持做完一件事”。

▲與其他主流模型相比,Gemini 3 Pro的長程規劃能力更強,任務完成度更高


驗證這一能力的是一個叫Vending-Bench 2 的測試,它要求模型經營一家虛擬自動售貨機,全年 365 天,每天都有不同的變數和外部條件。


Gemini 3 Pro 在這項測試裡排在前列,表現出罕見的一致性:工具呼叫穩定,不會在決策鏈條中途走神,也不會忘記長期目標,因此最終收益更高。


從這些演示和公開資訊中,很難不注意到一個事實:Google在Gemini 3 上幾乎動用了所有可以動用的資源。自研 TPU 帶來的算力成本優勢,手中數量級差異巨大的專有資料,長期投入的大規模訓練工程,以及行業最厚實的人才儲備,這些“底層力量”疊加在一起,塑造了 Gemini 3 在各類主流基準上的統治性表現,也自然延伸到實際產品形態中。


Gemini 3 所展示的能力差距,既來自模型本身,也來自Google在基礎設施與技術堆疊上的系統性優勢。它讓Google在這階段的領先位置被進一步鞏固,而其他公司能否在未來周期裡追上這一節奏,讓我們拭目以待。 (硅基觀察Pro)