全球最強多模態理解模型來了,讓你所想即所得。智東西11月19日報導,今天凌晨,Google最強推理模型Gemini 3終於亮相,一個模型囊括了原生多模態、推理、Agent多種能力。GoogleDeepMind研究團隊稱,這是全球最先進的多模態理解模型、Google最強大的Agent程式設計和氛圍程式設計模型,能呈現更豐富的可視化效果和更深度的互動體驗,且完全建構於最先進的推理技術基礎之上。該模型基於GoogleTPU進行訓練,支援100萬個token的上下文窗口,適用於需要以下功能的應用:Agent、高級程式設計、長上下文、多模態理解、演算法開發。剛一發佈,Gemini 3就幾乎屠榜所有評測集,以1501 Elo得分位列LMArena大模型競技場第一。OpenAI聯合創始人、CEO薩姆·阿爾特曼(Sam Altman)和xAI創始人、CEO埃隆·馬斯克(Elon Musk)紛紛向Google發來“賀信”。阿爾特曼發推評價“Gemini 3看起來很不錯”,GoogleCEO桑達爾·皮查伊(Sundar Pichai)用了個表情包回覆。馬斯克轉發了GoogleDeepMind CEO戴密斯·哈薩比斯(Demis Hassabis)的推文稱“幹得不錯”。今天起,Google將在以下平台部署Gemini 3:適用於Gemini應用的所有使用者,以及在搜尋的AI模式中使用Google AI Pro和Ultra訂閱服務的使用者;適用於Gemini API中的開發者、Google全新Agent開發平台Antigravity的開發者,以及Gemini CLI的開發者;適用於Vertex AI平台與Gemini企業版的企業使用者。此外,Google將在未來幾周向Google AI Ultra訂閱者開放Gemini 3的深度思考模式,目前其還在進行安全評估。對於Gemini 3的發佈,皮查伊認為,這一模型可以讓使用者的任何想法變為現實。01. 分分鐘造出互動遊戲、App 還能幫你學新知識先來看下Gemini 3 Pro能做什麼。Gemini 3能編寫托卡馬克裝置中電漿體流的可視化程式碼,並創作捕捉核聚變物理原理的詩歌。如果使用者想學習家族傳統烹飪,Gemini 3可以解讀並翻譯不同語言的手寫食譜,製作成可共享的家庭食譜。如果使用者想學習一個新話題,可以給Gemini 3輸入學術論文、長視訊講座或教學,它還能生成互動式抽認卡、可視化或其他格式的程式碼,幫助使用者掌握這些內容。Gemini 3可以分析使用者的匹克球比賽視訊,找出可以改進的地方,並生成整體動作提升的訓練計畫。AI搜尋模式下,Gemini 3能學習複雜主題內容,如借助搜尋功能中AI模式的生成式使用者介面,學習像RNA聚合酶作用機制這類複雜知識點。值得一提的是,這也是Google首次在模型發佈首日,就將新模型直接整合至AI搜尋功能中。Gemini 3可以編寫擁有豐富可視化介面和互動性的復古3D飛船遊戲。該模型通過程式碼建構、解構和重新創作精細的3D體素藝術,能讓使用者的想像變為現實。Gemini 3能使用著色器建立可玩的科幻世界。其還可以生成更具實用性、元素豐富的互動性網頁和App。02. 屠榜評測集 刷新大模型能力天花板再來看下Gemini 3 Pro的基準測試結果。Google部落格提到,Gemini 3 Pro在一系列基準測試中進行了評估,包括推理、多模態能力、Agent工具使用、多語言性能和長上下文,其在主要的AI基準測試中都遠遠優於Gemini 2.5 Pro,並以1501 Elo得分位列LMArena大模型競技場第一。該模型展現出博士級推理能力,在“人類終極測試”(不使用任何工具情況下得分37.5%)和GPQA鑽石級測試中均斬獲最高分,在MathArena Apex測試中取得23.4%的最新頂尖成績。除了文字,Gemini 3 Pro在MMMU-Pro上獲得了81%,在Video-MMMU上獲得了87.6%的多模推理,在SimpleQA Verify上也獲得了最高的72.1%。這意味著Gemini 3 Pro能夠以高度可靠性解決涵蓋科學和數學等廣泛主題的複雜問題。Gemini 3的深度思考和多模態理解能力更新,可以幫助使用者解決更複雜的問題。測試中,Gemini 3 Deep Think在“人類終極測試”(未使用工具時為41.0%)和GPQA Diamond(93.8%)中表現優於Gemini 3 Pro。它在ARC-AGI-2(程式碼執行,ARC獎項認證)上取得了45.1%的成績,均超過Google自家前代模型,以及OpenAI、Anthropic的模型。程式設計能力中,Gemini 3是Google迄今為止建構過的最佳氛圍程式設計和Agent程式設計模型。該模型以1487 Elo得分登頂WebDev競技場排行榜。它在Terminal-Bench 2.0測試模型工具使用能力上,得分為54.2%,在衡量程式設計Agent能力的基準測試SWE-bench Verified上表現遠超2.5 Pro。開發者可以在Google AI Studio、Vertex AI、Gemini CLI以及Google全新的代理開發平台Google Antigravity中使用Gemini 3進行建構。它還支援第三方平台,如Cursor、GitHub、JetBrains、Manus、Replit等。自Gemini 2以來,GoogleGemini模型已經在Agent方面取得諸多進展,此次Gemini 3還登頂了Vending-Bench 2排行榜。該基準測試通過模擬自動售貨機業務營運來考核模型的長期規劃能力,其結果顯示,Gemini 3 Pro在一整年的模擬營運中,始終保持穩定的工具使用和決策連貫性,既未偏離任務目標,又實現了更高收益。這意味著Gemini 3能幫助使用者完成日常生活中的事務,如預約本地服務或整理收件箱等。03. 全新Agent開發平台亮相 實現端到端軟體開發自動化今天Google還發佈了全新的Agent開發平台Google Antigravity。借助Gemini 3的高級推理、工具使用及Agent程式設計能力,GoogleAntigravity將AI輔助功能從開發者工具包裡的一個工具,轉變為積極主動的合作夥伴。儘管GoogleAntigravity的核心仍是AI整合開發環境(AI IDE)體驗,但其Agent已升級至專屬介面,並能直接訪問編輯器、終端和瀏覽器。如今,這些Agent可以自主規劃並同步為開發者執行複雜的端到端軟體任務,同時還能對自身程式碼進行驗證。除了Gemini 3 Pro,Google Antigravity還將結合Google最新的Gemini 2.5 Computer Use模型,以及圖像編輯模型Nano Banana。GoogleAntigravity借助Gemini 3,為航班追蹤應用打造了端到端的Agent工作流。該Agent能夠自主規劃、編寫應用程式碼,並通過基於瀏覽器的電腦操作來驗證其執行效果。最後Google還提到,Gemini 3是其迄今為止最安全的模型,並且經歷了GoogleAI模型中最全面的安全評估。模型評測結果顯示,其諂媚行為減少,對即時注射的抵抗力增強,並提升了對網路攻擊濫用的防護。從2023年12月Gemini模型發佈至今已近兩年:Gemini 1在原生多模態和長上下文窗口上的突破,擴展了可處理資訊的種類以及處理量;Gemini 2可幫助使用者處理更複雜的任務和想法,使Gemini 2.5 Pro的排名在LMArena中領先超過六個月。如今,Google基於Gemini模型的搜尋功能AI Overviews月活使用者達到20億,Gemini應用月活使用者超過6.5億,超過70%的雲端客戶使用GoogleAI功能,1300萬開發者用其生成模型建構了作品。04. 結語:免費開放+性能飆升! Gemini 3攪動大模型競爭格局GoogleGemini 3相比前幾代模型性能大幅提升,可以感知使用者提示詞中的細微線索及複雜問題,還能理解使用者請求的背景和背後意圖,讓使用者用更少的提示獲得所需資訊。Google部落格提到,在Gemini 3發佈的下一個新篇章中,他們將繼續突破智能、Agent和個性化的前沿,讓AI真正惠及所有人。隨著Gemini 3正式亮相,加上Google此次免費開放其使用權限,一場圍繞大模型的新一輪行業競爭已全面打響。 (智東西)