#核心資訊 | 熱門關鍵字 | 鉅亨號

剛剛，GoogleGemini 3正式發佈，我的初步體驗和第一感覺是這玩意完全超越GPT-5 和 Claude sonnet 4.5，強到離譜，程式設計和寫作都達到了T0等級，可以說這是自從OpenAI 發佈ChatGPT以來，最令我心跳不已的事件，現在就可以在Gemini App和 Google AI Studio中使用了隨手測試：直接看效果（更詳細的測試隨後幾天奉上）1.製作速度可調的電風扇svg2.模擬彈力球從空中一層一層掉落並彈起的物理過程（目前我測過的只有Claude sonnet 4.5可以抽卡成功）3.模擬核聚變過程並加入背景樂（這個是復現Google官方的）官方的發佈核心資訊要點：Google官方把Gemini 3定義為“通往AGI之路的又一大步”。它不僅在多模態理解上全球領先，更是Google迄今為止最強大的Agent（智能體）和“Vibe Coding”模型。此次發佈包含兩個核心版本：Gemini 3 Pro（即日預覽上線）以及增強推理模式的Gemini 3 Deep Think與此同時，Google宣佈Gemini 3即刻全面接入Google生態——從Search（搜尋）到AI Studio，再到全新的Agent開發平台Google Antigravity一起來看Gemini 3到底有多強。資料屠榜：LMArena突破1501分Gemini 3 Pro主打深度推理和多模態能力，在每一項主流AI基準測試中都大幅超越了Gemini 2.5 Pro推理與數學：LMArena Leaderboard：以1501 Elo的突破性得分登頂。Humanity’s Last Exam（人類最後一次考試）：在不使用工具的情況下得分為37.5%，展現出博士級推理能力GPQA Diamond：得分91.9%MathArena Apex：達到23.4%，確立了前沿模型在數學領域的SOTA（State-of-the-art）新標準多模態與事實性：MMMU-Pro：81%。Video-MMMU：87.6%，重新定義多模態推理。SimpleQA Verified：72.1%（SOTA），在事實精準性上取得重大進展。官方強調，Gemini 3 Pro不再是簡單的問答，而是能夠理解語境和意圖，“不僅能讀懂文字和圖像，更能讀懂潛台詞（reading the room）”。它可以摒棄陳詞濫調，提供真知灼見，甚至能通過生成程式碼將晦澀的科學概念轉化為高保真的可視化效果Deep Think模式：推理能力的階躍除了Pro版本，Google還祭出了大殺器——Gemini 3 Deep Think這是一種增強推理模式，旨在解決最複雜的難題。測試資料顯示，其性能進一步超越了本就強悍的Pro版本：Humanity’s Last Exam：41.0%（無工具）GPQA Diamond：93.8%ARC-AGI-2：取得了前所未有的45.1%（含程式碼執行，ARC Prize Verified），證明了其解決新穎挑戰的能力。Deep Think模式將在未來幾周內向Google AI Ultra訂閱使用者開放。Google Antigravity：重塑開發者體驗隨著Gemini 3的發佈，Google推出了全新的Agent開發平台——Google Antigravity這不只是一個AI IDE，它將Agent提升到了核心地位自主權：Agent擁有對編輯器、終端和瀏覽器的直接存取權能力：利用Gemini 3的推理和工具使用能力，Agent可以自主規劃並執行複雜的端到端軟體任務，同時自我驗證程式碼模型組合：該平台不僅整合了Gemini 3 Pro，還緊密耦合了最新的Gemini 2.5 Computer Use模型（用於瀏覽器控制）和頂級圖像編輯模型Nano Banana（Gemini 2.5 Image）。在編碼能力基準測試中，Gemini 3同樣表現出色：WebDev Arena：1487 Elo，位居榜首。SWE-bench Verified：76.2%，大幅超越2.5 Pro，這一項沒有超越Claude sonnet 4.5Terminal-Bench 2.0：54.2%，展示了通過終端操作電腦的能力。全能助手：從學習到規劃Gemini 3不僅面向開發者，更旨在幫助普通使用者“學習、建構和規劃一切”。學習（Learn）：利用100萬token的上下文窗口，它可以綜合處理文字、圖像、視訊、音訊和程式碼示例：它可以解讀不同語言的手寫食譜並整理成家庭烹飪書；通過分析匹克球（Pickleball）比賽視訊，生成針對性的訓練計畫。搜尋進化：在Search的AI模式中，Gemini 3支援生成式UI體驗，能根據查詢即時生成互動式工具和沉浸式視覺佈局規劃（Plan）：Gemini 3在長時程規劃上取得了長足進步Vending-Bench 2測試：該測試要求管理模擬自動售貨機業務。Gemini 3 Pro在全年的模擬營運中保持了一致的決策力，未偏離任務，並帶來了更高的回報，位居榜首這由意味著它能更好地處理預訂服務、整理收件箱等現實生活中的多步驟工作流Google宣佈，這是首次在發佈首日就將新一代Gemini模型引入搜尋（Search）。具體推出計畫如下：普通使用者：Gemini App及Search中的AI模式（針對Google AI Pro和Ultra訂閱使用者）即日起可用開發者：通過Google AI Studio、Google Antigravity、Gemini CLI及Vertex AI訪問企業使用者：通過Vertex AI和Gemini Enterprise訪問。Deep Think模式：需等待安全評估，預計數周後向Ultra訂閱使用者開放。劈柴哥表示，過去兩年，AI Overviews月活已達20億，Gemini App月活超6.5億。Gemini 3的發佈，標誌著Google以“全端式AI”策略，正式將Gemini部署到了Google的每一個角落 (AI寒武紀)