上周,Google剛剛發佈了Gemini 3 Deep Think工具,旨在解決科學、研究和工程領域面臨的現代挑戰,今天,這款工具背後的核心智能模型——Gemini 3.1 Pro正式推出。
此次發佈也是Google首次對Gemini模型進行“0.1”版本形式迭代,市場分析認為,今年該公司發佈策略可能會從定期發佈完整版本轉向更頻繁的增量升級。
在廣受歡迎的“人類最後的考試”(Humanity's Last Exam)基準測試中,Gemini 3.1 Pro取得了創紀錄的44.4%的成績,上一代Gemini 3 Pro的成績為37.5%,而OpenAI的GPT 5.2的成績為34.5%,Anthropic的Opus 4.6成績為(40.0%)。
在ARC-AGI-2 基準測試中,該測試旨在評估模型解決全新邏輯模式的能力,3.1 Pro的驗證得分達到了77.1%,比3 Pro的推理性能提升了一倍以上,這一結果也超越了GPT-5.2(52.9%)以及Opus 4.6(68.8%)。
從官方披露的資料看,Google在多數指標上取得了業內領先優勢,但目前仍有個別基準測試的最好成績被OpenAI和Anthropic佔據,前沿大模型之爭十分焦灼。
Google方面表示,3.1 Pro模型專為那些簡單答案不足以解決的任務而設計,它善於運用高級推理能力,幫助使用者應對最棘手的挑戰。
無論是需要對複雜主題進行清晰直觀的拆解分析,還是需要將複雜資料整合到單一檢視中,亦或是需要將創意項目變為現實,官方給到一些典型應用案例如:
基於程式碼的動畫:3.1 Pro可以直接根據文字提示生成可用於網站的動畫SVG。由於這些動畫完全由程式碼而非像素構成,因此無論縮放比例如何,它們都能保持清晰銳利,並且與傳統視訊相比,檔案大小也極小。
複雜系統綜合:3.1 Pro利用高級推理技術彌合了複雜API與使用者友好設計之間的差距,該模型建構了一個即時航空航天儀表盤,成功配置了公共遙測流,可以可視化國際空間站的軌道。
互動設計:3.1 Pro可生成複雜3D鳥群舞動畫,生成視覺程式碼並建構沉浸式體驗,使用者可通過手部追蹤操控鳥群,聆聽隨鳥群運動變化的生成式配樂,為研究人員和設計師提供建構感官豐富介面原型的強大方法。
創意編碼:3.1 Pro可以將文學主題轉化為功能性程式碼,當被要求為《呼嘯山莊》建構一個現代個人作品集時,該模型並非簡單地概括文字,而是深入分析了小說的氛圍基調,設計出一個簡潔現代的介面,最終建立了一個能夠捕捉主人公精髓的網站。
GoogleDeepMind工作人員還演示使用3.1 Pro開發逼真的城市規劃應用程式,該模型可以處理複雜地形、繪製基礎設施圖以及模擬交通資料,從而生成高品質的可視化效果。
對於開發者而言,3.1 Pro版本最引人注目的亮點不僅在於性能大幅提升,也在於其“性價比”。
第三方分析平台Artificial Analysis的評估顯示,Google以更低的成本實現最先進的智能。
3.1 Pro版本在人工智慧分析指數中得分最高,其最顯著的優勢在於價格和代幣效率,與Claude Opus 4.6 (max) 和GPT-5.2 (xhigh) 相比,Gemini 3.1 Pro Preview上的運行成本降低了50%以上。
如果Google的慣例保持不變,那麼在不久的將來,其速度更快、成本更低的Flash模型很可能也會推出3.1版本更新。
加盟Google的華人AI研究員姚順宇發推表示,更好的模型正以勢不可擋的速度湧現。
隨著大模型廠商的市場競爭加劇,頭部廠商CEO之間的關係並不融洽。
在日前印度舉辦的人工智慧影響力峰會上,出現了本年度AI圈最尷尬一幕:OpenAI首席執行長Sam Altman和Anthropic首席執行長Dario Amodei拍照時明顯拒絕牽手,而是雙雙舉起了拳頭,台上其他AI廠商領袖(如Google、Meta)則在拍攝合影時都儀式性挽著胳膊。
今天,兩人不和的合影畫面迅速在社交媒體上流傳開來,網友調侃,什麼時候能實現AGI?可能得等到Sam和Dario牽手那天。
2026年2月12日,Anthropic完成G輪融資籌集了300億美元,投後估值達3800億美元,該公司透露已實現140億美元的年化收入規模。
據彭博社最新爆料,OpenAI正在籌備新一輪融資,據悉此次融資規模有望達1000億美元,公司整體估值可能超過8500億美元,OpenAI首席財務官Sarah Friar此前表示,公司2025年年化營收已超200億美元。
面對Google的強力競爭,兩大AI獨角獸都紛紛加碼投入不敢絲毫鬆懈迭代步伐。
在本年開局的首輪大模型PK賽中,國內外主流廠商的旗艦模型再次刷出性能新高度,目前備受網友期待的便是傳聞的DeepSeek新一代模型V4,能否創造出更多驚喜可以拭目以待。 (頭部科技)