Claude Opus4.6 剛發佈了不到一周,Google終於忍不住開大了!
2 月 13 日凌晨一點,Google將升級後的 Gemini 3 “Deep Think”模式放了出來!
已經發佈,評論區是徹底崩不住了,直呼大為震驚!
因為成績實在嚇人,連Opus4.6也得靠邊站。
可以說,如果說誰能把大模型的“思考上限”往上暴力提升如此大的幅度,大概也只有Google了。
很明顯,跟 Anthropic、OpenAI 開年的推出的兩款模型而言,Google給出了一個新“敘事”。
聊天、寫程式碼、工具呼叫,當這些大家都已經捲得“你來我往”的時候,Google想講的是另一件事——向“科研級能力模型”發起衝鋒!
當問題沒有標準答案、資料殘缺不全、邏輯鏈條極長時,AI 能不能真正參與科學發現?
他們的答案是:已經可以走進實驗室了。
眾所周知,去年 Deep Think 的專用版本已經在數學和程式設計世界級競賽中達到金牌水準。今年這次升級,Google直接把成績單來了一次史無前例的大幅更新:
注意,這可以說是一次全面的提升,而非單點突破。其在,演算法嚴謹性和數學推理能力也都得到了系統提升。
新版 Deep Think 在 2025 國際物理奧林匹克、國際化學奧林匹克筆試部分達到金牌水平。
在理論物理基準 CMT-Benchmark 上取得 50.5%。
這些數字背後透露出一個趨勢:模型正在進入複雜科學知識體系內部,而不是停留在“知識複述”。
換句話說,它開始具備跨學科、跨抽象層級的長鏈條推理能力。
這才是真正接近科研智能的方向。
比成績更值得關注的是應用場景。
Google明確表示,Deep Think 的目標不是只在基準測試中領先,而是:
甚至,它可以把一張手繪草圖,分析建模後生成 3D 列印檔案,直接變成實體物件。
Google官網上還給出了一個例子,很有意思。
羅格斯大學的數學家 Lisa Carbone,研究的是高能物理所需的數學結構——那種試圖在愛因斯坦引力理論和量子力學之間搭橋的方向。這類研究資料極少、邏輯極深、訓練樣本幾乎不存在。
她用 Deep Think 審閱一篇高度技術化的數學論文。
結果,這個模型找出了一個此前在人類同行評審中被忽略的細微邏輯漏洞。
這件事的意義,不在於“AI 比人強”,而在於——
它開始進入科研工作流,而不是停留在“輔助寫作”。
不止同行評審,Gemini 3 DeepThink 已經強大到參與各種“高精尖”研究之中。
比如開頭提到的杜克大學一家實驗室中,已經直接拿它來設計新型半導體材料,讓AI幫忙最佳化複雜晶體生長工藝,成功搞出了以前人工很難穩定實現的100μm級超薄膜配方……
Google自家硬體工程師甚至拿手繪草圖丟給它,AI直接吐出能3D列印的精確模型檔案……
這已經不是“會寫程式碼”“會解題”了,這是真正開始當科研和工程的“深度思考搭檔”。
更關鍵的一點是開放策略。
Deep Think 已經面向 Google AI Ultra 訂閱使用者開放,並首次通過 Gemini API 向研究者和企業提供早期訪問。
這一步非常關鍵。
過去,大模型更多是面向大眾使用者的對話產品;現在,Google在嘗試把“最強推理能力”嵌入科研和工程系統中。
很明顯,Google給出的 AGI 方向,是一條從“聊天助手”走向“科研基礎設施”的路徑。
發佈後,Gemini 3 Deep Think 再一次掀起了人們的熱議。
首先,還是 ARC-AGI 取得了如此高的分數。網友非常震驚:“這不是去年才 1–10% 嗎?”
一年前 SOTA 才 1–10% 嗎?當時不是說這是“最終 Boss”嗎?解決它幾乎就接近 AGI?
而關於這個問題,ARC-AGI 的建立者 François Chollet 其實早有澄清:
他對 AGI 的定義是:
當我們再也構造不出“普通人類能做、但 AI 做不了”的任務時,才算實現 AGI。
不管是在 X 上還是 Hackernews 上,都有人稱這是“目前看到最好的 AGI 定義”。
此外,還有人補充一個關鍵資料:平均人類在 ARC 測試中的得分是 60%。如果機器超過這個分數,那在個體能力上已經超過平均人類。
評論中還有個小插曲。
有意思的是,網友們開始討論起“系統是否具備意識,才能成為真正的AGI”的問題。
“如果某個系統聲稱自己有意識,而我們無法證明它沒有,我們是否必須相信它?”
反對者則舉了一個動物的例子來反駁:狗不會聲稱自己有意識,但顯然有;GPT-3 會聲稱自己有意識,但大機率沒有;所以“自稱有意識”不是好標準。
2026年,AI 將會湧現出非常多的賽道,不止是 AI編碼、AI辦公,Agenitc Engineering,Google顯然此舉表示了對於 AI for Science 這個方向的押注。
前兩天,陶哲軒下場了 AI for Science 賽道,則釋放了同樣的訊號。
當 AI 可以:找出論文中的邏輯漏洞、在數學奧賽等級達到金牌水準、參與理論物理推導、建模現實物理系統
那麼,科研的邊界會發生什麼變化?未來的科學發現,是人類主導、AI 輔助,還是雙向協同?
總之,“AI+科研”的爆發,也許就在這幾年內了。
另外,Google的可怕之處就在於,它訓練一個極為通用的模型。
如果現在有一個 Elo 3455 的“永不疲倦的程式設計隊友” + 金牌級物理化學腦子 + 能幫你審論文找漏洞的夥伴,你願意花多少錢把他請進你的項目組?
而Google現在把它放進了手機 App 和 API 裡…… (51CTO技術堆疊)