Google深夜開大:Gemini3 超人升級!ARC-AGI直接躍遷,大幅超過人類!實驗室變天:設計新型半導體材料,做同行評審,網友:要實現AGI的節奏

Claude Opus4.6 剛發佈了不到一周,Google終於忍不住開大了!

2 月 13 日凌晨一點,Google將升級後的 Gemini 3 “Deep Think”模式放了出來!

已經發佈,評論區是徹底崩不住了,直呼大為震驚!

因為成績實在嚇人,連Opus4.6也得靠邊站。

  • ARC-AGI-2(被公認最難測“真·抽象推理”的基準)→ 84.6%(人類平均大概60%左右,之前最強模型也就60-70%徘徊)
  • Codeforces(全球最硬核的程式設計競賽平台)→ 3455 Elo(這個分數已經深入傳說級宗師區間,目前人類排行榜上只剩寥寥7個人排在它前面!)
  • 2025年國際物理&化學奧林匹克書面考試 → 金牌水平
  • Humanity's Last Exam(號稱“人類最後的考試”)→ 刷新紀錄

可以說,如果說誰能把大模型的“思考上限”往上暴力提升如此大的幅度,大概也只有Google了。

很明顯,跟 Anthropic、OpenAI 開年的推出的兩款模型而言,Google給出了一個新“敘事”。

聊天、寫程式碼、工具呼叫,當這些大家都已經捲得“你來我往”的時候,Google想講的是另一件事——向“科研級能力模型”發起衝鋒!

當問題沒有標準答案、資料殘缺不全、邏輯鏈條極長時,AI 能不能真正參與科學發現?

他們的答案是:已經可以走進實驗室了。

從競賽級推理,走向研究級推理

眾所周知,去年 Deep Think 的專用版本已經在數學和程式設計世界級競賽中達到金牌水準。今年這次升級,Google直接把成績單來了一次史無前例的大幅更新:

  • 在 Humanity’s Last Exam 上取得 48.4%(無工具)
  • 在 ARC-AGI-2 上達到 84.6%
  • 在 Codeforces 競賽中拿到 3455 Elo
  • 在 2025 國際數學奧林匹克達到金牌級表現

注意,這可以說是一次全面的提升,而非單點突破。其在,演算法嚴謹性和數學推理能力也都得到了系統提升。

不止數學

物理、化學,也開始被“滲透”

新版 Deep Think 在 2025 國際物理奧林匹克、國際化學奧林匹克筆試部分達到金牌水平。

在理論物理基準 CMT-Benchmark 上取得 50.5%。

這些數字背後透露出一個趨勢:模型正在進入複雜科學知識體系內部,而不是停留在“知識複述”。

換句話說,它開始具備跨學科、跨抽象層級的長鏈條推理能力。

這才是真正接近科研智能的方向。

但Google不只想贏比賽

比成績更值得關注的是應用場景。

Google明確表示,Deep Think 的目標不是只在基準測試中領先,而是:

  • 幫研究者解讀複雜資料
  • 幫工程師用程式碼建模物理系統
  • 通過 Gemini API 進入真實科研與工程流程

甚至,它可以把一張手繪草圖,分析建模後生成 3D 列印檔案,直接變成實體物件。

Gemini 3 Deep Think 已經

進入做“同行評審”了

Google官網上還給出了一個例子,很有意思。

羅格斯大學的數學家 Lisa Carbone,研究的是高能物理所需的數學結構——那種試圖在愛因斯坦引力理論和量子力學之間搭橋的方向。這類研究資料極少、邏輯極深、訓練樣本幾乎不存在。

她用 Deep Think 審閱一篇高度技術化的數學論文。

結果,這個模型找出了一個此前在人類同行評審中被忽略的細微邏輯漏洞。

這件事的意義,不在於“AI 比人強”,而在於——

它開始進入科研工作流,而不是停留在“輔助寫作”。

不止同行評審,Gemini 3 DeepThink 已經強大到參與各種“高精尖”研究之中。

比如開頭提到的杜克大學一家實驗室中,已經直接拿它來設計新型半導體材料,讓AI幫忙最佳化複雜晶體生長工藝,成功搞出了以前人工很難穩定實現的100μm級超薄膜配方……

Google自家硬體工程師甚至拿手繪草圖丟給它,AI直接吐出能3D列印的精確模型檔案……

這已經不是“會寫程式碼”“會解題”了,這是真正開始當科研和工程的“深度思考搭檔”。

真正的變化:從 ChatBot 到研究工具

更關鍵的一點是開放策略。

Deep Think 已經面向 Google AI Ultra 訂閱使用者開放,並首次通過 Gemini API 向研究者和企業提供早期訪問。

這一步非常關鍵。

過去,大模型更多是面向大眾使用者的對話產品;現在,Google在嘗試把“最強推理能力”嵌入科研和工程系統中。

很明顯,Google給出的 AGI 方向,是一條從“聊天助手”走向“科研基礎設施”的路徑。

網友:目前看到的最好的AGI定義

發佈後,Gemini 3 Deep Think 再一次掀起了人們的熱議。

首先,還是 ARC-AGI 取得了如此高的分數。網友非常震驚:“這不是去年才 1–10% 嗎?”

一年前 SOTA 才 1–10% 嗎?當時不是說這是“最終 Boss”嗎?解決它幾乎就接近 AGI?

而關於這個問題,ARC-AGI 的建立者 François Chollet 其實早有澄清:

  • 通過 ARC-AGI ≠ 實現 AGI、它只是一個“正確方向上的台階”
  • 他正在開發 ARC-AGI-3 和 ARC-AGI-4

他對 AGI 的定義是:

當我們再也構造不出“普通人類能做、但 AI 做不了”的任務時,才算實現 AGI。

不管是在 X 上還是 Hackernews 上,都有人稱這是“目前看到最好的 AGI 定義”。

此外,還有人補充一個關鍵資料:平均人類在 ARC 測試中的得分是 60%。如果機器超過這個分數,那在個體能力上已經超過平均人類。

評論中還有個小插曲。

有意思的是,網友們開始討論起“系統是否具備意識,才能成為真正的AGI”的問題。

“如果某個系統聲稱自己有意識,而我們無法證明它沒有,我們是否必須相信它?”

反對者則舉了一個動物的例子來反駁:狗不會聲稱自己有意識,但顯然有;GPT-3 會聲稱自己有意識,但大機率沒有;所以“自稱有意識”不是好標準。

寫在最後:

AI for Science ,離爆發不遠了

2026年,AI 將會湧現出非常多的賽道,不止是 AI編碼、AI辦公,Agenitc Engineering,Google顯然此舉表示了對於 AI for Science 這個方向的押注。

前兩天,陶哲軒下場了 AI for Science 賽道,則釋放了同樣的訊號。

當 AI 可以:找出論文中的邏輯漏洞、在數學奧賽等級達到金牌水準、參與理論物理推導、建模現實物理系統

那麼,科研的邊界會發生什麼變化?未來的科學發現,是人類主導、AI 輔助,還是雙向協同?

總之,“AI+科研”的爆發,也許就在這幾年內了。

另外,Google的可怕之處就在於,它訓練一個極為通用的模型。

如果現在有一個 Elo 3455 的“永不疲倦的程式設計隊友” + 金牌級物理化學腦子 + 能幫你審論文找漏洞的夥伴,你願意花多少錢把他請進你的項目組?

而Google現在把它放進了手機 App 和 API 裡…… (51CTO技術堆疊)