Google深夜開大：Gemini3 超人升級！ARC-AGI直接躍遷，大幅超過人類！實驗室變天：設計新型半導體材料，做同行評審，網友：要實現AGI的節奏

2026/02/13

•

Claude Opus4.6 剛發佈了不到一周，Google終於忍不住開大了！

2 月 13 日凌晨一點，Google將升級後的 Gemini 3 “Deep Think”模式放了出來！

已經發佈，評論區是徹底崩不住了，直呼大為震驚！

因為成績實在嚇人，連Opus4.6也得靠邊站。

ARC-AGI-2（被公認最難測“真·抽象推理”的基準）→ 84.6%（人類平均大概60%左右，之前最強模型也就60-70%徘徊）
Codeforces（全球最硬核的程式設計競賽平台）→ 3455 Elo（這個分數已經深入傳說級宗師區間，目前人類排行榜上只剩寥寥7個人排在它前面！）
2025年國際物理&化學奧林匹克書面考試 → 金牌水平
Humanity's Last Exam（號稱“人類最後的考試”）→ 刷新紀錄

可以說，如果說誰能把大模型的“思考上限”往上暴力提升如此大的幅度，大概也只有Google了。

很明顯，跟 Anthropic、OpenAI 開年的推出的兩款模型而言，Google給出了一個新“敘事”。

聊天、寫程式碼、工具呼叫，當這些大家都已經捲得“你來我往”的時候，Google想講的是另一件事——向“科研級能力模型”發起衝鋒！

當問題沒有標準答案、資料殘缺不全、邏輯鏈條極長時，AI 能不能真正參與科學發現？

他們的答案是：已經可以走進實驗室了。

從競賽級推理，走向研究級推理

眾所周知，去年 Deep Think 的專用版本已經在數學和程式設計世界級競賽中達到金牌水準。今年這次升級，Google直接把成績單來了一次史無前例的大幅更新：

在 Humanity’s Last Exam 上取得 48.4%（無工具）
在 ARC-AGI-2 上達到 84.6%
在 Codeforces 競賽中拿到 3455 Elo
在 2025 國際數學奧林匹克達到金牌級表現

注意，這可以說是一次全面的提升，而非單點突破。其在，演算法嚴謹性和數學推理能力也都得到了系統提升。

不止數學

物理、化學，也開始被“滲透”

新版 Deep Think 在 2025 國際物理奧林匹克、國際化學奧林匹克筆試部分達到金牌水平。

在理論物理基準 CMT-Benchmark 上取得 50.5%。

這些數字背後透露出一個趨勢：模型正在進入複雜科學知識體系內部，而不是停留在“知識複述”。

換句話說，它開始具備跨學科、跨抽象層級的長鏈條推理能力。

這才是真正接近科研智能的方向。

但Google不只想贏比賽

比成績更值得關注的是應用場景。

Google明確表示，Deep Think 的目標不是只在基準測試中領先，而是：

幫研究者解讀複雜資料
幫工程師用程式碼建模物理系統
通過 Gemini API 進入真實科研與工程流程

甚至，它可以把一張手繪草圖，分析建模後生成 3D 列印檔案，直接變成實體物件。

Gemini 3 Deep Think 已經

進入做“同行評審”了

Google官網上還給出了一個例子，很有意思。

羅格斯大學的數學家 Lisa Carbone，研究的是高能物理所需的數學結構——那種試圖在愛因斯坦引力理論和量子力學之間搭橋的方向。這類研究資料極少、邏輯極深、訓練樣本幾乎不存在。

她用 Deep Think 審閱一篇高度技術化的數學論文。

結果，這個模型找出了一個此前在人類同行評審中被忽略的細微邏輯漏洞。

這件事的意義，不在於“AI 比人強”，而在於——

它開始進入科研工作流，而不是停留在“輔助寫作”。

不止同行評審，Gemini 3 DeepThink 已經強大到參與各種“高精尖”研究之中。

比如開頭提到的杜克大學一家實驗室中，已經直接拿它來設計新型半導體材料，讓AI幫忙最佳化複雜晶體生長工藝，成功搞出了以前人工很難穩定實現的100μm級超薄膜配方……

Google自家硬體工程師甚至拿手繪草圖丟給它，AI直接吐出能3D列印的精確模型檔案……

這已經不是“會寫程式碼”“會解題”了，這是真正開始當科研和工程的“深度思考搭檔”。

真正的變化：從 ChatBot 到研究工具

更關鍵的一點是開放策略。

Deep Think 已經面向 Google AI Ultra 訂閱使用者開放，並首次通過 Gemini API 向研究者和企業提供早期訪問。

這一步非常關鍵。

過去，大模型更多是面向大眾使用者的對話產品；現在，Google在嘗試把“最強推理能力”嵌入科研和工程系統中。

很明顯，Google給出的 AGI 方向，是一條從“聊天助手”走向“科研基礎設施”的路徑。

網友：目前看到的最好的AGI定義

發佈後，Gemini 3 Deep Think 再一次掀起了人們的熱議。

首先，還是 ARC-AGI 取得了如此高的分數。網友非常震驚：“這不是去年才 1–10% 嗎？”

一年前 SOTA 才 1–10% 嗎？當時不是說這是“最終 Boss”嗎？解決它幾乎就接近 AGI？

而關於這個問題，ARC-AGI 的建立者 François Chollet 其實早有澄清：

通過 ARC-AGI ≠ 實現 AGI、它只是一個“正確方向上的台階”
他正在開發 ARC-AGI-3 和 ARC-AGI-4

他對 AGI 的定義是：

當我們再也構造不出“普通人類能做、但 AI 做不了”的任務時，才算實現 AGI。

不管是在 X 上還是 Hackernews 上，都有人稱這是“目前看到最好的 AGI 定義”。

此外，還有人補充一個關鍵資料：平均人類在 ARC 測試中的得分是 60%。如果機器超過這個分數，那在個體能力上已經超過平均人類。

評論中還有個小插曲。

有意思的是，網友們開始討論起“系統是否具備意識，才能成為真正的AGI”的問題。

“如果某個系統聲稱自己有意識，而我們無法證明它沒有，我們是否必須相信它？”

反對者則舉了一個動物的例子來反駁：狗不會聲稱自己有意識，但顯然有；GPT-3 會聲稱自己有意識，但大機率沒有；所以“自稱有意識”不是好標準。

寫在最後：

AI for Science ，離爆發不遠了

2026年，AI 將會湧現出非常多的賽道，不止是 AI編碼、AI辦公，Agenitc Engineering，Google顯然此舉表示了對於 AI for Science 這個方向的押注。

前兩天，陶哲軒下場了 AI for Science 賽道，則釋放了同樣的訊號。

當 AI 可以：找出論文中的邏輯漏洞、在數學奧賽等級達到金牌水準、參與理論物理推導、建模現實物理系統

那麼，科研的邊界會發生什麼變化？未來的科學發現，是人類主導、AI 輔助，還是雙向協同？

總之，“AI+科研”的爆發，也許就在這幾年內了。

另外，Google的可怕之處就在於，它訓練一個極為通用的模型。

如果現在有一個 Elo 3455 的“永不疲倦的程式設計隊友” + 金牌級物理化學腦子 + 能幫你審論文找漏洞的夥伴，你願意花多少錢把他請進你的項目組？

而Google現在把它放進了手機 App 和 API 裡…… (51CTO技術堆疊)

科技