清華傳奇姚順宇立功！全新Gemini一夜血洗程式設計，全球僅7人能贏它

2026/02/13

•

【新智元導讀】剛剛，GoogleGemini 3 Deep Think原地進化！在Codeforces比賽中拿下全球第七，擊敗了人類選手。短短三個月，全方位刷爆SOTA。

猝不及防，GoogleDeepMind深夜又放大招了！

今天，Gemini 3 Deep Think重磅升級，幾乎刷爆全領域的SOTA，標誌著AI推理能力進入了全新維度。

離職Anthropic入職Google的華人學者姚順宇參與了Gemini 3 Deep Think

這一次，在科學研究和硬核工程領域，Deep Think堪稱一個「最強大腦」。

它可以將草圖渲染成一個高保真、實用的3D筆記型電腦支架圖，並直接將其列印出來。

GoogleVP曬出這個副項目，最終的成品是這樣子的。

新版Deep Think的實力究竟有多恐怖？

在程式設計界，它刷出了3455 Elo的驚人分數，達到世界冠軍級的水準，衝入了Codeforces比賽人類TOP 10！

也就是說，全球只有7人擊敗了Gemini 3 Deep Think，一年前，最強o3也僅拿下2727 Elo。

在人類最後考試（HLE）上，Gemini 3 Deep Think刷新SOTA，拿下了48.4%的成績。

甚至，它在一夜之間讓最難的ARC-AGI-2基準直接飽和，以84.6%新SOTA一騎絕塵。

與Gemini 3 Pro相比，Deep Think實現了全方位反超，並將Claude Opus 4.6、GPT-5.2直接踩在了腳下。

更令人震撼的是，Gemini 3 Deep Think的實戰表現。

羅格斯大學數學家Lisa Carbone在研究時，讓它審查一篇高深的物理數學論文。

結果，Deep Think竟發現了一個連人類同行評審，都遺漏的細微邏輯漏洞。

Gemini 3 Deep Think這波史詩級進化，又讓某些人睡不著了。

目前，Google AI Ultra訂閱使用者即可在Gemini中體驗新版Deep Think。同時，首次通過API向部分研究人員、工程師和企業開放。

實力刷爆SOTA，奧賽金牌大滿貫

去年，Deep Think專門版成功解決了推理領域最艱巨的任務，在數學和程式設計世界錦標賽中奪下金牌。

就在昨天，GoogleDeepMind還做了一個預熱。

背靠初代Deep Think的「AI數學家」Aletheia可以獨立撰寫論文，證明了「Erdős猜想」中多個難題。

不僅如此，Deep Think直接推翻了十年猜想，一舉攻克18大研究瓶頸。

而現在，迭代後的Deep Think已在多項高難度的基準測試中刷新SOTA：

人類最後的考試（HLE）：設定了新標竿，在不使用工具的情況下精準率達48.4%；
ARC-AGI-2：達到了前所未有的84.6%，並獲得ARC獎項基金會的驗證；
演算法競賽平台Codeforces：Elo評分達到了驚人的3455分；
2025 IMO：達到金牌水平。

除了數學和演算法競賽，Gemini 3 Deep Think現在在化學和物理等廣泛的科學領域也表現優異。

在2025年國際物理奧林匹克和化學奧林匹克的筆試部分，新版Deep Think同樣具備了金牌實力。

此外，它在高級理論物理方面也遊刃有餘，在CMT-Benchmark測試中取得了50.5%的成績。

另外，Gemini 3 Deep Think在ARC-AGI-1上，直接頂到頭了。

官方演示中，Gemini 3 Deep Think可以根據論文，為「時空循環視訊Transformer」架構建立一個可視化方案。

Deep Think殺入科研，十倍加速

除了頂尖的性能表現，Deep Think還突破了智能邊界，能夠解決科學、研究和工程領域的現代難題。

它不僅能幫助科研人員解讀複雜資料，還能輔助工程師通過程式碼對物理系統建模。

在早期測試中，許多科學家在科研工作流中，顯著提升了研究產出質量。

在杜克大學，Wang Lab用Deep Think最佳化了複雜晶體生長的製造方法，以用於潛在的半導體材料發現。

令人意想不到，Deep Think成功設計出了一種生長大於100 μm薄膜的配方，達到了以前方法難以實現的精確目標。

Google平台與裝置部門的研發主管Anupam Pathak表示——

我不是CAD設計師，但有了Deep Think，可以直接將草圖變成可3D列印的實物。

它會分析繪圖，對複雜形狀進行建模，並生成3D列印所需的模型檔案，讓物理零部件建模加速十倍。

只需傳送一張圖片、一個提示詞，它就能夠深入思考，便可以提供幾個之前自己從未設想過的全新設計方案。

Deep Think將深厚的科學知識與實用的工程能力相結合，超越了抽象理論，真正開始推動實際應用。

網友驚豔實測，物理模擬太強

在實測中，Gemini 3 Deep Think展現出超強的物理模擬能力。

它可以模擬光線追蹤，在瀏覽器中就可以實現。

並且還可以在單個HTML檔案中，建構出一個完整的Three.js場景，渲染出博物館中古典油畫難以區分的全3D室內房間。

Simon Willison用Gemini 3 Deep Think畫了一張鵜鶘騎自行車的SVG向量圖，效果非常驚豔。

他表示，這是自己目前見過最棒的一版了。

既然在處理那條基礎的「生成一張鵜鶘騎自行車的SVG」指令時表現得這麼出色，Simon決定加大難度，試個更有挑戰性的版本：

生成一張加州褐鵜鶘騎自行車的SVG圖像。自行車必須要有輻條，車架形狀要精準。鵜鶘必須具備其標誌性的大喉囊，且要有清晰的羽毛細節。必須能清楚地看出鵜鶘正在蹬車。圖像需要展示加州褐鵜鶘完整的繁殖羽特徵。

結果如下：

這一次，Google讓AI真正滲透進了科研工作的「最後一公里」：審閱論文、工業設計、實驗最佳化，無所不包。

當AI能夠揪出連人類審稿人都忽略的邏輯漏洞時，「輔助工具」這四個字顯然已經配不上它了。

如今，壓力球拋回給了OpenAI。

面對Google這記直擊痛點的「深思」回擊，奧特曼的下一張王牌，必須足夠震撼。 (新智元)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者