Google IMO金牌級Gemini 3深夜上線!華人大神掛帥,OpenAI無力反擊

Gemini 3 Deep Think用2.5倍的暴力性能把GPT-5.1踩在腳下,OpenAI若再不發新模型,這「推理之王」的寶座今天就正式換人了!

太勁爆了!

不過半月,GoogleDeepMind終於放出了IMO最強金牌模型——Gemini 3 Deep Think。

今年夏天,Gemini 2.5 Deep Think分別在IMO、ICPC國際大賽中,拿下了金牌的戰績。

這一次,Google為其注入了全新的血液——Gemini 3。

憑藉著「平行思考」能力,Gemini 3 Deep Think可以搞定超高難度的數學、科學難題!

在基準測試中,Deep Think全面碾壓Gemini 3 Pro,尤其是在HLE上,未用工具拿下了41%高分。

同時在ARC-AGI-2上,以45.1%成績領跑全球。

下面實例中,同一個指令,讓Gemini 3 Pro和Deep Think版基於一張博物館展館屋頂的草圖,建立一個精確的互動式3D場景。

顯然,後者在還原度上,與原圖幾乎是1:1復刻,並在互動上,光影變化符合物理邏輯。

今天,Gemini 3 Deep Think已在Gemini App上線,所有Ultra使用者即可體驗。

最強IMO金牌模型來了

Gemini 3 Deep Think正式開啟了「深度思考」新紀元,讓智能的邊界再次拓展。

Gemini 3 Deep Think基於上一代Gemini 2.5 Deep Think迭代而來,在推理能力上實現了質的飛躍。

它專門用於攻克那些連當今最頂尖模型,都感到棘手的複雜數學、科學和邏輯難題。

在多項基準測試中,Gemini 3 Deep Think都拿下了行業領先成績。

在Humanity’s Last Exam(無工具輔助)上刷爆41%,並在ARC-AGI-2(配合程式碼執行),創下45.1%新紀錄。

在ARC-AGI-1和ARC-AGI-2上,Gemini 3 Deep Think實力堪稱無「模」能敵。

之所以這麼強,是因為Deep Think採用了「平行推理」來同時思考,能夠同時探索多種假設。

在GoogleDeepMind放出的更多demo中,可以看出Gemini 3 Deep Think強大之處。

如下,讓它打造一款3D版多米諾骨牌遊戲。在關卡設定中,Deep Think兼具創意與驚喜,而且還模擬出了真實的碰撞物理效果。

這個例子,是要求Gemini 3 Pro和Deep Think分別在單個HTML檔案中建立程序化生成的地球類行星。

左右對比一眼即可看出,Deep Think更加有創造力。

另有開發者實測驚嘆道,Gemini 3 Deep Think具備驚人的能力。

上傳一張玻璃瓶的照片,讓它生成一個軟橡膠同款掉在地上的3D動畫。

有網友激動地表示,按照這個速度,我們將在2026年真正實現AGI!

華人科學家領銜,AGI王牌隊衝刺

同在今天,GoogleDeepMind官宣,將在新加坡組建一支全新的精英團隊。

它將由華人科學家Yi Tay率隊,專攻高級推理、LLM/RL,以及推進Gemini、Gemini Deep Think等最前沿SOTA模型的發展。

Yi Tay將向位於山景城由Quoc Le(GoogleFellow級大佬)領導的團隊匯報。

恰好,這一團隊正是Gemini Deep Think在國際競賽中奪下金牌的核心力量之一,同時也在Gemini上取得重要進展。

Yi Tay表示,我們會從一支人不多但超強的小團隊開始。

因為在大模型的時代,「人才密度」比什麼都關鍵。

關鍵是,這個團隊還能與AI領域傳奇大神聯動研究,其中就包括「推理之王」Denny Zhou、「香蕉」背後的男人Mostafa Dehghani、AI界的「GOAT」Noam Shazeer。

同時,還有很多「神仙隊友」一起加入研究,包括生成式檢索的發明人Vinh Q. Tran、IMO金牌項目總負責人Thang Luong、思維鏈開創者Xuezhi、日本頂尖AI大神Shane Gu等人。

過去幾個月,GoogleDeepMind便開始秘密招募全球頂尖人才。

這一項目得到了Demis Hassabis、Jeff Dean等內部高層的大力支援。

如今,他們繼續發出英雄招募帖,有機會站上通往AGI的關鍵賽道。

用不了多久,這支新加坡團隊很快就會成為一支戰鬥力爆表的隊伍。

Gemini 3爆沖15%流量

隨著Gemini 3 Pro的強勢發佈,其網頁端的市佔率再創新高,突破15%大關。

與此同時,Grok也憑藉著4.1版本的發佈持續增長。

ChatGPT在流量上依然斷崖式領先,但份額卻在持續下降。

Gemini延續增長勢頭,訪問量達到13.51億次,較10月增長14.3%。ChatGPT跌破60億次大關,網站存取量降至58.44億次。

這是繼7月之後,ChatGPT 在 2025 年出現的第二次環比下滑。

儘管在11月18日(Cloudflare當機當天),ChatGPT創下了單日2.33億次訪問的歷史紀錄,但這並未扭轉整體流量的跌勢。

此外,Grok網站存取量達到2.344億次,創下歷史新高,較10月增長14.7%。

這也是該網站自啟用當前域名以來,首次實現連續兩個月的流量增長。

(新智元)