霸氣的Google又贏了！

2025/10/08

•

剛剛過去的24小時，是Google又一次的高光時刻。

今天的Google，發生了兩件大事。

兩年，5位得主

諾獎再一次花落Google系

不到9個小時前，GoogleCEO皮查伊驕傲的心情再一次藏不住了。

當得知自家量子AI實驗室的兩位大佬又一次獲得了諾貝爾物理學獎時，他忍不住在X上置頂了一條推文。

“祝賀 Michel Devoret、John Martinis 和 John Clarke 獲得諾貝爾物理學獎。🔬🥼

Michel 是我們量子 AI 實驗室的硬體首席科學家，John Martinis 多年來一直領導該實驗室的硬體團隊。

他們在上世紀 80 年代量子力學領域的開創性研究，使得如今的突破成為可能，也為未來可實現誤差校正的量子電腦奠定了基礎。

我昨天剛在聖塔芭芭拉的量子實驗室看到令人驚嘆的進展，希望他們今天能好好慶祝。今早感到無比幸運——能在一家擁有 5 位諾貝爾獎得主的公司工作，而且僅兩年就拿下了 3 個獎項！”

去年的諾獎的得主還記得嗎，辛頓和現任DeepMind CEO Demis，這兩位也都是Google系的。

小編這就幫大家梳理下，近兩年，Google有那些諾貝爾獎得主（現任或校友）。

1. Geoffrey Hinton

所屬：曾在 Google Brain 工作。
獲獎情況：2024 年諾貝爾物理學獎。
獎項理由：因其在機器學習與神經網路方面的基礎性發現與發明，這些發現與發明使現代人工智慧尤其是深度學習成為可能。

2. Demis Hassabis

所屬：Google DeepMind 的聯合創始人兼 CEO。
獲獎情況：2024 年諾貝爾化學獎。
獎項理由：與 John Jumper 等一起通過 AI 模型（AlphaFold2）預測幾乎所有已知蛋白質結構，解決了生命科學中長期未解的蛋白質結構預測問題。

3. John Jumper

所屬：Google DeepMind 的資深研究科學家。
獲獎情況：與 Hassabis 共同獲得 2024 年諾貝爾化學獎。
獎項理由：同上，參與 AlphaFold2 項目，蛋白質結構預測。

4. Michel Devoret

所屬：現為 Google Quantum AI 的硬體首席科學家。
獲獎情況：2025 年諾貝爾物理學獎。
獲獎理由：他與 John Martinis, John Clarke 等人的研究在 1980 年代展示了宏觀量子隧穿現象，在電路中觀察到量子能級的量子化，為超導量子位元和量子電腦的硬體基礎奠定了基礎。

5. John Martinis

所屬：曾長期領導 Google 的量子硬體團隊（Google Quantum AI）。
獲獎情況：2025 年諾貝爾物理學獎，與 Michel Devoret 和 John Clarke 共同獲得。
獲獎原因：同上，參與上述宏觀量子效應的實驗與電子電路的設計。

Google發佈最新版本：電腦使用（computer-use）模型

今天，讓皮查伊高興的另一件事，則是其DeepMind實驗室發佈的最新Gemini 2.5 Pro的版本： “Gemini 2.5 Pro Computer Use”。

顧名思義，它並不是一個普通的聊天模型。這一版本專門強化了與使用者介面的直接互動能力，包括網頁與移動端應用。

它會“看螢幕”，系統會給它網頁截圖、歷史操作記錄，然後讓它決定下一步該點選那裡、輸入什麼。這一循環持續進行，直到任務完成或出現錯誤。

據Googleblog中介紹，該模型經過了專門微調與定製訓練，可以通過虛擬瀏覽器為使用者執行網頁操作：上網檢索、填寫表單，甚至直接在網站上採取行動——只需使用者輸入一句文字指令。

在安全層面，Google設定了嚴格限制——比如，當模型遇到驗證碼（CAPTCHA）時，它可以生成點選動作，但必須等待人工確認，不能私自越權。

換句話說，Gemini 2.5 已經具備“行動力”，但還處於“有安全帶的自由”階段。

皮查伊在社交平台 X 上發文稱：“目前還只是早期階段，但模型能夠與網頁互動——比如滾動、填寫表單、導航下拉菜單——這是建構通用智能體（general-purpose agents）的重要一步。”

不過，該模型目前尚未面向普通消費者開放。

但這並不影響大家對於該款模型的熱情。Hackernews上，網友的討論已經熱鬧了起來。

大家熱議的點在於，讓AI幫自己操作電腦或手機，的確有不少剛性需求，比如下面愛騎車聽播客的這位。

值得注意的是，OpenAI很早就開始了這方面的探索，今年年初，智能體Operator存取網站的例子讓人印象深刻。而在假期前，Anthropic 也發佈了最強版本的Claude Sonnet 4.5，computer use 也是其主打的宣傳點之一。

那麼，這次Google新發佈與Operator、Sonnet 4.5 相比，有何不同呢？

答案就是，Gemini 2.5 Computer Use 目前的核心能力聚焦在網頁與移動端介面操作：點選、輸入、滾動，並沒有支援直接建立檔案——它無法生成PPT、Excel或文件。

若需結構化輸出（如檔案），則需由開發者通過自訂程式碼或第三方工具處理。

但這反而讓它的定位更純粹：Gemini 2.5 是一個專門面向“介面互動自動化”的Agent，而不是一個全能的檔案助理。

｜工作原理：指令+截圖+操作記錄

由 Computer Use 模型驅動的智能體在一個“互動循環”中運行。每次循環中，它接收以下輸入：

使用者任務指令
當前介面截圖
歷史操作記錄

模型分析後輸出一個介面操作建議，比如點選按鈕或在輸入框中鍵入內容。

如任務涉及風險（例如購買行為），模型會請求使用者確認。

執行後，系統會擷取更新的介面截圖並重新輸入模型，循環持續，直到任務完成或被錯誤/安全機制中止。

模型使用專門的 computer_use 工具，可通過 Playwright 或 Browserbase 的沙盒環境整合到自訂系統中。

｜那裡可以體驗？

這次Google選擇了一家名為 Browserbase 的公司進行首批合作。

這家公司由前 Twilio 工程師 Paul Klein 於 2024 年初創立，提供專為 AI agent 和應用設計的虛擬“無頭瀏覽器”服務。所謂“無頭瀏覽器”，是指無需圖形介面（GUI）即可瀏覽網頁的瀏覽器——不過 Browserbase 為使用者顯示了一個可視化的網頁操作介面。

使用者現在可以在 Browserbase 網站上直接體驗 Gemini 2.5 Computer Use，並能與 OpenAI 或 Anthropic 的同類產品做對比——Browserbase 為此推出了一個新的“Browser Arena”比拚平台（但每次只能選一個競爭模型與 Gemini 同時對比）。

對於 AI 開發者而言，這款模型可通過 Gemini API（在 Google AI Studio） 和 Google Cloud 的 Vertex AI 模型平台獲取，用於快速原型開發。

｜實測：能選中摩托車的AI，秒過驗證

在媒體的早期測試中，Gemini 2.5 成功打開了泰勒·斯威夫特的官方網站，並精準描述了首頁展示的內容。

更有意思的是，在另一項任務中，它被要求在亞馬遜上尋找高評分的太陽能燈。途中遇到 Google 搜尋驗證碼“請選擇所有有摩托車的方格”時，Gemini 2.5 居然秒過——證明它能“看懂”並“選擇”。

雖然最終任務卡在後續頁面，但這已經算得上是一種質變：相較於之前的瀏覽索索，這次真真兒是一個能執行視覺與操作任務的系統。

｜性能評測

Google稱，Gemini 2.5 Computer Use 在多個介面操作基準測試中表現領先，超越了包括 Anthropic Claude Sonnet 和 OpenAI Agent 在內的主要競爭者。
測試由 Browserbase 與Google團隊共同進行。

部分結果如下：

Online-Mind2Web（Browserbase）：Gemini 2.5 得分 65.7%，Claude Sonnet 4 為 61.0%，OpenAI Agent 為 44.3%。
WebVoyager（Browserbase）：Gemini 2.5 得分 79.9%，Claude Sonnet 4 為 69.4%，OpenAI Agent 為 61.0%。
AndroidWorld（DeepMind）：Gemini 2.5 得分 69.7%，Claude Sonnet 4 為 62.1%；OpenAI 模型因訪問受限未能測評。
OSWorld：Gemini 暫不支援；競爭者最高成績為 61.4%。

Google補充稱，該模型延遲更低，在 UI 自動化與測試類場景中表現尤為出色。

｜企業級落地：Google自己也在用

Google稱，內部和外部多個團隊已在不同場景中使用該模型：

Google 支付團隊表示，該模型能恢復超過 60% 的失敗測試用例，顯著減少工程低效。
Autotab（第三方 AI agent 平台）稱該模型在複雜資料解析任務上性能提升達 18%。
Poke.com（主動式AI助手公司）指出，Gemini 模型在介面互動中速度比競品快 50%。
此外，該模型也被用於Google內部項目，如 Project Mariner、Firebase 測試代理，以及 Search 中的 AI 模式。

｜安全與約束：Google設定了多層安全帶

由於模型能直接控制軟體介面，Google強調採用多層安全機制：

每一步操作前都有安全服務審查。
開發者可設定系統級指令來阻止或強制確認特定行為。
模型內建安全防護，防止觸發敏感或違規操作。

例如，當模型遇到驗證碼（CAPTCHA）時，會生成點選動作，但標記為“需使用者確認”，防止自動繞過安全驗證。

｜價格政策：僅支援付費使用者

Gemini 2.5 Computer Use 的定價與標準版 Gemini 2.5 Pro 基本一致。

但在訪問層級與功能上有所不同：

Gemini 2.5 Pro 提供免費層，開發者可免費呼叫（受限於速率或配額），并包含輸入與輸出 token。
一旦超出配額或切換到付費層，按標準費率計費。
Gemini 2.5 Computer Use 則僅提供付費層，沒有免費訪問。

此外：

Pro 版支援“上下文快取”（每百萬 token 收費 $0.31）與“Google 搜尋接地”（每日1500次免費，之後每千次$35）。但 Computer Use 暫不支援這些功能。
在資料使用政策上，Computer Use 的付費使用不會用於改進Google產品，而 Pro 免費層的資料則默認用於模型最佳化（除非使用者選擇退出）。

總的來說，兩款模型的 token 成本相近，但開發者應依據訪問層、功能需求及資料政策選擇使用那一版本。

為什麼Google如此恐怖？

Google，又是Google。有沒有發現，Google已經在一次又一次浪潮中始終站在前沿？不管是現在大火的GenAI，還是更有未來想像力的量子計算。

為什麼Google創造了這麼多前沿貢獻？小編看來有這樣幾點：

首先，Google自誕生之初就有一種研究文化，天然會把科學家放在核心位置。

Google一開始就不是一家“純網際網路公司”，而是由兩個博士（拉里·佩奇和謝爾蓋·布林）在史丹佛實驗室裡創立的。這意味著它的DNA裡天然帶著“科研導向”——從論文出發解決實際問題。

據瞭解，Google Research 和 DeepMind 的團隊結構跟大學實驗室幾乎一模一樣，研究員們不以“交付KPI”為核心，而以“發表論文、推動領域前沿”為榮。

許多頂級科學家都願意留下來，因為他們在Google不僅能拿到頂薪，還能在工業界做出諾獎級的基礎科學突破。

其次，基礎科學投入超常。Google的研發支出是全世界最高之一（可以說是按國家級實驗室等級來燒錢的），單2024年就超過 430億美元，而其中很大一部分投入了沒有短期商業回報的項目，比如：量子計算（Google Quantum AI）、深度學習（Google Brain、DeepMind）、AI 晶片（TPU）、材料科學、生物資訊學（AlphaFold）等等。

而大家都知道，許多公司往往是把ROI放在第一位的。而Google他們的邏輯是：基礎科學一旦突破，未來的商業生態會自動生長出來（比如 AlphaFold→藥物發現、TPU→雲端運算）。

其次，當然這些也看得出來，也是Google的超前的科研佈局。Google每10年都會做幾次“豪賭”：

2010s：賭 AI → 成功（Google Brain、DeepMind）
2020s：賭 Quantum → 已見成果（量子霸權、2025諾獎）
2030s：可能賭 AGI 或 AI+生物、AI+能源

這種佈局讓Google總能站在下一個科學前沿的入口。諾獎得主的集中出現，正是這些“長線投注”的副產品。

第四點，開放協作 + 學術生態。

Google和學界的邊界非常模糊。它的研究員可以：

持續在 Nature、Science、NeurIPS 等頂會發論文；
兼任高校教授（比如 Devoret 在耶魯、Hassabis 在劍橋都有研究身份）；
與全球大學聯合培養博士後或實驗項目。

這讓Google成了學界的“延伸實驗室”——科學家不必離開科研生態就能獲得工業級資源。

第五點，文化層面上看，管理者皮查伊自帶的“科學信仰”。

大家可能不知道，Sundar Pichai 本人是材料科學出身的工程師，而非純商業背景的CEO。

他對科研的態度非常“寬容”——允許團隊做高風險、高成本的探索項目（比如 Waymo、Verily、Quantum AI）。

他常說一句話：“我們不做每一個可能賺錢的項目，只做那些能讓科學往前走的事。”

這句話其實解釋了Google的核心邏輯——科學帶來壟斷，創新是最好的護城河。 (51CTO技術堆疊)