霸氣的Google又贏了!

剛剛過去的24小時,是Google又一次的高光時刻。

今天的Google,發生了兩件大事。

兩年,5位得主

諾獎再一次花落Google系

不到9個小時前,GoogleCEO皮查伊驕傲的心情再一次藏不住了。

當得知自家量子AI實驗室的兩位大佬又一次獲得了諾貝爾物理學獎時,他忍不住在X上置頂了一條推文。

“祝賀 Michel Devoret、John Martinis 和 John Clarke 獲得諾貝爾物理學獎。🔬🥼

Michel 是我們量子 AI 實驗室的硬體首席科學家,John Martinis 多年來一直領導該實驗室的硬體團隊。

他們在上世紀 80 年代量子力學領域的開創性研究,使得如今的突破成為可能,也為未來可實現誤差校正的量子電腦奠定了基礎。

我昨天剛在聖塔芭芭拉的量子實驗室看到令人驚嘆的進展,希望他們今天能好好慶祝。今早感到無比幸運——能在一家擁有 5 位諾貝爾獎得主的公司工作,而且僅兩年就拿下了 3 個獎項!

去年的諾獎的得主還記得嗎,辛頓和現任DeepMind CEO Demis,這兩位也都是Google系的。

小編這就幫大家梳理下,近兩年,Google有那些諾貝爾獎得主(現任或校友)。

1. Geoffrey Hinton

  • 所屬:曾在 Google Brain 工作。
  • 獲獎情況:2024 年諾貝爾物理學獎。
  • 獎項理由:因其在機器學習與神經網路方面的基礎性發現與發明,這些發現與發明使現代人工智慧尤其是深度學習成為可能。

2. Demis Hassabis

  • 所屬:Google DeepMind 的聯合創始人兼 CEO。
  • 獲獎情況:2024 年諾貝爾化學獎。
  • 獎項理由:與 John Jumper 等一起通過 AI 模型(AlphaFold2)預測幾乎所有已知蛋白質結構,解決了生命科學中長期未解的蛋白質結構預測問題。

3. John Jumper

  • 所屬:Google DeepMind 的資深研究科學家。
  • 獲獎情況:與 Hassabis 共同獲得 2024 年諾貝爾化學獎。
  • 獎項理由:同上,參與 AlphaFold2 項目,蛋白質結構預測。

4. Michel Devoret

  • 所屬:現為 Google Quantum AI 的硬體首席科學家。
  • 獲獎情況:2025 年諾貝爾物理學獎。
  • 獲獎理由:他與 John Martinis, John Clarke 等人的研究在 1980 年代展示了宏觀量子隧穿現象,在電路中觀察到量子能級的量子化,為超導量子位元和量子電腦的硬體基礎奠定了基礎。

5. John Martinis

  • 所屬:曾長期領導 Google 的量子硬體團隊(Google Quantum AI)。
  • 獲獎情況:2025 年諾貝爾物理學獎,與 Michel Devoret 和 John Clarke 共同獲得。
  • 獲獎原因:同上,參與上述宏觀量子效應的實驗與電子電路的設計。

Google發佈最新版本:電腦使用(computer-use)模型

今天,讓皮查伊高興的另一件事,則是其DeepMind實驗室發佈的最新Gemini 2.5 Pro的版本: “Gemini 2.5 Pro Computer Use”

顧名思義,它並不是一個普通的聊天模型。這一版本專門強化了與使用者介面的直接互動能力,包括網頁與移動端應用。

它會“看螢幕”,系統會給它網頁截圖、歷史操作記錄,然後讓它決定下一步該點選那裡、輸入什麼。這一循環持續進行,直到任務完成或出現錯誤。

據Googleblog中介紹,該模型經過了專門微調與定製訓練,可以通過虛擬瀏覽器為使用者執行網頁操作:上網檢索、填寫表單,甚至直接在網站上採取行動——只需使用者輸入一句文字指令。

在安全層面,Google設定了嚴格限制——比如,當模型遇到驗證碼(CAPTCHA)時,它可以生成點選動作,但必須等待人工確認,不能私自越權。

換句話說,Gemini 2.5 已經具備“行動力”,但還處於“有安全帶的自由”階段。

皮查伊在社交平台 X 上發文稱:“目前還只是早期階段,但模型能夠與網頁互動——比如滾動、填寫表單、導航下拉菜單——這是建構通用智能體(general-purpose agents)的重要一步。”

不過,該模型目前尚未面向普通消費者開放

但這並不影響大家對於該款模型的熱情。Hackernews上,網友的討論已經熱鬧了起來。

大家熱議的點在於,讓AI幫自己操作電腦或手機,的確有不少剛性需求,比如下面愛騎車聽播客的這位。

值得注意的是,OpenAI很早就開始了這方面的探索,今年年初,智能體Operator存取網站的例子讓人印象深刻。而在假期前,Anthropic 也發佈了最強版本的Claude Sonnet 4.5,computer use 也是其主打的宣傳點之一。

那麼,這次Google新發佈與Operator、Sonnet 4.5 相比,有何不同呢?

答案就是,Gemini 2.5 Computer Use 目前的核心能力聚焦在網頁與移動端介面操作:點選、輸入、滾動,並沒有支援直接建立檔案——它無法生成PPT、Excel或文件。

若需結構化輸出(如檔案),則需由開發者通過自訂程式碼或第三方工具處理。

但這反而讓它的定位更純粹:Gemini 2.5 是一個專門面向“介面互動自動化”的Agent,而不是一個全能的檔案助理。

|工作原理:指令+截圖+操作記錄

由 Computer Use 模型驅動的智能體在一個“互動循環”中運行。每次循環中,它接收以下輸入:

  1. 使用者任務指令
  2. 當前介面截圖
  3. 歷史操作記錄

模型分析後輸出一個介面操作建議,比如點選按鈕或在輸入框中鍵入內容。

如任務涉及風險(例如購買行為),模型會請求使用者確認。

執行後,系統會擷取更新的介面截圖並重新輸入模型,循環持續,直到任務完成或被錯誤/安全機制中止。

模型使用專門的 computer_use 工具,可通過 Playwright 或 Browserbase 的沙盒環境整合到自訂系統中。

|那裡可以體驗?

這次Google選擇了一家名為 Browserbase 的公司進行首批合作。

這家公司由前 Twilio 工程師 Paul Klein 於 2024 年初創立,提供專為 AI agent 和應用設計的虛擬“無頭瀏覽器”服務。所謂“無頭瀏覽器”,是指無需圖形介面(GUI)即可瀏覽網頁的瀏覽器——不過 Browserbase 為使用者顯示了一個可視化的網頁操作介面。

使用者現在可以在 Browserbase 網站上直接體驗 Gemini 2.5 Computer Use,並能與 OpenAI 或 Anthropic 的同類產品做對比——Browserbase 為此推出了一個新的“Browser Arena”比拚平台(但每次只能選一個競爭模型與 Gemini 同時對比)。

對於 AI 開發者而言,這款模型可通過 Gemini API(在 Google AI Studio) 和 Google Cloud 的 Vertex AI 模型平台獲取,用於快速原型開發。

|實測:能選中摩托車的AI,秒過驗證

在媒體的早期測試中,Gemini 2.5 成功打開了泰勒·斯威夫特的官方網站,並精準描述了首頁展示的內容。

更有意思的是,在另一項任務中,它被要求在亞馬遜上尋找高評分的太陽能燈。途中遇到 Google 搜尋驗證碼“請選擇所有有摩托車的方格”時,Gemini 2.5 居然秒過——證明它能“看懂”並“選擇”。

雖然最終任務卡在後續頁面,但這已經算得上是一種質變:相較於之前的瀏覽索索,這次真真兒是一個能執行視覺與操作任務的系統。

|性能評測

Google稱,Gemini 2.5 Computer Use 在多個介面操作基準測試中表現領先,超越了包括 Anthropic Claude Sonnet 和 OpenAI Agent 在內的主要競爭者。
測試由 Browserbase 與Google團隊共同進行。

部分結果如下:

  • Online-Mind2Web(Browserbase):Gemini 2.5 得分 65.7%,Claude Sonnet 4 為 61.0%,OpenAI Agent 為 44.3%。
  • WebVoyager(Browserbase):Gemini 2.5 得分 79.9%,Claude Sonnet 4 為 69.4%,OpenAI Agent 為 61.0%。
  • AndroidWorld(DeepMind):Gemini 2.5 得分 69.7%,Claude Sonnet 4 為 62.1%;OpenAI 模型因訪問受限未能測評。
  • OSWorld:Gemini 暫不支援;競爭者最高成績為 61.4%。

Google補充稱,該模型延遲更低,在 UI 自動化與測試類場景中表現尤為出色。

|企業級落地:Google自己也在用

Google稱,內部和外部多個團隊已在不同場景中使用該模型:

  • Google 支付團隊表示,該模型能恢復超過 60% 的失敗測試用例,顯著減少工程低效。
  • Autotab(第三方 AI agent 平台)稱該模型在複雜資料解析任務上性能提升達 18%。
  • Poke.com(主動式AI助手公司)指出,Gemini 模型在介面互動中速度比競品快 50%。
  • 此外,該模型也被用於Google內部項目,如 Project Mariner、Firebase 測試代理,以及 Search 中的 AI 模式。

|安全與約束:Google設定了多層安全帶

由於模型能直接控制軟體介面,Google強調採用多層安全機制:

  • 每一步操作前都有安全服務審查。
  • 開發者可設定系統級指令來阻止或強制確認特定行為。
  • 模型內建安全防護,防止觸發敏感或違規操作。

例如,當模型遇到驗證碼(CAPTCHA)時,會生成點選動作,但標記為“需使用者確認”,防止自動繞過安全驗證。

|價格政策:僅支援付費使用者

Gemini 2.5 Computer Use 的定價與標準版 Gemini 2.5 Pro 基本一致。

但在訪問層級與功能上有所不同:

  • Gemini 2.5 Pro 提供免費層,開發者可免費呼叫(受限於速率或配額),并包含輸入與輸出 token。
  • 一旦超出配額或切換到付費層,按標準費率計費。
  • Gemini 2.5 Computer Use 則僅提供付費層,沒有免費訪問。

此外:

  • Pro 版支援“上下文快取”(每百萬 token 收費 $0.31)與“Google 搜尋接地”(每日1500次免費,之後每千次$35)。但 Computer Use 暫不支援這些功能。
  • 在資料使用政策上,Computer Use 的付費使用不會用於改進Google產品,而 Pro 免費層的資料則默認用於模型最佳化(除非使用者選擇退出)。

總的來說,兩款模型的 token 成本相近,但開發者應依據訪問層、功能需求及資料政策選擇使用那一版本。

為什麼Google如此恐怖?

Google,又是Google。有沒有發現,Google已經在一次又一次浪潮中始終站在前沿?不管是現在大火的GenAI,還是更有未來想像力的量子計算。

為什麼Google創造了這麼多前沿貢獻?小編看來有這樣幾點:

首先,Google自誕生之初就有一種研究文化,天然會把科學家放在核心位置。

Google一開始就不是一家“純網際網路公司”,而是由兩個博士(拉里·佩奇和謝爾蓋·布林)在史丹佛實驗室裡創立的。這意味著它的DNA裡天然帶著“科研導向”——從論文出發解決實際問題。

據瞭解,Google Research 和 DeepMind 的團隊結構跟大學實驗室幾乎一模一樣,研究員們不以“交付KPI”為核心,而以“發表論文、推動領域前沿”為榮。

許多頂級科學家都願意留下來,因為他們在Google不僅能拿到頂薪,還能在工業界做出諾獎級的基礎科學突破

其次,基礎科學投入超常。Google的研發支出是全世界最高之一(可以說是按國家級實驗室等級來燒錢的),單2024年就超過 430億美元,而其中很大一部分投入了沒有短期商業回報的項目,比如:量子計算(Google Quantum AI)、深度學習(Google Brain、DeepMind)、AI 晶片(TPU)、材料科學、生物資訊學(AlphaFold)等等。

而大家都知道,許多公司往往是把ROI放在第一位的。而Google他們的邏輯是:基礎科學一旦突破,未來的商業生態會自動生長出來(比如 AlphaFold→藥物發現、TPU→雲端運算)。

其次,當然這些也看得出來,也是Google的超前的科研佈局。Google每10年都會做幾次“豪賭”:

  • 2010s:賭 AI → 成功(Google Brain、DeepMind)
  • 2020s:賭 Quantum → 已見成果(量子霸權、2025諾獎)
  • 2030s:可能賭 AGI 或 AI+生物、AI+能源

這種佈局讓Google總能站在下一個科學前沿的入口。諾獎得主的集中出現,正是這些“長線投注”的副產品。

第四點,開放協作 + 學術生態。

Google和學界的邊界非常模糊。它的研究員可以:

  • 持續在 NatureScienceNeurIPS 等頂會發論文;
  • 兼任高校教授(比如 Devoret 在耶魯、Hassabis 在劍橋都有研究身份);
  • 與全球大學聯合培養博士後或實驗項目。

這讓Google成了學界的“延伸實驗室”——科學家不必離開科研生態就能獲得工業級資源。

第五點,文化層面上看,管理者皮查伊自帶的“科學信仰”。

大家可能不知道,Sundar Pichai 本人是材料科學出身的工程師,而非純商業背景的CEO。

他對科研的態度非常“寬容”——允許團隊做高風險、高成本的探索項目(比如 Waymo、Verily、Quantum AI)。

他常說一句話:“我們不做每一個可能賺錢的項目,只做那些能讓科學往前走的事。”

這句話其實解釋了Google的核心邏輯——科學帶來壟斷,創新是最好的護城河。 (51CTO技術堆疊)