剛剛過去的24小時,是Google又一次的高光時刻。
今天的Google,發生了兩件大事。
不到9個小時前,GoogleCEO皮查伊驕傲的心情再一次藏不住了。
當得知自家量子AI實驗室的兩位大佬又一次獲得了諾貝爾物理學獎時,他忍不住在X上置頂了一條推文。
“祝賀 Michel Devoret、John Martinis 和 John Clarke 獲得諾貝爾物理學獎。🔬🥼
Michel 是我們量子 AI 實驗室的硬體首席科學家,John Martinis 多年來一直領導該實驗室的硬體團隊。
他們在上世紀 80 年代量子力學領域的開創性研究,使得如今的突破成為可能,也為未來可實現誤差校正的量子電腦奠定了基礎。
我昨天剛在聖塔芭芭拉的量子實驗室看到令人驚嘆的進展,希望他們今天能好好慶祝。今早感到無比幸運——能在一家擁有 5 位諾貝爾獎得主的公司工作,而且僅兩年就拿下了 3 個獎項!”
去年的諾獎的得主還記得嗎,辛頓和現任DeepMind CEO Demis,這兩位也都是Google系的。
小編這就幫大家梳理下,近兩年,Google有那些諾貝爾獎得主(現任或校友)。
1. Geoffrey Hinton
2. Demis Hassabis
3. John Jumper
4. Michel Devoret
5. John Martinis
今天,讓皮查伊高興的另一件事,則是其DeepMind實驗室發佈的最新Gemini 2.5 Pro的版本: “Gemini 2.5 Pro Computer Use”。
顧名思義,它並不是一個普通的聊天模型。這一版本專門強化了與使用者介面的直接互動能力,包括網頁與移動端應用。
它會“看螢幕”,系統會給它網頁截圖、歷史操作記錄,然後讓它決定下一步該點選那裡、輸入什麼。這一循環持續進行,直到任務完成或出現錯誤。
據Googleblog中介紹,該模型經過了專門微調與定製訓練,可以通過虛擬瀏覽器為使用者執行網頁操作:上網檢索、填寫表單,甚至直接在網站上採取行動——只需使用者輸入一句文字指令。
在安全層面,Google設定了嚴格限制——比如,當模型遇到驗證碼(CAPTCHA)時,它可以生成點選動作,但必須等待人工確認,不能私自越權。
換句話說,Gemini 2.5 已經具備“行動力”,但還處於“有安全帶的自由”階段。
皮查伊在社交平台 X 上發文稱:“目前還只是早期階段,但模型能夠與網頁互動——比如滾動、填寫表單、導航下拉菜單——這是建構通用智能體(general-purpose agents)的重要一步。”
不過,該模型目前尚未面向普通消費者開放。
但這並不影響大家對於該款模型的熱情。Hackernews上,網友的討論已經熱鬧了起來。
大家熱議的點在於,讓AI幫自己操作電腦或手機,的確有不少剛性需求,比如下面愛騎車聽播客的這位。
值得注意的是,OpenAI很早就開始了這方面的探索,今年年初,智能體Operator存取網站的例子讓人印象深刻。而在假期前,Anthropic 也發佈了最強版本的Claude Sonnet 4.5,computer use 也是其主打的宣傳點之一。
那麼,這次Google新發佈與Operator、Sonnet 4.5 相比,有何不同呢?
答案就是,Gemini 2.5 Computer Use 目前的核心能力聚焦在網頁與移動端介面操作:點選、輸入、滾動,並沒有支援直接建立檔案——它無法生成PPT、Excel或文件。
若需結構化輸出(如檔案),則需由開發者通過自訂程式碼或第三方工具處理。
但這反而讓它的定位更純粹:Gemini 2.5 是一個專門面向“介面互動自動化”的Agent,而不是一個全能的檔案助理。
由 Computer Use 模型驅動的智能體在一個“互動循環”中運行。每次循環中,它接收以下輸入:
模型分析後輸出一個介面操作建議,比如點選按鈕或在輸入框中鍵入內容。
如任務涉及風險(例如購買行為),模型會請求使用者確認。
執行後,系統會擷取更新的介面截圖並重新輸入模型,循環持續,直到任務完成或被錯誤/安全機制中止。
模型使用專門的 computer_use 工具,可通過 Playwright 或 Browserbase 的沙盒環境整合到自訂系統中。
這次Google選擇了一家名為 Browserbase 的公司進行首批合作。
這家公司由前 Twilio 工程師 Paul Klein 於 2024 年初創立,提供專為 AI agent 和應用設計的虛擬“無頭瀏覽器”服務。所謂“無頭瀏覽器”,是指無需圖形介面(GUI)即可瀏覽網頁的瀏覽器——不過 Browserbase 為使用者顯示了一個可視化的網頁操作介面。
使用者現在可以在 Browserbase 網站上直接體驗 Gemini 2.5 Computer Use,並能與 OpenAI 或 Anthropic 的同類產品做對比——Browserbase 為此推出了一個新的“Browser Arena”比拚平台(但每次只能選一個競爭模型與 Gemini 同時對比)。
對於 AI 開發者而言,這款模型可通過 Gemini API(在 Google AI Studio) 和 Google Cloud 的 Vertex AI 模型平台獲取,用於快速原型開發。
在媒體的早期測試中,Gemini 2.5 成功打開了泰勒·斯威夫特的官方網站,並精準描述了首頁展示的內容。
更有意思的是,在另一項任務中,它被要求在亞馬遜上尋找高評分的太陽能燈。途中遇到 Google 搜尋驗證碼“請選擇所有有摩托車的方格”時,Gemini 2.5 居然秒過——證明它能“看懂”並“選擇”。
雖然最終任務卡在後續頁面,但這已經算得上是一種質變:相較於之前的瀏覽索索,這次真真兒是一個能執行視覺與操作任務的系統。
Google稱,Gemini 2.5 Computer Use 在多個介面操作基準測試中表現領先,超越了包括 Anthropic Claude Sonnet 和 OpenAI Agent 在內的主要競爭者。
測試由 Browserbase 與Google團隊共同進行。
部分結果如下:
Google補充稱,該模型延遲更低,在 UI 自動化與測試類場景中表現尤為出色。
Google稱,內部和外部多個團隊已在不同場景中使用該模型:
由於模型能直接控制軟體介面,Google強調採用多層安全機制:
例如,當模型遇到驗證碼(CAPTCHA)時,會生成點選動作,但標記為“需使用者確認”,防止自動繞過安全驗證。
Gemini 2.5 Computer Use 的定價與標準版 Gemini 2.5 Pro 基本一致。
但在訪問層級與功能上有所不同:
此外:
總的來說,兩款模型的 token 成本相近,但開發者應依據訪問層、功能需求及資料政策選擇使用那一版本。
Google,又是Google。有沒有發現,Google已經在一次又一次浪潮中始終站在前沿?不管是現在大火的GenAI,還是更有未來想像力的量子計算。
為什麼Google創造了這麼多前沿貢獻?小編看來有這樣幾點:
首先,Google自誕生之初就有一種研究文化,天然會把科學家放在核心位置。
Google一開始就不是一家“純網際網路公司”,而是由兩個博士(拉里·佩奇和謝爾蓋·布林)在史丹佛實驗室裡創立的。這意味著它的DNA裡天然帶著“科研導向”——從論文出發解決實際問題。
據瞭解,Google Research 和 DeepMind 的團隊結構跟大學實驗室幾乎一模一樣,研究員們不以“交付KPI”為核心,而以“發表論文、推動領域前沿”為榮。
許多頂級科學家都願意留下來,因為他們在Google不僅能拿到頂薪,還能在工業界做出諾獎級的基礎科學突破。
其次,基礎科學投入超常。Google的研發支出是全世界最高之一(可以說是按國家級實驗室等級來燒錢的),單2024年就超過 430億美元,而其中很大一部分投入了沒有短期商業回報的項目,比如:量子計算(Google Quantum AI)、深度學習(Google Brain、DeepMind)、AI 晶片(TPU)、材料科學、生物資訊學(AlphaFold)等等。
而大家都知道,許多公司往往是把ROI放在第一位的。而Google他們的邏輯是:基礎科學一旦突破,未來的商業生態會自動生長出來(比如 AlphaFold→藥物發現、TPU→雲端運算)。
其次,當然這些也看得出來,也是Google的超前的科研佈局。Google每10年都會做幾次“豪賭”:
這種佈局讓Google總能站在下一個科學前沿的入口。諾獎得主的集中出現,正是這些“長線投注”的副產品。
Google和學界的邊界非常模糊。它的研究員可以:
這讓Google成了學界的“延伸實驗室”——科學家不必離開科研生態就能獲得工業級資源。
大家可能不知道,Sundar Pichai 本人是材料科學出身的工程師,而非純商業背景的CEO。
他對科研的態度非常“寬容”——允許團隊做高風險、高成本的探索項目(比如 Waymo、Verily、Quantum AI)。
他常說一句話:“我們不做每一個可能賺錢的項目,只做那些能讓科學往前走的事。”
這句話其實解釋了Google的核心邏輯——科學帶來壟斷,創新是最好的護城河。 (51CTO技術堆疊)