GoogleI/O超全總結:AI搜尋大變樣,AR眼鏡復活,大模型全家桶升級,史上最貴訂閱費1800元

Google升級全系模型,展現通用AI助理終極形態。

智東西5月21日報導,今日凌晨,在一年一度的GoogleI/O開發者大會上,Google的AI大戲連番上演!

在長達2小時的主題演講上,GoogleCEO桑達爾·皮查伊攜一眾Google高層總共提到95次「Gemini」、92次「AI」

模型升級方面:Gemini 2.5 Pro新支援原生音訊輸出、Project Mariner的電腦使用功能、深度思考、高安全防護;視訊模型Veo 2新增原生音訊產生功能、Gemini 2.5 Flash在推理、程式設計和長上下文等關鍵指標上升級。全新發布模型包括:擴散語言模型Gemini Diffusion視訊生成模型Veo 3、影像生成模型Imagen 4。

谷歌也推出全新Gemini訂閱計畫:AI Pro用戶月付19.99美元(折合人民幣約144元),可使用Veo 2、Gemini 2.5 Pro等入門級產品;AI Ultra用戶月付249.99美元(折合人民幣約1804元),可擁有Veo 33的無限存取權模式。

這都指向一個目標:建立通用AI助理。谷歌DeepMind創辦人兼CEO戴密斯‧哈薩比斯(Demis Hassabis)稱,他們將Gemini打造成一個世界模型,是開發一種新型、更通用、更有用AI助理的關鍵一步。

谷歌展示了其通用AI助理的最新研究原型。在自行車維修場景中,Gemini可以幫助用戶查詢維修手冊、滾動到特定頁面、搜尋影片教學、主動提供實用信息,還可以撥打電話,查詢零件庫存情況,並幫助用戶下單。

其餘更新包括顛覆用戶搜尋體驗的AI Mode:根據用戶需求動態調整包含圖表、店鋪列表等的答案生成界面,在購物場景,AI Mode可根據用戶購買意圖定制購物界面,提供虛擬試穿、追踪用戶預期價位、代理結帳功能,其還集成了視覺搜索,用戶可以通過手機攝像頭實時搜索提問。 AI Mode現已向所有美國用戶推出。

同時,Google先前三大研究計畫獲得重大進展:Project Starline引進全新3D視訊通訊體驗、Project Astra能利用Gemini和攝影機來解決問題、Project Marina支援多工處理

大會尾聲,谷歌也現場示範了重量級安卓XR智慧眼鏡。

翻譯能力是這款眼鏡的亮點之一,不過測試時,可以明顯感覺到工作人員減慢了語速,谷歌安卓XR智能眼鏡僅正確翻譯了對話中的前半部分,之後出現了無法識別的問題


根據XREAL新聞稿披露,Google將與XREAL合作打造第二款安卓XR裝置Project Aura。

皮查伊透露,Gemini應用程式目前已經擁有超過4億月活用戶,超過700萬名開發者透過Gemini API進行開發。

谷歌今天放出的諸多AI大招,智東西帶你一文看盡。



01.

Gemini系列模型屠榜

谷歌產品每月處理token數一年增長50倍

Gemini時代,Google的模型和產品發布速度都比以往更快。上屆I/O大會至今,Google已經宣布10餘款模型重大突破、20餘款重大AI產品

自第一代Gemini模型發布以來,Gemini模型的Elo分數已提升300多分。程式設計方面,Gemini 2.5 Pro成為程式設計平台Cursor上年度成長最快的模型,每分鐘產出數十萬行被採納的程式碼。

在LMArena排行榜中,Gemini系列模型包辦了每秒產生輸出token數最高的前三名,且模型價格也在下降。

在全端基礎設施方面,Google第七代TPU Ironwood是首款專為大規模AI思考和推理工作負載而設計的TPU,其效能是上一代的10倍,每個Pod的運算能力達到42.5 exaFLOPS。

皮查伊提到谷歌大模型相關的幾組數據:

去年同期Google每月透過產品和API處理的token數量為9.7兆,目前其每月處理的token數達到480兆,一年內增長了約50倍;

超過700萬名開發者透過Gemini API進行開發,涵蓋GoogleAI Studio和Vertex AI兩大平台,較去年同期成長超過五倍,同時Vertex AI平台上的Gemini使用率較去年成長40倍;

Gemini應用程式目前擁有超過4億月活用戶,在Gemini應用程式中使用2.5 Pro版本的用戶使用量成長了45%;

在搜尋方面,AI概覽功能的每月用戶超15億。皮查伊認為AI Mode是搜尋領域的下一個重大進展,我們正處於AI平台轉型的新階段。

皮查伊也提到,Gemini已經通關精靈寶可夢,集齊8枚徽章獲得冠軍,「距離人工寶可夢智慧更進一步」。



02.

Gemini程式設計、語音、深度思考迎升級

DeepMind CEO揭秘終極願景

哈薩比斯提到,Gemini 2.5 Pro是Google迄今為止最聰明的模型,也是全球最強大的基礎模型。兩周前,Google發布了Gemini 2.5 Pro的預覽版,開發者用它實現了許多創意:例如將草圖轉化為互動應用、模擬完整3D城市等。

新版的Gemini 2.5 Pro在WebDev Arena程式設計排行榜登頂。谷歌也將他們去年發布的LearnLM(專為學習場景微調的模型)連接到Gemini 2.5 Pro模型,讓後者在解題等學習場景的能力進一步提升。

今天谷歌推出了輕量級車型Gemini 2.5 Flash的升級版。這款模型在推理、程式設計和長上下文等關鍵指標上實現提升,在大模型競技場的排名僅次於Gemini 2.5 Pro。升級版模型將於6月初全面開放,Pro版本隨後跟進,目前開發者已經可以在AI Studio搶先體驗。

Gemini也引進了更多的功能。增強版安全防護的可抵禦間接提示注入攻擊;思維摘要功能將模型思考過程可視化,便於調試;Gemini 2.5 Pro即將新增「思考預算」控件,開發者可控制模型思考的長度,從而平衡品質與成本。

Gemini 2.5 Pro和Gemini 2.5 Flash的文字轉語音功能支援多角色對話,可實現語調微妙變化、切換耳語模式、跨24種語言切換。

谷歌Gemini產品負責人Tulsee Doshi展現了Gemini 2.5 Pro的程式設計能力。現場,Gemini 2.5 Pro僅參考一張草圖就產生了完整的3D互動網頁,用時37秒就在原始網頁程式碼上完成修改。

Gemini 2.5 Pro現已在多款AI IDE平台(如Cursor等)中可用。谷歌昨天開啟公測的程式助理Jules也接入了Gemini 2.5 Pro,能獨立處理GitHub程式碼庫的複雜任務,將原本耗時數小時的工作縮短至分鐘級。

▲谷歌Jules用戶介面

在模型架構創新方面,Google將擴散模型技術應用於文字生成。全新的Gemini Diffusion實驗模型(擴散語言模型)的產生速度比Gemini 2.5 Flash快5倍。這款模型不僅能依序從左到右產生內容,還可以產生過程中快速迭代解決方案,並在生成過程中進行錯誤修正。

Google打造了Gemini 2.5的「深度思考(Deep Think)」模式,運用類AlphaGo的平行推理技術。這一模式已經在美國數學奧林匹克2025測試和Live Codebench編程測試取得不錯的效果,但由於需要額外安全評估,谷歌將先向可信測試者開放API。

哈薩克斯稱,Google未來的重點是將Gemini模型擴展為一個「世界模型」。模型對物理世界的理解能力,不僅對影片、3D生成至關重要,也是機器人技術突破的關鍵。為此,Google也特別微調了Gemini Robotics模型,能讓機器人學習抓取物件、遵循指令等任務,並且能夠即時適應新任務。

谷歌的終極願景是將Gemini打造成真正的通用AI助理(Universal AI Assistant),具備個人化、主動性和強大能力。



03.

Veo 3一次性生成超真實有聲視頻

每月花1800元才能體驗

多模態模型方面,Google發布了最新影像生成模型Imagen 4。 Imagen 4可以逼真地刻畫出複雜的織物、水滴和動物毛皮等物體。這款模型最高支援2K分辨率,圖片縱橫比和自由定制,其文字生成和排版能力也有明顯提升,給海報製作、PPT製作等生產級應用提供了更好的支持。

谷歌影片生成模型Veo 2新增了影片參考、相機控制、物件添加與刪除等功能,而最新發布的Veo 3實現了有聲影片的直接生成,能直接給城市街道場景的影片配上自然的噪音,或是直接生成人物之間的對話。此外,Veo 3在文字和圖像提示、現實世界物理和口型同步方面都表現出色。


Google為Veo打造了配套的AI電影製作工具Flow,此工具整合了Veo、Imagen和Gemini三款模型,可用於電影片段、場景和故事的創作。

音樂生成方面,Google進一步擴大了配套的音樂創作平台Music AI Sandbox的訪問權限,由Lyria 2音樂生成模型提供技術支援。谷歌還打造了互動式音樂生成模型Lyria Realtime,讓用戶可以即時互動地創建、控制音樂。

在大量AI生成內容出現之後,此類內容的識別也成為關鍵挑戰。谷歌於2023年推出了SynthID浮水印,迄今已為100億份AI生成的圖像、視訊、音訊和文字內容添加浮水印。今天,Google進一步發布了SynthID檢測器,這項驗證入口網站能幫助人們更方便地識別AI生成內容。

Gemini將推出Canvas功能,支援互動性的使用者協作。使用者描述需求後,Canvas可自動產生可分享的互動式內容,其他使用者也可以對此內容進行修改。

谷歌也推出了Gemini in Chrome,這是一款Chrome瀏覽器中內嵌的個人化助手,即時理解當前網頁內容與用戶所處的上下文。例如,在購物場景中,Gemini in Chrome可以幫助使用者快速比較商品評論、輔助決策。這項功能將於本周對美國用戶開放。

Gemini App中將內建上述一系列Google的媒體內容產生模型。



04.

聯手三星、高通共建安卓XR

現場示範智慧眼鏡回訊息、搜圖片

谷歌副總裁、安卓XR主管沙赫拉姆·伊扎迪(Shahram Izadi)稱,安卓平台現在正發生許多令人興奮的變化。上周,Google已經發布了安卓16和Wear OS 6兩大新一代作業系統,而今天發布的許多Gemini最新進展將很快登上安卓平台,不僅限於手機,還包括手錶、汽車和智慧電視。

而Google的安卓XR是Gemini時代的首個安卓平台,將支援從頭顯到智慧眼鏡等多種裝置類型,滿足不同使用場景的需求,如沉浸式觀影、遊戲和工作等。

目前,Google正與三星合作共建安卓XR,並與高通合作針對驍龍平台進行最佳化。自去年發布開發者預覽版以來,已有數百名開發者為該平台建立應用程式。

谷歌認為,智慧眼鏡是AI的理想載體。現場,Google工作人員和NBA球星「字母哥」一同展示了Google眼鏡原型機的使用體驗

天氣、時間、影像和訊息等資訊能以彩色形式顯示在Google眼鏡上,使用者可以直接透過語音指令讓安卓XR智慧眼鏡完成訊息回覆、開啟勿擾模式、影像檢索等操作。


這款眼鏡還具備一定的上下文記憶能力。在示範人員登上台後,Google眼鏡能回想起剛才在後台看到的咖啡究竟是什麼品牌的。

谷歌稱,他們與三星的合作關係將會提升至新的高度,從頭顯拓展至智慧眼鏡領域,雙方已經在合作開發軟體和參考硬體平台。

繼與三星合作的Project Moohan之後,Google的第二款安卓XR設備是與XREAL合作的Project Aura。這款智慧眼鏡使用了安卓XR的軟體堆疊和高通驍龍XR晶片,配備光學透視(OST)和虛擬透視(VST)顯示技術,擁有70度的視野,不過仍然採用了有線的設計。



05.

AI Mode支援上傳全身照虛擬試穿

追蹤低價代理結帳

自去年在I/O大會上推出以來,Google搜尋的AI Overviews月活用戶已達15億,在200多個國家和地區可用。

AI Overviews是Google Lens視覺搜尋成長的驅動力之一。 Google Lens搜尋次數的年增率為65%,今年已完成超過1,000億次視覺搜尋

為提供更沉浸式的AI搜尋體驗,Google推出了全新的「AI Mode」。 AI Mode以新分頁形式出現在搜尋介面中,其底座是Google基於Gemini 2.5定制的模型版本。

在這個模式下,其會針對使用者需求對答案進行整合並提供方便閱讀的答案形式,如附帶評分的飯店資訊、包含地圖概覽的答案等,同時,使用者也可以透過對話形式進行後續追問。這項功能今天開始在美國推出


AI Mode背後的關鍵技術是“查詢扇出(query fan-out)”,可跨子主題和多個資料來源同時發出多個相關搜索,然後將這些結果匯總在一起,提供易於理解的回應。

在個人化搜尋能力方面,AI Mode允許用戶引入更多偏好訊息,幫助用戶預定座位、進行所在地活動推薦等。對於用戶需要獲得更詳盡答案的問題,AI Mode能代表用戶發起數十次甚至數百次搜索,幾分鐘內產生一份專業級報告。

AI Mode在運動數據、金融分析的深度應用會於今年夏天推出。如讓其展示本賽季和上賽季使用魚棒球員的打擊率和上壘率,這個問題包含不同賽季、使用特定球棒的球員、打擊率、上壘率等多個要素。其會動態為使用者產生如圖表等適應使用者觀看的介面。

AI Mode也重塑了用戶的購物體驗,幫助用戶客製化瀏覽介面、虛擬試穿以及結帳

AI Mode將Gemini與購物圖譜相結合,擁有超過500億個產品,並附有評論、價格、顏色選項和可用性等詳細信息,同時會根據用戶特定需求定制產品瀏覽面板。

基於AI Mode,用戶選取衣服點擊「試穿」圖示、上傳全身照,就能進行虛擬試穿。這一效果由時尚定製圖像生成模型提供支持,該模型能夠理解人體結構和服裝的細微差別,例如不同面料在不同人體上的折疊、拉伸和懸垂效果。

同時,用戶在商品詳情上點擊“跟踪價格”,然後設置合適的尺碼、顏色以及期望的支付金額,AI Mode就會自動在不同網站監控降價信息,並向用戶發送降價通知,將商品添加到用戶購物車並通過Google Pay完成結帳。這項視覺購物、結帳功能將在未來幾個月內陸續推出。



06.

研究項目突破:3D視訊通話、視訊通話搜索

為Agent引入多工處理能力

皮查伊重點提到了目前正在改變Google產品的三個例子:

第一個專案是在Project Starline之上,Google推出一個以AI為核心的全新視訊通話平台Google Beam,該平台採用新一代視訊模型將2D視訊串流轉換為3D體驗,透過6台攝影機組成的陣列捕捉用戶動作,借助AI將這些視訊串流進行合併,實時處理呈現用戶影像,精度達毫米級,每秒60幀。谷歌與惠普合作的首批Google Beam設備將於今年稍後向其測試用戶推出。

此外,Google致力於將Project Starline的底層技術引入Google Meet視訊會議平台,包括即時語音翻譯功能。今天谷歌將直接在Google Meet中推出即時語音翻譯功能,訂閱用戶可以使用英語和西班牙語,未來幾周之內將會支援更多語言,今年稍後向企業用戶推出。

第二個專案是即時、多模態的AI助理專案Project Astra,如今Gemini Live已具備Project Astra的相機和螢幕分享功能,讓使用者可以暢聊所見的一切。

去年,Project Astra展示的即時視覺、螢幕分享和記憶功能已逐步整合到Gemini中,今天谷歌新增了更自然的原生語音互動和電腦控制功能。

Gemini Live API現已推出音訊視訊輸入和本地音訊輸出的預覽版本,開發者可以控制其語調、口音和說話風格。

Project Astra也可用於視障人士的輔助。谷歌示範了Project Astra如何幫助一位盲人音樂家完成現場演出。

第三個專案是Project Marina,這是一個能夠與網路互動並且完成任務的Agent,Google將Agent視為結合了先進AI模型智慧與工具存取能力的系統。

其中,電腦使用是一項讓Agent能與瀏覽器和其他軟體互動和操作的重要能力。谷歌引入了多任務處理能力,Project Marina可以同時監管十項任務,用戶展示一次任務,Agent還可以學會為未來類似的任務去製訂相應的計劃。

谷歌將透過Gemini API將Project Marina的電腦使用能力帶給開發者,今年夏天將開放給更廣大使用者。

Gemini SDK現在相容於MCP工具,Google會逐步將整體功能引入Google搜尋以及Gemini應用程式。


07.

結語:Google全面重塑搜索

瀏覽器體驗,劍指通用AI助手

哈薩比斯提到,在過去的十年中,Google為現代AI時代奠定了許多基礎,從率先提出所有大語言模型賴以構建的Transformer架構,到開發AlphaGo和AlphaZero等可以學習和規劃的智能體系統,並且已將這些技術應用於量子計算、數學、生命科學和算法發現領域的突破。

這也是其最新在年度開發者大會上宣布諸多更新的技術底座。谷歌在升級Gemini模型的同時,將更多的AI能力融入搜尋、Gmail和瀏覽器之中。同時,Google也預告了未來的重大舉措,包括改進視訊通話功能、打造更具感知力和對話能力的助手,以及合作開發智慧眼鏡。

這些都彰顯出Google作為科技巨頭雄厚的技術實力和廣泛的應用市場,並且在I/O大會上,谷歌也提到將在基礎研究上加倍投入,真正構建更個性化、更主動、更強大的AI。未來實現通用人工智慧(AGI)的下一個突破性技術或許會更快到來。(智東西)