谷歌7大模型22項AI大招轟炸！ 70秒影片產生、Gemini安卓合體、200萬tokens上下文

2024/05/15

•

智東西5月15日報道，今日凌晨，在一年一度的谷歌I/O開發者大會上，谷歌乾了一場AI硬仗！

在長達2小時的開幕式期間，GoogleCEO桑達爾·皮查伊攜一眾Google高層總共提到121次「AI」。 GoogleDeepMind的共同創辦人兼CEO戴密斯‧哈薩比斯首次在I/O大會上發表演講，順序僅次於皮查伊，足見AI大模型已經成Google的頭等大事。

在昨天OpenAI發動奇襲、推出幹掉傳統語音助理的旗艦模型GPT-4o後，作為「全球AI一哥+搜尋一哥」的谷歌，勢必得扳回一城，搏一搏誰才是AI賽道的頭號「大模王」。

這次，Google連珠炮般甩出了22項AI大招，包括公佈200萬tokens超長上下文Gemini 1.5 Pro進階版、Gemini 1.5 Flash輕量級模型、通用AI Agent、高質量文生圖模型Imagen 3 、AI音樂創作工具Music AI Sandbox、70秒影片生成模型Veo、首個視覺語言開放模型PaliGemma等多款模型，也劇透了下一代Gemma 2大模型。

Veo生成影片的部分片段：

其他大招包括第六代TPU、AI基礎設施、AI搜尋新功能、Google Workspace應用Gemini功能、Gemini Live多模態功能、Gemini自訂功能、Gemini Advanced、畫圈即搜功能、Gemini Nano新功能、安卓Gemini合體、AI輔助紅隊技術、擴展與開源SynthID文字浮水印等。

谷歌也展示了一系列AI系統，包括將視覺和語言轉化為機器人行動的RT-2、瀏覽複雜虛擬3D環境的SIMA、解決奧數問題的AlphaGeometry。

發表會開場，皮查伊稱目前有超150萬開發人員在使用Gemini模型，Google擁有20億用戶的產品都在使用Gemini，谷歌推出安卓和iOS上可用的應用程式直接與Gemini互動，3個月內已有超過100萬人註冊嘗試。

谷歌今天的諸多AI大招還有哪些精彩細節，這些技術又將如何深度影響產業，我們將帶你一文看盡。

未來通用AI Agent：
日常生活隨時答疑的超級助手

昨天OpenAI果然是有預謀的精準狙擊，率先亮出聊天絲滑宛如真人、具有炫酷實時視頻理解能力的旗艦模型GPT-4o，導致今天谷歌展示的未來AI助手Project Astra演示有點兒眼熟：

演示者打開手機鏡頭，邊走邊問相機捕捉到的現實場景中的問題。

例如要求“看到能發出聲音的東西就告訴我”，Gemini就會給出準確描述：“我看到一個音響發出聲音。”接著你可以在手機屏幕上畫出紅色箭頭，追問“音響的這部分叫什麼”，Gemini立即回复說這是“高頻揚聲器”並解釋它的用途。

再例如請Gemini給出創造性的頭韻體，它隨即根據畫面中的蠟筆給出回答：“Creative crayons color cheerfully. They certainly craft colorful creations.”

即時解答程式碼同樣不在話下。

甚至掃一眼周圍環境，Gemini就能推論出你住在哪個社區。

找不到東西也可以請求Gemini的幫助，問問它有沒有看見自己的眼鏡在哪兒，Gemini立即發現它在桌面上靠近一個紅蘋果的地方。

你還能直接現場板書，問在這裡可以添加什麼來使得系統更快，Gemini回覆說「在伺服器和資料庫之間添加快取可以提高速度」。

此外，問它看到這個畫面能想起什麼，Gemini能瞬間理解它指的是「薛丁格的貓」。

讓它為小狗和老虎玩偶的組合起個樂團名，Gemini給的建議是「金色條紋」。

8大AI模型/工具炸場！
最強文生圖、70秒影片產生、
200萬tokens超長上下文

1.Veo：全新影片生成模型，只需一個文字、圖像或影片提示，就能製作和編輯70秒以上不同視覺風格的高品質1080p影片。

OpenAI發布Sora後，影片大模型的熱度就一直居高不下，今天谷歌的Veo也算是正面硬剛Sora了。

用戶可以自訂各種風格模式，還能透過點擊增長時間，影片長度可以超過1分鐘。

從Veo產生的影片中我們可以看到，AI對空間中的物體關係是有理解的。例如車輛是如何在道路上行駛的，車輛之間的位置關係等等。

同時，Veo生成的影片鏡頭有不錯的一致性，人、動物、物體的移動顯得比較真實、自然。

谷歌說，Veo是他們在視訊生成領域技術的集大成製作，包含了多年來谷歌開發的生成查詢網絡（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等各類技術。

值得一提的是，Veo也能理解許多電影術語，例如「時光倒流（Timelapse）」。

在示範影片中，電影導演也用到了Veo，Veo幫他們把靈感變成現實，電影導演說，AI可以幫他們快速發現構思中的錯誤并快速糾正，提高效率。

谷歌稱，實現這些，需要讓AI模擬世界的物理法則，這是很關鍵的。

使用者可加入實驗室等待名單，在新實驗工具VideoFX中嘗試。

2、Imagen 3：Google迄今最高品質的文生圖模型，能更好理解文本，創造逼真圖像，能從草圖快速產生高解析度圖像。谷歌自信地說Imagen 3是目前最強大的影像生成模型。

Imagen 3產生的影像可達到「數毛」級別，具備非常多的畫面細節，同時其光影細節也非常震撼。

Imagen 3可以像人一樣理解世界，可以理解文字中的信息對應圖像中的哪一部分，並且具備上下文理解能力。

Imagen 3可以更好地理解自然語言，理解提示文字背後的意圖，例如它可以理解人物照片中的背景虛化效果、人物跟背景中植物和建築的關係。

3、Music AI Sandbox： AI音樂創作工具，可以改變音樂的創作方式，Google與音樂家、詞曲作者和製作人密切合作來幫助設計和測試這款工具。

在生成式音樂創作方面，Google透過Music AI Sandbox跟音樂家合作，音樂家可以直接把一段哼唱或彈奏的靈感片段發給AI，生成一首歌或一段真正的旋律。

音樂家說，AI就像一個朋友，讓你試試這個、試試那個，這可以解放他們的創造力，讓他們更有效率地創作音樂。

4、Gemini 1.5 Pro進階版：多模態，情境視窗擴展至200萬個tokens，改進程式碼產生、邏輯推理與規劃、多輪對話、音訊與影像理解能力，支援35種語言，面向全球開放。

上下文擴展到200萬個tokens，意味著它能夠處理1500頁PDF、30000行程式碼或是1小時的影片。 Gemini 1.5 Pro在翻譯、編碼、推理等方面，可處理更廣泛、更複雜的任務。

皮查伊宣布把Gemini 1.5 Pro的進階版開放給全球開發者使用。

Gemini 1.5 Pro即日起對GoogleWorkspace Labs開放，支援使用者在工作場景中獲得更多智慧功能。

皮查伊談道，多模態+上下文可以解鎖不少新功能。例如基於Gemini在GoogleGmail信箱中搜尋內容，人們可以問Gemini“小朋友最近在學校做什麼？”，Gemini就會去識別相關郵件及附件，給出一個關鍵要點的列表。

現場谷歌示範了NotebookLM的音訊概述功能，使用者只需將文字資料輸入進去，軟體即可基於Gemini Pro 1.5能力，產生豐富的音訊內容素材，就像整合成一個課本一樣，互動性、沉浸性較高。

**5、Gemini 1.5 Flash：**輕量級模型，針對低延遲和低成本任務（聊天應用、從長文檔提取資料等）進行了優化，成本效益更高，上下文視窗達100萬個tokens。

Gemini 1.5 Flash模型，相較於先前的Gemini 1.5 Pro，模型的特點是輕量級，支援快速、多模態、長上下文的推理。

價格方面，Gemini 1.5 Pro為7美元/100萬tokens，對於128k以下的輸入，將降價50%至3.5美元/100萬tokens；Gemini 1.5 Flash的價格為0.35美元/100萬tokens。

Gemini 1.5 Pro和Gemini 1.5 Flash這兩款型號的模型現已在200多個國家和地區提供預覽版，並將於6月全面上市。

6、PaliGemma： Google首個視覺語言開放模型，Gemma系列型號在輕量級7B和2B尺寸方面將提供業界領先的性能。

谷歌先前於2月推出開源模型Gemma，包含7B、2B兩種參數規模，在各大開源社群下載量已累積數百萬次。

今天，Google發布其首個視覺語言開放模型PaliGemma，基於SigLIP視覺模型和Gemma語言模型等開放組件構建，用於在各種視覺語言任務上實現一流的微調性能，包括圖像和短視頻字幕、視覺問答、理解影像中的文字、物件偵測和物件分割等。

7.Gemma 2搶先看：未來幾週將正式發布一個有270億個參數的模型版本。 Gemma 2 27B效能媲美Llama 3 70B，尺寸不到Llama 3 70B的一半，可在NVIDIA GPUs或Vertex AI單一TPU主機上運作。

Gemma 2還在進行預訓練。下圖展示了最新的Gemma 2檢查點的表現以及基準預訓練指標。

8. LearnLM：基於Gemini的新系列模型，對學習進行了微調，應用教育研究使谷歌搜尋、Gemini、YouTube等產品更加個人化、更活躍、更吸引學習者，將在未來幾個月發布。

AI搜尋走向多模態！發布最強AI安卓系統，
手機上就能圈圖提問文件

1.AI搜尋：到今年年底，Google搜尋的AI概覽將超過10億人。谷歌搜尋很快就會推出多輪推理能力，可將複雜問題分解處理，將原本需要幾分鐘甚至幾個小時的研究壓縮到在幾秒鐘內完成，還將支援在搜尋中對影片提問。

皮查伊宣布，Google即將開始向每位美國用戶推出基於Gemini改進的搜尋體驗，本週將向更多國家開放。

在Google照片方面，Gemini讓照片搜尋變得更容易。假設用戶在停車場準備付款但想不起自己的車牌號，他可以簡單地詢問Gemini，基於之前拍的照片告訴用戶車牌號碼。

基於此Google宣布推出AI Overviews工具，將陸續開放給美國及各國用戶。

谷歌AI Overviews功能相比傳統搜尋引擎的結果，其將為用戶呈現完整的包括觀點、見解、連結的答案。

谷歌搜尋負責人Liz Reid強調，Google的AI搜尋概述有三大獨特優勢：即時資訊、排名和品質系統、Gemini模型能力。

今天起，GoogleAI搜尋概述將在美國全面推出，後續推廣到更多國家和地區，今年內覆蓋10億用戶。

Reid稱，Google引入多步驟推理功能（Multi-step reasoning），把大問題分解為小部分，並判斷優先順序。

例如，使用者想找一個合適的皮拉提斯工作室，需要同時考慮時間、價格、距離等因素。用戶可以在Google搜尋輸入：在波士頓找到最好的瑜珈工作室，並顯示優惠詳情、從我家過去的步行時間。

谷歌搜尋將提煉整合出這些訊息，並呈現在AI搜尋概述中，為用戶節省數小時的時間。這項功能也適合用在旅遊、聚會等規劃上，或是餐飲計畫的客製化等。

例如“為團隊定制一個三天的餐飲計劃”，AI搜尋概述不僅能提供各類型的食譜，還能直接將食譜中用到的食材等導出成購物清單，這意味著用戶僅需提問，就能將所需的一切加入購物車。

此外，谷歌搜尋也將很快推出影片搜尋功能。例如可以透過拍攝電唱機，來取得故障排除相關的AI搜尋概述。

2.Google Workspace應用：側邊面板可使用Gemini 1.5 Pro模型，將使跨應用程式的工作變得更加容易，例如在Gmail中識別收據並在Drive和Sheets中組織收據，還可以透過資料問答讓Gemini幫你分析開支。

AI在我們的日常辦公中能有什麼妙用，這次谷歌在Workspace中增加了不少AI重磅新功能。

在郵件應用程式中，Gemini可以根據我們的需求總結郵件中的信息，例如家裡屋頂漏水了，Gemini可以幫你找到所有修復屋頂的公司發給你的郵件，按照各個公司的報價、可以服務的時間進對比。

Gemini可以找到價格相對合適，上門服務時間最快的合約商，我們確定後，Gemini還可以提供郵件回覆建議。

值得一提的是，Gemini是有理解語境能力的，AI知道之前的郵件中都說了什麼。

更進一步，在郵件應用程式中，Gemini還可以幫你追蹤所有訂單、相關收據，把這些郵件進行歸納整理，放到一個資料夾裡，然後把其中關鍵資訊整理進表格裡。

使用者可以直接選擇自動化工作流程，後面所有相關訂單郵件都會放到資料夾裡，關鍵資訊也會自動整理進表格。

我們也可以直接問Gemini「我的錢都花在哪裡了？」Gemini可以直接用圖表給你展示出來，讓你清楚地知道自己哪裡花銷最大。

此外，在公司辦公室協作場景中，Google還推出了一個「AI虛擬員工」功能，可以說是打造了一個「最強AI實習生」。

這個AI虛擬員工會有一個Workspace帳號，使用者可以自由命名、指派任務。

我們可以把這個AI虛擬員工放在各個工作群組裡，它可以在各個群組中提取訊息，找到關鍵資訊。

值得一提的是，這個AI員工可以有“集體記憶”，可以總結之前的一些工作重點，還可以把總結發送給相關人員。谷歌高層稱，以前需要幾個小時做的，現在AI幾分鐘的就可以做好。

可以說，這著實是最強AI企業實習生了。

3、Gemini Live：今年夏季將擴展Gemini的多模態功能，包括使用你的聲音進行深入的雙向對話的能力。

在Gemini APP中，Google推出Gemini Live功能，用戶可透過文字、語音或影像多種方式進行交互，直接與大模型進行對話，並能夠隨時打斷，可以打開攝影機使其「看到」周圍的世界並即時響應。

Gemini Live將在未來幾個月內，優先推出至Gemini Advanced訂閱用戶。

4.Gems： Gemini客製化功能，無論你需要瑜珈閨蜜或微積分導師，都可以客製化專屬的Gemini來以特定方式進行互動。

使用者可以透過簡單的指示打造個人專家，例如寫作教練、瑜珈老師、程式碼檢查器等。在建置過程中，使用者可直接選擇Google Drive中的檔案上傳。

Gemini還將連接更多Google工具，包括日曆、任務、郵件等，在這些應用程式中使用者能夠透過簡單的提示獲取AI體驗。

5.Gemini Advanced：今年夏季將新增旅行規劃功能，支援創建個人化的行程；即日起支援存取Gemini 1.5 Pro，具有100萬個tokens上下文窗口，可上傳多達1500頁的文件；接下來幾週內新增資料分析功能，上傳電子表格即可更快分析資料、製作圖表、發現見解。

6.畫圈即搜功能：在你的手機或平板電腦上圈出複雜的物理問題，就能獲得一步一步的指導，學習如何解決問題。

AI搜尋方面，畫圈即搜功能大家已經在三星的手機上看過了，例如畫圈找心儀的商品資訊。

今天谷歌為畫圈即搜增加了新能力，在學習過程中，用戶可以直接把不懂的問題圈出來，Gemini就會給用戶一步步的問題解答，可以說搖身一變成為最強輔導老師——谷歌圈讀機，哪裡不會圈哪裡。

谷歌稱，畫圈即搜後續面可以處理公式、複雜圖表，目前已經應用在1億台設備上，谷歌計劃把這個數字在年底翻倍。

7.安卓版Gemini新功能：安卓系統上的Gemini變得更有幫助，更有環境意識；今年稍後支援將生成的圖像拖放到Google Messages和Gmail中，也支援用戶直接在設備上詢問有關YouTube影片和PDF檔案的問題。

谷歌要怎麼做手機上的AI，今天答案有了：Google要做“系統級AI”，把Gemini用在安卓系統底層。這對於產業的重要意義不言而喻，所有安卓手機，可能都會享受這項「AI福利」。

谷歌說，他們要讓安卓成為體驗GoogleAI最強的行動平台。

對於“系統級AI”，Google進行了重點解讀。谷歌希望讓Gemini成為安卓體驗的基礎。

所以差別在哪？ Gemini在系統級層面運行，因此使用者不需要開啟應用程式。同時Gemini有了上下文感知能力，它知道你在做什麼，可以成為更有用的助手。

例如，Gemini可以幫用戶在聊天中產生有趣的表情包圖片，Gemini可以感知到用戶在看視頻，彈出提示，詢問是不是想了解關於這個視頻的問題，用戶可以直接詢問視頻中的細節，Gemini可以直接從影片中找到答案。

例如當朋友發過來一個關於匹克球規則的84頁的PDF，Gemini會檢測到，並詢問你是不是要了解這個PDF，你可以把PDF直接甩給Gemini，它就會成為一個匹克球的「運動專家”，用戶問什麼規則，它都可以解答。

這種系統級AI具備上下文感知能力，可以提供更即時的時幫助。谷歌特別強調說，這些體驗只在安卓上可用——Only on Android。

這下，壓力給了蘋果。

谷歌把AI直接嵌入了作業系統中，稱這是首個內建端側AI的行動作業系統。

谷歌預告稱，今年晚些時候，Gemini Nano的功能將在Pixel系列手機上落地。

對於視障人士，TalkBack讀屏功能，此次升級了多模態能力，可以更加清晰的描述一張圖片，例如服裝的款式，這些功能都是端側實現的，不需要聯網。

谷歌也發布了另一個端側AI的應用，預防電話詐騙。手機發現用戶接打有風險的陌生的來電時，會直接發出警告，告訴用戶這個電話可能是詐騙電話。

所以Google要做什麼，Google要做的就是以Gemini為核心的安卓。

這些功能會在安卓15 Beta 2版本中落地。

8.Gemini Nano新功能：多模態功能很快將上線，使手機可以透過文字、視覺、聲音和口語來理解世界；今年稍後安卓輔助功能TalkBack將在Gemini Nano上得到提升，圖像描述將更清晰、更豐富，幫助低視力和盲人用戶透過語音回饋更好地導航他們的手機；安卓一旦檢測到可疑活動，就會在通話過程中發出警告，例如被要求提供社會安全號碼和銀行資訊。

第六代TPU晶片來了！
訓練agents提高AI安全

1.第六代TPU： Google迄今效能最高、最節能的TPU，相比上一代TPU v5e，每顆晶片的峰值運算效能提高了4.7倍，節能67%以上，HBM容量和頻寬提高1倍，Interchip Interconnect頻寬提高1倍，可在單一高頻寬、低延遲POD中擴展到256個TPU，還配備了專門用於處理高級排名和推薦工作負載中常見的超大型嵌入的專用加速器第三代SparseCore。

Trillium配備的第三代SparseCore加速器，可以更快地訓練基礎模型，並提供更低的延遲和成本。

Trillium在單一高頻寬、低延遲pod中可擴展至256個TPU，利用Multislice技術和Titanium 智慧處理單元（IPU），Trillium還可以擴展到數百個pod，透過每秒數萬位元的資料中心網路互聯，將數萬個晶片連接到樓宇級超級電腦中。

第六代TPU Trillium將於今年稍晚上市，此外Pichai也透露，Google將與英偉達合作，在2025年推出Blackwell平台。

2.AI基礎設施：從AI超算到跨越200多英里陸地和海底光纖的海底電纜網絡，Google持續投資推進AI創新，投資世界一流的基礎設施。

3.AI輔助紅隊：使用GoogleDeepMind的AlphaGo開發的一種新技術，訓練agents相互競爭，提高紅隊能力，這有助於對抗提示並限制有問題的輸出。

4.擴展SynthID浮水印功能： Google去年推出的SynthID為AI生成的圖像和音訊添加了難以察覺的水印，使它們更易區分，今天谷歌將SynthID擴展到Gemini應用和web體驗中的文本輸出，並在全新影片生成模型Veo中對影片進行浮水印。接下來幾個月也將開源用於文字浮水印的SynthID。

5.擴展負責任的生成式AI工具包：透過發布開源的大語言模型比較器（一種新的互動式和視覺化工具），幫助開發人員進行更健壯的模型評估，有效並行評估模型品質與安全性。

結論：生成式AI落地酣戰在即！
谷歌用Gemini重塑搜尋

「Google搜尋是人類浩瀚好奇心的生成式AI——這是我們搜尋領域最激動人心的篇章。」皮查伊在谷歌I/O大會上激情洋溢地說。

在OpenAI ChatGPT點燃生成式AI的熱焰時，昔日AI老大哥谷歌因為反應遲鈍外加「翻車」事件，淪為了頂尖AI大模型競賽裡的追趕者。隨後Google重燃AI鬥志，不斷打磨Gemini大模型，並在本屆I/O大會上從「AI軍火庫」中狂掏武器秀實力。

無論是包括Gemma 2、Gemini 1.5 Flash、Imagen 3、Veo等新模型在內的一系列創新，透過文字、語音、視訊、圖片等多模態的搜尋方式升級，或是為下一代AI模型與agents提供更快、更低延遲訓練和服務動力的客製化AI專用晶片與基礎設施，Google揭露了這一系列進展，都彰顯出巨頭雄厚的技術實力和廣泛的應用市場。

在激烈的生成式AI競賽中，OpenAI並非一騎絕塵，最終贏家是誰還有相當多的變數。(智東西)

谷歌7大模型22項AI大招轟炸！ 70秒影片產生、Gemini安卓合體、200萬tokens上下文

未來通用AI Agent：日常生活隨時答疑的超級助手

8大AI模型/工具炸場！最強文生圖、70秒影片產生、200萬tokens超長上下文

AI搜尋走向多模態！發布最強AI安卓系統，手機上就能圈圖提問文件

第六代TPU晶片來了！訓練agents提高AI安全

結論：生成式AI落地酣戰在即！谷歌用Gemini重塑搜尋

未來通用AI Agent：
日常生活隨時答疑的超級助手

8大AI模型/工具炸場！
最強文生圖、70秒影片產生、
200萬tokens超長上下文

AI搜尋走向多模態！發布最強AI安卓系統，
手機上就能圈圖提問文件

第六代TPU晶片來了！
訓練agents提高AI安全

結論：生成式AI落地酣戰在即！
谷歌用Gemini重塑搜尋