谷歌I/O主題演講（2024）

2024/05/16

•

就像OpenAI一樣，Google在多模態和更長的上下文視窗方面取得了重大進展。但Google眾多產品升級的多樣性讓人既著迷又感到困惑。 Google不僅在現有產品中引進了AI，也推出了許多新的AI相關產品。

如果大型語言模型（LLM）要超越簡單的問答功能，它們需要：
1. 一套真正能影響現實世界的工具
2. 記住它們所採取行動的記憶庫
3. 進行錯誤糾正的自動批評演算法
然後才能成為一個真正的代理。

下載《創始人和運營商構建代理的技術指南》報告。

Towards the AI Ecosystem PDF.pdf

Google Search能透過SGE重塑自己嗎？ Google Search Generative Experience是一套將生成式AI結果整合到Google搜尋引擎查詢回應中的搜尋和介面功能。

💡亮點

- AI概覽
- Ask Photos：可以用Google Gemini對你的Google Photos進行語音查詢
- Gemini 1.5 Pro的超大上下文視窗（例如100萬個上下文視窗）
- 上下文視窗擴展到200萬個標記（在私人預覽中提供給開發者）
- 與Gemini整合的Google Workspace
- 帶有音訊概覽的Notebook LM與Gemini 1.5 Pro
- Gemini 1.5 Flash
- Project Astra：一個通用的AI代理，請參閱演示（YouTube）
- Imagen 3：圖像生成（在Image FX中註冊）
- 生成音樂：Music AI Sandbox
- 視頻生成：Veo（新實驗沙箱稱為Video FX）
- Trillium，第六代TPU
- Google搜尋：現在擁有1萬億個事實，針對這一點優化了特定模型
- 在搜尋中直接用影片提問：在Labs中選擇加入，成為首批體驗Google搜尋新功能的人之一
- Gemini與Gmail和數據互動的升級
- Gemini AI助理
- Gemini應用和升級
- Gemini旅行規劃
- Gemini Advanced 1.5 Pro，帶有100萬個上下文視窗（例如你可以上傳一個1500頁的PDF）
- 設備上的AI，例如防止詐騙電話

隨著AI熱潮達到高潮，人們對今年的谷歌期待頗高。一些最令人難以置信的論文來自Google DeepMind，例如RecurrentGemma。 Google DeepMind發表了一篇研究論文，提出了一種名為RecurrentGemma的語言模型，它可以在內存效率更高的情況下匹敵或超越基於transformer的模型，提供了在資源有限的環境中實現大語言模型性能的可能性。

Google I/O充滿了Google正在開發的應用和半成品產品，你可以說Google發布了太多的模型、產品和無形的東西，以至於難以全面理解他們所做的一切。在這一代生成式AI的熱潮和高期望中，Google依然像是一個AI遊樂場，這既是Alphabet的魅力所在，也是它的弱點。

Google I/O主題演講日依然令人激動，因為這是Google。鑑於微軟和OpenAI所做的一切，你會希望Google能夠更接近一個統一的AI未來，而不僅僅是吹噓它的多模態AI或多樣化的模型。不幸的是，這次並非如此。

每年，Google都會以一系列快速的公告開啟其開發者大會，但並非總是將這些公告與消費者在實際生活中的使用或應用聯繫起來，更不用說在辦公室中！透過大規模發布，Alphabet的內容並沒有感到非常深入或像微軟Copilot時代那樣在應用方面具有實質意義。甚至Google Gemini，也顯得有點超然。

我並不反對AI產品氾濫，我只是希望它們對我和現實世界真的有用。要實現沉浸式的AI產品，需要減少摩擦並增加可訪問性，而我不確定Google在這產品市場適應性方面是否達到了OpenAI的水平。

Google I/O是Google的年度開發者大會。它經常提前預覽即將推出的新消費產品。

AI概覽和上下文視窗：

- Google大幅擴展了其AI模型的能力，上下文視窗首先擴展到100萬個標記，然後擴展到200萬個標記。此功能在私人預覽中為開發者提供，使其能夠無縫處理大型文件、廣泛的程式碼庫或複雜的資料集。

與Gemini整合的Google Workspace：
- Gemini AI與Google Workspace的整合旨在透過提供高級功能如自動摘要、智慧型文件生成和上下文感知輔助來提高生產力。這些功能旨在透過利用AI來執行日常任務，幫助使用者更有效率地處理工作負荷。

Notebook LM與音訊概覽：
- 搭載Gemini 1.5 Pro的Notebook LM現在支援音訊概覽，協助使用者透過提供音訊摘要快速瀏覽大量書面內容。這對需要快速審查大量資訊的學生、研究人員和專業人士尤其有用。

Project Astra - 通用AI代理：
- Project Astra是一個亮點公告，展示了一個通用的AI代理，旨在作為一個多功能的數位助手。演示中展示了其理解和執行廣泛任務的能力，可能會改變使用者與設備互動和管理日常活動的方式。

Imagen 3 用於影像生成：
- Imagen 3帶來了先進的影像生成功能。使用者可以透過Image FX註冊存取權限，根據文字描述創建高品質的映像。此工具預計將成為內容創作者、設計師和行銷人員的遊戲規則改變者。

生成音樂和影片創作：
- Music AI Sandbox提供了使用AI生成音樂的工具，為作曲家和音樂家提供了新的創作可能性。類似地，Veo影片生成沙箱（Video FX）展示如何使用AI產生影片內容，可能會簡化電影製作人和內容創作者的製作過程。

Trillium TPU：
- 第六代TPU（Trillium）的引進旨在增強可用於AI任務的運算能力。這些TPU經過優化，可以更有效率地運行複雜模型，這對於訓練和部署大規模AI應用至關重要。

增強的Google搜尋：
- Google搜尋現在包含超過1兆個事實，並針對搜尋準確性和相關性進行了最佳化。這次更新是Google持續努力透過提供更精準和有用的信息來維持搜尋引擎市場領導地位的一部分。

搜尋中的互動影片：
- 其中一個創新功能是能夠在Google搜尋中直接透過影片提問。此互動功能透過Labs提供早期訪問，代表了使搜尋更加直觀和吸引人的一步。

日常生活中的Gemini AI：
- Gemini AI的新功能，如AI助理和旅行規劃，旨在幫助使用者日常活動。這些功能強調了AI如何簡化規劃和協作，使這些過程更有效率且用戶友好。

裝置上的AI安全性：
- Google也專注於透過設計裝置上的AI功能來增強使用者安全性，以防範詐騙電話等威脅。這項計畫突顯了Google不僅致力於便利性，還致力於透過AI增強用戶安全的承諾。

谷歌的AI未來

Google I/O 2024的公告廣度和深度展示了該公司將AI整合到其生態系統每個方面的不懈追求。從提高生產力工具到開創性的創意應用，Google的AI願景既雄心勃勃又廣泛。

接下來是什麼？

隨著一系列公告的塵埃落定，真正的考驗將是這些創新如何轉化為實際的日常使用。 Google I/O 2024為AI無所不在的未來奠定了基礎，但挑戰仍然是確保這些技術對全球用戶來說是可訪問的、有用的和有影響力的。

對於開發者來說，宣布的新工具和API提供了建立下一代應用程式的令人興奮的機會。對於消費者來說，智慧、更直覺技術的承諾令人垂涎，儘管成功的真正衡量標準將在於這些AI進步的無縫整合和實質利益。(人工世界Artificial World)