#演講實錄
2萬字完整演講實錄:最強TPU晶片、全新AI Agent 來了|Google雲 Next 大會
4月10日,Google舉行Google雲 Next 大會。Google發佈了一系列涵蓋基礎設施、模型、平台工具及 AI Agent 的新產品與服務。Google重磅發佈第七代 TPU Ironwood,將於今年晚些時候面世。性能是首款公開 TPU 的 3600 倍,能效提升 29 倍。是 Google 迄今最強晶片,為下一代 AI 模型發展開闢新前沿。Google宣佈發佈解決量子糾錯難題的 Willow 量子晶片,宣佈擴展 GPU 產品組合,率先提供由 Nvidia GB200 和 B200 Blackwell GPU 驅動的 A4X 及 A4 虛擬機器,並將首批提供 Nvidia Vera Rubin GPU。Google CEO Sundar Pichai 宣佈了對未來的重大投資,計畫 2025 年投入約 750 億美元資本支出用於伺服器和資料中心,以支援 AI 與雲業務。模型方面,Gemini 2.5 Flash即將推出,展示視訊模型 VEO2、音訊模型 Chirp 3,並正式在 Google Cloud 上線了文生音樂模型 Lyria。針對 AI Agent 的建構與應用,Google 發佈了全新的開源 AI Agent 開發工具包(包含模型上下文協議和 Agent 間協議),以及企業級應用平台 Google Agent Space(並宣佈與 Chrome 整合)。為滿足不同場景需求,大會詳細介紹了五類 AI Agent 並行布了相關更新:客戶 Agent (發佈下一代客戶互動套件,提升互動體驗)、創意 Agent、Data Agent、程式碼 Agent和安全 Agent。以下是本次大會開幕式演講實錄經數字開物團隊編譯整理Thomas Kurian(Google雲CEO):歡迎來到 Google Cloud Next 大會。僅僅一年前,我們還在這裡探討 AI 對於企業和機構的未來。今天,這個未來正由我們所有人共同締造。2024年,我們在 Google Cloud 和 Workspace 平台上推出了超過 3000 項產品更新。我們將 Google Cloud 服務擴展至 42 個雲區域,新增了瑞典、墨西哥和南非,並正迅速擴展到馬來西亞、泰國和科威特等國家。通過宣佈 Omoja、Boson 和 Proa 等新的海底光纜項目,我們擴展了長達 200 萬英里的陸地與海底光纖網路。Google 在 AI 領域的發展勢頭令人矚目。超過 400 萬開發者正在使用 Gemini。去年 Vertex AI 的使用量增長了 20 倍,這得益於 Gemini Flash、Gemini 2.0、imagen 3.0 以及我們最近推出的先進視訊生成模型 VEO 的廣泛採用。同時,在 Google Workspace 內部,我們每月為企業使用者提供超過 20 億次的 AI 輔助功能。更令人興奮的是我們與客戶共同取得的進展。在本次 Next 大會上,我們將分享超過 500 個客戶案例,展示採用 AI 所帶來的真實商業創新成果。Google 正致力於把握這一獨特機遇,投資於技術和生態系統,以驅動您的增長與轉型。現在,有請 Google 及 Alphabet 公司 CEO,Sundar Pichai。Sundar Pichai:謝謝 Thomas。很高興和大家在拉斯維加斯歡聚一堂。去年,我還在演講中開玩笑說想去 Sphere 表演試鏡。看來我成功拿到了這個機會。昨晚,我就在 Sphere 的舞台上分享了一項新的合作:我們正運用 Google AI,將經典電影《綠野仙蹤》帶給全新一代的觀眾。我們將這部影史巨作,為世界上最大的螢幕之一進行煥新呈現。這是一項規模宏大且持續進行的工作,即便在 18 個月前我們都不敢嘗試。這足以說明技術發展日新月異,以及它如何讓我們重新構想無限可能。我認為這正是 Cloud Next 大會的主題所在。正是改善生活、重塑事物的機遇,驅動著 Google 在 AI 領域持續投入了十餘年。我們視 AI 為實現我們使命——“整合全球資訊,使人人皆可訪問並從中受益”的最重要途徑。通過 Google Cloud,我們視 AI 為幫助各位推進自身使命的最重要方式。AI 帶來的機遇可謂千載難逢,因此,我們正大力投資於 AI 創新的整個技術堆疊,首先就是支撐這一切的基礎設施。無論現在還是未來,我們都在進行大規模投資。2025 年,我們計畫總共投資約 750 億美元的資本支出,用於伺服器和資料中心,包括支撐我們的 AI 計算能力和雲業務。這必將極大地惠及在座的每一位客戶。我們需要基礎設施能以“Google 速度”運行,實現近乎零的延遲,從而支援搜尋、Gmail 和相簿等服務,為全球數十億使用者提供服務。我們也用它來訓練我們能力最強的模型——Gemini。正如 Thomas 剛才提到的,Google 的骨幹網路無與倫比,覆蓋超過 200 個國家和地區,由超過 200 萬英里的光纖網路驅動。今天,我很高興地宣佈,我們將向全球企業開放 Google 的全球私有網路,我們稱之為 Cloud WAN。Cloud WAN 運用了 Google 的行星級規模網路,針對應用性能進行了最佳化,可將性能提升超過 40%,同時將總擁有成本降低高達 40%。像 Citadel Securities 和 Nestle 這樣的公司,已經在利用這個網路來建構更快、更可靠的解決方案。本月晚些時候,所有 Google Cloud 客戶都將能夠使用 Cloud WAN。這延續了我們開放自身技術基礎設施供他人使用的傳統。我們通過自研的 AI 晶片——TPU 來實現這一點。自 2013 年起,我們就在這種專用硬體上投入巨資,並在規模化性能和效率方面持續取得巨大進步。今天,我很自豪地宣佈,我們的第七代 TPU——Ironwood,將於今年晚些時候面世。與我們首款公開的 TPU 相比,Ironwood 的性能提升了 3600 倍,這是一個驚人的增長。它是我們迄今為止建構的最強晶片,將為下一代 AI 模型的發展開闢新前沿。同期,我們的能效也提升了 29 倍,稍後 Amin 會分享更多細節。這些進展正為多個領域的突破奠定基礎。量子計算就是一個絕佳例證。我們最新的量子晶片 Willow,攻克了量子糾錯領域一個困擾研究人員長達三十年的關鍵難題。隨著我們使用更多的量子位元進行擴展,它可以指數級地減少錯誤。Willow 晶片確實為未來實用的大規模量子電腦鋪平了道路。我們的基礎設施支撐著技術堆疊的下一層:研究與模型。在過去十年中,我們的研究團隊不斷推動 AI 向前發展,如今正加速科學探索與發現的處理程序,從蛋白質摺疊領域的 AlphaFold 突破,到最先進的天氣預報模型 WeatherXM。世界一流的研究實力,使我們能夠憑藉 Gemini 模型不斷拓展技術前沿。去年 12 月,我們推出了 Gemini 2.0,它在多模態能力上取得了新進展,例如原生圖像和音訊輸出,以及原生工具呼叫能力。新一代模型也拓展了另一項被稱為“思考”能力的邊界。幾周前,我們發佈了新模型 Gemini 2.5,一個能在響應前先進行內部“思考”和推理的模型。這是我們迄今為止最智能的 AI 模型,根據 Chatbot Arena 排行榜的資料,它是目前全球最強的模型。在一系列需要高級推理能力的基準測試中,它都展現了頂尖水平,其中包括在 Humanity's Last Exam 這個旨在評估人類知識與推理前沿的最難行業基準之一上,取得了歷史最高分。為了更直觀地展示它的能力,請看這個由開發者 Matt Burman 編寫程式碼實現的魔方 。它看似玩具,實則是一個複雜的推理挑戰:維度可調、方塊可打亂、還能通過鍵盤控制。Gemini 2.5 Pro 能夠完全模擬這一切。這是一個巨大的飛躍,展示了它生成穩健、互動式程式碼的能力。再舉一個例子,開發者 John Marden 通過一系列提示,使用 2.5 Pro 建立了地球磁場和廣義相對論等物理模擬。大家可以看到,模型如何將極其複雜的概念轉化為令人驚嘆的互動式視覺呈現。這些只是簡單的示例,但我們對未來的可能性感到無比興奮,並期待看到大家會用它來創造些什麼。Gemini 2.5 Pro 現已在 AI Studio、Vertex AI 以及 Gemini 應用中全面開放。我還要激動地宣佈 Gemini 2.5 Flash,這是我們內建了“思考”能力的低延遲且最具成本效益的模型。使用 2.5 Flash,你可以控制模型的推理深度,在性能和預算之間找到平衡點。2.5 Flash 即將登陸 AI Studio、Vertex AI 和 Gemini 應用。我們很快會分享關於該模型及其性能的更多細節。我對此非常期待,希望各位能親自體驗。我們的目標始終是將最新的 AI 進展融入我們技術堆疊的第四層:產品與平台。如今,我們旗下所有 15 款使用者數過 5 億的產品 (其中 7 款使用者數更是超過 20 億),均已由 Gemini 模型驅動。如此大規模部署 AI 需要世界級的推理能力,企業可以利用這一點來建構自己的 AI 驅動應用。Gemini 也在幫助我們創造全新的產品和體驗。例如 NotebookLM,目前已有超過 10 萬家企業在使用,它利用長上下文、多模態能力以及我們最新的“思考”模型,以強大的方式呈現資訊。Gemini 並非我們唯一行業領先的模型。VEO2 是業界領先的視訊生成模型,各大電影製片廠、娛樂公司以及全球頂尖的廣告代理商都在使用它,將創意故事變為生動影像。讓消費者和企業都能盡快用上最新的技術進展,是我們真正關注的核心。正因如此,我們才能在前沿領域不斷創新,為我們自己,也為你們,持續拓展可能性的邊界。最終成果就是:為所有人帶來更好、更快、更多的創新。看到 AI 正幫助各種規模的企業提升效率、創造更多價值,並將這些益處最終傳遞給客戶,這著實令人興奮。接下來,非常榮幸為大家介紹麥當勞 CEO Chris Kempczinski,他將分享更多精彩內容。感謝大家,祝各位在拉斯維加斯度過愉快的一周。Chris Kempczinski (麥當勞 CEO ):麥當勞正經歷一場劃時代的重大轉型。每天,大約有 6500 萬顧客光臨我們的餐廳。我們思考的是如何進一步提升他們的體驗。Google 在此過程中發揮著關鍵作用,尤其是當越來越多的顧客互動發生在數字世界時。因此,我們正借助 Google Cloud 對我們的餐廳體驗進行革新。在櫃檯之後,我們餐廳團隊的工作正變得日益複雜。借助來自 Google Distributed Cloud 的邊緣計算技術,將顯著提升我們餐廳營運的穩定性、安全性和性能,同時也為我們提供了空間和動力去嘗試一些以往無法實現的新概念。例如,值班經理將能夠利用 AI 驅動的助手,快速發現餐廳營運中出現的問題。餐廳經理將能夠根據即時資料 (比如來自冰櫃或炸爐的資料),在他們的裝置上接收警報,並獲得關於預測性維護的指導建議。通過 Vertex AI 平台上的 Gemini,我們可以即時彙集所有來自餐廳的資訊,讓相關人員能通過簡單提問或提示輕鬆獲取答案,從而改善我們全球超過 200 萬團隊成員在餐廳的工作環境。這就是它的奇妙之處,是 AI 的力量,也是 Google Cloud 為麥當勞帶來的價值。Thomas Kurian:謝謝 Chris。McDonald's 是將 AI 融入其核心營運的典範企業。全球客戶選擇與 Google 合作,主要基於以下三個重要原因。首先,Google Cloud 提供了一個經過 AI 最佳化的平台,在價格、性能、精度和質量方面均處於領先地位。今天我們還發佈了建構和管理多智能體系統所需的全套工具。我們的 AI 平台提供了先進的基礎設施和資料庫、源自世界級研究的前沿模型,並通過 Google 搜尋的高品質結果為模型響應提供事實依據。我們強大的開發者平台 Vertex AI,包含了最廣泛的企業級工具集,您可以用它來建構 AI Agent 並賦能多智能體生態系統,同時我們還提供最全面的專用智能體產品組合。其次,Google Cloud 提供了一個開放的多雲平台,讓您可以在採用 AI Agent 的同時,將其與您現有的 IT 環境相連接。這包括您的資料庫、文件儲存、企業應用程式,並能與其他提供商的模型和智能體實現互操作。這能讓您的 AI 投資更快地產生價值。第三,Google Cloud 提供了一個專為互操作性設計的企業級 AI 平台。它使您能夠深度採用 AI,同時應對在資料主權、安全性、隱私及合規性方面不斷演變的挑戰。您可以在採用 AI 的同時,由我們來保護您的資料和智慧財產權,並確保您滿足合規要求。先進的 AI 核心基礎設施為我們的服務提供了強大的支撐。接下來,讓我們有請 Amin Vahdat 來分享最新的進展。Amin Vahdat:謝謝 Thomas。AI 訓練與推理所需的算力需求正以前所未有的速度增長。在過去八年多的時間裡,這一需求年均增長超過 10 倍,總增幅達到了驚人的 1 億倍。我們持續為訓練和推理工作負載提供領先的能效、性能和網路連線能力。首先是硬體方面。今天,我們推出了第七代 TPU——Ironwood。Ironwood TPU 是我們迄今為止規模最大、性能最強的 TPU Pod。其性能相較於我們最新的高性能 TPU 提升了超過 10 倍,每個 Pod 包含超過 9,000 個晶片,旨在滿足像 Gemini 2.5 這樣要求極高的先進模型呈指數級增長的需求。每個 Pod 可提供高達 42.5 EFLOPS 的驚人算力。為了讓大家對這個規模有所概念,目前世界排名第一的超級電腦算力為 1.7 EFLOPS。Ironwood Pod 的算力是其 24 倍以上。Ironwood TPU 是真正為下一代 AI 工作負載而生的。TPU 是一項卓越的技術成就,但它只是我們整體基礎設施的一部分。畢竟,晶片的性能表現離不開其所處的整個系統。我們的 AI Hypercomputer 是一個超級計算系統,旨在簡化 AI 部署、提升性能並最佳化成本。它支援頂尖的硬體平台,並整合了統一的軟體堆疊和使用模式,使您能夠選用最符合需求的硬體,並輕鬆地在不同硬體代際間遷移。在我們快速創新的時代,這一點至關重要。我們擴展了 GPU 產品組合,現已提供由 Nvidia GB200 和 B200 Blackwell GPU 驅動的 A4X 和 A4 虛擬機器。我們是首家同時提供這兩種選項的雲服務提供商。我們也很榮幸,Google Cloud 將成為首批提供 Nvidia 下一代 Vera Rubin GPU 的廠商之一,該 GPU 每個機架可提供高達 15 EFLOPS 的 FP4 推理性能。我們還推出了 Cluster Director,它能讓您將大量加速器作為單一計算單元進行部署和管理,從而提升性能、效率和彈性。儲存對於緩解訓練和推理過程中的瓶頸也至關重要。我們正在引入多項儲存創新。Hyperdisk X pools 提供了目前所有超大規模雲服務商中,單個 AI 叢集所能達到的最高聚合性能和容量。Anywhere Cache 將資料快取在靠近加速器的位置,可將儲存延遲降低高達 70%,從而縮短訓練時間。Rapid Storage 是我們首款區域儲存解決方案,與業界最快的同類雲端儲存相比,其隨機讀寫延遲降低了五倍。軟體是實現這些強大硬體協同調度與便捷訪問的關鍵。今天,我們針對 AI 推理推出了三項軟體增強功能。首先,我們在 Google Kubernetes Engine 中引入了新的推理功能,包括面向生成式 AI 的智能擴展和負載平衡特性,有助於將服務成本降低多達 30%,尾部延遲降低多達 60%,並將吞吐量提升多達 40%。其次,我們宣佈 Pathways,即驅動 Gemini 的 Google 自研分佈式機器學習執行階段,首次面向雲客戶開放。由 Google DeepMind 開發的 Pathways,能夠以最優成本實現高性能的動態擴展,支援最先進的多主機推理。現在,您可以將模型服務橫向擴展至數百個加速器,以達到批處理效率和低延遲的最佳平衡。第三,我們將 VLM 引入了 TPU。這使得那些使用 VLM 為 GPU 最佳化 PyTorch 的客戶,能夠輕鬆且經濟高效地將其工作負載遷移到 TPU 上運行。所有這些 AI Hypercomputer 的硬體和軟體增強功能結合在一起,使我們能夠以持續的低成本,提供更高的 AI 智能水平和輸出價值。這也是由 AI Hypercomputer 驅動的 Gemini 2.0 Flash,其每美元實現的智能比 GPT-4o 高出 24 倍、比 DeepSeek R1 高出 5 倍的原因之一。我們的 AI 基礎設施產品組合確實展現出強勁的發展勢頭。僅過去一年,我們雲客戶消耗的 TPU 和 GPU 小時數就增長至原來的三倍。我們也看到了來自客戶的巨大動能,包括像 Anthropic、Anyscale、Arise 和 Contextual AI 這樣的 AI 獨角獸企業,以及眾多大型企業客戶。例如,Toyota 為工廠工人部署了機器學習模型;Schrodinger 利用雲 GPU 進行前沿的藥物研發;TSMC 為其關鍵任務工作負載保護核心資料;Airbus 則部署了 AI 平台以提升飛機的性能、安全性和可靠性。除了最佳化雲端的訓練和推理,我們也知道許多 AI 工作負載需要在本地環境運行。正如大家從麥當勞 的 Chris Kempczinski 那裡聽到的,Google Distributed Cloud 將我們的硬體和軟體帶到您的環境中。這樣,您就可以將 AI 能力部署在更靠近資料生成源的位置,這對於低延遲和高敏感性資料的處理尤為重要。今天,我們宣佈 Gemini 現已支援在 Google Distributed Cloud 上本地運行,無論是在物理隔離的環境還是連線到網路的環境中。這一切都得益於對 Nvidia 機密計算和 Blackwell 系統 (DGX B200 和 HGX B200 平台) 的支援,其中 Dell 是我們的重要合作夥伴。這項能力補充了我們的 Google Distributed Cloud 氣隙產品,該產品現已獲得授權,可用於美國政府的機密和絕密任務。Gemini 現在也可以在該產品上運行,提供了最高等級的安全與合規保障。Nvidia 是 Google 及我們客戶的重要合作夥伴。讓我們直接聽聽其 CEO Jensen Huang 的看法。黃仁勳 (NVIDIA CEO視訊):建構先進的 AI 基礎設施是一項精深的電腦科學工作。在計算的每個層面,沒有公司能比 Google 和 Google Cloud 做得更好。Nvidia 與 Google Cloud 之間的這種超級夥伴關係,所包含的能力幾乎覆蓋了計算的每一個層面和每一個方面。每個行業、每家公司、每個國家都渴望掌握 AI 技術,然而,所有這一切都必須確保根本性的保密與安全。因此,我們今天宣佈一項極其重大的合作:搭載 Gemini 和 Nvidia 的 Google Distributed Cloud 將為全球受嚴格監管的行業和國家帶來最前沿的 AI 技術。現在,如果您無法接入雲端,Google Cloud 會將 AI 帶到您身邊。Thomas Kurian:謝謝你,Jensen。我們非常珍視與 Nvidia 建立的深度工程合作關係。基於 Google DeepMind 的開創性研究,我們正在眾多 AI 模型上實現快速創新。首先是 Gemini,我們能力最強的 AI 模型家族。僅在過去一年,我們就發佈了 Gemini,這是我們首個原生多模態模型;我們率先實現了 200 萬 Token 上下文窗口;我們建構了用於即時雙向語音和視訊互動的即時 API;我們憑藉 flash 模型在性價比上取得了領先地位。最近,我們推出了 Gemini 1.5 Pro,它在一系列廣泛的基準測試中展現了頂尖水平,並且我很高興地宣佈,它在 Chatbot Arena 上排名第一。Gemini 正在為全球眾多公司提供一流的 AI 能力,包括我們的緊密合作夥伴 Box 和 Palo Alto Networks,他們正利用 Gemini 1.5 開發新的應用程式。Gemini 也已整合到我們自家的產品中,包括 Google Workspace,它為 Gmail、Docs、Drive 和 Meet 中的功能提供支援,並且現在已包含在所有訂閱計畫中。Workspace 中的 Gemini 正在幫助像電動汽車製造商 Rivian、律所 Freshfields 這樣的客戶提升法律工作效率,並加速檔案起草和研究等任務,以及歐洲最大的零售商 Schwarz Group 旗下的公司。今天,我很高興宣佈 Gemini 在 Workspace 中的三項新功能:Google Sheets 中的“幫我分析”,引導您處理資料,完成專家級的分析;Google Docs 中的“音訊概覽”,您可以通過建立內容的高品質音訊版本,以全新的方式與文件互動;以及 Google Workspace “流程” ,幫助您自動化耗時、重複的任務,並在更充分的資訊支援下做出決策。讓我們看看 Google Workspace 是如何幫助全球企業的。Google Workspace 視訊:我們的團隊遍佈全球,想讓每個人都協同工作簡直難上加難。及時處理所有郵件對我來說一直非常困難。還有什麼比面對一張空白文件更讓人頭疼的嗎?但你該從何處著手呢?擁有能夠讓團隊更快速、更高效協作的工具,比以往任何時候都更加重要。使用“幫我寫” (Help me write) 功能,我們每月能為網站產品描述節省 35 個小時的寫作時間。我們正在利用 Meet 進行會議記錄、內容總結,並在會後生成待辦事項,這樣我們就能在會議中保持專注,聚焦於討論內容。當你為客戶準備簡報或提案,需要構思並將其視覺化呈現時,過去這可能需要幾天時間,而現在,借助合適的提示詞,我們只需幾小時就能完成。我們不必過分擔心安全問題,因為我們知道有 Google 保駕護航。安全性是我們決定從傳統的本地部署工具遷移到 Google Workspace 的一個重要考量因素。Gemini for Workspace 給我們的業務帶來了真正變革性的影響。Thomas Kurian:Gemini 之外,過去一年我們對 imagen 3 進行了重大改進,這是我們最高品質的文生圖模型。與之前的模型相比,它生成的圖像細節更豐富、光照效果更好,並且干擾性的人工痕跡更少。imagen能夠精準遵循提示詞的要求,以令人難以置信的精度將您的創意構想變為現實。我們還推出了 Chirp 3,只需 10 秒的音訊輸入即可幫助您建立自訂語音,並將 AI 驅動的旁白嵌入到您現有的錄音中。今天,我們在 Google Cloud 上正式推出 Lyria,它可以將文字提示詞轉換為 30 秒的音樂片段,我們是首家提供此功能的超大規模雲服務商。讓我們來聽一段 Lyria 生成的片段。VEO2 是我們業界領先的視訊生成模型,它能生成長達數分鐘的 4K 視訊,並使用 SynthID 加入水印,以確保這些視訊能被識別為 AI 生成。它通過新的編輯工具賦予創作者前所未有的創意控制力,包括:無需複雜提示詞輸入即可指導鏡頭構圖和相機角度的相機預設;定義視訊片段起始與結束鏡頭,並由 VEO 無縫銜接中間部分的“首尾鏡頭控制”;以及用於視訊編輯和畫面擴展的動態內補繪製和外補繪製。憑藉 Gemini、imagen、Chirp、Lyria 和 VEO,Google 是唯一一家提供覆蓋所有模態的生成式媒體模型的公司。所有這些模型今天都可以在 Vertex AI 上供您使用。我們已經看到了客戶應用的精彩案例:Kraft Heinz 正在加速行銷活動的建立過程;Agoda 正在為旅遊目的地創造獨特的視覺內容;Bending Spoons 每天讓 6000 萬張照片的處理變得更加有趣;L'Oréal Group 正在使用我們的模型生成多樣化的電影級鏡頭。現在,請和我一起歡迎 Nenshad Bardoliwalla 上台,為我們演示如何在 Vertex AI 上實際運用這些模型。Nenshad Bardoliwalla:大家好!有多少人已經聽說我們 Cloud Next 音樂會的事了?比我預期的要少,我想大概是因為我們一直沒發佈預告片。我告訴大家,今年選那個藝人來表演可真不容易,因為事實證明,雖然 Thomas Kurian 看上去非常穩重、若有所思,但他其實是 Chappell Roan 的超級鐵桿粉絲。沒錯,我真看過他直接發給 Chappell 的視訊,裡面他大喊:“H O T T G O!Thomas 請你來演出!” 但我們等 Chappell 回覆等了好幾周,結果她就用了三個詞傷透了 Thomas 的心:“祝你好運,寶貝。”所以,我們打算用 Vertex Media 來給 Thomas 加油打氣,順便做個預告片,保證讓你們跟我一樣熱血沸騰!我們最終的視訊已經做好了,我現在就給大家演示一下製作過程。考慮到我們現在就在拉斯維加斯,用這裡的城市天際線作為我們用 Vertex AI Media Studio 進行創作的完美背景再合適不過了。我們開始吧,先把這張拉斯維加斯天際線的圖片導進來,質量超高,非常漂亮。我們要用它生成視訊,接下來是最新最酷的功能!看仔細了:相機預設直接內建在 VEO 裡!向左平移、向右平移、延時攝影、跟蹤鏡頭,甚至還有無人機視角!那我們就來試試無人機視角,提交一個“城市天際線無人機俯拍”的指令。我們提交一下。正常情況下這需要幾秒鐘,但我今天早些時候運行過了,所以有快取,會比平時快一點。來看看第一個視訊,絕對是壯觀!我們能看到噴泉,還有那個埃菲爾鐵塔。現在我們再看看第二個視訊,這是 VEO 為我們生成的另一個不同角度。同樣是令人驚嘆的畫面,你可以看到背景裡的雲彩,再看看拉斯維加斯大道上來來往往的車流,簡直不可思議!一個視訊肯定不夠我們音樂會宣傳用,所以我想給大家看看我做的其他幾個視訊:我這有一個舞台搭建過程的視訊,完全是用 VEO 生成的;還有一個樂隊的視訊;甚至還有一個觀眾們正在為即將看到的精彩表演鼓掌的畫面——這正好提醒提醒大家(該鼓掌了)。現在,發生了一件很有意思的事。我發現 VEO 有個本事跟我家 12 歲的小孩一樣,那就是特別擅長搶鏡。原來,我們剛才看到的這個超贊視訊裡,有個工作人員入鏡了。我們當然很愛我們的工作人員;不過,在這個場景裡,我更想突出吉他,因為吉他才是樂隊的靈魂。所以,我們來用一下 VEO 最新的內補繪製功能。這位先生,實在抱歉,我向您道歉。我知道您工作很出色,但我不得不把您從這個畫面裡“請”出去。不過,先生,我們會給您和您的家人送花表示歉意的。我們來用這個新的內補繪製功能,等上幾秒鐘,看看效果。如果這個功能跟我預期的一樣,它應該會保留之前畫面的所有元素,只是沒有了我們那位舞台工作人員。看!視訊片段有了,現在我們需要配樂。我們先試試我用 Lyria 生成的第一段音樂,看看喜不喜歡。這節奏不太對。我需要那種能讓你們所有人都感覺到“我永不放棄你,永不讓你失望,永不東奔西跑,離你而去”的音樂!所以,我們來試試第二段音樂,看看這個怎麼樣。好了,配方對了!我更喜歡這個調調。視訊有了,音樂也有了。我們把它們組合起來看看最終效果。來了!Sam,放片!大家覺得怎麼樣?絕對是驚豔!我們已經見識了 VEO 的強大能力:只需簡單的提示詞輸入就能創造出不可思議的鏡頭,擁有簡單易用的編輯功能,還能達到電影等級的畫質。我們明晚見!屆時 Thomas 將在 Allegiant 體育場舉辦的 The Killers 演唱會上,縱身跳入舞台前的 Mosh Pit!讓我們再次歡迎我的朋友、我的精神導師——Thomas Kurian 回到台上!Thomas Kurian:謝謝你,Nenshad。我也對明晚的音樂會感到非常興奮。我們同樣在將 AI 模型引入物理世界。我們的合作夥伴,例如 Samsung,正在將 Gemini 模型用於他們令人期待的新款 AI 伴侶機器人 Ballie。Google DeepMind 最近也發佈了兩款新的 AI 模型,旨在服務於新一代的實用型機器人。現在,讓我們來談談 Vertex AI,我們的一站式 AI 平台。Vertex AI 幫助您發現企業級的即用基礎模型,支援您定製、評估和部署基於最佳基礎模型建構的應用程式,並能夠大規模地建構和管理 AI Agent。接下來,讓我們聽聽 Intuit 是如何利用 Vertex AI 的一部分——Document AI,讓報稅變得更加簡便。去年,Intuit TurboTax 借助 AI 處理了 4400 萬份納稅申報單,退稅總額達 1070 億美元。然而,一些持有複雜 1099 表格的客戶仍需花費數小時手動錄入資料。今年,Intuit 利用 Google Cloud Document AI 實現了更高品質的資料理解和自動填充功能。這種“為您代勞” (done-for-you) 的體驗為數百萬使用者簡化了報稅流程,讓他們有更多時間享受生活。Intuit 創造了一種讓報稅更輕鬆的新方式。Thomas Kurian:已有成千上萬家公司正在使用 Vertex AI 和 Gemini 進行創新。Nokia 建構了一個工具來加速應用程式的編碼和開發流程;Wayfair 更新產品屬性資訊的速度提升了五倍;能源公司 AES 將審計成本降低了 99%,並將審計時間從 14 天大幅縮短至僅 1 小時;Commerzbank 正在利用 AI 生成投資諮詢通話的摘要;Seattle Children's Hospital 讓其兒科醫生能夠即時搜尋數千頁的臨床指南;United Wholesale Mortgage 正在革新抵押貸款體驗,使貸款審批員的生產力提升超過一倍;Honeywell 已將 Gemini 整合到其產品開發流程中。Honeywell :Honeywell 與 Google Cloud 攜手設計了一種管理產品生命周期的新方法,這將徹底改變他們處理數百萬種產品的方式。該 Agentic 框架基於 Vertex AI、BigQuery 和 Gemini 建構,能夠加速產品規格和模型的建立過程,連接其遍佈全球的已安裝裝置基礎,以發掘性能改進的洞見,並通過產品再工程延長產品生命周期。據估計,這將幫助其工程師將交付成果的速度提升高達 70%。借助 AI Agent,Honeywell 正在引入一種最佳化其數百萬種產品的新範式。Thomas Kurian:僅在過去一年間,Vertex AI 上的 Gemini 使用量就增長了超過 40 倍,目前每月的 API 呼叫量已達數十億次。Vertex AI 的模型花園讓您可以輕鬆訪問超過 200 個精心篩選的基礎模型。我們提供 Google 的所有模型,包括 Gemini、VEO、imagen 及最新的研究模型,同時還囊括了精選的熱門第三方模型和各類開源模型,這些現在都已整合到 Vertex AI 平台。新增的 Vertex 儀表板可幫助您監控使用情況、吞吐量、延遲並進行故障排查。新的微調方法助您最佳化模型性能,以適配具體應用。我們激動地宣佈,Meta 的 Llama 4 現已在 Vertex AI 上正式可用。並且就在上周,我們宣佈 AI2 的全系列開放模型也已登陸 Vertex AI 模型花園。有了 Vertex AI,您可以確保您的模型在恰當的時間獲取準確的資訊。您可以連接至任何雲環境中的任何資料來源或任何向量資料庫。我們今天宣佈,您現在可以直接在現有的 NetApp 儲存上建構 AI Agent,無需進行資料複製。您可以連接至廣泛的企業應用程式,包括 Oracle、SAP、ServiceNow 和 Workday。在模型事實性方面,我們提供了當今市場上最全面的 Grounding 方案。該方案結合了基於 Google 搜尋的 Grounding、基於您自身企業資料的 Grounding、基於 Google 地圖的 Grounding 以及基於第三方來源的 Grounding。接下來,讓我們聽聽德意志銀行 CEO Christian Sewing 的分享。Deutsche Bank Voiceover:150 多年來,我們的客戶始終信賴德意志銀行,尋求我們支援他們實現基業長青和財務安全。在當前這個充滿不確定性、地緣政治格局不斷變化的時代,客戶比以往任何時候都更需要我們擔當顧問和風險管理者的角色。技術在其中扮演著關鍵角色。我們與 Google Cloud 的合作夥伴關係使我們能夠充分利用最新的工具。DB Lumina 就是我們由 AI 驅動的研究 AI Agent。它基於 Gemini 和 Vertex AI 建構,在保障資料隱私的同時,也提升了我們的生產力。我們身處全球監管最嚴格的行業之一,信任在此需要經年累月的積累,卻可能在瞬間崩塌。像 DB Lumina 這樣的工具使我們能夠領先於競爭對手,提供更快速、更精準的資料分析。最近,市場上發佈了一份長達 400 頁的重要報告。我們將其匯入 DB Lumina,給出提示後,幾秒鐘內就生成了一份三頁摘要。我們能迅速將這份摘要提供給交易員和客戶,幫助他們理解報告資訊。通過與 Google Cloud 的合作,我們實現了真正的突破,而這僅僅是一個開端。我們預見到,未來生成式 AI (Generative AI) 將深度融入我們營運的幾乎每一個流程。這將使我們員工的工作更加便捷高效,同時也能滿足客戶日益變化的期望。Thomas Kurian:看到德意志銀行如此迅速地將 AI 從試點階段推向實際生產應用,我們感到非常興奮。現在,我們來談談 AI Agent。AI Agent 是能夠展現出推理、規劃、記憶以及使用工具能力的智能系統。它們能夠進行多步前瞻性思考,運用各種工具(包括操作軟體和系統),在您的監督下代您完成任務。AI Agent 與員工協同工作,以提升效率、輔助決策並促進創新。Salesforce 是與 Google Cloud 合作開發 AI Agent 的一個絕佳範例。讓我們聽聽 CEO Mark Benioff 的看法。Mark Benioff:Salesforce 和 Google,全球最具創新力的兩家公司。我們攜手走過了一段非凡的旅程,時至今日,我們的合作關係比以往任何時候都更加緊密。此刻,我們正處在我們職業生涯所經歷過的最重大變革的起點。這就是為什麼我們對 Agent Force 以及現在與 Google 深化的合作關係如此激動。我非常喜歡 Gemini,每天都在使用它。無論是 Agent Force 內嵌的 Gemini,還是 Google 與 Salesforce 之間的所有整合,我們都在共同引領這場數字勞動力革命。這才是未來。它將在人類增強、生產力、效率、我們業務的核心關鍵績效指標 (KPIs) 以及最終的客戶成功方面,帶來巨大的提升。我們期待著 Salesforce 與 Google 之間能夠創造更多可能。Thomas Kurian:我們很高興能與 Salesforce 一同建構未來,並繼續這段合作旅程。從今天起,借助 Google Cloud,您可以使用 Vertex AI 和我們全新的 AI Agent 開發工具包來建構和管理多 AI Agent 系統。您可以利用我們最新發佈的 Google Agent Space,在整個企業內規模化地採用 AI Agent。您還可以通過我們預先打包、即刻可用的 AI Agent 來加速部署。繼去年我們推出 Vertex AI Agent Builder 後,今天我們正式發佈一款全新的 AI Agent 開發工具包。這是一個新的開源框架,它簡化了建構複雜多 AI Agent 系統的流程。現在,您可以建構由 Gemini 驅動的複雜 AI Agent,使其能夠使用工具,執行包含推理或思考在內的複雜多步任務。您還可以發現其他 AI Agent,學習它們的技能,讓不同的 AI Agent 能夠協同工作,同時確保您擁有精確的控制權。這款 AI Agent 開發工具包支援模型上下文協議。該協議提供了一種統一的方式,讓 AI 模型能夠訪問各種資料來源和工具並與之互動,無需再為每個資料來源或工具進行定製化整合。我們還推出了一種新的 AI Agent 間協議,允許 AI Agent 之間相互通訊,無論它們是基於何種底層模型或框架開發的。該協議得到了眾多領先合作夥伴的支援,他們和我們擁有共同的願景:讓 AI Agent 能夠在多 AI Agent 生態系統中協同工作,並能與基於其他 AI Agent 框架(例如 LangGraph 和 Crew AI)建構的 AI Agent 進行互動。今天,我們通過 Google Agent Space,讓每一位員工都能使用 AI Agent。使用 Google Agent Space 的員工現在可以尋找並整合其組織內部的資訊,與 AI Agent 對話,並讓這些 AI Agent 代表他們,針對其企業應用採取行動。Google Agent Space 融合了 Google 等級的高品質企業搜尋、對話式 AI 或聊天功能,以及 Gemini 和第三方 AI Agent。它還提供了一套廣泛的工具集,包括專用的連接器,用於搜尋文件、資料庫並與之互動,以及連接 SaaS 應用。同時,它具備高級安全和合規性特性,以保護您的資料和智慧財產權。讓我們一起看看 Agent Space 的實際運行情況。有請 Gabe Weiss。Gabe Weiss:在接下來的幾分鐘裡,我將扮演一位銀行的客戶關係經理。這是我的首頁,已經過身份驗證並為我進行了個性化設定。通過 AI Agent 庫,我可以看到公司批准使用的各類專用 AI Agent,包括由 Llama 和 Claude 等第三方模型驅動的 AI Agent。這裡有一些 Google 開發的 AI Agent,還有一些是我的銀行提供的,這些是我們自己建立或由合作夥伴建構的。還有我自己的個人 AI Agent。我可以利用按鈕直接在 Agent Space 裡建構,或者更簡單地通過對話建立。例如,即時掌握客戶動態對我至關重要,所以我每天早晨都進行投資組合分析。我們來看看建立一個自動化此類任務的 AI Agent 有多簡單。我將運行命令:“分析我的客戶投資組合,識別潛在風險和機遇”。這個操作只會使用我獲得授權訪問的資訊。它知道我的客戶是誰,並會從 OneDrive、Salesforce 或 Dun & Bradstreet 等資料來源中彙總關鍵資訊。如有疑問,這裡有直接連結到資料來源。如果需要更精細的控制,我可以調整這個來源列表。Agent Space 的功能不止於彙總資訊,它能理解我的問題,並突出顯示最重要的內容。例如,在這張圖表中,Agent Space 已標示出 Acme General Contracting 未來可能面臨現金流問題。它已生成一份詳盡報告,為我節省了大量手動研究時間,我稍後會仔細閱讀。現在,我們建立一個 AI Agent 來持續關注 Acme 的情況。Agent Space 會根據之前的對話自動生成一個 AI Agent 計畫。這個計畫不錯,但可以更進一步。我打算讓它生成一份音訊摘要並行送到我的收件箱,這樣我就可以在早晨通勤路上收聽。無需編寫任何程式碼,我就建立了自己的自訂 AI Agent,可以隨時呼叫。Agent Space 指出了 Acme General Contracting 的現金流問題,我需要深入探究。也許這並非 Acme 的個別問題,而是整個建築行業的普遍現象。Agent Space 已在建議的後續操作中指出了這種可能性。現在,我們深入分析一下總承包行業的趨勢。這將啟動 Google 的企業深度研究 AI Agent。它首先會告知研究計畫,包括研究內容和順序。如果需要,我可以編輯這個計畫,但現在看起來不錯,所以直接啟動研究。需要說明的是,為演示目的,我們快取了計畫和結果。實際使用中,這通常需要稍長時間。這個 AI Agent 正從 Google 搜尋中獲取即時資訊來撰寫報告。同時,它也在搜尋我內部的企業資料,並根據搜尋中發現的資訊即時調整研究計畫,補充額外問題。這是一份極具洞察力的分析,附帶相關源連結。報告末尾還提供了一份簡潔明了的高管摘要。快速瀏覽一下:Acme General Contracting 很可能受到了原材料成本上漲、供應鏈中斷以及構成重大障礙的複雜監管規定的影響。這分析非常到位。這對 Acme 可能不是好消息,但這份分析本身非常出色。我不希望 Acme 對此毫無準備,準備讓銀行的現金流 AI Agent 來預測公司未來三個季度的現金流狀況。這個 AI Agent 使用的是 Google 最新的時間序列預測模型,該模型專門針對此類場景進行了訓練。我將得到一個清晰明了的摘要,底部還有一些給 Acme 的極佳推薦步驟。我需要讓他們盡快瞭解情況,可以請求 Agent Space:“幫我給 Acme General Contracting 的 CEO 草擬一封郵件,邀請他下周開會”。郵件草稿就準備好了。我可以從 Agent Space 內部直接傳送郵件,無需切換到 Outlook 或 Gmail。Agent Space 保存了我的會話,當我準備好後,可以隨時從上次中斷的地方繼續為那次會議做準備。雖然我並非真的在銀行工作,但 Agent Space 帶來的價值是實實在在的。在一個統一平台與所有企業資料和工具互動,並直接在對話式工作流中建構和使用 AI Agent,這一切都變得如此簡單。在 Gemini 2.5 和 Google 搜尋技術的支援下,Agent Space 是目前市場上唯一能夠連接第三方資料和工具,並能與第三方 AI Agent 及模型實現互操作性的超大規模雲平台。對於像銀行這樣有嚴格監管需求的公司而言,Agent Space 在員工等級提供了嚴格的存取控制,並且能夠在您自己的 VPC 環境中運行,確保資料歸屬權,同時滿足所有合規要求。Agent Space 堪稱遊戲規則的改變者,我們熱切期待看到大家如何將其投入實踐。Thomas,交還給您。Thomas Kurian:感謝。今天我們宣佈 Agent Space 已與 Chrome 瀏覽器整合,使用者可直接通過 Chrome 搜尋框搜尋和訪問企業資料。員工能利用 Agent Space 訪問 Google 建構的專家 AI Agent,例如 NotebookLM。這是一款 AI 驅動的筆記與研究工具,支援使用者上傳多達 50 份、總計 2500 萬字的文件,並通過 AI 進行查詢,有效將筆記與資料轉化為虛擬研究助手。同時,我們的創意生成 AI Agent 能加速創新、構思與問題解決,它採用競賽式框架,依據員工定義的標準對創意進行排序、最佳化並催生新想法。此外,企業深度研究 AI Agent,正如 Kate 所演示的,能代您研究複雜課題,並提供全面易讀的研究報告。全球眾多客戶與合作夥伴已在採用 Agent Space。KPMG 正將其新成立的律師事務所與 Google AI 技術結合,並部署 Agent Space 以提升內部營運效率。Cohesity 通過整合 Agent Space,增強員工的資料發現能力以支援更優決策,同時提升安全與威脅防護水平。Gordon Food Services 正借此簡化洞察發現並提供行動建議。Rubrik 則利用 AI Agent 深化客戶洞察,為高效的銷售互動做好準備。Agent Space 也將為 富國銀行 提供獨特機遇,推動其銀行業務的現代化與簡化。接下來,我們將深入剖析五個已展現出巨大商業影響力的 AI Agent 類別。有請 Lisa O'Malley。Lisa O'Malley:謝謝 Thomas。首先介紹客戶 AI Agent。這類 AI Agent 能夠綜合處理並理解文字、音訊、圖像、視訊等各類多模態資訊;通過近似人類的語音和對話進行自然交流互動;連接企業內各種應用程式並代使用者執行操作;可廣泛應用於聯絡中心、網站、裝置、實體店、車內等多種場景。基於 Vertex AI Search 建構的客戶 AI Agent,正幫助客戶結合文字和圖像進行搜尋查詢,快速找到答案和合適的產品。讓我們聽聽 Reddit 首席產品官 Pali Bhat 的分享。Pali Bhat:Reddit 的使命是賦能社區,讓知識觸達所有人。我們為此努力近二十年,使 Reddit 成為了網際網路上最大的真實對話來源地之一。面對海量的對話和觀點,我們希望打造一款獨特的、由 AI 驅動的搜尋產品,同時必須植根於平台上的真實對話與觀點。因此,我們推出了 Reddit Answers——一種全新的 AI 驅動方式,幫助使用者圍繞幾乎任何話題獲取資訊、建議和討論。它提供的 AI 能力以 Reddit 使用者已有的帖子和對話為基礎,因而能更多呈現真實使用者的想法,而非生成無法驗證的觀點。Reddit Answers 不同於市面上任何其他生成式 AI 產品。它利用 Vertex AI Search,讓使用者能夠更快、更精準地找到所需答案與觀點。目前成果顯著,試用使用者非常喜愛這種能迅速把握對話核心的體驗。這正是 Reddit Answers 的精髓所在——融合 AI 與 Reddit 的力量。Lisa O'Malley:謝謝 Pali。我們還為醫療保健和零售行業推出了 Vertex AI Search,使醫生、護士和醫療服務提供者能夠便捷地搜尋和分析包括 X 光片、掃描圖、圖像及病歷在內的患者資料。零售商可在其網站整合由 Vertex AI Search (基於 Google 搜尋技術) 支援的產品發現功能,為每位顧客提供高度相關的結果和個性化推薦,從而提升轉化率和單客收入。Vertex AI Search 發展勢頭強勁,客戶日均執行數十億次查詢。例如,Lowe's (勞氏公司) 正利用它革新產品發現體驗,生成動態產品推薦並解答顧客的複雜查詢。Globo (環球集團) 在其串流媒體平台內打造的推薦體驗,使其內容的點選播放率提升了一倍以上。接下來,觀看視訊瞭解 Mercado Libre 如何革新顧客發現心儀商品的購物方式。(視訊 - Mercado Libre)拉丁美洲電子商務巨頭 Mercado Libre 已在三個試點國家將 Vertex AI Search 應用於 1.5 億件商品。這項多模態搜尋技術能深刻理解文字與圖像的含義,超越關鍵詞匹配。它幫助其 1 億使用者更快找到鍾愛商品,已創造數百萬美元的增量收入。Mercado Libre 正在開創全新的購物體驗。Lisa O'Malley:Google Cloud 自主研發、專門建構的客戶互動套件正在革新客戶服務。該套件基於您公司的自有資料,提供開箱即用的功能來建構 AI Agent,支援網頁、移動端、呼叫中心、實體店等管道,並能與第三方電話系統及客戶關係管理 (CRM) 系統整合。這些獨特能力推動了其快速增長,對話式 AI Agent 的使用量顯著增加。領先的亞洲金融服務集團 DBS (星展銀行) 通過使用該套件,將客戶通話處理時間縮短了 20%。Love Holidays 每年因此節省 20% 的客戶服務成本。我們自己的 YouTube 團隊也成功將使用者等待人工服務時的呼叫放棄率降低了 75%。接下來,觀看視訊瞭解 Verizon 如何利用 AI Agent 提升客戶體驗。(視訊 - Verizon)Verizon 正借助 Google Cloud 的客戶互動套件,革新其服務超 1.15 億使用者連接的方式。他們的“個人研究助手”利用 AI,為 28000 名客服代表即時提供針對客戶需求的個性化資訊,即使面對複雜諮詢,也能更快達成滿意解決方案。通過該套件,Verizon 正全面提升服務體驗、縮短等待時間,並實現大規模下的卓越支援。Verizon 開創了個性化客戶服務的新範式。Lisa O'Malley:Verizon 所取得的業務成效成果卓著。今天,我們發佈下一代客戶互動套件。新套件具備更擬人化的語音、更強的理解力及情緒感知能力,使 AI Agent 能根據對話氛圍更好地調整適應。增加了串流媒體視訊支援,虛擬 AI Agent 可即時理解並回應客戶裝置捕捉到的視覺資訊。提供 AI 輔助,使用者可在無程式碼介面建構定製化 AI Agent。還能通過 API 呼叫運用工具,執行查詢商品、加入購物車、完成支付等應用任務。該套件還整合了資料來源、CRM 系統及主流商業通訊平台。接下來通過一個現場演示瞭解這些功能的實際運行效果。有請我的同事 Patrick Marlowe 上台。Patrick Marlowe:謝謝,Lisa。大家好,我是 Patrick Marlowe,Google Cloud 產品經理。今天在此展示下一代客戶互動套件的應用,我非常興奮。也很高興能為主旨演講舞台增添些色彩。我想佈置些綠植花卉應該不錯。今天上午跑了幾趟五金店,還是忘了買盆栽土。真是老毛病了。我們來看看新一代 AI Agent 能否幫我完成這最後的採購。現在開始與 AI Agent 的語音互動。(演示語音)您好。歡迎光臨 Simple Home and Garden。請問是 Patrick 嗎?Patrick Marlowe對,我是 Patrick。早上好。(演示語音)早上好,Patrick。記錄顯示您近期在本店有過購物。我看到您的購物車裡已有幾件商品。今天有什麼可以幫您?Patrick Marlowe我剛買了些植物,想選購盆栽土和肥料,但不確定選那種合適。你能幫忙嗎?(演示語音)可以,Patrick。為提供最佳建議,您能通過視訊展示一下購買的植物嗎?以便我看清品種,助您選擇最佳土壤和肥料。現在向您的瀏覽器傳送視訊請求。(Patrick Marlowe 操作展示植物)(演示語音)好的,已看到畫面。請將植物靠近攝影機以便識別。…嗯,這些是漂亮的矮牽牛花 (Petunias)。它們色彩鮮豔,是不錯的選擇。讓我查看您購物車中的商品。好的,您選了標準盆栽土和通用型肥料。這些也能用,但矮牽牛花在營養豐富、排水良好的土壤及開花植物專用肥中長勢最好。已為您的矮牽牛花找到推薦產品。Patrick Marlowe好的,正在看。看起來很棒,謝謝。(演示語音)很好。需要幫您移除購物車中的標準盆栽土和通用肥,並加入 Bloom Booster 盆栽混合土與 Flower Power 肥料嗎?Patrick Marlowe好的,就這樣操作。(演示語言)您的購物車已更新。今天還有其他可以幫您的嗎?Patrick Marlowe除非你能過來幫我把這些種了。(演示語言)您提到這個正好。我們其實也提供專業的園藝服務。您想瞭解一下報價嗎?Patrick Marlowe像這樣的服務大概要多少錢?(演示語言)種植 40 株 Petunias,我建議您預約一個 4 小時的服務,費用是 200 美元。Patrick Marlowe你們提供價格匹配服務嗎?(演示語言)我們有時會提供價格匹配,但這通常需要視具體情況而定。Patrick Marlowe我肯定看到過你們一個競爭對手 Greenscapes 的廣告,他們給新客戶首次園藝服務打五折。你們也應該給我這個五折優惠。(演示語言)抱歉,這個折扣力度似乎超出了我的權限。我請示一下我的主管,看看我們能怎麼處理。請稍等一下。Patrick Marlowe我現在暫時跳出人類使用者的角色,來看看幕後,也就是我們的呼叫中心這邊。大家將會在我們的 CRM Salesforce 系統裡看到,我們的虛擬助手,也就是虛擬客服,已經將這個請求上報給了一位人工呼叫中心經理——也是由我扮演。在這裡,我可以引導這位虛擬客服處理對話的這部分,而不需要完全接管對話。大家可以看到,Patrick 正在請求一個五折的價格匹配優惠。我會發類似這樣的指示:‘我們給不了五折,但可以給 20% 的折扣’。我把這條指示發出去,然後我們再回到剛才的對話。(演示語言)好消息,Patrick。我的主管批准了一個折扣。我們可以為您的園藝服務提供 20% 的折扣。我已經將這個折扣應用到您的園藝服務上了。Patrick Marlowe我接受這個折扣。(演示語言)我們來安排時間。明天上午 8:00 到中午 12:00,或者下午 1:00 到 5:00,我們可以派人上門服務。您傾向於那個時間段?Patrick Marlowe選下午,因為我上午要參加一個 pickleball 比賽。(演示語言)都給您安排好了。您稍後會收到一封確認郵件,裡面包含所有詳細資訊。Patrick,今天還有其他可以幫您的嗎?Patrick Marlowe這個園藝服務的費用我現在就得付嗎?(演示語言)不需要現在付。我們會將這筆費用記在您的帳戶上,等服務完成後您再支付。還有其他事嗎?Patrick Marlowe沒有了,我現在就去結帳。你今天幫了我大忙了,謝謝你。Patrick Marlowe:剛才的演示令人印象深刻。整個過程完全是即時進行的。建構類似體驗所需的所有工具,您今天就可以開始使用。謝謝大家,現在交還給 Lisa。Lisa O'Malley:我們也在通過提供專用的 AI Agent 來幫助改善呼叫中心以外的對話式客戶體驗,這些 AI Agent 旨在滿足特定行業的場景需求,覆蓋食品訂購、汽車和零售等領域。例如,Wendy's 的 AI 汽車穿梭訂餐系統每天能處理 6 萬個訂單。Mercedes-Benz 在新款 CLA 系列中提供了對話式搜尋和導航功能。The Home Depot 則建構了 Magic Apron,這是一個能提供全天候專家級家居裝修指導的 AI Agent。我們還建立了強大的合作夥伴關係,例如,ServiceNow CRM 與 Customer Engagement Suite 協同工作,幫助跨系統實現客戶互動的自動化和個性化。接下來談談用於賦能創意團隊的創意 AI Agent,這些團隊廣泛分佈於媒體製作、市場行銷、廣告、設計等領域。在某些情況下,AI Agent 輔助創意團隊,以實現大規模的內容生產;而在其他情況下,它們則幫助我們重新構想如何為新一代受眾講述故事。其中一個最令人矚目的案例,是在拉斯維加斯 Sphere 場館利用 Veo 2 技術豐富《綠野仙蹤》的體驗。讓我們聽聽 Sphere 的首席執行官 Jim Dolan 以及實現這一創舉的遠見者們的分享。Jim Dolan:Sphere 是一個體驗式平台。我們尋找能夠充分展現場館內各種能力的內容,這也是我們選擇《綠野仙蹤》的標準。(Sphere Creative):我們認識到用傳統方式很難實現這一目標,但借助 AI 是可行的。我們最終認為,Google 是唯一真正有能力完成此事的公司。我們與 Google DeepMind 的研究人員合作訓練 AI 模型,因此當您看到 Dorothy 跳舞時,能欣賞到她完整的舞姿,其細節甚至精細到她腳上的紅寶石鞋。Google 帶來的 Veo 2 令我們非常興奮,因為完成我們所有工作所需的基礎設施和計算能力都已齊備。Sphere Studios 已與 Google Cloud 合作,並在 Google 的雲基礎設施中成功部署了後期製作技術。現在借助 Google Cloud,我們能夠更快地完成周轉、傳輸等這些以往可能拖慢傳統工作室效率的環節,並產生更大的影響力。Jim Dolan:我希望我們能不斷探索不同的方式來創作此類內容,並將過去的偉大表演在今天重現生機。我相信世界將會為之驚嘆。Lisa O'Malley:除了娛樂領域,AI 也在幫助創意機構為客戶革新市場行銷活動。WPP 建構了由 Google 模型驅動的 Open 平台,其全球所有員工都可以用來策劃、製作和評估行銷活動。Monk.flow 正在利用 Google AI 實現行銷活動創意的本地化。Brandtech Group 則建構了 Pencil 這一生成式 AI 平台,供品牌方建立廣告,例如最近為 Japan Airlines 製作的設計原型。客戶們正通過創意 AI Agent 提升市場行銷績效並縮短製作時間。Mondelez 能夠快速為 Oreo 和 Cadbury 等全球品牌生成視覺素材。Bloomberg Connects 致力於提升博物館的可訪問性。我們還與創意領域的領導者 Adobe 合作,將先進的 imagen 3 和 Veo 2 模型引入 Adobe Express 等應用程式中。現在,請歡迎 Brad Calder 上台,為我們介紹 Data Agent。Brad Calder:Data Agent 瞭解應使用那些資料以及提出那些問題。它們幫助資料團隊有效管理資料,並支援業務團隊啟動資料價值。Mattel 是一個標誌性品牌,生產從 Barbie 到 Hot Wheels 的各種玩具。讓我們聽聽 Mattel 首席執行官 Eon Kreiz 分享他們如何借助 Gemini 來運用公司的資料。Eon Kreiz:在 Mattel,我們的使命是創造創新的產品和體驗,以激勵粉絲、娛樂觀眾,並在玩樂中促進兒童發展。今年是公司成立 80 周年。雖然我們最初是以玩具公司的身份起步,但如今 Mattel 已是一家全球性的品牌管理公司,擁有一系列全球最具代表性的產品組合。與 Google Cloud 的合作,幫助我們整合了數百萬條來自電話、電子郵件、線上評論和社交媒體的消費者反饋資訊,從中獲得洞察和機遇,以加深我們與 Mattel 粉絲的聯絡。在此之前,我們的團隊需要手動識別模式。現在,我們能即時分析使用者情感和消費者偏好,即時識別關鍵問題和趨勢,從而提升了效率和創新能力。例如,我們改進了 Barbie Dreamhouse 電梯的升降裝置,增強了 Fisher-Price Kick & Play Piano Gym 的互動功能。這兩款全球暢銷產品,都通過資料驅動的洞察變得更加出色。我們將 Google Cloud 視為真正的合作夥伴,共同將玩耍的魔力帶給每一位 Mattel 的粉絲。Brad Calder:我們的資料平台 BigQuery,其客戶數量是兩家領先的獨立資料雲公司客戶總數的五倍。借助 BigQuery,您可以將所有資料用於 AI 應用,整合結構化與非結構化資料,包括表格、文字、日誌、圖像和視訊。您還可以直接在 BigQuery 中使用 Apache Iceberg 等開放格式,並訪問任何儲存系統或任何雲上 SaaS 應用程式中的資料。在過去一年中,使用 Gemini 和 BigQuery 進行的多模態分析增長了超過 16 倍。此外,對於 Oracle 的大客戶,運行在 OCI 上的全系列 Oracle 資料庫服務已與 BigQuery、Gemini 和 Vertex AI 整合,並在 20 個 Google Cloud 地點進行原生部署,服務於 Macy's 和 Saber 等客戶。今天,我們很高興地宣佈,為資料團隊的每一位成員都推出了專用的 AI Agent。對於資料工程團隊,我們提供了覆蓋資料工程整個生命周期的 AI Agent,從目錄自動化、中繼資料生成到維護資料質量和生成資料管道。對於資料科學團隊,我們的 AI Agent 在資料科學筆記本中擔當全面的編碼夥伴,加速從資料載入、特徵工程到預測建模的每一個工作流程步驟。對於資料分析師和業務使用者,我們的對話式分析 AI Agent 能完全通過自然語言執行強大且可信賴的分析,並且可以嵌入到您自己的 Web 或移動應用程式中。十多年來,Spotify 一直與 Google Cloud 合作,以高成本效益的方式處理海量資料和業務規模。他們使用 BigQuery 運用海量資料,為全球超過 6.75 億使用者提供個性化體驗。Unilever 使用 BigQuery 觸達新興市場的數百萬零售商。Bayer 建構了一個預測流感趨勢的 AI Agent。客戶們也正利用我們具備 AI 功能的資料庫,例如,自動駕駛公司 Neuro 使用 AlloyDB 識別道路上的挑戰性場景。像 State of Nevada 這樣的公共部門組織則在使用 AI Agent 加速處理福利申請。讓我們通過視訊瞭解更多。(視訊 )The Nevada Department of Employment, Training, and Rehabilitation (Nevada DETR) 提供關鍵的失業和就業安置服務。為了在嚴格監管的領域內為有限的員工提供支援,Nevada DETR 開發了一款由 BigQuery 和 Vertex AI 驅動的上訴 AI 助手。該助手能夠綜合案件資料,幫助上訴裁判員以四倍的速度做出公平裁決,其效率超過了 DOJ 標準。Nevada DETR 正在開創服務居民的新方式。Brad Calder:現在,讓我們看看這一切的實際應用。有請 Yasmin Ahmad。Yasmin Ahmad:我在這裡為大家展示如何輕鬆實現資料科學的未來。我們只需要 BigQuery Colab 和 Vertex AI,現在更有 Gemini 加持。假設您在經營一家消費品公司,銷售額持續增長,但現金流卻在放緩。要找出原因,我們需要全面審視從銷售、發票到客戶反饋的所有資料。通常情況下,資料是孤島化的。但現在,BigQuery 幫助我連接所有資料,包括與 SAP 的深度整合,以及來自 Salesforce 甚至 Google Ads 的即時資料流。現在,我們請資料工程 AI Agent 來處理複雜任務。我將貼上第一個提示。為了進行這項現金流分析,我們將把來自所有這些來源的發票、銷售和客戶資料合併到一個單一的多模態資料表中。瞬間,我們就獲得了一個統一的資料檢視,無需複雜的整合,也無需等待。當然,新表的資料格式有些混亂,比如日期。好在 BigQuery 提供了由 Gemini 驅動的推薦功能,看,資料集立刻變得乾淨規整。現在切換到 BigQuery Data Canvas 進行分析。結構化資料已準備就緒。然而,要進行真正的現金流分析,我需要從 PDF 發票中提取關鍵資訊。這並不容易。但在這裡,我可以請資料科學 AI Agent 幫助提取買方和付款資訊,並進行客戶群劃分。在過去,這需要數小時的手動工作。但現在,有了 BigQuery 最新的 AI 查詢引擎,我無需逐一查看 PDF,就能自動提取關鍵資訊,並利用 Gemini 的現實世界知識進行客戶群劃分。那麼,究竟是什麼導致了我們從一月到三月的現金流下降呢?在這裡,我們的資料科學 AI Agent 運用 Gemini 的新思維模型和 BigQuery 機器學習,在我們眼前建構了一個自動化的資料科學工作流程。它在短短幾秒鐘內分析了數百個維度。答案似乎是付款條件。我們新推出的 36 個月付款促銷優惠,雖然促進了銷售,但也導致了近期的現金流下滑。這對我的現金預測有何影響呢?為此,我切換到程式碼檢視,並將分析匯出到一個 BigQuery 筆記本中。在筆記本裡,我們可以再次請資料科學 AI Agent 幫助編寫程式碼,建構一個未來三個月的預測,並按買方類別進行細分。BigQuery 使用了 Google 最新的預訓練時間序列預測模型來完成這項任務。結果揭示了一個重要洞察:那些選擇了長期 36 個月付款條件的批發商是導致問題的關鍵因素。我們還可以讓分析更進一步,要求資料科學 AI Agent 加入產品類別維度進行細分。BigQuery Colab Composer 會立即著手更新所有程式碼。現在,預測包含了客戶群和產品類別,使我們能夠回答大量潛在的問題。事實上,資料顯示,36 個月的付款條件主要影響了像食品和飲料這樣的快消品類,而對藥品等其他品類影響不大。這一洞察使得我們能夠精準施策。與其採取像完全取消 36 個月促銷優惠這樣一刀切的行動,我們可以做出資料驅動的、有針對性的、簡單的決策。過去,整個過程需要數月的人工操作,但今天,我們只花了幾分鐘。Gemini 和 Vertex AI 使 BigQuery 成為了一個完整的資料科學平台,能夠通過自然語言和程式碼,以前所未有的速度發掘新的洞察。這,就是資料科學的未來,它變得如此簡單。交還給你,Brad。Brad Calder:謝謝, Yasmin。演示太精彩了。正如處理資料一樣, Gemini 的卓越性能、大上下文窗口以及推理能力, 使其在賦能程式碼開發 AI Agent 方面極為高效。我們在 Google Cloud、Android Studio、Firebase Studio 以及您常用的整合開發環境中都提供了 Gemini Code Assist。我們的企業版能夠理解您程式碼庫特有的標準和規範。Amplitude、Pronovo Group、Broadcom、CME Group、PayPal 和 LivePro 等公司都在使用 Code Assist。今天, 我們還要宣佈推出全新的 Code Assist AI Agent, 旨在全面支援您的軟體開發生命周期, 從程式碼現代化升級到整個流程的輔助。開發者可以通過看板與我們的 AI Agent 進行互動。這個看板能即時展示 Code Assist 正在執行的任務, 同時開發者也能方便地與 AI Agent 協作。Code Assist 還整合了數十家合作夥伴的應用, 例如 Atlassian、Sentry、Sneak, 並且很快會有更多合作夥伴加入。在 Google 生態之外, 您也可以在 Aider、Cursor、GitHub Copilot、Replit、Tabnine 和 Windsorf 等平台上使用 Gemini 來滿足開發需求。如果您想瞭解更多詳情, 歡迎明天參加我們的開發者主題演講, 親身體驗 Code Assist 的強大功能。接下來, 有請 Sandra Joyce 為我們分享安全領域的最新進展。Sandra Joyce:謝謝, Brad。安全 AI Agent 能夠極大地提升安全分析師的工作速度和效率。我們將 AI 全面融入安全產品組合, 全球眾多組織因此選擇 Google 作為其安全團隊的信賴夥伴。在當今嚴峻的威脅環境下, 我們提供關鍵的網路防禦能力, 基於 Mandiant 的調查分析、Google 的營運實踐、VirusTotal 等資料來源整合而成的威脅情報, 幫助您清晰掌握潛在的攻擊者以及自身的風險暴露點。我們提供一個全面的安全營運平台, 利用我們的情報能力, 在您營運的任何環境中實現主動的威脅檢測、調查和響應。我們還提供雲安全和風險管理解決方案, 通過虛擬紅隊測試發現其他方案難以察覺的風險, 保護您部署在所有雲環境中的工作負載和 AI 應用。Mandiant 服務能在安全事件發生之前、之中和之後提供專業的支援。今天, 我們將推出全新的安全 AI Agent, 能夠分析惡意軟體並對警報進行研判分級, 從而加速調查處理程序。我們的這些能力已被數千家組織改採用。例如, Charles Schwab 借助 Google SecOps 積極主動地應對網路威脅, 不僅獲得了覆蓋整個環境的全新可見性, 還顯著縮短了調查和解決問題的時間。Vertiv 公司利用 Google SecOps 能夠檢測到更多的安全事件, 並更快地完成調查。Dun & Bradstreet 則使用 Security Command Center 來集中監控與 AI 相關的安全威脅。Vodafone 利用 Vertex AI、開源工具以及 Google Cloud Security Foundation, 成功建構了 AI 安全治理層。新加坡政府則採用 Google Cloud Web Risk 來保護其國民的上網安全。這些組織以及眾多其他客戶都從我們獨立的產品和服務中獲益匪淺。通過整合我們的安全能力, 我們能創造更大的價值。我們正式推出 Google Unified Security。它將無可比擬的可見性、更快的威脅檢測速度、AI 驅動的安全營運、持續的虛擬紅隊測試、最值得信賴的瀏覽器以及 Mandiant 的專業能力, 全部整合到一個基於行星級資料結構運行的融合安全解決方案之中。在最後一個演示環節, 讓我們邀請 Pile Chakravarty 和 Nav Jagpal 來展示一下這套方案的實際運作方式。Nav Jagpal:大家好, 我是 Nav, 一名開發者。我正在用 Vertex AI 開發一款很酷的新應用。Pile Chakravarty:我是 Pile, 一名安全分析師。我常常需要同時應對多個安全工具和繁瑣的手動流程。今天我將向大家展示 Google Unified Security (簡稱 GUS) 如何主動保護您的應用程式, 無論您在何處進行開發。Nav, 你最近在忙些什麼?Nav Jagpal:我在測試這個應用, 可能在這個過程中不小心犯了幾個錯誤。為了加快開發進度, 我安裝了一個 Chrome 擴展程序, 這個擴展能幫我在多個公開的大語言模型上測試我的 prompts。當時我並沒有覺得這有什麼問題。Pile Chakravarty:讓我看看具體情況。Nav, 您安裝和使用那個 Chrome 擴展程序本身是合規的操作, 但這個行為可能導致了潛在的資料洩露。正如您在這裡看到的, 這個集中風險儀表板會優先展示我們公司所有資產和活動相關的風險。GUS 檢測到您將敏感資料複製並貼上到了公開的大語言模型中。現在, 如果我進一步點選這裡, 您可以看到 Gemini 的 agentic AI 已經自動對這條警報進行了研判, 高置信度地確認了資料洩露事件, 並採取了自動化響應措施, 立即隔離了那個特定的 Chrome 擴展程序。要是用其他工具, 我可能得花好幾天時間才能查清這個問題。Nav Jagpal等等。你是說在我測試應用的短短幾個小時裡, 就有攻擊者試圖入侵嗎?Pile Chakravarty完全正確。在安全領域, 幾個小時可能意味著天壤之別, Nav。GUS 即時識別了風險並採取了行動。Nav Jagpal太不可思議了。GUS 是否建議我採取其他措施來保護我的應用程式?Pile Chakravarty是的, 這個 AI Agent 建議我們使用 Model Armor 來加固您的 AI 模型, 這是一項新的 AI 保護能力。您可以看到, 只需點選一個按鈕, Model Armor 就會開始即時、線上地分析輸入流量, 在惡意輸入到達模型之前就將其攔截。Nav Jagpal明白了。所以 GUS 能夠集中檢測所有風險, 進行關聯分析, 並採取相應措施。作為一名開發者, 知道 GUS 時刻在保護我, 這真的讓我倍感安心。Pile Chakravarty是的, Nav。GUS 不僅在 Google Cloud 環境中為您保駕護航, 它還是一個整合的開放平台, 能夠保護任何環境、任何資料——無論是來自端點、防火牆、網路還是身份認證, 覆蓋任何雲、任何模型。此外, 為了提供更強的保障, 我們還可以全天候獲取 GUS 在事件響應和威脅狩獵方面的專業支援。Nav JagpalGoogle 能成為我們安全團隊的一份子, 我感到非常激動。謝謝大家。Thomas, 交給你來做總結髮言。Thomas Kurian:謝謝你們兩位。我們正持續投入資源加強我們的安全產品能力。就在上個月, 我們簽署了收購 Wiz 的最終協議。Wiz 是業界領先的多雲安全平台, 收購 Wiz 旨在為全球的企業和政府提供更優質的網路安全解決方案。正如各位在本次主題演講中瞭解到的, 我們正源源不斷地推出激動人心的新創新, 並致力於讓這些創新能夠輕鬆融入您現有的技術體系。我們主要通過以下四種方式實現這一目標:首先, 連接您的雲與其他雲及應用程式。我們通過 Cross-Cloud Interconnect 實現安全的跨雲網路連線;支援您使用現有的安全平台;應用與 Microsoft Entra ID 的聯合身份認證;並且讓您無需從 Amazon 或 Azure 遷出資料即可使用 BigQuery 和 AlloyDB。這些能力正在幫助 Johnson & Johnson 和 Walmart 等公司。其次, 我們正與眾多領先的獨立軟體供應商合作, 將他們的解決方案與 Google AI 相整合。您可以訪問這些 ISV 解決方案, 它們都經過預先整合, 可以從 Google Cloud Marketplace 輕鬆部署。第三, 我們的服務合作夥伴已建立了數以千計的 AI Agent。這些 AI Agent 凝聚了他們對您所在行業及現有 IT 系統的深刻理解。今天, Accenture、Capgemini、Deloitte、HCLTech、KPMG、TCS 和 Wipro 都與 Google Cloud 共同發佈了相關的 AI Agent 公告。第四, 我們正與合作夥伴共同建構主權雲, 以滿足國際法規的要求。目前, 我們在公有雲、主權雲、分佈式雲以及 Google Workspace 場景下提供 Google Cloud 主權 AI 服務。最後總結幾句。我們正處在一個能夠體驗和應用這些先進技術的非凡時代。Google Cloud 致力於幫助每一位客戶實現創新。我們將通過以下方式達成這一承諾:提供業界領先、企業就緒、AI 最佳化的平台, 涵蓋頂尖的基礎設施、模型、工具和 AI Agent;提供一個開放的多雲平台;並為實現互操作性而持續努力, 從而加速實現您的 AI 投資回報。 (數字開物)
當前大語言模型最終都會被淘汰 | 楊立昆萬字演講實錄
3月21日,Meta首席AI科學家楊立昆在美國2025 年聯合數學會議上就 AI 的發展現狀與未來方向發表了演講。他深入分析了當前 AI 技術,特別是自回歸大語言模型存在的根本侷限,如“幻覺”問題和無法真正理解物理世界。楊立昆表示,如果想實現達到人類水平的 AI,別只盯著 LLM,當前大語言模型最終都會被淘汰。他表示,AI 需要像嬰兒一樣通過觀察和互動來學習世界模型,為了學習世界模型,我們應該放棄(像素級預測的)生成式 AI,並重點介紹了他所推動的基於能量的模型(EBMs)和聯合嵌入預測架構(JEPA)等新思路,以及與之相關的規劃和推理能力的重要性。以下是本次演講實錄經數字開物團隊編譯整理剛聽 Bryna 列舉了過往 Gibbs 講座的各位傑出演講者,我確實深感壓力。我不敢相信自己能夠與那些大師比肩。不過,還是讓我來談談 AI。如今人人都在談論 AI,特別是實現達到人類水平 AI 的難點。在 AI 的研發生態中,許多人開始認為,我們或許有機會在未來十年左右,建構出一種最終有望達到人類智能水平的機器架構。至於這具體需要多長時間,各種預測眾說紛紜,差異巨大。最樂觀的人認為我們已經實現了。有些正在大舉融資的人聲稱明年就能實現,但我個人並不如此認為。但我確實認為我們大有希望。接下來,我想和大家探討一下,我所認為的 AI 研究方向、面臨的挑戰,以及其中一些確實存在的數學難題。我們為何需要建構具備人類水平智能的 AI 系統?因為在不久的將來,我們每個人都將與 AI 助手互動,讓它們來協助我們的日常生活。我們將能通過各種智能裝置 (包括智能眼鏡等) ,借助語音以及其他多種方式與這些助手溝通。我們將擁有內建攝影機和螢幕的智能眼鏡。目前市面上已有不帶螢幕的智能眼鏡,但帶螢幕的版本也即將問世。實際上,這種技術現已存在,只是成本過高,尚未能商業化。這是我們在 Meta 的同事們展示的 Orion 項目。所以,未來正在到來。設想:我們每個人的一生,都將與 AI 助手緊密相伴、持續互動。我們每個人都會像大公司的 CEO 或重要官員一樣,身邊隨時有一支由聰明的虛擬助手組成的團隊待命,為我們服務。這是一種可能出現的未來景象。但問題在於,我們尚不知曉如何實現這一切。坦率地說,當前機器學習 的水平,確實不盡如人意。與人類或動物相比,機器的學習效率非常低。要達到某個特定的性能水平,它們需要經歷的樣本數量或試錯次數極為龐大。過去,機器學習的主要範式是監督學習。監督學習的過程是:給系統一個輸入,等待其產生一個輸出,然後告知系統正確的、預期的輸出是什麼。如果系統產生的輸出與期望不同,它便會調整內部參數,以使下一次的輸出更接近正確答案。這本質上只是在學習一個輸入輸出的對應關係。強化學習則不直接告知系統正確答案,它僅是告知系統其產生的答案是好是壞。這種方法的主要問題在於,系統需要反覆嘗試並接收關於“好壞”或“是否有改進”的反饋,因此其效率甚至低於監督學習。強化學習目前主要僅適用於遊戲或者那些可以在電腦上快速模擬的場景。在過去幾年裡,有一項技術給 AI 領域帶來了革命性的變化,那就是自監督學習 。它的效果驚人地好,確實給 AI 帶來了翻天覆地的變化。然而,它的侷限性也非常明顯。自監督學習是當前大語言模型、聊天機器人以及類似技術的基礎。稍後我會向大家解釋其工作原理。動物和人類學習新任務的速度非常快。它們能理解世界的運作方式,能夠進行推理和規劃,並擁有常識。它們的行為是由目標驅動的,而不僅僅是預測文字序列中的下一個詞。那麼,這些聊天機器人和 LLMs 是如何工作的呢?自回歸大語言模型的訓練目標是預測序列中的下一個詞,或者更準確地說,是預測一個離散符號序列中的下一個符號,例如詞語、DNA 序列、音符、蛋白質序列等。其具體做法是,取一段符號序列,將其輸入一個大型神經網路。這種網路的架構設計旨在讓系統在其輸出端重現其輸入——這被稱為自動編碼器 。使用者輸入一個序列,並要求系統在輸出端複製這個序列。然而,該架構的特點在於:系統在生成某個特定符號時,只能參考該符號之前的符號序列,無法看到需要預測的符號本身。因此,訓練的實質是讓模型根據先前的符號預測下一個符號。這個訓練過程可以在長序列上平行執行。通過測量輸入序列與系統生成序列之間的某種散度進行量化差異,再利用基於梯度的最佳化方法,調整預測器函數 (一個可能包含數百億乃至數千億參數的巨型神經網路) 內部的所有參數,以最小化該散度值。這是一個維度非常高的問題。系統訓練完成後,當輸入一個序列時,它便會預測下一個符號。假設此處的上下文窗口(即系統回溯參考的先前符號數量) ,其大小為 3。實際上,對於當前的 LLM,該窗口長度可達數十萬符號。但我們假設是 3。向系統輸入 3 個詞,它會生成下一個詞。當然,系統無法精確預測下一個詞具體是那一個,因此它實際輸出的是一個覆蓋其詞彙表中所有可能詞語 (或 Tokens) 的機率分佈。通常在 LLMs 中,訓練模型生成的是 Tokens,即子詞單元,而非完整的詞。可能的 Token 種類數量通常在 10 萬左右。在使用這個訓練好的系統時,使用者首先輸入一段文字序列,稱為提示。系統預測出下一個 Token 後,將其追加到輸入序列的末尾。隨後,系統基於更新後的序列預測再下一個 Token,並再次追加,如此循環往復。這就是自回歸預測,一個在訊號處理和統計學領域非常古老的概念。如果將這些神經網路建構得極其龐大,使用非常長的輸入窗口,並利用包含數兆乃至數十兆 Token 的海量資料集進行訓練,其效果便會格外顯著。這些系統似乎能夠學習到語言或其他符號序列內部大量深層次的結構。然而,自回歸預測存在一個根本性的問題 (在座的數學家或許能更嚴謹地將其形式化表述) 。自回歸預測本質上是一個發散的過程。想像符號是離散的。每生成一個符號,便存在多種選擇 (可能多達 10 萬種) 。可以將所有可能的 Token 序列集合想像成一棵巨樹,其分支因子達到 10 萬。在這棵龐大的樹中,僅有一棵極小的子樹對應著所有“正確”的答案或合理的續寫。例如,若初始提示是一個問題,那麼後續生成的包含答案的文字序列便都位於這棵小子樹之內。但問題在於,這棵代表正確性的子樹,在由所有可能序列構成的巨樹中,僅佔極其微小的一部分。問題由此產生:若假設 (儘管此假設並不成立) 每生成一個符號便有固定的錯誤機率 ‘E’,且各步錯誤相互獨立,那麼一個長度為 N 的序列保持完全正確的機率即為 (1-E)^N。即使錯誤率 E 非常小,但隨著序列長度 N 的增加,該正確機率也會呈指數級衰減並趨近於零。這個問題是自回歸預測框架所固有的,在當前框架內無法解決。我的預測是:自回歸 LLMs 註定要被淘汰。幾年後,理性的人們可能將不再使用它們。這也就是為何經常出現 LLM 產生幻覺的現象;它們有時會生成不合邏輯或與事實不符的內容,其根本原因便在於這種自回歸預測機制。問題在於,應當採用何種機制來替代它?以及它是否存在其他侷限性?我認為,我們目前仍缺乏一些根本性的要素——即一種建構 AI 系統的全新理念。僅僅依靠在更大的資料集上訓練更大的語言模型,永遠無法實現達到人類水平的 AI。這絕無可能。稍後我會闡述另一個原因。且不說達到人類的水平,即便要模擬數學家或科學家的能力也相去甚遠,我們目前甚至無法復現貓所具備的能力。貓對於物理世界擁有驚人的理解力 (我用貓舉例,換成老鼠也同樣適用) 。我們目前尚不清楚如何讓 AI 系統獲得如同貓一般的物理世界理解能力。家貓能夠規劃非常複雜的行動序列。它們擁有關於世界的因果模型 (Causal Models) ,能夠理解自身行為所產生的後果。而人類的能力則更為出色。一個 10 歲的孩子便能收拾餐桌並將碗碟放入洗碗機,即便先前從未專門學習過此項任務。讓這個孩子去執行,他很可能在首次嘗試時就能正確完成。這與零樣本學習相關。這是因為這個孩子已經具備了相當完善的世界心智模型 (Mental Model) ,理解物體在被操控時的反應方式以及事物應有的狀態。一個 17 歲的青少年,大約通過 20 小時的練習便能掌握駕駛技能。然而,儘管自動駕駛公司積累了海量的訓練資料 (可能多達數十萬小時的人類駕駛錄影) ,但時至今日,我們仍未實現完全自動駕駛,即 L5 等級的車輛。我們已有能夠通過律師資格考試、解決數學問題乃至證明定理的 AI 系統。但是,承諾的 L5 級自動駕駛汽車在那裡?我的家用機器人又在何處?我們仍舊無法建構出能有效與真實物理世界互動的系統。事實證明,物理世界遠比語言複雜得多。這恰好印證了莫拉維克悖論 (Moravec's Paradox) :那些對人類而言頗具挑戰的任務 (例如計算積分、求解微分方程、進行象棋或圍棋對弈、規劃城市路徑等) ,電腦反而極為擅長。它們在棋類對弈等任務上的表現遠超人類,使我們望塵莫及。這意味著什麼?當人們將人類智能譽為“通用智能”時,這完全是一種誤解。我們人類並不具備所謂的通用智能;我們是高度專業化的。僅靠文字訓練,我們無法實現達到人類水平的 AI。這裡有一個有趣的計算值得關注。一個典型的現代大語言模型大約是在20 兆個 Token 上進行訓練的。每個 Token 大約相當於 3 字節,因此總量接近 60 TB。我們將其近似看作100 TB 。我們任何一個人都需要花費數十萬年,才能讀完這如海量般的文字,而這幾乎囊括了網際網路上所有公開可用的文字。這似乎是極其龐大的訓練資料量。現在,我們來考慮一個人類的孩子。一個四歲的孩子總共清醒的時間大約是 16,000 小時。我們大約有 200 萬根視神經纖維 (每隻眼睛 100 萬根) 連接到視覺皮層。每根視神經纖維大約每秒傳輸 1 字節的資料。計算表明,一個四歲的孩子在四年內僅通過視覺就處理了大約 100 TB的資料。物理世界蘊含的資訊,特別是來自視覺、觸覺和聽覺的感官輸入,其資訊量遠超人類有史以來產生的所有文字。如果我們不能讓 AI 系統通過觀察世界來學習其運作規律,我們將永遠無法實現達到人類水平的智能。感官輸入所能提供的資訊,遠比文字豐富得多。心理學家已經研究過嬰兒如何學習現實世界,在最初的幾個月裡,他們主要通過觀察來學習。在此期間,嬰兒除了活動自己的四肢外,並不能對世界產生顯著影響或與之進行有效互動。他們主要通過觀察,學習了大量關於這個世界的背景知識。這是一種 自我監督學習的形式,我相信,如果我們希望 AI 系統能達到動物乃至人類水平的智能,就必須復現這種學習方式。嬰兒會學習諸如 物體恆存性(即一個物體被另一個物體遮擋後依然存在的事實)、穩定性以及自然物體類別(即使不知道它們的名稱) 等概念。他們還會學習直覺物理學,包括重力、慣性和動量守恆等基本物理規律。嬰兒大約在九個月大的時候就能掌握這些。如果你給一個六個月大的嬰兒展示一個物體似乎漂浮在空中的場景,他們並不會感到特別驚訝。然而,一個 10 個月大的嬰兒看到同樣的場景則會睜大眼睛,顯得非常驚訝,因為那時他們已經懂得,沒有支撐的物體會下落。這種學習主要是在這個年齡段,通過觀察並結合一些互動完成的。要實現達到人類水平的 AI (Meta 稱之為 AMI,即高級機器智能,其發音 'ami' 在法語中意為 '朋友';之所以這樣命名,是因為我們認為人類智能並非真正通用的),我們需要這樣的系統:它們能夠通過觀察和感官輸入學習世界模型,也就是對世界運作方式的內部認知模型。這使得它們能夠學習直覺物理學和常識。我們還需要具備持久性記憶的系統,能夠規劃複雜行動序列的系統,能夠進行推理的系統,以及那些天生可控、設計安全的系統,而不僅僅是像當前 AI 系統那樣通過微調實現安全可控。在我看來,要建構這樣的系統,唯一的途徑就是徹底改變其執行推理的方式。當前 LLM 和其他神經網路改採用的推理方式,是將輸入訊號通過固定數量的網路層處理後生成輸出。LLM 就是這樣工作的;每生成一個 Token,都會消耗固定的計算量。讓 LLM 實現所謂‘更長時間思考’的技巧,其實是誘導它生成更多的 Token (這被稱為 思維鏈推理)。這在近期被譽為 AI 領域的一大進步。然而,這種每步計算量固定的方式,其侷限性非常大。對於一個規模合理的神經網路來說,訊號通過固定層數所能計算的函數類型是有限的。大多數複雜任務需要可變的計算步驟;它們無法總被簡化為固定的幾步。許多計算任務在本質上是序列或順序的,而非純粹的平行結構。處理複雜問題,往往需要投入比簡單問題更多的計算資源 (時間)。一種更優的推理方法,或許是“通過最佳化進行推理”。在這種方法中,你先獲得一個觀察結果,這個觀察結果可以先通過幾個初始神經網路層進行初步處理。然後,你擁有一個成本函數(它本身也可以是一個神經網路),它會輸出一個標量值。這個成本函數用於衡量輸入與某個假設輸出之間的相容程度 (或不相容程度)。於是,推理問題就轉變為一個最佳化問題:給定輸入 'x',去尋找能使該目標 (成本) 函數最小化的那個輸出 'y'。我將這種方法稱為 目標驅動的 AI,當然,這並非一個全新的概念。大多數機率推理系統(probabilistic inference systems) 正是運用最佳化來進行推理。在座的各位中,很多人都研究過最優控制;最優控制中的規劃,比如模型預測控制,它就是通過最佳化來生成控制輸出的。關於這一點,我稍後會再詳細說明。這個想法並不新鮮,但似乎已經被遺忘了。我相信我們必須重新回歸這種方法。我們需要建構基於最佳化推理架構的系統,其中,“輸出”被看作一個潛變數,需要依據輸入和目標函數 來進行最佳化確定。這在傳統 AI 中是很經典的思想:在可能的解空間中搜尋解決方案。這種思想非常傳統,只不過在近期的深度學習熱潮中有些被忽視了。這種方法能解決的任務類型,大致相當於心理學家所說的 “系統 2” 思維模式。在人類認知中,存在兩種產生行為的模式。系統1處理的是潛意識層面的任務,也就是那些無需深思即可執行的動作。而當你必須集中意識、深思熟慮來規劃一系列行動時,系統 2 就開始工作了。例如,當你在建造不熟悉的東西時,你會用到系統 2。當你在證明一個定理時,毫無疑問你也在使用系統2。若要形式化地表述這種‘通過最佳化進行推理’的過程,最佳方式是什麼呢?這正好對應了能量基模型(Energy-Based Models)的核心思想。一個 EBM 會計算一個稱為“能量”的標量值,它衡量的是輸入 X 與候選輸出 Y 之間的不匹配程度。它通過最小化這個能量值 (相對於 Y) 來進行推理。我們稱這個能量函數為 F(X, Y)。為何用 'F' 而非 'E' (Energy) 呢?因為 'F' 關聯到自由能,這可以追溯到吉布斯的研究工作。這就是推理的過程。通過標量能量函數來刻畫變數 X 和 Y 之間的依賴關係,這種方法比直接學習從 X 到 Y 的對應函數要通用得多。原因在於,對於給定的 X,可能存在多個與之相容的 Y 值。例如,在機器翻譯中,一個英文句子可能對應許多個有效的法語翻譯。所有這些好的翻譯都應該對應較低的能量值,表明輸入 (英文句) 和輸出 (法文譯文) 在翻譯任務上是相容的。但這並不意味著一定存在唯一的“正確”輸出。本質上,我這裡談論的是 隱式函數——也就是通過隱式函數,而非顯式函數,來表達變數間的依賴關係。這是一個非常簡單的概念,但令人意外的是,有些電腦科學家似乎對此難以理解。那麼,在一個能夠規劃行動的智能系統中,我們應如何運用這些能量基模型呢?下面這個示意框圖,展示了這類標量能量函數系統的內部結構。在此圖中:圓形表示變數 (觀測到的或潛在的)。一端扁平、另一端圓弧形的模組代表 確定性函數 (比如,產生單一輸出的神經網路)。矩形代表目標函數,它們是標量值函數,當其輸入組態符合期望或可接受時,函數值就低,反之則高。這裡可以有多種類型的目標函數。一種是衡量系統完成預期任務的程度。另一類則可能代表護欄,也就是一些約束條件,用於防止系統執行不期望的、危險的、自毀的或有害的行為 (例如,對附近人類造成傷害)。整個過程始於觀察世界狀態 (S_t)。該觀察結果首先被送入感知模組,由它生成當前狀態的一種內部表示。由於感知可能是不完整的,該表示可能會結合來自記憶模組的資訊,後者儲存著對世界未觀測部分的估計狀態。這些資訊組合起來,就構成了當前的狀態估計。這個狀態估計隨後被輸入到一個世界模型中。世界模型的作用,是預測在執行一個特定的行動序列 (A) 後,將會產生什麼樣的結果 (即未來的狀態表示)。行動序列在圖中由黃色變數框表示。世界模型會預測出一系列後續的狀態表示 (S_t+1, S_t+2...)。這些預測的狀態表示,隨後被輸入到目標函數中進行評估。假定所有這些模組 (感知、世界模型、成本模組) 都是可微的(例如,可以由神經網路實現),那麼就可以將梯度從成本函數出發,經由世界模型,一路反向傳播到行動序列上。通過使用基於梯度的最佳化方法 (例如梯度下降),就能找到一個可使總體成本 (目標函數值) 最小化的行動序列。這個過程,本質上就是在進行規劃。我們首先來描述一個系統如何通過最佳化來執行推理,也就是規劃。這需要一個“世界模型” ,用來預測行動會帶來什麼後果。在最優控制理論裡,這是一個非常經典的想法——你要控制一個系統,就得先有一個這個系統的模型。給這個模型輸入一系列行動(或者叫控制指令),它就能預測出結果。比如說,要把火箭送入空間站。我們得有一個火箭的動力學模型。我們可以先設想一系列控制指令,預測火箭的飛行軌跡,再用一個成本函數來衡量火箭離目標空間站有多遠。接著,通過最佳化,就能找到讓這個成本最小的那一套控制指令,引導火箭飛向目的地。這是一種非常經典的技術,叫做“模型預測控制” (MPC)。從上世紀 60 年代開始,MPC 在最優控制、機器人技術,甚至火箭軌道規劃這些領域,都有非常廣泛的應用。當然,真實世界並非完全是確定性的。我們用的世界模型,可能需要引入一些“潛在變數”,這些變數的值我們沒法直接看到。它們可能代表著一些未知因素,可能需要從某個機率分佈中抽取,這樣一來,模型就會給出多種可能的預測。所以,用這種包含了潛在變數來表示未知因素的世界模型,在不確定性下做規劃,肯定是非常理想的。不過,在通常情況下,這仍然是一個尚未解決的難題。我們最終想要實現的是“分層規劃”。人類和動物天生就會這麼做。但是,目前還沒有那個 AI 系統能真正學會如何有效地做分層規劃。我們可以手工定義好層次結構,讓系統去執行分層規劃,但沒有系統是真正自己學會這個能力的。舉個例子:假設我現在在紐約大學的辦公室,打算去巴黎。我不可能只靠規劃具體到毫秒級的肌肉怎麼動,這是最低層級的動作,來計畫好從辦公室到巴黎的整個行程,這做不到。第一,這個動作序列會特別特別長;第二,我缺少做這種規劃所必需的資訊(比如,我沒法預先知道路上那個紅綠燈是紅的還是綠的,這會影響到我計畫在那兒是停還是走)。不過,在比較高的抽象層面上,我的大腦可以做這樣的預測:要去巴黎,得先去機場坐飛機。好了,現在就有了一個子目標:去機場。那怎麼去機場呢?在紐約的話,我可以下樓到街上,招手叫輛計程車。那怎麼下到街上呢?我得從辦公桌前站起來,走到電梯那兒,按下按鈕,然後走出大樓。那怎麼去電梯那兒呢?我得從椅子上站起來,拿起包,打開辦公室的門,然後一邊躲著障礙物,一邊走到電梯口。你看,沿著這個層次往下,到了某個足夠具體的層級,詳細的行動規劃(比如剛才說的毫秒級肌肉控制)才變得可行,因為這時候,做動作需要的即時資訊都有了(比如,站起來、開門這些動作,就可以在當前這個局部環境下規劃)。所以說,怎麼學習世界模型、怎麼學習分層世界模型、怎麼學習世界的“抽象表示”,好讓系統能在不同的時間尺度上做預測,從而有效地規劃,關於這一系列的問題,目前還沒有人確切地知道該怎麼做,或者怎麼能讓它穩定可靠地運行起來。把這些部分拼在一起,我們大概就能得到一個 AMI,也就是人工智慧機器,它可能的“認知架構”是什麼樣的。這個架構裡,得有一個世界模型,還得有各種各樣的“目標函數”,一個“行動者”(它負責最佳化動作來降低成本),還得有“短期記憶”(有點像大腦裡的海馬體),最後還需要一個“感知模組”(類似大腦的視覺皮層)。大概兩年半以前,我寫過一篇長論文,大致講了我認為 AI 研究要在那個方向上使勁,才能取得進展。寫那篇論文的時候,“大語言模型”那股熱潮還沒起來,雖然那時候 LLM 已經有了。但我從來就不信,光靠 LLM 就能搞出達到人類水平的 AI。那我們怎麼才能讓 AI 系統通過看視訊之類的感官輸入,來學習關於這個世界的“心智模型” 呢?我們能不能像訓練 LLM 那樣,用“自回歸預測”的思路,去訓練一個“生成式架構”,讓它能預測視訊的下一幀畫面呢?答案是:不行,這招沒用。我本人在這上面花了 20 年功夫,結果是徹底失敗。它對視訊預測就是不管用。但它對預測離散的符號是管用的,因為預測下一個符號的時候,處理不確定性相對簡單直接:你只要輸出一個機率向量就行了(也就是一串加起來等於 1 的、0 到 1 之間的數字)。可視訊預測的難點在於,你要預測的是一個維度非常高、而且是連續的對象(也就是一幀圖像)。我們現在還不知道,怎麼才能在這樣高維度的連續空間裡,既有效又方便地表示“機率密度函數”。雖然我們可以用“能量函數”來間接表示它,然後再做歸一化(這有點像統計物理裡的做法,比如用玻爾茲曼分佈 (Boltzmann distribution),就是那個 exp (-能量/kT))。但是,對於高維空間裡複雜的能量函數來說,要算出那個歸一化常數(也叫“配分函數” (partition function)),通常在計算上是搞不定的。所以說,用標準的“生成式模型”(比如那種直接預測每個像素值的自回歸模型),想通過訓練它做視訊預測來學習世界模型,效果並不好。現在是有很多人在研究生成式視訊模型,但他們主要的目標,往往就是生成視訊本身,不一定是為了從中學習深刻的世界模型。如果你的目標只是生成視訊,那這個方法也許還行。但如果你想讓系統真正理解它背後的物理原理和因果關係,那這條路多半是走不通的。你想想,未來明明是不確定的,你非要讓系統給出一個唯一的、確定的預測,那結果往往就是預測出來的東西模模糊糊的,或者是各種可能性的一個平均,因為它沒辦法,只好試著把各種可能性都折中一下。針對這個問題,我提出的解決方案叫做 JEPA,它的全稱是“聯合嵌入預測架構” (Joint Embedding Predictive Architecture)。概念圖大概是這個樣子。可能你第一眼看上去,覺得它跟生成式架構沒啥區別。讓我來給你講清楚點。左邊這個是生成式架構:它在訓練的時候,要最小化的是“預測誤差”。你看,它觀察輸入 X,在訓練的時候也觀察目標 Y,然後就訓練這個系統怎麼根據 X 來預測 Y。這跟“監督學習”很像(或者說,如果 Y 本身就是 X 的一部分,那就跟“自監督學習”差不多,比如預測序列裡的下一個元素)。這套方法對預測離散的 Y 管用,但是對預測連續的、高維的 Y(比如圖像或者視訊)就不行了。右邊這個就是聯合嵌入預測架構 (JEPA)。你看,輸入 X 和目標 Y,都各自經過一個“編碼器網路”。這些編碼器會算出 X 和 Y 的“抽象表示”(也就是“嵌入”)。X 和 Y 的編碼器可以是不一樣的。然後呢,預測是在這個抽象的表示空間裡進行的(就是從 X 的表示來預測 Y 的表示)。這可能就是個更容易解決的問題了,因為你想啊,原始輸入 Y 裡面,很多細節資訊可能壓根兒就沒法預測。JEPA 架構的目標,就是要學到一種抽象表示,把那些不可預測的細節給過濾掉或者忽略掉。編碼器函數要學習的是“不變性”,目的是把 Y 裡面那些跟不可預測因素相關的變化,從表示空間裡給去掉。比方說,想像一個鏡頭在這個房間裡掃過。要是我停下鏡頭,讓系統預測下一幀畫面是啥,它可能能預測出大體的場景(比如座位上有人),但它絕對預測不了每個人的精確位置和長相,也預測不了地板、牆壁的精確紋理。這裡面有太多不可預測的細節了,因為需要的資訊根本就不在輸入畫面裡(也就是上下文中沒有)。JEPA 就是要學習一種能過濾掉這些不可預測細節的表示,把預測的精力集中在那些能預測的事情上,而不是在那些壓根兒預測不了的東西上白費力氣。當然,要有效地實現 JEPA,還有一些技術上的挑戰。但結論就是:如果我的說法是對的,那在學習世界模型這件事上,用 JEPA 這種架構要比用標準的生成式架構好得多。為了學習世界模型,我們也許真該放棄那種像素等級的生成式預測了。現在大家都在談論“生成式 AI”。而我的建議是,要想學習世界模型,咱們就得放棄(像素級預測性的)生成式 AI。這些架構也有不同的變種,有些可能還會用到潛在變數。不過,一個關鍵的挑戰是怎麼去訓練這些“基於能量的模型”或者 JEPA 系統。要想訓練這種系統學會變數之間的依賴關係,就得學習一個能量函數,讓這個函數給那些在訓練資料裡看到的、匹配的 (X, Y) 資料對打低分(低能量值),而給那些不匹配的、或者離正常資料分佈(也就是“資料流形”)很遠的資料點打高分(高能量值)。你可以想像一下,所有正常的 (X, Y) 資料點都分佈在某個高維空間裡的一個光滑的面上(這個面就叫流形)。我們希望能量函數在這個面上得分最低(比如是 0),然後離這個面越遠,得分就越高。問題是,就我所知,訓練這種系統主要有兩種辦法。如果這個能量函數特別能變形(就是參數特別多,能擬合出各種形狀),那它就可能會“崩潰”。如果你只讓能量函數在訓練資料點上得分低,其他啥也不管,那系統最後可能就學到一個最簡單的解:給所有點都打一樣的最低分,變成一個完全平的能量函數。這就是一個沒用的“平凡解”。這就叫“崩潰”。那怎麼防止崩潰呢?主要有兩種方法。第一種是“對比方法”(Contrastive methods)。你得另外生成一些“反例”樣本(圖中那些閃爍的綠點),這些點不在正常的資料流形上。然後你明確地告訴模型,要給這些反例打高分,同時給那些正常的樣本打低分。你通過設計一個“損失函數”來達到這個目的。但對比方法的毛病在於,到了高維空間它就不太好使了,因為要想把能量函數的樣子(也就是“能量地貌”)給塑造好,你需要特別特別多的反例樣本,這個數量會隨著維度增加呈指數爆炸式增長。第二種是“正則化方法” (Regularized methods)。這種方法是在損失函數里加一個“正則化項” (regularizer term)。你通過最小化這個正則化項,來間接地限制那些被打低分的輸入空間的“體積”,不讓它變得太大。這聽起來可能有點玄乎,但在應用數學裡有類似的想法,比如“稀疏編碼” (sparse coding)。當你讓一個潛在變數變得稀疏的時候(比如加個“L1 懲罰項”,你其實就是在減小那些能讓“重建能量”很低的潛在空間的體積。所以,基本上就是這兩條路:對比方法和正則化方法。不同的架構,發生崩潰的傾向性也不一樣。既然這是吉布斯講座 (Gibbs lecture),我必須再提一下Gibbs的名字。怎麼把能量函數正兒八經地變成機率分佈呢?就是用“吉布斯-玻爾茲曼分佈” (Gibbs-Boltzmann distribution)。你算一個 exp(-β * F(X,Y)),β 是個常數,類似“逆溫度”,F(X,Y) 就是能量函數。然後你把這個式子在 Y 的所有可能取值上做個積分,用這個積分結果去除它本身,進行歸一化。這樣,你就得到了一個規規矩矩歸一化了的條件機率分佈 P(Y|X)。如果你非要搞“機率建模”,那你訓練“能量基礎模型”的辦法,就是在訓練資料上最小化那個“負對數似然函數” (negative log-likelihood, -log P(Y|X))。但問題又來了,那個歸一化常數 Z(X),通常算起來太難了,計算上搞不定。所以你就得用近似的方法,比如“變分方法” (variational methods) 或者“蒙特卡洛方法” (Monte Carlo methods)。機器學習領域有很多人在這方面下了大功夫,也從物理、統計這些學科裡借鑑了不少想法。我畫了個表,把各種經典的方法分成了正則化和對比這兩類。這些方法(包括對比和正則化的)用自監督學習的方式來預訓練視覺系統,學習圖像表示,已經非常成功了。這些想法的核心,最早可以追溯到 90 年代初,包括我 1993 年的一篇論文,還有 2000 年代中期我和學生們一起做的一些研究。最近這些年,有很多論文,包括 Google 發的那些,都在研究這些方法,尤其是對比方法。你們可能聽說過 OpenAI 的 CLIP 模型,它就是用文字做監督,通過對比學習來學視覺特徵的。但還是要再說一遍,對比方法隨著潛在空間維度增加,它的擴展性不一定好。我個人更喜歡正則化方法。問題是怎麼讓它們有效地跑起來。一個關鍵的目標是防止模型崩潰。那在這種情況下,崩潰到底是什麼樣子呢?崩潰,指的就是模型只去最小化那個潛在空間裡的預測誤差(比如說,預測的表示 S_Y_tilde 和目標的表示 S_Y 之間的距離 D),而且 只幹這件事。那系統就可以耍小聰明了,它完全不管輸入 X 和 Y 是啥,直接輸出兩個固定的、不變的表示 S_X 和 S_Y,這樣誤差自然就是零了。但這樣得到的模型,就是個崩潰了的、一點用都沒有的模型。要防止這種情況,一個辦法(它也算是一種正則化項)就是,在最小化預測誤差的同時,還要想辦法最大化編碼器輸出的表示 S_X 和 S_Y 本身包含的“資訊量”。比如,你找個辦法估計一下資訊量 I(S_X) 和 I(S_Y),在它們前面加個負號(表示要最大化它們),然後把這兩項加到總的、需要最小化的目標函數里去。但是,直接去最大化資訊量是很難的。雖然我們有些跟資訊量上界有關的技術(比如最小化“互資訊” (mutual information)),但在這種場景下,我們通常沒有有效的、方便計算的下限來幫我們最大化資訊量。所以,實際操作中,我們是設計一些“代理”目標,通過最佳化這些代理目標,來間接鼓勵模型產生資訊量更高的表示(這可能基於一些假設或近似),並期望實際的資訊量也跟著提高。而且這招效果還挺不錯的,雖然它的理論依據還在完善中,但可能比其他方法要好。我們具體在用的一種方法叫做VicReg ,全稱是“方差-不變性-協方差正則化” (Variance-Invariance-Covariance Regularization)。它的想法裡包含一個成本項,要求在處理一批樣本時,表示 S_X 的每個維度的方差都要保持在某個閾值以上(比如大於 1,可以用“hinge 損失”來實現)。還有一個成本項,要求這批樣本表示算出來的“協方差矩陣”,它的非對角線上的元素都要趨近於零(比如,先把資料“中心化”,然後算 S_X 轉置乘以 S_X)。這樣做的目的是消除表示向量各個維度之間的相關性,最理想的情況是讓不同的特徵維度(也就是表示矩陣的列)之間近似“正交”。其他研究者也提出了類似的想法,包括伯克利的馬毅(Yi Ma)教授,還有我在紐約大學的一些同事(他們搞了個叫 MMCR 的方法)。我們有一些理論結果表明,在某些條件下,如果你先對資料做了“非線性變換” (non-linear transformation),然後再用這個去相關的標準,它能有效地促進變數之間“兩兩獨立” (pairwise independence),而不僅僅是沒相關性,這一點很有意思。不過,完整的理論圖像還不清晰。對於嗅覺敏銳的數學家來說,這裡面還有很多挑戰。時間關係,我再跳過一些細節,但你其實可以把 VicReg 這個技術用到“偏微分方程” (Partial Differential Equations, PDEs) 上——不一定是為了直接解方程,而是比如,通過觀察方程解在不同時空窗口裡的樣子,來反推出方程本身的係數。具體怎麼做呢?你拿到 PDE 的時空解,從裡面隨機取兩個不同的窗口,然後訓練一個系統(用 VicReg 的標準),讓它不管你取那兩個窗口,都能給它們算出一樣的表示。你想,能讓系統從不同窗口裡提取出來的、共同的不變資訊是啥呢?那只能是跟背後那個微分方程本身有關的東西——說白了,就是方程的係數,或者是係數的某種表示。把這個方法用到各種實際問題上,發現它確實管用。想瞭解更多細節的話,可以找 Randal Balestriero聊聊。他是相關論文的主要作者之一。最關鍵也很有趣的一點是,用 VicReg 這種方法學出來的 PDE 係數,用它去做後續的預測,效果竟然比直接用監督學習訓練來做預測還要好。除了 VicReg,還有一類替代方法,是基於“蒸餾”的。我們用這些方法,是因為它們在實驗中通常效果挺好。但我個人不太喜歡它們,因為感覺它們的理論基礎好像還不如 VicReg 或者資訊最大化那些方法紮實。我就不細講它們是怎麼工作的了。簡單說,你名義上是在最小化某個函數,但實際上你用的那個“梯度下降” 更新步驟,並不能真正讓那個函數達到最小值;這裡面挺複雜的。雖然也有一些理論論文,但它們通常只在很簡化的假設下才成立(比如假設編碼器和預測器都是線性的)。總的來說,這不是一個理論上特別讓人滿意的方法,但它確實在實踐中效果很好,很多人用它來自監督地學習圖像特徵。這類技術裡有一種叫做 I-JEPA,我就不細說了,但它在學習圖像表示方面做得非常好,學到的表示對後續的監督任務很有用,而且需要的帶標籤的樣本比從零開始訓練要少得多。類似地,還有一個用於視訊的版本,叫做 V-JEPA。它的做法是:拿一段視訊,在時間和空間上隨機“遮掉” (mask) 一大部分區域,然後訓練一個 JEPA 架構,讓它根據沒被遮住的部分(也就是上下文)的表示,去預測那些被遮住部分的表示。結果發現,這樣訓練出來的系統能學到非常好的視訊表示。你可以把這種表示作為後續任務(比如動作分類)的輸入,效果非常好。我們最近在準備投的一篇論文裡,有個特別有意思的結果:你用這些 V-JEPA 系統去測試,測量它們對視訊的預測誤差,如果你給它看一段物理上不可能發生的視訊(比如一個東西突然消失了,或者自己變形了),系統能檢測出來!這時候預測誤差會一下子變得特別高,就好像系統在說:“嘿,這事兒不對勁,不可能發生!”這說明這個系統已經學到了一種非常基本的、關於物理世界可能性的“常識”,這跟我前面提到的嬰兒學習有點像。這個結果挺讓人驚訝的,因為我們並沒有專門訓練它去檢測“異常”,它只是被訓練去預測那些被遮住的部分應該是什麼樣的表示而已。我們還一直把自監督學習訓出來的編碼器和預測器用在規劃任務上。這就又說回到世界模型了。假設有張圖顯示了當前世界的狀態(比如桌子上有一堆籌碼),同時有個系統控制著一個機械臂。我們希望這個系統能操作機械臂,讓最後的狀態跟我們想要的目標狀態一樣(比如,把所有藍色的籌碼都弄到指定的方框裡去,就像圖裡畫的那樣)。我們先訓練一個編碼器(可以用像 DINOv2 這樣預訓練好的),然後再訓練一個世界模型,讓它在抽象的表示空間裡預測,如果採取某個特定的動作,會導致什麼結果。它能不能預測出來,最後那個擺著藍色籌碼的棋盤的狀態,對應的表示是什麼?一旦有了這個世界模型(這個模型可以在隨機動作的資料上訓練),我們能不能用它來規劃一連串的動作,最終達到我們想要的目標狀態呢?我們已經把這套方法用在了好幾個問題上,發現它在規劃方面效果確實不錯。這就是那個藍色籌碼任務的結果。大家看到的是一段視訊(你看不到機械臂做了什麼動作,但它確實在動)。上面顯示的是真實世界裡籌碼狀態的變化。下面顯示的是系統通過它內部的世界模型,預測接下來會發生什麼(這個預測結果是通過一個另外訓練的“解碼器”,把內部表示又變回圖像,這樣我們就能看見了)。我再放一遍。在下面這個預測畫面裡,你可以看到,隨著機器人推著籌碼移動,預測的狀態也在一步步變化。最後預測的狀態雖然不是個完美的正方形,但也相當接近了。這個任務需要在複雜的“動態系統”裡做規劃,因為籌碼之間會相互碰撞、相互影響。對於這樣的系統,你很可能沒法靠手工建立一個足夠精確的模型來做有效的規劃。我們還有類似的研究,把這些想法用到了真實環境裡的導航規劃上。所以,我的建議如下:放棄(像素級預測性的)生成式模型,擁抱聯合嵌入架構(比如 JEPA)。放棄純粹的機率模型,擁抱基於能量的模型。放棄對比方法,擁抱正則化方法。放棄“無模型的強化學習”,擁抱“基於模型的方法”,比如模型預測控制和規劃。如果你真的想實現達到人類水平的 AI,別只盯著 LLM。如果你是 AI 領域的博士生,我勸你最好別直接去做擴展 LLM 的工作,因為你得跟那些有幾萬塊 GPU 的大公司工業團隊競爭,想在那兒做出重大貢獻太難了。那有那些問題需要解決呢?怎麼建構大規模的世界模型?怎麼才能有效地用“多模態輸入” 來訓練它們?怎麼開發出更好的規劃演算法?最優控制和各種最佳化技術方面的深厚功底,在這裡可能會派上大用場。用簡單的基於梯度的方法在這些學到的模型裡做規劃時,會碰到“局部最小值”和可能“不可微分”的問題。像 ADMM(交替方向乘子法)這樣的方法也許能幫上忙。其他的關鍵問題還有:怎麼做帶潛在變數的 JEPA?怎麼在“不確定的環境” 裡做規劃?怎麼有效地對潛在變數進行正則化?以及,怎麼實現真正的分層規劃?基於能量的學習,它的數學基礎到底是啥?當我們跳出嚴格的機率學習框架時,我們就進入了一個不那麼熟悉的領域,到底什麼樣的訓練過程才是最優的,還不完全清楚。還有一個我沒怎麼談到的問題是,怎麼讓系統自己學習成本函數或者目標模組。世界模型難免不精準,怎麼在這種情況下做有效的規劃,並且不斷調整模型,這也非常關鍵。也許,要是我們能在未來五到十年裡把這些問題解決了,我們就有望走上正軌,去建構真正智能的,也就是能夠規劃和推理的AI 系統。我個人覺得,要讓這一切朝著好的方向發展,唯一的辦法就是讓底層的平台保持“開源”;我本人就是開源 AI 的鐵桿支持者。如果我們成功了,AI 就能成為放大人類智能的強大工具,這肯定是一件大好事。非常感謝大家。 (數字開物)