Google2小時瘋狂復仇，終極殺器硬剛GPT-4o！ Gemini顛覆搜索，影片AI震破Sora

2024/05/15

•

昨天被OpenAI提前截胡的谷歌，今天不甘示弱地開啟反擊！大殺器Project Astra效果不輸GPT-4o，文生視頻模型Veo硬剛Sora，用AI徹底顛覆谷歌搜索，Gemini 1.5 Pro達到200萬token上下文……谷歌轟出一連串武器，對OpenAI貼臉開大。

GoogleI/O 2024如期來了，眼花撩亂地發布了一堆更新。

跟OpenAI半小時的「小而美」發表會相比，Google顯然準備得更充分，當然，時間也相當之長…

2個多小時的發表會也是挑戰觀眾們的極限，在場人群早已困倒一大片

準備好，谷歌要開始轟炸了。

首先，Gemini 1.5 Pro，上下文長度將達到驚人的200萬token。

然後，面對昨天OpenAI GPT-4o的挑釁，Google直接甩出大殺器Project Astra，視覺辨識與語音互動效果，跟GPT-4o不相上下。

接著，Google祭出文生影片模型Veo硬剛Sora，效果酷炫，長度超過1分鐘，打破Sora紀錄。

最後來了一個重磅消息：Google搜尋將被Gemini重塑，形態從此徹底改變！我們不再需要自己點進搜尋結果，而是由多步驟推理的AI Overview來代辦一切。

發表會結束後，劈柴甚至還用Gemini算了一下，整個發表會共提了121次AI。

Gemini時代，來了

CEO劈柴上來就無視了GPT和Llama的存在，這樣總結：「我們完全處於Gemini時代」。

並且給予數據：如今全世界使用Gemini的開發者，一共有150萬人。

萬眾矚目的Gemini更新如期而至。

Gemini 1.5 Pro最強特性之一，就是超長的上下文窗口，達到了100萬tokens的級別，超過了目前所有的大語言模型，而且開放給個人用戶使用。

今天，劈柴宣布：它的上下文token數將會達到2000K（200萬）！相較之下，GPT-4 Turbo只有128K，Claude 3也只有200K。

而這也意味著──你可以給模型輸入2小時影片、22小時音訊、超過6萬行程式碼或140萬多個單字。

2M長上下文窗口，可以去排隊申請了

這個上下文長度，已經超過了目前所有大模型。

但是，這並不是終點，谷歌的目標是——無限長上下文，不過，這就是後話了。

用籃球講解牛頓運動定律

在這樣的Gemini加持下，我們可以實現許多迅捷的功能。

例如，身為父母需要了解孩子在學校的情況，就可以在Gmail中要求Gemini辨識所有關於學校的電子郵件，然後幫你總結出要點。

如果你錯過了公司會議，但可以拿到一小時時長的會議錄音，Gemini就能立刻幫你總結出會議要點。

為了幫助學生和教師，在NotebookLM中，Google設計了一個「音訊概述」的功能。

把左邊的所有材料當作輸入，Notebook就可以把它們整合成一個個人化的科學討論了。

對於聽覺學習型學生，這種形式就非常生動。

示範這個demo的Josh表示，自己的兒子第一次看到這個功能時，直接驚掉下巴。

他第一次感覺到，學習不再是死板的，牛頓力學定律居然以透過籃球來學習！

支援多模態的Gemini可以處理你上傳的任何格式的訊息，理解內容後將其改造成適合你的形式，與你對話互動了！

Agent：幫你申請退貨

接下來，劈柴展示了Agent的一些例子。

買了一雙鞋子，不合適想退回怎麼辦？

拍一張照片給Agent，它就可以從你的信箱搜出訂單後，幫你填寫退貨單了。

再例如，你剛搬到某個城市，Agent就能幫你探索你在這個城市所需的服務了，比如乾洗店、幫忙遛狗的人等等。

如果靠我們自己搜索，可是要搜十幾個網站，但Gemini可以發揮自己的「多步驟推理」能力包辦這些任務，把你需要的資訊一次提供給你！

搜尋和整合資訊的功能非常強大，輸入新家的地址後，它甚至可以代替軟體問你外帶應該放哪個位置。

總的來說，Google的理念就是：利用Gemini的多模態、超長上下文和智能體能力，把世界上的所有資訊組織起來，讓它們對每個人都可觸達、可利用。

而最終目標，就是讓AI對每個人都有用。

谷歌搜索，被Gemini徹底重塑

之前OpenAI一直有意無意放出煙霧彈，聲稱要發布全新的搜尋產品，等於是把刀架在Google脖子上了。

果然，谷歌這次不甘示弱，放出了個大的。

從今天開始，在Gemini的加持下，Google搜尋會徹底變樣。

在搜尋框下，會出現一個為你量身訂做的AI總結。

注意，它並不是簡單地將所有內容拼湊在一起，而是幫你把活都做了！

你的問題是什麼樣，它就會幫你做規劃，顯示出若干個卡片，讓搜尋資訊以鮮明的方式被呈現出來。

這次AI Overview即將發布的另一個重磅功能，就是多步驟推理。

它能將使用者輸入的一個複雜問題分解成多個部分，確定需要解決哪些問題，以及用什麼順序解決。

因此，以前可能要花幾分鐘甚至幾個小時的研究，現在幾秒鐘內就可以完成！因為它將十個問題合而為一。

例如，如果想找到波士頓最好的瑜珈或普拉提工作室，它會直接搜出來結果，然後幫你整理好情況介紹和工作時間。

只要一次搜索，所有需要的資訊就會自動呈現出來。

在下面這個例子中，你可以要求谷歌提供一個三天的膳食計劃。

這些食譜被從整個網路整合出來，清晰又全面。

而且，我們還可以用影片去搜尋了！

例如，該怎麼修這台唱片機？

以前，我們需要進行一堆搜索，確定它的牌子、型號。

現在，直接拍一個影片丟給谷歌，然後直接開口問：它的這個毛病是什麼原因？

谷歌用AI Overview，給了最全面的資訊。

從此，在Google搜尋中，你需要做的，就是簡單的「張嘴問」。

對標GPT-4o，Project Astra打造通用AI智能體

我們已經看到，新模型GPT-4o賦予了ChatGPT強大的即時對話能力，讓Her走進現實。

全新AI語音助手，是通往AGI的下一個未來。

對標OpenAI，GoogleDeepMind今天首次對外公佈了「通用AI智能體」新專案－Astra。

其實，昨天谷歌放了一個demo，已經讓所有人對Astra計畫有了初步的了解。

而今天，現場的示範更加爆炸。

網友稱，這是GoogleI/O大會中，自己最喜歡的part。

不僅有Astra強大的對答如流的能力，還首次展示了「GoogleAR原型眼鏡」配上AI的震撼示範。

Astra兩部分演示，每段影片均為單次拍攝、即時錄製完成

召喚Gemini之後，測試者提出問題，「當你看到會發出聲音的東西時，告訴我」。

它回答道，「我看到一個揚聲器，它可能會發聲」。

接下來，測試者用紅色剪頭指向揚聲器的頂部，再次問道，「這個揚聲器的部件叫什麼」？

Gemini準確理解指令，並答出「這是高音揚聲器，能產生高頻的聲音」。

然後，對著桌上一桶彩色蠟筆，讓Gemini就展示的物體，給出了「押韻」的創意——

「Creative crayons color cheerfully. They certainly craft colorful creations.」

Gemini以「c」音重複開頭，生動形像地描繪了用蠟筆歡快塗色，可以創作出許多絢麗多彩作品的場景。

而更讓你意想不到的是，它還可以讀懂程式碼。

甚至不是截圖，而是用攝影機懟著電腦螢幕拍，然後問Gemini「這部分程式碼是做什麼的」？

Gemini看了一眼，就立刻給出答案：「此段程式碼定義了加密解密函數。它似乎使用AES CBC加密，根據金鑰和初始化向量對資料進行編碼和解碼」。

再將鏡頭移向窗外，「我在哪個街區」？

Gemini便回答道，「這裡似乎是倫敦國王十字區，這裡以火車站和交通樞紐而聞名」。

眼鏡找不到了？

直接可以問Gemini，「你記得在哪裡看過我的眼鏡」？

它立刻回想剛剛見到的場景，「是的，我記得。你的眼鏡就在桌子上，旁邊有一個紅蘋果」。

要知道，剛剛這個問題並沒有向它提過，Astra完全是憑自己的視覺記憶回答出來的，簡直成精了。

而Astra的這番表現，直接讓全場倒吸一口氣，發出驚呼。

谷歌原型AR眼鏡首現身

接下來的演示，更酷了。

剛找到的眼鏡，竟是Google的原型AR眼鏡！配合強大的Gemini模型，即將開啟全新的應用。

測試者走到白板前，看向一個「伺服器」的建置示意圖，然後問道，「我應該怎麼做能使這個系統更快」？

Gemini表示，「在伺服器和資料庫之間，添加快取可以提高速度」。

再例如，「看到如下圖，會讓你想起什麼」？

——薛丁格的貓！

「在幫我給這對傢伙，取一個二重唱樂團名字」。

——Golden Stripes

大會上，Hassabis稱，「一直以來，谷歌希望構建一個能在日常生活中真正有所幫助的通用AI智能體。如今，這一願景成為現實，可以追溯到很多年前。這也是谷歌從頭開始打造多模態Gemini的主要原因」。

真正的通用AI智能體，必須像人類一樣，對複雜、動態的世界做出理解和回應。

它需要接受和記住所看到的內容，以便理解上下文採取行動，並且具有主動性和個性化。

甚至，你可以與其如真人般絲滑交流，沒有任何延遲或延遲。

為了打造這款全能AI智能體，GoogleDeepMind克服了很困難的工程挑戰－將AI回應時間降低至對話水準。

具體來說，Google團隊在Gemini的基礎上，開發了能夠持續編碼視訊幀的智慧體。

然後，將視訊和語音多模態輸入，整合到事件時間軸中並緩存，以便實現AI智能體高效召回，更快處理資訊。

此外，Google還使用廣泛的語調變化，增強了語音輸出效果。

基於這些努力，Astra能夠更好地理解上下文，在交談中可以快速做出反應，讓互動的節奏和品質感覺更自然。

有網友稱，「Google的這個Astra專案絕對是遊戲規則的改變者，我們現在生活在一個由個人AI助理組成的世界，聊天機器人現在已經過時了。它可以即時地看、說、聽，幾乎沒有延遲」

當然，這次演示中，Google偷偷推出的AR硬件，也成為網友們的關注點。

谷歌科學家剛剛放出了，用Astra看谷歌I/O大會的示範，可以自己感受下。

圖像、音樂、視頻，面面俱到

同時，在Google大會上再次推出了一系列關於「生成式媒體工具」的最新進展。

其中，包括圖像、音樂，以及視訊模型。

最強AI文生圖Imagen 3

首先，AI文字到圖像生成模型Imagen 3迎來重磅升級。

比起上一代，Imagen 3能產生更多細節、光影豐富，且幹擾偽影更少的影像。

新模型對提示的理解能力，得到顯著提升，可以從較長的提示中，捕捉細節。

如下圖中，對狼的特徵，背景顏色，畫質品質等要求，Imagen 3一致地呈現了出來。

另外，Imagen 3可以產生視覺豐富、高品質的影像，有良好光照和構圖。

它可以準確地渲染小細節，例如人手上的細微皺紋，以及複雜的紋理。

下圖中，毛絨大象清晰的編織紋理，還有光照，效果鮮明。

Imagen 3還可以在更長的提示中，加入一些微小的細節，例如「野花」、「藍色的小鳥」...

谷歌也大大改進了Imagen 3的文字渲染能力。

如下圖片提示，「由各種顏色的羽毛組成的「光」字，黑色背景」，然後Imagen 3生成了漂亮的字體。

影片生成模型Veo，1080p超過60秒

這次Google發布的影片模型Veo，可以看作是對OpenAI Sora的正面迎戰了。

可以看出，Veo生成的影片不僅真實，而且在光線、構圖等方面具有驚人的電影感。

Veo的推出建立在DeepMind過去一年各種開創性成果的基礎上，包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。

谷歌結合了這些成果中最好的架構和技術，提高了一致性、品質和解析度。

Veo具備1080p的高品質，使用者提示可以是文字、影像、影片等各種格式，還能捕捉到其中關於視覺效果和影像風格的各種細節描述。

透過點擊「擴充」按鈕，使用者就可以持續增加影片的時長，最終，它的長度已經超過Sora達到了1分10秒。

可以看到，在下面這個影片中，汽車的形狀與周圍環境始終保持一致。

，時長01:22

有這種專業級的生成效果，電影製作人可以直接用Veo來協助創作了。

從此，每個人都可以成為導演，也應該成為導演。

好消息是，Veo已經開始在官網開放試用了。此外，團隊也開發了實驗工具VideoFX搭載Veo模型。

申請入口：https://aitestkitchen.withgoogle.com/tools/video-fx

在Google官博中，給了Veo更多演示，也特別強調了皆是AI生成，未經修改：

Music AI Sandbox

在音樂方面，Google和Youtube一起建造了Music AI Sandbox。

輸入一段旋律，它就可以進行風格遷移，幫助藝術家快速實現自己的想法和創意。

為此，谷歌也特意邀請了許多音樂家、詞曲作者和製作人來測試。

他們驚喜地發現，使用這個新的AI音樂工具，他們居然做出了自己從未想到的音樂！

例如這位音樂製作人，希望把樂曲中的這段旋律變成一個風格。

Music AI Sandbox的產出，讓他激動地當場跳起來。

他表示，作為一個嘻哈音樂製作人，AI帶給他的嘗試空間，是無止境的。

Demis Hassabis：我在思考智慧的本質

谷歌DeepMind負責人Hassabis表示，自己從小就玩西洋棋時，就一直在思考智慧的本質是什麼。

他深信，如果我們能以負責任的方式建造AGI，影響將是深刻的。

谷歌DeepMind自去年成立以來成績斐然。而最近的大成就，就是幾乎可以預測所有生命分子結構和相互作用的AlphaFold 3了。

谷歌也打造了一個Gemini原生多模態應用，可以同時文字、音訊、影片內容。

一直以來，Google希望能夠打造一個有用的個人AI助理。

Gemini App，正重新定義我們的互動方式。

為了讓我們與Gemini互動更自然，Google發布了Gemini Live。

有了它，你可以在給朋友發訊息的同一個程式中，也能與Gemini聊天。

你甚至可以控制自己的說話節奏，或隨時打斷Gemini回答，如同與真人交流一樣。

例如，你正在為一場面試做準備，只需要進入Live，讓Gemini陪你一起做準備。

Gemini可以與你進行模擬面試排練，甚至在與潛在雇主交談時應該突出哪些技能，還能提供建議。

谷歌表示，今年晚些時候，會推出攝影機模式，可以以周圍環境與Gemini實現對話。

同時，Google也推出了根據個人需求自訂的Gemini專家——Gems。

它可以是你的健身教練、瑜珈夥伴，也可以是你的寫作創意導師、程式夥伴等等。

接下來，Google也展示了透過規劃，讓我們如何離AI助理更近一步。

例如，一次旅行的規劃，需要涉及地理、時間、天氣等諸多因素，需要AI能夠做出優先順序和決策的能力。

Gemini Advanced的全新旅行規劃，可以將模型推理和智慧融為一體，為人類更好服務。

Ask Photos新功能

在Gemini的加持下，Google也會推出Ask Photos的新功能。

例如，如果付停車費時忘了自己的車牌號，就可以直接詢問自己的車牌照片是哪個，不需要翻閱手機裡的大量照片了。

在例如，你可以問它女兒是什麼時候學會游泳的？她的游泳是怎麼進步的？

Gemini會辨識眾多照片中的不同場景，將所有相關內容加總。

根據某些Gemini 1.5 Pro用戶的回饋，一些程式需要更低的延遲和服務成本。

針對這一點，Google發布了Gemini 1.5 Flash。

跟Pro比，Flash是一個更輕量級的模型，專為那些對響應速度要求極高的特定或頻繁任務優化。

而且，它同樣具有多模態、1M tokens長上下文的特點，只不過實現了輕量化、低延遲、高效推理，每百萬個token的價格僅是Pro版的二十分之一。

今天起，Gemini 1.5 Flash在Google AI Studio和Vertex AI中就可用了，開發者可以註冊申請兩百萬token的內測版。

此外，為了方便開發者，Google也對Gemini的API功能進行了三項最佳化——視訊幀提取、平行函數呼叫和上下文快取。

第六代TPU Trillium，4.7倍效能提升

在背後給這些技術進步提供基礎建設的，就是Google的TPU。

簡單來說，相較於TPU v5e，第六代Trillium TPU在性能上實現了高達4.7倍的提升，並在能源效率上提升了超過67%。

為了實現這一飛躍，Google增大了矩陣乘法單元（MXUs）的規模並提升了時脈速度。

並為Trillium配備了第三代SparseCore——專門用於處理高級排序和推薦工作負載中常見的超大嵌入的加速器。

在這裡，SparseCores可以透過從TensorCores策略性地卸載隨機和細粒度訪問，有效加速了重嵌入型工作負載。

同時，Google也將高頻寬記憶體（HBM）的容量和頻寬翻倍，並將晶片間互連（ICI）的頻寬提升了一倍。

由此，Trillium可以支援更複雜的模型，擁有更多的權重和更大的鍵值緩存，並大幅縮短了大模型的訓練時間和響應延遲。

在高頻寬、低延遲的Pod中，Trillium可以擴展至256個TPU。

而透過多切片技術和Titanium智慧處理單元（IPU），Trillium還可以進一步擴展——透過數百個Pod，連接數以萬計的晶片，並在一個多千兆位元每秒的資料中心網路支援下，組成一個超大規模的超級電腦。