谷歌一夜亮出十幾款產品對OpenAI:什麼都有,只是沒有驚喜

經過昨夜OpenAI的科幻級演示,所有人都在等待今晚來自Google的反擊。

如果說2023年的I/O大會是Google在AI領域的背水一戰,今年的I/O大會上皮查雖然靠著自家的Gemini等產品逐步追上OpenAI,但形勢卻難稱喜人。過去一年裡,就算祭出免費兩個月的大殺器,Gemini的用戶量也不過是ChatGPT的1/5,每每有新品上市,必然被OpenAI截胡,讓谷歌活活成了AI界的汪峰。

所以皮查太需要一場驚豔的發表會,拿回屬於Google的牌面了。

所以與OpenAI的僅半小時,集中在產品介紹的發表會完全不同。谷歌的I/O骨子裡就透著一種武庫盡出,拼死一戰的意思。兩小時的發表會,它一口氣拿出來十來款新品及升級,量大管飽,全面對標OpenAI在AI各領域上的發展。

很多產品單看Demo還是有著不錯的完成度,但整場發表會沒有一點像GPT-4o帶來那樣的驚艷感。因為他們發布的大多數是追趕那些OpenAI已有的東西,沒人會為一些別人已經做到的事情感到驚艷。

最有可能帶來驚豔感的新品——Gemini Astra的戲份已經被昨天的GPT-4o演完了。

到頭來,想一秀肌肉的谷歌,還是被OpenAI四兩撥千斤的卸了力。

我們更多的從它的搜尋產品,模型產品上看到了谷歌的疲態,創新的缺失。

本想看巔峰對決,但其實昨天這場對決就已經結束了。

另外,雖然除了本來就是期貨出貨的Gemini之外基本谷歌的這次發布又都是期貨。看完整場發表會就像逛完一家期房交易中心一樣失落,心裡甚至有點「別是爛尾樓吧」的疑慮。在Google產品序列裡這並不少見——Lydia,ESG,這些都是宣布了半年以上還沒完全開放給用戶的產品。在日新月異的AI領域,這個開放速度基本上和爛尾無疑。

谷歌心急想秀肌肉我們理解,但是我們心急想用,不想看期貨也希望谷歌能多理解。

因為產品太多,我們把他們做了個簡單表格整合,連帶發布和新升級的AI相關產品足足有14項:


下面我們就沿著發表會的四大主題來拆解一下本次I/O大會Google帶來的各項產品吧。


基礎模型:Gemini 1.5 Pro 期貨成真,
Light 提速增效,
Gemini 2 展露可能


在三個月前發售的Gemini 1.5 Pro終於不再是期貨了!從今天起它將正式開放給訂閱了Geminni Advance的用戶。如果你之前沒白嫖過,那這兩個月內你都可以免費用。

除了期貨成真,在沒完全鋪好的這三個月時間裡,Google也沒停止對它的升級,四個基礎模型最重要的維度都做了加強。

首先是模型效能,Google透過數據和演算法改進增強了其程式碼生成、邏輯推理和計劃、多回合對話以及音訊和圖像理解能力。最新版本的1.5 Pro 在多個benchmark中取得了Sota的成績,Google揚眉吐氣。


上下文方面,Google也把新Gemini 1.5 Pro 的上下文視窗從業界最高的100萬token 擴展到合300本書的200萬token。三個月就提升一倍,谷歌的表現證明了上下文的問題在今年看起來已經不再是什麼門檻了。


在多模態支援上,Gemini Pro現在也把語音理解這個過去的短板部分進行了補齊,雖然不像GPT-4o一樣是原生語音多模態,但總算是模態齊全,成了完全體。

非常影響使用體驗的指令跟隨能力方面,Gemini 1.5 Pro也進行了一輪更新。現在可以遵循越來越複雜和細微的指令,包括那些指定產品級行為(如角色、格式和風格)的指令。你現在能讓Gemnini假裝自己是貓了。

雖然沒有公佈Gemini 2,但四維拉滿,從數據上看全面超越GPT4的Gemini 1.5 Pro應該還是能為谷歌撐起更大的場子。

後續宣布的Gemini 1.5 Flash就是本場的汪峰本峰了。它的主要特色——快速反應和昨天的GPT-4o完美撞車,本該有的驚艷感被完全破壞了。


從功能上看,雖然它比1.5 Pro 輕量化,但它也能夠跨大量資訊進行多模態推理,並且擅長摘要、聊天、圖像和視訊字幕、長文件和表格的資料提取等工作。但與GPT-4o青出於藍不同,Gemini 1.5 Flash還是犧牲了一些效能已達成其速度。

昨天GPT-4o基本上等於沒寫的技術報告沒法解釋的它的速度,谷歌比較老實,從技術文檔上看,這是因為Flash 通過一種稱為“蒸餾”的過程,從較大的模型中傳遞最重要的知識和技能到較小、更有效率的模型,實現了速度的提升。

這裡展示的能力是需要Agent支援的,因此Google的下一個重磅產品是Project Astra。谷歌將其定義為自己的Agent戰略的核心。


它是一種Agent 框架:為了真正有用,Agent需要像人類一樣理解和回應複雜多變的世界——並且記住它看到和聽到的內容以理解上下文並採取行動。它還需要具有主動性、可教性和個性化,這樣使用者可以自然地與它交流而不會有延遲或延遲。低延遲的要求,讓你可以把Astra理解成Gemini Light 的Agent形式。在Google的展示中,它的最佳形式就是個人助手。

所以,為了讓它更有用,谷歌透過持續編碼視訊幀、將視訊和語音輸入結合到事件時間線上,並緩存這些資訊以實現高效回憶來更快地處理訊息,就是能與視訊交互,還有時間記憶。透過語音模型,Google也增強了Astra的聲音,使Agent具有更廣泛的語調,讓這些Agent可以更好地理解它們所處的上下文,並在對話中快速回應。


從演示上看,Astra的視覺理解能力確實讓人印象深刻。它可以理解薛丁格的貓之類的梗,回饋速度也非常快速。

但它並沒有超越想像。整個示範的感覺就是又看了一遍GPT-4o的影片溝通Demo。而且它遠比GPT-4o期貨,要幾個月後才能上線。

谷歌表示,不是幾週,而是今年晚些時候,這些功能中也僅有「一些」將進入Google的產品,可能是XR眼鏡,也可能是個人助理。

所以Flash被GPT-4o的模型截胡,Astra 被GPT-4o的產品截胡。你說OpenAI沒有內鬼知道GoogleI/O的情報,我是絕對不信的。 OpenAI只做了一件事,就是證明它能做,而且比你做的更好,出得比你更早。

不過再往下想,之前OpenAI都是在Google發布產品後再出個完全不同的升級來截胡谷歌熱度。這次卻是趕在谷歌之前做了個功能完全一樣的產品,來破它帶來的驚喜感。這不由的讓人懷疑,OpenAI是不是真的沒有新品儲備了。

除了這兩個核心模型更新外,Google還宣布了前一陣大火的開源模型Gemma 的2.0版本,270億參數。並為它拓展了PaliGemma這個多模態版本。鑑於Llama3 官方還沒有微調多模態,這很可能是目前最強的官方開源多模態大模型了。據谷歌表示,它的開發是收到了Pali-3的影響。



多模態生成模型:
Google版Sora頗為驚艷,其餘都略微常規


除了文生視訊模型的新公開,Google也推出了文生圖像模型Imagen 3。從細節擬真度來看與Midjourney v6能達到同一級別,比起Dalle-3更勝一籌。而且在對細節的跟隨上也要更細緻。


音樂生成方面,去年驚艷眾人的期貨Lydia到這場發表會為止還是期貨。谷歌又為他加了一個新拓展Music AI Sandbox,一套音樂AI 工具。這些工具旨在為創意打開新的遊樂場,讓人們從頭開始創作新的器樂部分,以新的方式轉換聲音等等。


然後就是酷炫播片,看起來比Suno厲害。但我用不著,所以還是能用的厲害。

最後,Google介紹了自己的影片生成模型—Veo 。它屬於谷歌之前的一系列視頻生成嘗試的集大成者:融合了WALT、VideoPoet、Lumiere這幾款在Sora之前發布的明星文生視頻模型的長處。


從能力上看它相當能打,可以生成高質量的1080p 分辨率視頻,能夠超過一分鐘,涵蓋廣泛的電影和視覺風格。


從範例影片上看,Veo產生的畫面相當一致且連貫:人物、動物和物體在鏡頭中移動的很真實。

谷歌還表示,Veo 具有對自然語言和視覺語義的高級理解能力,能夠產生與用戶創意願景緊密匹配的影片——準確呈現詳細的長提示並捕捉情感。 Veo甚至還能理解電影術語,例如「縮時」或「空拍鏡頭」。


從質量上講,Google的Veo和Sora足有一戰之力。但是不得不說谷歌真的不太會示範。整個演示過程中,他們就放了一段汽車追逐的長生成視頻,還不是全屏,看不清細節。其他的都是小片段,小畫幅,細節模糊。震撼力大打折扣。

然而,和Sora一樣,Veo 只會將作為VideoFX 內的私人預覽版提供給少量創作者,一般用戶可以報名加入候補隊列。不過這也說明,靠著VEo,現在Google和OpenAI已經進入了誰能先壓縮成本,把這項技術推向toC領域的同一場競賽了。



AI搜尋:多模態最強,但創新有限


AI搜尋可以說是Google的必爭之地。面對著來勢洶洶,號稱要取代Google搜尋的新秀Perplexity們,Google就算不用AI,也要留著後者。

從去年一年來看,新興的AI搜尋雖然獲得了不少用戶,但基本上沒有動搖到Google搜尋的根基。所以Google也是一副不緊不慢的樣子:它的AI搜尋服務ESG從去年五月到現在,整整公佈一年時間後總算從今天起向公眾開放使用了。這個更強的AI搜尋引擎被Google命名為AI Overview,但僅限美國,其他國家還得排隊等著開。

從Demo展示來看,Google搜尋在功能上的創新並不多,主要集中在多模態。

首先,使用者將能夠透過簡化語言或更詳細地分解來調整AI 搜尋結果概述。這個功能並不新,現在主流的AI搜尋產品也會區分快速回覆和更深入的研究模式。

其次,借助Gemini 的多步驟推理能力,AI 搜尋可以一次處理複雜的多步,甚至多問題。比方說,當使用者尋找新的瑜珈或普拉提工作室,使用者希望找到受當地人歡迎,方便使用者的通勤,也提供新會員折扣的選項。透過GoogleAI搜索,用戶將能夠通過一次搜索詢問類似“查找波士頓最好的瑜伽或普拉提工作室,並顯示其入門優惠和從Beacon Hill 步行時間的詳細信息”的問題得到最佳答案。

這也是其他AI搜尋產品現在在努力攻破的一個方向。谷歌在這方面憑藉著模型優勢很可能會處理的更好。

同樣建構在多步驟推理能力之上的是AI搜尋的計劃能力。透過AI搜尋中的計劃功能,你可以直接在搜尋裡獲得一個完整的計劃。例如搜尋類似“為一群人創建一個易於準備的三天餐飲計劃”,您將獲得一個起點,包含來自網絡各處的各種食譜。這是其他搜尋軟體暫時還沒有專精的能力。但是對於可連網的ChatGPT來說,這應該不是難事。當然谷歌搜尋組織的更漂亮,還可以直接連接,用戶體驗更優。


GPT-4o產生的版本


谷歌生成的版本


最後是靈感延展功能,就是AI搜尋在創建一個AI 組織的結果頁面,讓您更容易探索。在問了一個問題後,Google搜尋將會延展到其他可能你感興趣的結果,按獨特的AI 生成標題分類,展示廣泛的視角和內容類型。這種聯想搜尋能力也已經是AI搜尋的某種標配了,但Google對這個功能做了更好的結構化。

以上的功能,其他的AI搜尋都能做,但Google的結構化和介面做的最好。也僅此而已。

最後其他AI搜尋暫時做不到的是多模態搜尋。

靠Gemini的多模態功能,Google可以做到利用聲音搜歌曲,利用圖片搜尋產品。甚至可以用Circle to Secarch 功能圈出圖片中的一部​​分去搜尋。

AI還能結合影片進行搜尋。谷歌舉了個範例,例如用戶在舊貨店買了一台唱片機,但打開時無法工作,帶有針頭的金屬部件在意外漂移。用影片搜尋能節省了用戶找到合適字詞來描述這個問題的時間和麻煩。


但Perplexity們,總是有用多模態模型的那一天。而且看到他們用看圖視花做例子介紹Google搜尋的多模態功能時,我第一個想到的是微信掃一掃,不就能幹嗎(雖然原理並不相同)?



模型產品升級:Google版GPTs上線,生態剛追及


模型產品可以說是最讓人失望的環節。新意全無,多少讓人看出Google的保守態勢。

首先登場的是結合Gemini的Wrokspace。

你可以透過Side Panel(能喚起Gemini的側邊欄)功能總結一系列郵件,可以總結你的帳單,形成一個Sheet。 OK,去年看過了。自動回覆郵件。去年看過了。

每個都進行了小的升級,例如回覆郵件可以從確認,回絕,擱置三種可能中選了。但……現場都掌聲寥寥。


其他的更新,包括在聊天軟體裡的虛擬員工Chip,能力基本上沒超過前幾個月我們在國內看到的各種辦公室軟體Agent的演示。


整體看下來,就是去年I/O大會上谷歌展示的可能性下個月就能實現了。因為Side Panel這個產品下個月才公眾開放。

模型產品裡最重要的更新就是Gmini Live。這是一個行動對話助理性產品,透過Gemini Live,使用者可以與Gemini 對話,並選擇它可以用來回應的各種自然聲音。用戶甚至可以按照自己的步調說話或在回答中途打斷以提出澄清問題,就像您在任何對話中一樣。而且今年晚些時候,用戶將能夠在上線時使用鏡頭,而開啟關於周圍所見內容的對話。


好的,又一次GPT-4o的即視感。

剩下其餘幾個產品升級都純屬是追趕性質。

Gems登場的時候真的有點尷尬,全場鴉雀無聲,因為大家一聽介紹就明白了這就是谷歌的GPTs,還是慢了半年的版本。使用者可以建立一個客製化Geminni。透過描述希望Gem 做什麼以及希望它如何回應,例如“你是我的跑步教練,給我一個每日跑步計劃,並保持積極、樂觀和激勵的態度。”,Gemini 將根據這些指示進行增強,以創建一個符合您特定需求的Gem。

所以只能透過Prompt制定,沒有外接工具,沒有工作流程。


這屬於發布晚了半年,功能還不如GPTs的Agent產品。

去年上線的API擴充功能將再次擴大,例如正在推出的YouTube Music 擴充功能、Google Calendar、Tasks 和Keep。全是Google自家的服務。說實話,在這次擴充之前,Google的插件庫就這麼五個插件,完全是少的可憐。就算加上這些新拓展,和其他Agent產品支援的API庫也完全無法同日而語。


(發表會之前,只有這幾個拓展可用)

就從這一點上看,Google固步自封在自己的生態裡的沙文心態一眼可見。



Andriod + AI:風光被GPT桌面版佔盡


除了Cricle in Search這個聚焦具體圖片局部的多模態搜尋外,本次Android AI重點是介紹了Gemini的手機應用,可以和手機上正在展示的內容互動。例如閱讀打開的PDF,從你正在看的YouTube頻道回饋問題。


挺好的,GPT-4o的桌面版昨天都做到了,而且比起這裡Android實際上是讀取打開的文件,GPT-4o的版本更像是和你一起在看著桌面上發生的一切。另外,它還有美妙的語音。


硬體:TPU穩定升級


在這次發表會上,所有的AI模型都是由Google最新的TPU——Trillium TPU訓練的。相較於前代,它的進步還是非常明顯的。 Trillium實現了每晶片峰值運算效能的4.7 倍提升,比TPU v5e 提高了一倍。高頻寬記憶體(HBM)的容量和頻寬和晶片間互連(ICI)的頻寬也比v5e翻了一番。


此外,Trillium 配備了第三代SparseCore,這是一種專門用於處理超大嵌入的加速器,常見於先進的排序和建議工作負載中。 Trillium TPU 使訓練下一波基礎模型更快,並以更低的延遲和更低的成本服務這些模型。 Trillium 可以擴展到一個包含256 個TPU 的單一高頻寬低延遲Pod。

另外,能耗上Trillium TPU 比TPU v5e 的能源效率提高了67% 以上,省電能力一流。


結語


這場記者會,看的人挺折磨的。

我們想看新的、有競爭力的產品,但谷歌卻在不停的播片。從創作者感受,到體驗展示,就是沒有產品細部的表現。

我們想看現場演示,但演示內容平淡無奇。

甚至在許多地方是重複的,許多產品在不同位置被多次提到並展示。

因此這兩小時的時間顯得無比冗長,枯燥。

因為沒有驚喜,我甚至很少被調動到好奇的情緒。

這當然有OpenAI截胡的原因,但昨天25分鐘,三個產品(其中一個UI還基本沒說)的發布會,就足夠破壞谷歌這兩個小時裡的十多個產品發布更新所帶來的所有驚喜。

這說明了什麼問題?

毫無疑問,Google的技術力還在,那些模型都很能打。但那些讓人讚歎的技術突破,讓人興奮的產品展示,都沒有了。

有的只是可預期的表現,難超越同業的功能。

在一個新科技的時代,一個無比需要開創可能性的時代中,想像力可能才是最重要的。

但今天這場發表會的谷歌,沒有想像力了。

我有點為它惋惜。(騰訊科技)