追上GPT-4！谷歌發布最新大模型Gemini，主打三大“殺手鐧”

2023/12/07

•

外界期待已久的Google大語言模型Gemini在美國時間12月6日早上正式對外發布，Google執行長皮查伊表示：Gemini 1.0是目前為止Google能力最強的通用人工智慧模型。

「Gemini是原生多模態打造，是（Google）通往Gmeini模型時代的第一步。」皮查伊在當天的聲明中說。

Google當天發布的Gemini 1.0共分為Ultra, Pro和Nano三個版本，其中Ultra的能力最強，複雜度最高，能夠處理最為困難的任務，Pro能力稍弱，可以用來處理多任務，Nano則較注重於端側的處理能力。

目前谷歌旗下的基於大語言模型對標ChatGPT的人工智慧語言對話機器人Bard已經啟用Gemini Pro作為底層大模型驅動，能夠實現比過去由Palm大模型驅動的更為高級的推理、規劃、理解等能力，同時繼續保持免費。谷歌預計明年初推出「Bard Advanced」，並計劃使用Gemini 最強版本Ultra。

01 主打三大「殺手鐧」能力超越GPT-4

在當天的發布部落格文章中，Google表示，對Gemini 模型進行了嚴格的測試，並評估了它們在各種任務中的表現。

從自然圖像、音訊和視訊理解，到數學推理等任務，Gemini Ultra 在大型語言模型研發被廣泛使用的32 個學術基準測試集中，在其中30 個測試集的性能超過當前SOTA 結果。

另外，Gemini Ultra 在MMLU（大規模多工語言理解資料集）的得分率高達90.0%，首次超越了人類專家。MMLU 資料集包含數學、物理、歷史、法律、醫學和倫理等57 個科目，用於測試大模型的知識儲備和解決問題能力。

針對MMLU 測試集的新方法使得Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考，相比僅根據問題的第一印像作答，Gemini 的表現有顯著改進。

谷歌也特別公佈了在各方面能力上與OnpeAI目前最強的大語言模型GPT-4進行的對比，結果顯示，在文本處理方面，除了在MMLU 得分90%超過GPT-4的86.4%以外，Gemini Ultra在推理、數學、代碼等方面能力的得分均高過GPT-4。

在多模態方面，Gemini也在包含影像、視訊、音訊等各個方面全面超越了GPT-4的能力。

根據Google首席科學家、人工智慧負責人Jeff Dean的描述，Gemini模型在多模態模型推理能力方面已經達到驚人的程度。

在上述例子中，當使用者給一份有學生手寫的計算滑雪者滑到山下速度的解題內容提示後，Gemini能夠在讀懂題目的同時，指出正確的解答方法應該是怎樣。Dean表示，多模態模型能力僅僅在教育方面體現出的各種可能性就讓人非常興奮，而這樣的多模態能力能夠在許多不同的領域發揮巨大作用。

在模型架構方面，Gemini仍採用Transformer架構，採用了高效率的Attention機制，支援32k的上下文長度。

在當天的發布中，Google方面並沒有透露Gemini Ultra和Gemini Pro的具體參數大小，只是明確稱規模最小的Gemini Nano的參數分別為18億（Nano-1) 和32.5億(Nano-2) 。

目前外界有傳言稱，Gemini Ultra的參數規模達到兆級，訓練動用的算力是GPT-4 的5倍以上。

在當天同時發布的Gemini技術報告中，Google稱，Gemini的訓練動用了大規模的TPU資源，使用TPU-v5e和TPU v4進行訓練，訓練使用了跨多個資料中心的大量TPU v4，這也在某種程度上印證了Gemini的訓練參數規模十分龐大，而先前Google的PaLM的訓練參數規模為3,400億。

谷歌Gemini的首個“殺手鐧”，在於其打造時是“原生的多模態”，這區別於目前主流的其他多模態模型，大多數是通過訓練不同的組件，最終將這些組件拼接在一起實現所謂的「多模態」。

因此透過「拼接」的多模態模型雖然能夠完成一些特定任務，例如影像識別，但在更複雜的多模態任務方面可能就有些力不從心。

但Google原生多模態的Gemini，是從預訓練就用不同的模態進行，並不斷進行微調，谷歌方面表示，這樣的訓練方法，有助於讓Gemini從頭開始無縫理解和推理各種輸入，遠遠優於現有的多模態模型，而且它的功能在幾乎每個領域都是最先進的。

Gemini的第二大“殺手鐧”，在於其使用自家設計的、針對人工智能訓練進行優化的Tensor Processing Units(TPUs)的v4和v5e，谷歌稱，將其TPU設計為自己最穩定、可擴展以及最有效率的服務。

谷歌表示，目前Gemini在TPU上運行，比過去規模更小、能力更小的模型的運行速度更快，這些定制的AI 加速器是谷歌AI產品驅動面向數十億用戶的搜尋、Youtube、Gmail、谷歌地圖等服務的核心。TPU也讓企業能夠以更優的成本效率方式訓練大規模AI模型。

當天，Google也宣布了目前為止最強大、最高效、可擴展的TPU 系統—Cloud TPU v5p，專為訓練尖端的人工智慧模型而設計。新一代TPU 將加速Gemini 的發展，幫助開發人員和企業客戶更快地訓練大規模生成式AI 模型，讓新產品和新功能更快與客戶見面。

谷歌Gemini的第三大“殺手鐧”，在於與谷歌旗下生態的融合，除了發布Gemini以外，谷歌在當天也強調，Gemini將通過谷歌產品推向數十億用戶。

最早上線的便是與ChatGPT直接對標的Google人工智慧語言助理Bard，Google宣布，目前Bard將由Gemini Pro微調版本驅動，Google表示，這是Bard推出以來最大的升級。

谷歌也考慮到了端上直接運行大模型，當天同步推出的Gemini Nano版本就是針對此推出的適用於移動端的大語言模型版本，谷歌旗下的Pixel 8將是第一款直接在端上運行Gemini 的智能智慧型手機.

除此之外，Google還計劃在未來逐步將Gemini的底層人工智慧能力推向旗下全線產品，包括核心業務廣告、搜尋、Chrome瀏覽器等。

谷歌稱，目前已經在試驗用Gemini驅動的搜索，已經讓Serach Generative Experience (SGE)在美國英語搜索的延遲降低了40%，並提高搜索質量。

02 業界反應熱烈與OpenAI競爭進入白熱化

谷歌當天發布Gemini多少讓外界有些意外，在今年5月谷歌的開發者大會上，谷歌便高調對外宣布了下一代大語言模型Gemini，引發外界的巨大期待。按照原計劃，谷歌將在12月份對外正式發布Gemini，但上周有消息稱，谷歌將推遲發布Gemini至明年1月，谷歌方面給出的理由是「在某些非英語任務方面的表現不佳”，這在一定程度上引發外界對於谷歌在Gemini研發方面遇到困難和阻力的猜想。

或許是迫於外界的壓力與期待，Google最後還是在12月6日依照原計畫對外發布了Gemini。Gemini一推出，便引發了業內外廣泛關注與討論，關注最為集中的是Gemini所公佈的模型能力對GPT-4的全面超越。

有人在社群媒體上評論稱，Google的Gemini和OpenAI的GPT-4正拼的頭破血流。

毫無疑問，自從ChatGPT在去年底誕生以來1年多的時間，業界又掀起了一輪以生成式人工智慧為核心的熱潮。ChatGPT背後公司OpenAI成為這一輪人工智慧熱潮中的領導公司，其與微軟的深度合作，也讓原先在人工智慧領域處於領先地位的Google危機感十足。

為了對抗OpenAI和微軟這一強大聯盟，Google在內部迅速進行了調整，包括將旗下人工智慧部門與谷歌大腦部門進行合併，集中優勢資源進行大模型領域的研發以及旗下產品應用的全面升級。

值得一提的是，當天Gemini的發布，博客文章的署名人是谷歌首席執行官皮柴和Deep Mind創始人兼首席執行官Demis Hassabis，並且在Gemini的詳細介紹說明部分，則是Hassabis單獨署名，可見Gemini的研發工作主要由Deep Mind主導，而Google旗下的Deep Mind，正是當年推出震驚世界、在圍棋界擊敗人類頂尖選手的Alpha Go的背後公司。

前不久，OpenAI剛剛經歷了非常戲劇性的“董事會內亂”，首席執行官Sam Altman突遭董事會罷免，但最終迅速回歸，經此意外後，OpenAI的未來發展也萌生了許多新的不確定性，這也意外給了包括谷歌在內其他行業內競爭者更多追趕的時間和機會。

當天Google發布的Gemini，刻意將許多能力直接與OpenAI的GPT-4進行逐一對比，也彰顯了Google與OpenAI之間在大語言模型領域的競爭已經進入到白熱化的程度。

毫無疑問，OpenAI方面也在密切關注谷歌方面的動作並做出相應的應對，在上個月進行的OpenAI歷史上首個開發者大會上，OpenAI已經公佈了一系列更新，包括GPT-4模型的升級版、以及將打造專屬GPT的能力賦予每個用戶的功能、未來開放GPT應用商店等，OpenAI目前的開放重點在於下一代GPT-5上，由於谷歌的Gemini已經在很多能力上顯示出對GPT-4的全面超越，外界對GPT-5也增加了更多的期待。（騰訊科技）