GPT-4地位難保,Google Gemini新王登基?

當地時間12月6日,Google官宣示了最新大模型Gemini 1.0。



Gemini 1.0與LLaMA模型相似,也是一套系列模型,其中包含三個版本:

Gemini Ultra-參數量最大,能力最強,適用於高度複雜的任務。

Gemini Pro-可擴充至各種任務的機型。

Gemini Nano-高效率的裝置端任務模型。

Gemini 1.0主打多模態能力,Google將Gemini定義為一款「原生多模態(natively multimodal)」模型。

在模型能力方面,Google稱Gemini Ultra的性能在大型語言模型(LLM)研發中使用的 32 個廣泛使用的學術基準中的 30 個超過了當前最先進的結果。

在MMLU(大規模多任務語言理解)測試框架中,Gemini Ultra 的得分高達 90.0%,甚至超越了人類專家。

Gemini被GoogleCEO Sundar Pichai稱為「Google迄今為止最大、能力最強的AI模型」。

Sundar Pichai在Gemini的官方部落格中寫道:

「在許多領先的基準測試中都具有最先進的性能。谷歌的第一個版本Gemini 1.0 針對不同尺寸進行了優化:Ultra、Pro 和Nano。這些是Gemini 時代的第一個模型,也是谷歌今年早一些時候成立Google DeepMind 時的願景的首次實現。這個模型的新時代代表了谷歌作為一家公司所做出的最大的科學和工程努力之一。我對未來以及雙子座將為世界各地的人們帶來的機會感到由衷地興奮。”

目前,Google官方稱其主打的聊天機器人Bard已升級至Gemini Pro版本,能力在推理、規劃和理解等方面得到顯著提升,並繼續免費向用戶提供服務。谷歌預計明年初推出更先進的“Bard Advanced”,屆時將採用 Gemini Ultra。

在Gemini發布之前,Google在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA,在用戶當中收穫的評價一直不高,相對於業界領軍的GPT-4差距很大。

由此,傳聞中Google重點研發的Gemini模型一直被寄予厚望。Gemini也是Google大腦(Google Brain)和DeepMind合併組成Google DeepMind之後的首個重要產品。

下面我們就來看看,Gemini到底牛在哪裡?

超過人類專家,向強人工智慧邁近一步?

“Gemini在MMLU基準測試中超越人類專家。”

雖然,有了AlphaGo的經驗,我們並不認為AI在某些領域超越人類是什麼新鮮事。但今時不同往日,在ChatGPT帶來的AGI、強人工智慧「嚇阻」下,任何被稱為超越人類的AI,多多少少都會引人側目。

那麼在這個測試集中超越人類專家,到底有多厲害呢?

大型語言模型(LLM)的主流評測資料集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用於評估模型在語言理解、推理、閱讀理解和常識推理等方面的能力。

MMLU(大規模多任務語言理解)是一個結合了數學、物理、歷史、法律、醫學和倫理學等57個科目的測驗集。相較於其他測試集,MMLU的廣泛性和深度更強,它透過大量和多樣的任務來測試AI模型在理解自然語言方面的能力,特別是在複雜和多變的真實世界場景中的表現。這使得MMLU成為一個極具挑戰性的評測框架,可以全面地評估和推動大型語言模式的發展。

GPT-4與Gemini在MMLU測試集的對比

這個框架通常包括數以千計的不同任務,涵蓋廣泛的主題和挑戰。MMLU 的目的是提供一個全面且多樣化的方法,測試和評估語言模型在各種複雜和現實世界場景中的表現。其中的測試任務可能包括理解笑話、回答有關世界歷史的問題、解釋科學現像等眾多更接近人類知識、常識和理解能力的項目。

在MMLU測試中超越人類專家,也可以理解為,在這個測試框架下,Gemini在「各種複雜和現實世界場景中的表現」超越了人類專家。

谷歌在官方部落格中表示:Gemini利用MMLU基準方法使Gemini能夠利用其推理能力在回答難題之前更仔細地思考,從而比僅使用第一印像有顯著改進。

除此之外,Gemini Ultra 還在新的MMMU(專家AGI 的大規模多學科多模式理解和推理)基準測試中取得了59.4%的最先進分數,該基準測試由跨越不同領域、需要深思熟慮的推理的多模態任務組成。

谷歌的測試顯示Gemini Ultra 的性能優於先前最先進的模型,無需從圖像中提取文字以進行進一步處理的物件字元辨識 (OCR) 系統的幫助。這些基準凸顯了雙子座天生的多模態性,並顯示了雙子座更複雜推理能力的早期跡象。

Gemini在文字和編碼等一系列基準測試中的表現

在某個測試集中超越人類專家,對於AGI或強人工智慧來說雖然還相去甚遠,但仍可以說是這條路上邁出的堅實一步。

原生多模態,比GPT-4強?

其實Gemini的LLM性能表現並不是他最大的亮點。Gemini真正值得關注的差異化能力是「原生多模態」。

首先,什麼是「Gemini's native multimodality」(Gemini的原生多模態能力)?

原生多模態能力,指的是Gemini模型固有的能力,可以直接理解和處理多種不同類型的數據,而不需要額外的專門處理或轉換。

有人可能會疑惑,那這與GPT-4有何不同?

打個簡單的比方:假如GPT-4是個詩人,他不但擅長寫詩,還會畫畫,但寫詩是他的職業,畫畫只是他的副業。GPT-4能處理文字(寫詩)和圖片(畫),但它主要還是以文字處理為強項。

具有“原生多模態能力”的Gemini則是一個詩人、畫家“雙料人才”,他在寫詩和畫畫方面同樣出色,沒有哪一方面比另一方面弱。Gemini能夠同時處理文字和圖片,並且在這兩方面都做得很好,沒有主次之分。

GPT-4的多模態能力可能更多是透過將不同模型的能力整合到一個框架中來實現的,而不是所有功能都在一個統一的模型中原生實現。作為一個大型語言模型,GPT-4的主要最佳化和訓練是圍繞語言理解和生成。對於影像處理,雖然它展現了一定的能力,但可能不如那些專門針對影像處理最佳化的模型。而一個真正的本地多模態模型會在所有模態上都進行平衡和最佳化。




Gemini的多模態理解能力

原生多模態能力意味著模型能夠更自然、高效地處理和整合多種類型的數據,這在實現更複雜的AI應用方面具有重要意義。

當然,這也是更接近人類的理解方式。人類在理解世界時自然地融合了視覺、聽覺和語言等多種感官訊息。一個具有本地多模態能力的AI模型在處理資訊時也採用了類似的綜合方式,這更接近人類的理解和認知方式。

全方位「打敗」GPT-4

Gemini不僅是在模型能力與多模態能力上敢與GPT-4一爭高下。在應用方面,也提供了更多選擇。

“小模型”

模型系列中的最小尺寸的Gemini Nano模型,被設計為適用於記憶體受限的端側裝置。它在多種任務上展示了出色的性能,尤其是在多模態和多語言處理方面。Gemini Nano的這些特性使其成為適合在資源受限環境中使用的強大工具。

雖然目前大模型的主流趨勢仍是“依雲而生”,但在AI未來的商業化版圖中,離線、個人化、小型化的端側模型正在受到越來越多的重視。

過去幾個月中,高通、聯想等眾多巨頭都在反覆強調自己在端側生成式AI的策略佈局。高通推出的最新一代驍龍晶片對生成式AI提供了強大的支援能力,聯想則提出AI PC概念,並強調未來一段時間將圍繞AI對已有的全部產品展開大刀闊斧地改革。

然而,硬體設備廠商非常活躍的同時,AI廠商對端側的關注卻不怎麼高。以百模大戰的國內市場為例,目前只有個位數的廠商正式宣布過自己的端側小模型。其中包括雷軍在8月的年度演講中提到的小米MiLM模型的13億參數版本,以及通義千問在12月1日開源的Qwen-1.8B模型。

在這方面,相較於OpenAI,Google更有動力去研究端側小模型。畢竟Google本身俱備Pixel手機和Android的雙重優勢。


訓練

谷歌在訓練Gemini過程中大量使用了自研的張量處理單元(TPU)v4 和 v5e。

在 TPU 上,Gemini 的運行速度明顯快於早期、較小且功能較差的型號。這些客製化設計的人工智慧加速器一直是Google人工智慧產品的核心,這些產品為搜尋、YouTube、Gmail、Google地圖、Google Play 和 Android 等數十億用戶提供服務。它們也使世界各地的公司能夠經濟高效地訓練大規模人工智慧模型。

Google 資料中心內一排的 Cloud TPU v5p AI 加速器超級計算機

隨著Gemini的問世,Google也宣布了TPU系統最強的升級Cloud TPU v5p,專為訓練尖端 AI 模型而設計。

在訓練最佳化方面,Gemini增加了對模型並行性和資料並行性的利用,並對網路延遲和頻寬進行了最佳化。Gemini也使用了Jax和Pathways程式設計模型,為複雜的數學運算(如機器學習中常見的運算)提供了最佳化的支援。

Jax特別適用於有效率地執行大規模的陣列運算。Pathways指用於管理和協調大規模訓練任務的程式設計模型或架構。透過使用這些工具,Gemini模型的開發者可以使用單一Python流程來協調整個訓練流程,這樣可以簡化開發和訓練工作流程,同時利用Jax和Pathways的高效能。

複雜推理能力

Gemini 1.0 複雜的多模式推理功能可以幫助理解複雜的書面和視覺訊息。這使得它在發現大量數據中難以辨別的知識方面具有獨特的能力。

批改物理作業

其透過閱讀、過濾和理解資訊從數十萬份文件中提取見解的卓越能力將有助於在從科學到金融的許多領域以數位速度實現新的突破。

Gemini 1.0 經過訓練,可以同時識別和理解文字、圖像、音訊等,因此它可以更好地理解微妙的訊息,並可以回答與複雜主題相關的問題。這使得它特別擅長解釋數學和物理等複雜學科的推理。

程式設計

Gemini可以理解、解釋和產生世界上最受歡迎的程式語言(如Python、Java、C++和Go)的高品質程式碼。它跨語言工作和推理複雜訊息的能力使其成為世界領先的編碼基礎模型之一。

Gemini Ultra在多個編碼基準測試中表現出色,包括HumanEval(用於評估編碼任務性能的重要行業標準)和Natural2Code(谷歌內部保留的數據集),該數據集使用作者生成的源而不是基於網絡的資訊.

Gemini也可以用作更高級編碼系統的引擎。兩年前,Google推出了達到競賽等級的AI代碼產生系統AlphaCode。如今基於Gemini技術開發,剛剛又開發了AlphaCode 2,專門針對競技程式設計任務進行了最佳化和增強。

Gemini的下一步規劃

雖然Google在技術文件和官方部落格中把Gemini吹得很神,好像已經把OpenAI踩在腳下了。但今天的發布其實只是一個「論文」而已,真正有能力對標GPT-4的Gemini Ultra要到明年年初才會上線。

Gemini家族的老二,Gemini Pro目前已經準備開始為Google的對話機器人產品Bard提供支援了。

谷歌在部落格中表示:從今天開始,Bard將使用Gemini Pro的微調版本來進行更高階的推理、規劃、理解等。這是 Bard 自推出以來最大的升級。它將在170多個國家和地區提供英語版本,谷歌計劃在不久的將來擴展到不同的模式並支援新的語言和地點。

不過,截至發稿,在bard上的測試仍顯示未升級到Gemini,bard對Gemini的了解也十分有限。

提問Bard是否已經升級Gemini

Gemini Nano則被規劃到了Pixel。谷歌將在Pixel 8 Pro中首次內建Gemini Nano。這款手機將支援Recorder應用程式中的Summarize等新功能,並從WhatsApp開始推出Gboard中的 Smart Reply,明年將推出更多訊息應用程式。

從12月13日開始,開發者和企業客戶可以透過 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 存取 Gemini Pro 。

Google AI Studio是一款基於網路的免費開發者工具,可使用 API 金鑰快速建立應用程式原型並啟動應用程式。當需要完全託管的 AI 平台時,Vertex AI 允許對 Gemini 進行自訂,提供全面的資料控制,並受益於額外的 Google Cloud 功能,以實現企業安全、安全、隱私以及資料治理和合規性。

Android 開發人員還可以透過 AICore(Android 14 中提供的新系統功能,從 Pixel 8 Pro 裝置開始)使用 Gemini Nano(Google最高效的裝置端任務模型)進行建置。

除此之外,Gemini已經確定很快就會融入Google的業務中。在接下來的幾個月中,Gemini將出現在更多Google產品和服務中,例如搜尋、廣告、Chrome 和 Duet AI。

谷歌稱已經開始在搜尋中試驗Gemini,它使用戶的搜尋生成體驗(SGE)更快,美國英語的延遲減少了40%,同時品質也提高了。

值得注意的是,對於谷歌來說,搜尋始終是其看家業務。Gemini在Google搜尋、廣告業務中的全面鋪開,可能會徹底改變未來的廣告和行銷邏輯。

在最近的工業軟體研討會中,一位工業企業主管對虎嗅吐槽說,「Google的競爭對手在網路上鋪了很多軟文,但我們沒有買軟文。這就導致這些軟文成了LLM訓練的數據,進而沉澱到它的知識庫中。在AI的意識裡,我們的競爭對手已經被看作是默認的行業標準了。

這種現象,早在2022年底,就已經有人預言了,「SEO is Dead, Long Live LLMO」的口號。彼時的ChatGPT還沒有連網功能,而今天的Gemini幾乎已經確定要融入Google的搜尋引擎中,並且完全改變未來的網路搜尋邏輯。(虎嗅APP)