反擊OpenAI，Google放出最強悍大模型Gemini

2023/12/07

•

OpenAI空前崛起之際，Google毅然打響了絕地反擊戰。

台北時間12月7日凌晨，GoogleCEO桑達爾・皮查伊和Deepmind CEO戴密斯·哈薩比斯在谷歌官網聯名發文，官宣了最新多模態大模型Gemini 1.0（雙子星）版本正式上線。這個上線時間早於外界猜測的明年1月，保密程度很高，僅有少數媒體提前猜出。

Gemini 1.0是Google籌備了一年之久的GPT4真正競品，也是目前Google能拿出手的功能最為強悍、適配最為靈活的大模型，包括三種不同套件，分別是Gemini Ultra, Gemini Pro和Gemini Nano。其中Ultra的能力最強，複雜度最高，能夠處理最困難的多模態任務；Pro能力稍弱，是一個可擴展至多任務的模型；Nano則是一款可以在手機端側運行的模型。這說明，Gemini的觸達範圍很廣，可以下探至資料中心，也可以上行至行動裝置端側。

谷歌的Bard聊天機器人，這番也已經升級到了Gemini，可以說Gemini的初始版本已於今日開始在Bard中提供。從5月的I/O大會之後，Google就將自己先前最強的人工智慧模式PaLm 2融入了Gemini的能力之中。

在一段發表的示範影片中，桑達爾・皮查伊展示了Gemini對影片、影像的非同凡響的辨識能力。在影片中，Gemini極為自如地在影像、音訊、視訊各模態之間的轉換，展現了驚人的解鎖應用場景與產品形態的潛力。

僅從Google釋出的示範影片結果來看，市面上現有的全部多模態大模型與Gemini的表現表現都有世代差，包括Meta 5月開源的跨6個模態的AI模型ImageBind以及GPT -4。

今年4月開始，隨著多模態技術不斷升級，以及疊加模型調用成本等性能的優化，GPT4及國內外一眾模型持續迭代，實現了跨模態性能的不斷增強。一時間，多模態大模型呈現百花齊放之勢。但有國內頭部大模型新創開發工程師對界面新聞記者表示，現今絕大部分多模態大模型都是在大語言模型LLM之上生長出多模態的應用，而並非從頭開始訓練的多模態的大模型，這是多模態大模型目前「不能言說的秘密」。

谷歌自己也提到，到目前為止，創建多模態模型的標準方法基本上是針對不同模態訓練單獨的組件，然後將它們拼接以粗略模仿其中一些功能。這會導致這些模型有時擅長執行某些任務，例如描述圖像，但難以處理更概念和複雜的推理。

其透過60頁的相關技術報告證明，Gemini是一個真正原生的多模態大模型，因為從最初的預訓練資料開始，Gemini就在針對不同模態的模型進行訓練，因此其功能在每個重大領域都達到了SOTA（State of the art，特別指領先水準的大模型）。

在權威MMMU基準測試中，Gemini Ultra獲得了59.4%的SOTA分數。這項基準測試是經典的多模態測試，由跨不同領域的多模式任務組成，能夠體現大模型的深度推理能力，而推理過程本身，需要花費的成本遠高於模型訓練。谷歌技術報告同時顯示，Google是使用TPUv5e和TPUv4來訓練Gemini，尤其是訓練Gemini Ultra時，使用了大量跨多個資料中心的TPUv4。

多模態能力之外，Gemini在專業知識儲備和高階編碼等領域都處於最前面。例如，Gemini Ultra在MMLU（大規模多任務語言理解資料集）中的得分率高達90.0%，這款MMLU資料集包含數學、物理、歷史、法律、醫學和倫理等57個科目，專門用於測試大模型的知識儲備和解決問題能力。Gemini Ultra是第一個在MMLU上超越人類專家的大模型。

值得一提的是，Google此番並未透露Ultra和Pro版本的具體參數規模，但根據量子位元的分析，Gemini與Google先前的主力大模型PaLM-2相比，參數規模上要增大許多。此前，PaLM-2被曝參數規模為3,400億。

谷歌方面表示，Gemini將透過Google產品推向數十億用戶。從12月13日開始，開發者和企業客戶可以透過Google AI Studio或Google Cloud Vertex AI中的Gemini API存取Gemini Pro。

今天凌晨，Google也同步發布了最新版本的運算晶片TPU v5p，相較上一代TPU v4性價比提升2.3倍，但訊息完全被Gemini的光芒所掩蓋。（界面新聞）