OpenAI空前崛起之際,Google毅然打響了絕地反擊戰。
台北時間12月7日凌晨,GoogleCEO桑達爾・皮查伊和Deepmind CEO戴密斯·哈薩比斯在谷歌官網聯名發文,官宣了最新多模態大模型Gemini 1.0(雙子星)版本正式上線。這個上線時間早於外界猜測的明年1月,保密程度很高,僅有少數媒體提前猜出。
Gemini 1.0是Google籌備了一年之久的GPT4真正競品,也是目前Google能拿出手的功能最為強悍、適配最為靈活的大模型,包括三種不同套件,分別是Gemini Ultra, Gemini Pro和Gemini Nano。其中Ultra的能力最強,複雜度最高,能夠處理最困難的多模態任務;Pro能力稍弱,是一個可擴展至多任務的模型;Nano則是一款可以在手機端側運行的模型。這說明,Gemini的觸達範圍很廣,可以下探至資料中心,也可以上行至行動裝置端側。
谷歌的Bard聊天機器人,這番也已經升級到了Gemini,可以說Gemini的初始版本已於今日開始在Bard中提供。從5月的I/O大會之後,Google就將自己先前最強的人工智慧模式PaLm 2融入了Gemini的能力之中。
在一段發表的示範影片中,桑達爾・皮查伊展示了Gemini對影片、影像的非同凡響的辨識能力。在影片中,Gemini極為自如地在影像、音訊、視訊各模態之間的轉換,展現了驚人的解鎖應用場景與產品形態的潛力。
僅從Google釋出的示範影片結果來看,市面上現有的全部多模態大模型與Gemini的表現表現都有世代差,包括Meta 5月開源的跨6個模態的AI模型ImageBind以及GPT -4。
今年4月開始,隨著多模態技術不斷升級,以及疊加模型調用成本等性能的優化,GPT4及國內外一眾模型持續迭代,實現了跨模態性能的不斷增強。一時間,多模態大模型呈現百花齊放之勢。但有國內頭部大模型新創開發工程師對界面新聞記者表示,現今絕大部分多模態大模型都是在大語言模型LLM之上生長出多模態的應用,而並非從頭開始訓練的多模態的大模型,這是多模態大模型目前「不能言說的秘密」。
谷歌自己也提到,到目前為止,創建多模態模型的標準方法基本上是針對不同模態訓練單獨的組件,然後將它們拼接以粗略模仿其中一些功能。這會導致這些模型有時擅長執行某些任務,例如描述圖像,但難以處理更概念和複雜的推理。
其透過60頁的相關技術報告證明,Gemini是一個真正原生的多模態大模型,因為從最初的預訓練資料開始,Gemini就在針對不同模態的模型進行訓練,因此其功能在每個重大領域都達到了SOTA(State of the art,特別指領先水準的大模型)。
在權威MMMU基準測試中,Gemini Ultra獲得了59.4%的SOTA分數。這項基準測試是經典的多模態測試,由跨不同領域的多模式任務組成,能夠體現大模型的深度推理能力,而推理過程本身,需要花費的成本遠高於模型訓練。谷歌技術報告同時顯示,Google是使用TPUv5e和TPUv4來訓練Gemini,尤其是訓練Gemini Ultra時,使用了大量跨多個資料中心的TPUv4。
多模態能力之外,Gemini在專業知識儲備和高階編碼等領域都處於最前面。例如,Gemini Ultra在MMLU(大規模多任務語言理解資料集)中的得分率高達90.0%,這款MMLU資料集包含數學、物理、歷史、法律、醫學和倫理等57個科目,專門用於測試大模型的知識儲備和解決問題能力。Gemini Ultra是第一個在MMLU上超越人類專家的大模型。
值得一提的是,Google此番並未透露Ultra和Pro版本的具體參數規模,但根據量子位元的分析,Gemini與Google先前的主力大模型PaLM-2相比,參數規模上要增大許多。此前,PaLM-2被曝參數規模為3,400億。
谷歌方面表示,Gemini將透過Google產品推向數十億用戶。從12月13日開始,開發者和企業客戶可以透過Google AI Studio或Google Cloud Vertex AI中的Gemini API存取Gemini Pro。
今天凌晨,Google也同步發布了最新版本的運算晶片TPU v5p,相較上一代TPU v4性價比提升2.3倍,但訊息完全被Gemini的光芒所掩蓋。(界面新聞)
