剛剛,GoogleDeepMind發佈了Gemma 4 12B。
一句話概括這個模型的定位:把原本需要高端伺服器才能跑的多模態智能,裝進你的筆記型電腦裡。
它填補的是Gemma家族裡一個關鍵空缺:比邊緣端的E4B更強,比26B混合專家模型(MoE)更輕。而且在整個Gemma 4系列裡,它是第一個支援原生音訊輸入的中等規模模型。
到底有多能打?
先說跑分。Gemma 4 12B在標準評測基準上的成績接近26B MoE模型,但總記憶體佔用還不到後者的一半。
硬體門檻方面:只需要16GB視訊記憶體或統一記憶體,消費級筆記型電腦就能運行,也就是入門級的MacBook Air(M5) 就能跑了
能力方面,它支援強大的多步推理和智能體工作流。多模態理解加上Agent能力,直接在本地跑,不用聯網,不依賴雲端。
本地體驗入口有:LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent應用(可以直接看到完全離線的語音轉錄、格式化和翻譯效果)、LiteRT-LM CLI。
我已經第一時間通過LM Studio安裝了,以後就算斷網,本地也有真正的多模態模型了,沒有任何token焦慮,不過最好上32g記憶體,16g雖然可以跑,但是token速度很慢,另外中文表達默認好像是粵語表達方式,所以問問題之前要求用簡體中文來回答,知識截止日期2025年1月。
最核心的技術創新:扔掉編碼器
這是Gemma 4 12B最值得說的地方。
傳統的多模態模型,處理圖片或音訊的方式是這樣的:先用專門的編碼器把圖像、音訊"翻譯"成模型能懂的表示,再把這些表示傳給語言模型主體。編碼器越多,延遲越高,記憶體佔用也越大。
Google這次直接把編碼器去掉了。
視覺處理方面,他們用一個極輕量的嵌入模組替換了原來的視覺編碼器,這個模組只包含一次矩陣乘法、位置嵌入和歸一化操作。視覺資訊就這樣直接進入語言模型主幹,讓大模型自己去做視覺理解。
音訊處理方面,走得更徹底。音訊編碼器被完全移除,原始音訊訊號直接被投影到與文字token相同的維度空間裡。
這種統一、無編碼器的架構,帶來的直接好處是:延遲更低,記憶體更省。
還有一個細節:速度最佳化
Gemma 4 12B內建了多Token預測(MTP)草稿器,專門用來降低推理延遲。這個技術我之前的文章有介紹過,目前Google已經用到自家全系模型了
這在實際使用中意味著響應更快。
Apache 2.0,完全開放
許可證方面,Gemma 4 12B採用Apache 2.0協議發佈,開發者可以自由使用。
預訓練權重和指令微調權重都可以直接從Hugging Face和Kaggle下載。
支援的推理框架包括:Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM。微調方面支援Unsloth。
生產部署方面,支援通過Google雲上線,可以走Gemini企業級智能體平台模型花園、Cloud Run和GKE。
配套生態同步上線
Google這次還一併發佈了官方Gemma技能庫(Skills Repository),專門為開發者用Gemma模型建構智能體工作流提供支援,裡面的技能庫是專門為Gemma設計的。 (AI寒武紀)
