重磅！Google開源Gemma 4 12B：統一的、無編碼器的多模態模型，16G記憶體筆記本就可以跑

2026/06/04

•

剛剛，GoogleDeepMind發佈了Gemma 4 12B。

一句話概括這個模型的定位：把原本需要高端伺服器才能跑的多模態智能，裝進你的筆記型電腦裡。

它填補的是Gemma家族裡一個關鍵空缺：比邊緣端的E4B更強，比26B混合專家模型（MoE）更輕。而且在整個Gemma 4系列裡，它是第一個支援原生音訊輸入的中等規模模型。

先說跑分。Gemma 4 12B在標準評測基準上的成績接近26B MoE模型，但總記憶體佔用還不到後者的一半。

硬體門檻方面：只需要16GB視訊記憶體或統一記憶體，消費級筆記型電腦就能運行，也就是入門級的MacBook Air（M5）就能跑了

能力方面，它支援強大的多步推理和智能體工作流。多模態理解加上Agent能力，直接在本地跑，不用聯網，不依賴雲端。

本地體驗入口有：LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent應用（可以直接看到完全離線的語音轉錄、格式化和翻譯效果）、LiteRT-LM CLI。

我已經第一時間通過LM Studio安裝了，以後就算斷網，本地也有真正的多模態模型了，沒有任何token焦慮，不過最好上32g記憶體，16g雖然可以跑，但是token速度很慢，另外中文表達默認好像是粵語表達方式，所以問問題之前要求用簡體中文來回答，知識截止日期2025年1月。

這是Gemma 4 12B最值得說的地方。

傳統的多模態模型，處理圖片或音訊的方式是這樣的：先用專門的編碼器把圖像、音訊"翻譯"成模型能懂的表示，再把這些表示傳給語言模型主體。編碼器越多，延遲越高，記憶體佔用也越大。

Google這次直接把編碼器去掉了。

視覺處理方面，他們用一個極輕量的嵌入模組替換了原來的視覺編碼器，這個模組只包含一次矩陣乘法、位置嵌入和歸一化操作。視覺資訊就這樣直接進入語言模型主幹，讓大模型自己去做視覺理解。

音訊處理方面，走得更徹底。音訊編碼器被完全移除，原始音訊訊號直接被投影到與文字token相同的維度空間裡。

這種統一、無編碼器的架構，帶來的直接好處是：延遲更低，記憶體更省。

Gemma 4 12B內建了多Token預測（MTP）草稿器，專門用來降低推理延遲。這個技術我之前的文章有介紹過，目前Google已經用到自家全系模型了

這在實際使用中意味著響應更快。

許可證方面，Gemma 4 12B採用Apache 2.0協議發佈，開發者可以自由使用。

預訓練權重和指令微調權重都可以直接從Hugging Face和Kaggle下載。

支援的推理框架包括：Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM。微調方面支援Unsloth。

生產部署方面，支援通過Google雲上線，可以走Gemini企業級智能體平台模型花園、Cloud Run和GKE。

Google這次還一併發佈了官方Gemma技能庫（Skills Repository），專門為開發者用Gemma模型建構智能體工作流提供支援，裡面的技能庫是專門為Gemma設計的。 (AI寒武紀)