記憶體最少只要1G！GoogleGemma 4全新量化版發佈，手機和輕薄本本地運行起飛

2026/06/06

•

兩個月前，Google發佈了 Gemma 4 系列模型。此後，他們一直沒停：先是引入了多token預測（MTP）加速推理，兩天前補發了 12B 參數版本，填上 E4B 和 26B MoE 之間的空白。

今天，Google又推出了新的檢查點版本，核心技術是量化感知訓練（QAT），目標只有一個：讓 Gemma 4 能在手機、筆記本這類普通消費硬體上跑起來，質量幾乎持平量化之前

其中最關鍵的結果是：Gemma 4 E2B 的記憶體佔用被壓縮到了 1GB。

另外12B雖然可以在16G記憶體/視訊記憶體本上跑，但是速度太慢了，這次全新量化後12B-QAT，我在16G記憶體 M5 Macbook Air用LM Studio用了一下，果然比量化前的12B好用多了，token速度已經能接受了，建議上32G記憶體/視訊記憶體的本子，本地就有了真正可用的多模態模型了。

以下是詳細內容

量化為什麼難

量化是大模型上裝置的核心手段，原理是減少模型參數的精度，從而降低記憶體佔用、提高推理速度。但問題也在這裡：精度一低，模型質量往往跟著掉。

傳統方案叫"訓練後量化"（PTQ），即先訓練好模型，再壓縮。簡單粗暴，但質量損失難以避免。

Google這次採用的 QAT 方案不同。它把量化過程直接嵌入訓練階段，讓模型在訓練時就學會如何在壓縮狀態下正常工作。結果是：同等壓縮比下，QAT 的質量比 PTQ 更高。

各型號記憶體佔用一覽

Google為 Gemma 4 全系發佈了 Q4_0 格式的 QAT 檢查點，同時為 E2B 和 E4B 這兩款邊緣模型專門設計了一套移動端量化方案：

對於只需要文字功能的場景，由於音訊和視覺編碼器可以不載入，Gemma 4 E2B 純文字模型的記憶體佔用可以低於 1 GB。

移動端量化方案的細節

標準壓縮格式往往對手機晶片不友好，計算效率低。Google針對移動端硬體特性，專門設計了一套量化方案，主要包含以下幾個機制：

靜態啟動值。 通常模型在推理時需要即時計算啟動值的縮放參數，這會消耗額外算力。Google把這些參數在訓練階段就預先算好固定下來，減少了手機晶片在執行階段的負擔，響應速度也更快。

通道級量化。 壓縮後的資料結構按照移動端加速器的設計方式來組織，讓手機可以直接原生執行計算，不需要額外的轉換步驟。

2 位定向量化。 對負責生成token的部分進行高強度的 2 位量化壓縮，而核心推理層仍保持較高精度。這樣可以大幅節省儲存空間，同時不損害模型的理解和推理能力。

嵌入層與 KV 快取最佳化。 重點壓縮模型的詞彙表（嵌入層）和對話短期記憶（KV 快取），大幅降低執行階段的活躍記憶體佔用，讓使用者可以進行更長的對話而不會記憶體溢出。

怎麼用

Google已經和多個主流開發工具完成了對接，今天起即可使用：

獲取權重： Q4_0 和移動版模型權重已在 Hugging Face 上線。GGUF 格式可直接用於 llama.cpp，壓縮張量版本適配 vLLM。

本地桌面運行： 支援 llama.cpp、Ollama、LM Studio 等常用工具，下載即用。

端側部署： 可以使用Google的輕量化執行階段 LiteRT-LM，也可以通過 Transformers.js 直接在網頁端運行。

開發工具鏈： 大模型服務支援 SGLang 和 vLLM，Apple Silicon 平台可用 MLX 最佳化，微調支援 Hugging Face Transformers 和 Unsloth。MTP QAT 檢查點可在量化的同時保留 MTP 帶來的推理加速效果。 (AI寒武紀)

科技