實測Google Gemma4 12B：筆記本就能跑，是個全能 Agent！

2026/06/09

•

最近，Google發佈Gemma4 12B模型，讓人眼前一亮！

12B，中杯尺寸，但也能在16G記憶體本跑起來。

而且，它是一個多模態全能Agent，支援理解圖片、音訊、視訊檔案。

這兩天實測了下，感興趣的可以看看。

1 本地部署

本地跑Gemma4 12B，最簡單方法之一，使用ollama

下面一行命令：

看到它是標準4位量化（Q4_K_M）版本：

並且上下文可以達到262K，很不錯，也為本地長對話能力提供支撐。

按照開發文件，16G記憶體就可以跑，比如Mac電腦M1，到M5都可以跑。

接下來，實測推理速度。

5090單卡，從提問到看到首Token（也就是TTFT），20輪下來，平均2.33秒：

2.33秒，屬於良好的水平，而且非常穩定。

平均每秒鐘輸出107.7 tokens，錄製了一個GIF，感受下推理速度：

這對 12B等級，Ollama 本地推理來說，107.7 tokens/s，已經屬於很流暢的水平。

因此不管從TTFT，而且每秒tokens速度，都是不錯的。

2 Agent 實測

接下來把它接入到知識庫中，看看本地幹活好用嗎。

https://deeplocals.com/download

首先安裝DeepLocals，獲取地址：

安裝後，開箱即用！

DeepLocals支援本地大模型的絲滑接入，配置為：Gemma4:12b

配置後，直接就可以在本地對我們的檔案，如論文，合同，文書，做本地檢索增強問題，更懂我們的AI

如下圖所示，DeepLocals會從左側學習到的海量本地檔案中，檢索到了10個知識片段：

Gemma4:12B 如下思考24秒：

回答結果如下所示：

點選參考源，直接定位到相關論文片段：

這個總結Gemini-3.1-Pro給出了95分的高分：

點選匯出Word，含引用版：

匯出Word文件：

3 多模態能力

Gemma4:12B是一個統一的多模態模型，無視覺編碼器，視訊記憶體使用更好。

接下來測試它的圖片理解能力如何，如下點選箭頭所示，上傳本地檔案：

上傳這篇Transformer這篇論文：

DeepLocals 開始生成論文總結：

如下部分截圖：

上面總結髮給Gemini3.1-Pro，它給出了98分：

傳送這樣一張圖片給Gemma4:12B，看看它的多模態能力：

發給DeepLocals：

Gemma4:12B 的回答：

Gemini3.1-Pro給出90-95分：

這個測試證明了，它能看懂學術論文裡最難搞的複雜資料對比。

最後總結一下

本篇實測下來，感覺Gemma4 12B 這次確實把本地 AI 的體驗拉到了一個新高度。

12B 這個體量，剛好卡在 16G 記憶體的舒適區。

最實在的是，原生的多模態讓它真能幫你幹髒活累活。就算拔了網線，那些晦澀的英文 PDF 和複雜的實驗折線圖，它也能給你扒得明明白白。

對於咱們這種看重資料隱私，又想在本地白嫖一個“全能助理”的人來說，沒啥好糾結的，直接折騰起來就對了。 (郭震AI)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者