實測Google Gemma4 12B:筆記本就能跑,是個全能 Agent!

最近,Google發佈Gemma4 12B模型,讓人眼前一亮!

12B,中杯尺寸,但也能在16G記憶體本跑起來。

而且,它是一個多模態全能Agent,支援理解圖片、音訊、視訊檔案。

這兩天實測了下,感興趣的可以看看。

1 本地部署

本地跑Gemma4 12B,最簡單方法之一,使用ollama

下面一行命令:

看到它是標準4位量化(Q4_K_M)版本:

並且上下文可以達到262K,很不錯,也為本地長對話能力提供支撐。

按照開發文件,16G記憶體就可以跑,比如Mac電腦M1,到M5都可以跑。

接下來,實測推理速度。

5090單卡,從提問到看到首Token(也就是TTFT),20輪下來,平均2.33秒:

2.33秒,屬於良好的水平,而且非常穩定。

平均每秒鐘輸出107.7 tokens,錄製了一個GIF,感受下推理速度:

這對 12B等級,Ollama 本地推理來說,107.7 tokens/s,已經屬於很流暢的水平。

因此不管從TTFT,而且每秒tokens速度,都是不錯的。

2 Agent 實測

接下來把它接入到知識庫中,看看本地幹活好用嗎。

https://deeplocals.com/download

首先安裝DeepLocals,獲取地址:

安裝後,開箱即用!

DeepLocals支援本地大模型的絲滑接入,配置為:Gemma4:12b

配置後,直接就可以在本地對我們的檔案,如論文,合同,文書,做本地檢索增強問題,更懂我們的AI

如下圖所示,DeepLocals會從左側學習到的海量本地檔案中,檢索到了10個知識片段:

Gemma4:12B 如下思考24秒:

回答結果如下所示:

點選參考源,直接定位到相關論文片段:

這個總結Gemini-3.1-Pro給出了95分的高分:

點選匯出Word,含引用版:

匯出Word文件:

3 多模態能力

Gemma4:12B是一個統一的多模態模型,無視覺編碼器,視訊記憶體使用更好。

接下來測試它的圖片理解能力如何,如下點選箭頭所示,上傳本地檔案:

上傳這篇Transformer這篇論文:

DeepLocals 開始生成論文總結:

如下部分截圖:

上面總結髮給Gemini3.1-Pro,它給出了98分:

傳送這樣一張圖片給Gemma4:12B,看看它的多模態能力:

發給DeepLocals:

Gemma4:12B 的回答:

Gemini3.1-Pro給出90-95分:

這個測試證明了,它能看懂學術論文裡最難搞的複雜資料對比。

最後總結一下

本篇實測下來,感覺Gemma4 12B 這次確實把本地 AI 的體驗拉到了一個新高度。

12B 這個體量,剛好卡在 16G 記憶體的舒適區。

最實在的是,原生的多模態讓它真能幫你幹髒活累活。就算拔了網線,那些晦澀的英文 PDF 和複雜的實驗折線圖,它也能給你扒得明明白白。

對於咱們這種看重資料隱私,又想在本地白嫖一個“全能助理”的人來說,沒啥好糾結的,直接折騰起來就對了。 (郭震AI)