最近,Google發佈Gemma4 12B模型,讓人眼前一亮!
12B,中杯尺寸,但也能在16G記憶體本跑起來。
而且,它是一個多模態全能Agent,支援理解圖片、音訊、視訊檔案。
這兩天實測了下,感興趣的可以看看。
1 本地部署
本地跑Gemma4 12B,最簡單方法之一,使用ollama
下面一行命令:
看到它是標準4位量化(Q4_K_M)版本:
並且上下文可以達到262K,很不錯,也為本地長對話能力提供支撐。
按照開發文件,16G記憶體就可以跑,比如Mac電腦M1,到M5都可以跑。
接下來,實測推理速度。
5090單卡,從提問到看到首Token(也就是TTFT),20輪下來,平均2.33秒:
2.33秒,屬於良好的水平,而且非常穩定。
平均每秒鐘輸出107.7 tokens,錄製了一個GIF,感受下推理速度:
這對 12B等級,Ollama 本地推理來說,107.7 tokens/s,已經屬於很流暢的水平。
因此不管從TTFT,而且每秒tokens速度,都是不錯的。
2 Agent 實測
接下來把它接入到知識庫中,看看本地幹活好用嗎。
https://deeplocals.com/download
首先安裝DeepLocals,獲取地址:
安裝後,開箱即用!
DeepLocals支援本地大模型的絲滑接入,配置為:Gemma4:12b
配置後,直接就可以在本地對我們的檔案,如論文,合同,文書,做本地檢索增強問題,更懂我們的AI
如下圖所示,DeepLocals會從左側學習到的海量本地檔案中,檢索到了10個知識片段:
Gemma4:12B 如下思考24秒:
回答結果如下所示:
點選參考源,直接定位到相關論文片段:
這個總結Gemini-3.1-Pro給出了95分的高分:
點選匯出Word,含引用版:
匯出Word文件:
3 多模態能力
Gemma4:12B是一個統一的多模態模型,無視覺編碼器,視訊記憶體使用更好。
接下來測試它的圖片理解能力如何,如下點選箭頭所示,上傳本地檔案:
上傳這篇Transformer這篇論文:
DeepLocals 開始生成論文總結:
如下部分截圖:
上面總結髮給Gemini3.1-Pro,它給出了98分:
傳送這樣一張圖片給Gemma4:12B,看看它的多模態能力:
發給DeepLocals:
Gemma4:12B 的回答:
Gemini3.1-Pro給出90-95分:
這個測試證明了,它能看懂學術論文裡最難搞的複雜資料對比。
最後總結一下
本篇實測下來,感覺Gemma4 12B 這次確實把本地 AI 的體驗拉到了一個新高度。
12B 這個體量,剛好卡在 16G 記憶體的舒適區。
最實在的是,原生的多模態讓它真能幫你幹髒活累活。就算拔了網線,那些晦澀的英文 PDF 和複雜的實驗折線圖,它也能給你扒得明明白白。
對於咱們這種看重資料隱私,又想在本地白嫖一個“全能助理”的人來說,沒啥好糾結的,直接折騰起來就對了。 (郭震AI)
