Google Gemma 4 12B震撼發佈！全球下載破1.5億，16G輕薄本封神

2026/06/04

•

【新智元導讀】剛剛，Google扔出Gemma 4 12B大殺器！16G輕薄本就能全離線流暢跑通，性能直逼26B巨獸，全體開發者驚呼太震撼了，平民級本地AI封神之作降臨。硬核實測速來看！

就在今天，全球AI開發者的朋友圈和X被同一個名字刷屏了——Google DeepMind Gemma 4 12B。

所有人還在為千億模型燒掉上千萬美元算力時，Google突然轉頭，向消費級硬體市場投下一枚神器！

這個模型，完全拋棄了傳統編碼器、原生支援文字、圖像和音訊直接輸入，能在16GB輕薄本上全離線運行，堪稱「多模態六邊形戰士」。

DeepMind CEO Demis Hassabis 親自下場發文慶功：Gemma 4全系列的下載量已經正式突破 1.5億次！

這標誌著，開源輕量級AI模型已獲得全球開發者社區的巨大認可。

這個讓邊緣AI狂飆、把顯示卡逼到極限的 Gemma 4 12B，到底有多恐怖？

單張4090實測，12B模型竟成「輕薄本封神神器」

Gemma 4 12B剛發佈，著名評測機構 atomic.chat 就它拉到單張 RTX 4090 顯示卡上，與Gemma 4 26B-A4B進行pk。

這場測試，是極度變態的「純手寫單檔案 HTML5 Canvas 複雜物理動效」。

要求極其苛刻：不依賴任何第三方庫，完全靠AI的物理直覺和程式碼能力，憑空手搓出包含「高爾頓釘板」、「方塊碰撞」以及混沌學經典的「三擺系統」。

這個過程，兩個模型沒有任何參考，就得推理出物理引擎的底層程式碼。

測試結果，讓人驚掉下巴。

前代模型Gemma 4 26B-A4B毫無懸念地展現了碾壓級的統治力。

它在所有場景中完勝，速度狂飆到驚人的 138 tok/s，生成了6.9k token的程式碼。但代價是，它吃掉了 15GB 的視訊記憶體。

這次的新模型Gemma 4 12B，雖然在這場終亟亟客對決中以 80 token/s 的速度（生成8.9k token）惜敗於老大哥，但它直接全線通關了所有物理測試場景。

最可怕的資料在於：Gemma 4 12B 完成這一切，僅僅只佔用了 9GB 的視訊記憶體！

要知道，二者整整差了140億的參數。

Gemma 4 12B 用不到前代模型一半的體量，幾乎打出了同等質量的戰績。

atomic.chat這樣評價：「同樣的Gemma 4家族，26B跑得快贏了所有場景，但12B緊追其後。在只需要9GB視訊記憶體的情況下，12B絕對是16GB記憶體筆記本使用者的本地部署完美神機！」

以前，如果要跑這種等級的多模態物理程式碼推理，要麼忍受雲端API的延遲和計費，要麼得買昂貴的雙路工作站。

現在，你只需要一台普通的MacBook或者搭載消費級顯示卡的遊戲本，就可以讓AI離線為你寫出一個物理引擎！

顛覆常理的黑科技——「無編碼器」大一統架構

為什麼一個 12B的中量級模型，能爆發出如此驚人的多模態理解力？

核心秘密在於GoogleDeepMind這次引入的顛覆性設計：無編碼器統一架構。

在過去，所有的多模態大模型，本質上是一個「縫合怪」。看圖或者聽聲音時，必須請兩個「翻譯官」。

首先，視覺編碼器把圖片像素翻譯成向量。然後是音訊編碼器，把聲音波形翻譯成向量，然後再喂給LLM的大腦。

這種「先編碼，再融合」的傳統範式有三個致命缺點：慢（延遲高）、佔記憶體、訓練難。

而 Gemma 4 12B 告訴你：「我全都要，而且我直接吃原資料！」

主導這項研究的DeepMind科學家 Michael Tschannen 在X上激動分享：「過去幾年我的研究重點就是統一跨模態的模型和訓練範式。今天我們發佈了Gemma 4 12B，一個高密度的無編碼器模型，它直接處理原始文字、圖像和音訊輸入！」

Google是如何做到如此極簡的？

首先，是視覺直接注入（Vision Embedding）。

Google殘忍地「砍掉」了原本包含27層的視覺Transformer。取而代之的，是一個僅僅35M的超輕量級嵌入模組。

原始的48x48像素塊進來，只需經過一次簡單的矩陣乘法，加上分解坐標尋找（把X和Y的數學空間位置直接繫結），視覺資訊就像文字Token一樣，直接流進了LLM的骨幹網路中。

就這樣，AI的「大腦」直接接管了視覺處理！

第二，是原生音訊直通（Audio Wave Projection）。

這樣，音訊處理更是被簡化到了令人髮指的程度。原先在 Gemma 4 E2B裡用到的12層Conformer音訊編碼器被徹底拔掉。

原始的 16kHz 語音訊號進來，被切成 40毫秒的片段（每個片段640個浮點數），然後通過線性投影，直接塞進和文字Token完全相同的維度空間裡。

這種「大一統」，首先就實現了極速響應。沒有了中間商賺差價，端到端的延遲大幅降低。

其次，還實現了無縫微調。

因為視覺、音訊和文字共享同一套權重，開發者在使用 Hugging Face 或 Unsloth 進行 LoRA 微調時，只需要一次前向傳遞，就能同時更新所有的多模態循環。

這簡直是本地開發者夢寐以求的特性！

Michael Tschannen 驕傲地表示：「儘管拋棄了編碼器，12B 依然穩穩地坐在了 Gemma 4 家族的帕累托前沿上。它不僅能看能聽，在純文字和Agent任務上的表現，更是遠超那些只專注視覺-語言的開源模型。」

真正屬於普通人的 AI 時代——16GB視訊記憶體的狂歡

「Apache 2.0 協議 + 能在16GB顯示卡上運行，這才是真正的亮點！」知名AI安全與量化博主 Oussema 一針見血地指出。

長期以來，AI 圈存在一種「算力焦慮」。

大廠動輒發佈千億參數模型，對於普通開發者和中小企業來說，只能通過 API 呼叫，資料出海面臨隱私風險，長期呼叫的 token 成本更是讓人肉疼。

Gemma 4 12B 的出現，就是為了打破這種壟斷！

官方的部落格寫道：「Gemma 4 12B 的設計初衷，就是將高性能的多模態智能直接帶到你的筆記型電腦上。」

16GB VRAM（視訊記憶體）或統一記憶體意味著什麼？

意味著目前市面上主流的 MacBook Pro（M1/M2/M3 Pro 16GB及以上版本），以及搭載了 RTX 4060 Ti / 4070 / 4080 的 Windows 遊戲本和開發機，統統可以毫無壓力地將其納入麾下！

開發者 Mustafa Ergisi 非常震撼：「上周我在我的 M2 晶片 Mac 上測試 Gemma 4 12B 時，真切地感受到了這種衝擊。」

為了讓本地部署爽到極致，Google這次連「周邊配套」都做到了令人髮指的完善：

1.自帶「草稿箱」加速： 模型內建了多Token預測機制，能極大地降低本地生成的延遲。

2.全面適配桌面端： Google不僅開源了模型，還把原本屬於移動端的 Google AI Edge Gallery 官方移植到了桌面 macOS 平台！它利用蘋果的 Apple Silicon GPU 進行了底層最佳化。

3.甚至帶沙盒環境： 在 Mac 本地應用中，你甚至可以直接在聊天氣泡裡執行 Python 程式碼並繪製科學圖表，完全在一個安全的沙盒環境中進行，全程斷網，無懼隱私洩露！

正如網友 Blissy 激動地留言：「終於有一個我不需要賣腎就能跑得起的模型了！在筆記本上跑原生多模態，這才是真正的炫技。」

Agentic 智能體殺手：用魔法打敗魔法的實戰案例

千萬別以為縮小了體積，Gemma 4 12B 就不行了。

在Google官方提供的《開發者指南》中，12B 展現出了驚人的 Agentic能力。

它不僅能回答你的問題，還能自己規劃步驟、使用工具、寫程式碼並執行任務。

下面，就是兩個官方演示中驚豔全球的真實案例。

案例一：AI 的「俄羅斯套娃」——自己寫程式碼呼叫自己

在測試中，開發者想要一個能處理圖像的本地桌面應用。

於是，他們啟動了本地的 Gemma 4 12B（通過 llama.cpp 結合官方的 gemma-skills 庫），並對它說：「給我寫一個能處理圖像的 Gradio App。」

奇蹟發生了——

Gemma 4 12B 直接手敲出了完整的 Python 和 Gradio 程式碼，建構出了一個帶有圖形介面的圖像處理工具。

而更絕的是，這個工具背後的圖像分析核心引擎，依然是呼叫本地的 Gemma 4 12B 自己！

用 Gemma 寫一個套殼應用來運行 Gemma，這就是未來的開發常態。

案例二：一幀一幀啃視訊——精準識別「隱喻」

團隊將一段長達 5 分鐘的 Google I/O 大會演講視訊（1313幀畫面，每秒1幀，加上現場的原始音訊）喂給了 Gemma 4 12B。

提示詞是「當這個男人拿手機自拍時，視訊裡發生了什麼？」

面對這長達 5 分鐘的海量多模態資料，12B 模型不僅完美消化了 256K 的上下文，更給出了堪稱「人類專家級」的洞察：

在這個演示視訊中，當男人拿起智慧型手機放在臉前自拍時，這其實是一個巧妙的視覺隱喻。他並不是真的在自拍，而是在演示人工智慧如何將一個單一的輸入（自拍），作為生成一整個新世界（比如太空站、森林場景）的基礎。這是 Gemini Omni 模型展示複雜多模態推理和創造力的一部分……

令人驚奇的是，它get到了人類演講中的視覺隱喻！

這種深度的視訊理解能力，過去只有頂級閉源模型上才具備。

1.5億次下載背後的開源信仰與生態狂歡

「慶祝 Gemma 4 全系列下載量突破 1.5 億次的巨大里程碑！伴隨新發佈的 12B 模型，它體積如此之小，卻異常強大。Apache 2.0 許可——祝大家建構愉快！」

當 DeepMind 掌門人 Demis Hassabis這樣說的時候，整個開源社區的狂歡被推向了高潮。

1.5 億次下載是什麼概念？

正如有人所質疑的：世界上根本沒有 1.5 億個開發者啊？

事實是，這 1.5 億次包含了自動化建構、全球伺服器的部署、以及超 7 萬個衍生微調版本的誕生。

這證明了，Gemma 4 已經成為了像 Linux 作業系統一樣的新基建！

而 Apache 2.0 開源協議的加持，更是為商業化落地徹底掃清了障礙。你可以隨意修改、微調、甚至把它打包進你的商業軟體裡去賣錢，不需要向Google交一分錢版權費。

在這個生態中，無數人的命運正在被改變。

建築行業的開發者 Steven Tibbs 建構了一個 PDF 編輯器，稱讚說邊緣AI就是我們這個行業的未來。

獨立開發者 Balu0X 感慨：「Gemma讓人印象最深的，是它真的太容易運行、微調和發佈了，完全不需要昂貴的硬體。」

科技評論員Tech News更是直言：「Apache 2.0 協議的本地推理，才是真正誕生商業應用的地方。」

而且，Google已經為你鋪平了所有的路。

今天，你只需要點開 LM Studio、Ollama，或者使用 llama.cpp、MLX、vLLM，就能用幾條命令列，在自己的電腦上使用Gemma 4 12B了。

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b

# Start the OpenAI-compatible server

litert-lm serve

邊緣AI的黎明，剛剛破曉

在過去兩年的大模型混戰中，所有的巨頭都在卷參數、卷雲端算力。

然而，閉源實驗室運送的是純粹的智力；而開源權重，運送的是槓桿。一個能塞進你筆記本裡的前沿級模型，才是真正的科技普惠。

Gemma 4 12B 的發佈，就像是普羅米修斯將火種帶到了人間。

它不再是被鎖在雲端機房裡、按次計費的奢侈品；它是你筆記本裡那個永遠不會斷網、永遠保護你隱私、永遠不知疲倦的數字搭檔。

當AI從雲端降落到每個人的書桌上，一場屬於超級個體和Agent開發的超級大爆炸，才剛剛開始。 (新智元)

科技