Google Gemma 4 12B震撼發佈!全球下載破1.5億,16G輕薄本封神

【新智元導讀】剛剛,Google扔出Gemma 4 12B大殺器!16G輕薄本就能全離線流暢跑通,性能直逼26B巨獸,全體開發者驚呼太震撼了,平民級本地AI封神之作降臨。硬核實測速來看!

就在今天,全球AI開發者的朋友圈和X被同一個名字刷屏了——Google DeepMind Gemma 4 12B。

所有人還在為千億模型燒掉上千萬美元算力時,Google突然轉頭,向消費級硬體市場投下一枚神器!

這個模型,完全拋棄了傳統編碼器、原生支援文字、圖像和音訊直接輸入,能在16GB輕薄本上全離線運行,堪稱「多模態六邊形戰士」。

DeepMind CEO Demis Hassabis 親自下場發文慶功:Gemma 4全系列的下載量已經正式突破 1.5億次!

這標誌著,開源輕量級AI模型已獲得全球開發者社區的巨大認可。

這個讓邊緣AI狂飆、把顯示卡逼到極限的 Gemma 4 12B,到底有多恐怖?

單張4090實測,12B模型竟成「輕薄本封神神器」

Gemma 4 12B剛發佈,著名評測機構 atomic.chat 就它拉到單張 RTX 4090 顯示卡上,與Gemma 4 26B-A4B進行pk。

這場測試,是極度變態的「純手寫單檔案 HTML5 Canvas 複雜物理動效」。

要求極其苛刻:不依賴任何第三方庫,完全靠AI的物理直覺和程式碼能力,憑空手搓出包含「高爾頓釘板」、「方塊碰撞」以及混沌學經典的「三擺系統」。

這個過程,兩個模型沒有任何參考,就得推理出物理引擎的底層程式碼。

測試結果,讓人驚掉下巴。

前代模型Gemma 4 26B-A4B毫無懸念地展現了碾壓級的統治力。

它在所有場景中完勝,速度狂飆到驚人的 138 tok/s,生成了6.9k token的程式碼。但代價是,它吃掉了 15GB 的視訊記憶體。

這次的新模型Gemma 4 12B,雖然在這場終亟亟客對決中以 80 token/s 的速度(生成8.9k token)惜敗於老大哥,但它直接全線通關了所有物理測試場景。

最可怕的資料在於:Gemma 4 12B 完成這一切,僅僅只佔用了 9GB 的視訊記憶體!

要知道,二者整整差了140億的參數。

Gemma 4 12B 用不到前代模型一半的體量,幾乎打出了同等質量的戰績。

atomic.chat這樣評價:「同樣的Gemma 4家族,26B跑得快贏了所有場景,但12B緊追其後。在只需要9GB視訊記憶體的情況下,12B絕對是16GB記憶體筆記本使用者的本地部署完美神機!」

以前,如果要跑這種等級的多模態物理程式碼推理,要麼忍受雲端API的延遲和計費,要麼得買昂貴的雙路工作站。

現在,你只需要一台普通的MacBook或者搭載消費級顯示卡的遊戲本,就可以讓AI離線為你寫出一個物理引擎!

顛覆常理的黑科技——「無編碼器」大一統架構

為什麼一個 12B的中量級模型,能爆發出如此驚人的多模態理解力?

核心秘密在於GoogleDeepMind這次引入的顛覆性設計:無編碼器統一架構。

在過去,所有的多模態大模型,本質上是一個「縫合怪」。看圖或者聽聲音時,必須請兩個「翻譯官」。

首先,視覺編碼器把圖片像素翻譯成向量。然後是音訊編碼器,把聲音波形翻譯成向量,然後再喂給LLM的大腦。

這種「先編碼,再融合」的傳統範式有三個致命缺點:慢(延遲高)、佔記憶體、訓練難。

而 Gemma 4 12B 告訴你:「我全都要,而且我直接吃原資料!」

主導這項研究的DeepMind科學家 Michael Tschannen 在X上激動分享:「過去幾年我的研究重點就是統一跨模態的模型和訓練範式。今天我們發佈了Gemma 4 12B,一個高密度的無編碼器模型,它直接處理原始文字、圖像和音訊輸入!」

Google是如何做到如此極簡的?

首先,是視覺直接注入(Vision Embedding)。

Google殘忍地「砍掉」了原本包含27層的視覺Transformer。取而代之的,是一個僅僅35M的超輕量級嵌入模組。

原始的48x48像素塊進來,只需經過一次簡單的矩陣乘法,加上分解坐標尋找(把X和Y的數學空間位置直接繫結),視覺資訊就像文字Token一樣,直接流進了LLM的骨幹網路中。

就這樣,AI的「大腦」直接接管了視覺處理!

第二,是原生音訊直通(Audio Wave Projection)。

這樣,音訊處理更是被簡化到了令人髮指的程度。原先在 Gemma 4 E2B裡用到的12層Conformer音訊編碼器被徹底拔掉。

原始的 16kHz 語音訊號進來,被切成 40毫秒的片段(每個片段640個浮點數),然後通過線性投影,直接塞進和文字Token完全相同的維度空間裡。

這種「大一統」,首先就實現了極速響應。沒有了中間商賺差價,端到端的延遲大幅降低。

其次,還實現了無縫微調。

因為視覺、音訊和文字共享同一套權重,開發者在使用 Hugging Face 或 Unsloth 進行 LoRA 微調時,只需要一次前向傳遞,就能同時更新所有的多模態循環。

這簡直是本地開發者夢寐以求的特性!

Michael Tschannen 驕傲地表示:「儘管拋棄了編碼器,12B 依然穩穩地坐在了 Gemma 4 家族的帕累托前沿上。它不僅能看能聽,在純文字和Agent任務上的表現,更是遠超那些只專注視覺-語言的開源模型。」

真正屬於普通人的 AI 時代——16GB視訊記憶體的狂歡

「Apache 2.0 協議 + 能在16GB顯示卡上運行,這才是真正的亮點!」 知名AI安全與量化博主 Oussema 一針見血地指出。

長期以來,AI 圈存在一種「算力焦慮」。

大廠動輒發佈千億參數模型,對於普通開發者和中小企業來說,只能通過 API 呼叫,資料出海面臨隱私風險,長期呼叫的 token 成本更是讓人肉疼。

Gemma 4 12B 的出現,就是為了打破這種壟斷!

官方的部落格寫道:「Gemma 4 12B 的設計初衷,就是將高性能的多模態智能直接帶到你的筆記型電腦上。」

16GB VRAM(視訊記憶體)或統一記憶體意味著什麼?

意味著目前市面上主流的 MacBook Pro(M1/M2/M3 Pro 16GB及以上版本),以及搭載了 RTX 4060 Ti / 4070 / 4080 的 Windows 遊戲本和開發機,統統可以毫無壓力地將其納入麾下!

開發者 Mustafa Ergisi 非常震撼:「上周我在我的 M2 晶片 Mac 上測試 Gemma 4 12B 時,真切地感受到了這種衝擊。」

為了讓本地部署爽到極致,Google這次連「周邊配套」都做到了令人髮指的完善:

1.自帶「草稿箱」加速: 模型內建了多Token預測機制,能極大地降低本地生成的延遲。
2.全面適配桌面端: Google不僅開源了模型,還把原本屬於移動端的 Google AI Edge Gallery 官方移植到了桌面 macOS 平台!它利用蘋果的 Apple Silicon GPU 進行了底層最佳化。
3.甚至帶沙盒環境: 在 Mac 本地應用中,你甚至可以直接在聊天氣泡裡執行 Python 程式碼並繪製科學圖表,完全在一個安全的沙盒環境中進行,全程斷網,無懼隱私洩露!

正如網友 Blissy 激動地留言:「終於有一個我不需要賣腎就能跑得起的模型了!在筆記本上跑原生多模態,這才是真正的炫技。」

Agentic 智能體殺手:用魔法打敗魔法的實戰案例

千萬別以為縮小了體積,Gemma 4 12B 就不行了。

在Google官方提供的《開發者指南》中,12B 展現出了驚人的 Agentic能力。

它不僅能回答你的問題,還能自己規劃步驟、使用工具、寫程式碼並執行任務。

下面,就是兩個官方演示中驚豔全球的真實案例。

案例一:AI 的「俄羅斯套娃」——自己寫程式碼呼叫自己

在測試中,開發者想要一個能處理圖像的本地桌面應用。

於是,他們啟動了本地的 Gemma 4 12B(通過 llama.cpp 結合官方的 gemma-skills 庫),並對它說:「給我寫一個能處理圖像的 Gradio App。」

奇蹟發生了——

Gemma 4 12B 直接手敲出了完整的 Python 和 Gradio 程式碼,建構出了一個帶有圖形介面的圖像處理工具。

而更絕的是,這個工具背後的圖像分析核心引擎,依然是呼叫本地的 Gemma 4 12B 自己!

用 Gemma 寫一個套殼應用來運行 Gemma,這就是未來的開發常態。

案例二:一幀一幀啃視訊——精準識別「隱喻」

團隊將一段長達 5 分鐘的 Google I/O 大會演講視訊(1313幀畫面,每秒1幀,加上現場的原始音訊)喂給了 Gemma 4 12B。

提示詞是「當這個男人拿手機自拍時,視訊裡發生了什麼?」

面對這長達 5 分鐘的海量多模態資料,12B 模型不僅完美消化了 256K 的上下文,更給出了堪稱「人類專家級」的洞察:

在這個演示視訊中,當男人拿起智慧型手機放在臉前自拍時,這其實是一個巧妙的視覺隱喻。他並不是真的在自拍,而是在演示人工智慧如何將一個單一的輸入(自拍),作為生成一整個新世界(比如太空站、森林場景)的基礎。這是 Gemini Omni 模型展示複雜多模態推理和創造力的一部分……

令人驚奇的是,它get到了人類演講中的視覺隱喻!

這種深度的視訊理解能力,過去只有頂級閉源模型上才具備。

1.5億次下載背後的開源信仰與生態狂歡

「慶祝 Gemma 4 全系列下載量突破 1.5 億次的巨大里程碑!伴隨新發佈的 12B 模型,它體積如此之小,卻異常強大。Apache 2.0 許可——祝大家建構愉快!」

當 DeepMind 掌門人 Demis Hassabis這樣說的時候,整個開源社區的狂歡被推向了高潮。

1.5 億次下載是什麼概念?

正如有人所質疑的:世界上根本沒有 1.5 億個開發者啊?

事實是,這 1.5 億次包含了自動化建構、全球伺服器的部署、以及超 7 萬個衍生微調版本的誕生。

這證明了,Gemma 4 已經成為了像 Linux 作業系統一樣的新基建!

而 Apache 2.0 開源協議的加持,更是為商業化落地徹底掃清了障礙。你可以隨意修改、微調、甚至把它打包進你的商業軟體裡去賣錢,不需要向Google交一分錢版權費。

在這個生態中,無數人的命運正在被改變。

建築行業的開發者 Steven Tibbs 建構了一個 PDF 編輯器,稱讚說邊緣AI就是我們這個行業的未來。

獨立開發者 Balu0X 感慨:「Gemma讓人印象最深的,是它真的太容易運行、微調和發佈了,完全不需要昂貴的硬體。」

科技評論員Tech News更是直言:「Apache 2.0 協議的本地推理,才是真正誕生商業應用的地方。」

而且,Google已經為你鋪平了所有的路。

今天,你只需要點開 LM Studio、Ollama,或者使用 llama.cpp、MLX、vLLM,就能用幾條命令列,在自己的電腦上使用Gemma 4 12B了。

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm  gemma-4-12B-it.litertlm gemma4-12b

# Start the OpenAI-compatible server

litert-lm serve

邊緣AI的黎明,剛剛破曉

在過去兩年的大模型混戰中,所有的巨頭都在卷參數、卷雲端算力。

然而,閉源實驗室運送的是純粹的智力;而開源權重,運送的是槓桿。一個能塞進你筆記本裡的前沿級模型,才是真正的科技普惠。

Gemma 4 12B 的發佈,就像是普羅米修斯將火種帶到了人間。

它不再是被鎖在雲端機房裡、按次計費的奢侈品;它是你筆記本裡那個永遠不會斷網、永遠保護你隱私、永遠不知疲倦的數字搭檔。

當AI從雲端降落到每個人的書桌上,一場屬於超級個體和Agent開發的超級大爆炸,才剛剛開始。 (新智元)