Google 發了個壓縮演算法,記憶體砍 6 倍,速度快 8 倍,精度零損失

Google Research 昨天發了篇部落格,介紹了一個叫 TurboQuant 的壓縮演算法,將在下個月的 ICLR 2026 上正式發表。

一句話概括:把大模型的 KV Cache 壓縮到 3 bit,記憶體佔用降 6 倍,推理速度快 8 倍,精度損失為零。

零。

不是「接近零」,不是「可忽略」,是在所有基準測試上跑出了和未壓縮版本一模一樣的分數。

這,就值得好好說說了。

先說 KV Cache

大模型在生成回答時,有個東西叫 KV Cache,也就是 Key-Value 快取。

你可以把它理解成模型的「草稿紙」,每生成一個 token,它都要回頭看看之前寫了什麼,而 KV Cache 就是儲存這些「之前寫了什麼」的地方。

問題在於……這張草稿紙會越來越大。

KV Cache 越聊越胖

對話越長,草稿紙越厚。

上下文窗口從 8K 到 128K 再到百萬級,KV Cache 的記憶體佔用也跟著線性膨脹。到了一定程度,GPU 的視訊記憶體就不夠用了,要麼縮短上下文,要麼加更多顯示卡。

這就是為什麼之前對於 1M token 的上下文模型,比如說 Claude 的模型,它會在超過一定窗口之後,要收取更高價格。因為費卡啊!

所以 KV Cache 壓縮,一直是業界的剛需。

老辦法的尷尬

傳統的做法是向量量化,把 32 位的浮點數壓成更少的位數。聽起來很直接對吧?

但這裡有個尷尬的地方:量化本身需要儲存一些「校準常數」,這些常數得用全精度保存,每個數字額外佔 1 到 2 bit。

打個比方,你好不容易把行李箱裡的衣服用真空袋抽成了紙片,正準備拉上拉鏈,結果發現每個真空袋上還得貼一張 A4 大小的操作說明。十件衣服十張說明,箱子又鼓起來了。

壓縮的悖論

壓縮帶來的好處,被壓縮本身的開銷吃掉了一部分。

TurboQuant 要解決的,就是這個問題。

極坐標的妙用

TurboQuant 其實是兩個演算法的組合:PolarQuant 和 QJL。

先說 PolarQuant。

PolarQuant 坐標轉換示意

傳統量化在笛卡爾坐標系下工作,也就是我們熟悉的 X、Y、Z 軸。PolarQuant 做了一件事:把向量從笛卡爾坐標系轉換到極坐標系。

這是什麼意思呢?

想像你在一張方格紙上標記一個點的位置。笛卡爾坐標系的做法是:向右走 3 格,向上走 4 格。極坐標的做法則是:朝 53 度方向,走 5 步。

方格紙到羅盤的轉換

描述同一個點,但極坐標的表示方式有個天然優勢:角度的分佈是可預測的、集中的。

這意味著,你不需要額外儲存那些佔空間的校準常數了。

方格紙換成了羅盤,清單就不需要了。

這一步,PolarQuant 負責主要的壓縮工作,把資料壓到很小的體積,同時保留了關鍵資訊。

1 bit 掃尾

但光靠 PolarQuant 還不夠……壓縮之後總會有殘餘誤差。

這時候 QJL 登場了,全稱 Quantized Johnson-Lindenstrauss。

QJL 的思路相當大膽:它用 Johnson-Lindenstrauss 變換來處理殘餘誤差向量,然後把每個值壓縮到……1 個 bit。

對,就是正或負,+1 或 -1,沒有中間地帶。

聽起來粗暴得離譜對吧?但妙的地方在於,QJL 在計算 attention 分數時,用的是未壓縮的高精度 query 向量和壓縮後的 key 向量配合工作。高精度的那一側「兜住了」低精度那一側的誤差。

額外記憶體開銷:零。

PolarQuant 做主力壓縮,QJL 做 1-bit 掃尾,兩者合在一起就是 TurboQuant。最終實現了 3-bit 的 KV Cache 壓縮,而且不需要重新訓練模型,不需要微調,不需要針對特定資料集做校準。

拿來就能用。

TurboQuant 兩步壓縮流程

跑分全滿

:::

來看效果。

Google 的團隊在五個長上下文基準測試上做了驗證:LongBench、Needle In A Haystack(大海撈針)、ZeroSCROLLS、RULER、L-Eval,用的模型是開放原始碼的 Gemma 和 Mistral。

結果是:所有基準測試上,壓縮後的模型和未壓縮版本得分完全一致。

TurboQuant 成績單

在 NVIDIA H100 GPU 上,4-bit 的 TurboQuant 在計算 attention logits 時比 32-bit 未量化的 key 快了 8 倍

而在向量搜尋任務上,TurboQuant 也打敗了現有最好的方法(Product Quantization 和 RabbiQ),在 GloVe 資料集上的召回率更高,同時記憶體佔用更少。

換句話說,壓得更小,跑得更快,還找得更準。

不只是論文

:::

通常一篇論文發完,大家看看就過去了。但 TurboQuant 的情況,有些不一樣。

論文放出來沒幾天,社區就已經有人用 PyTorch、MLX(Apple Silicon)和 C/CUDA(給 llama.cpp 用的)分別做出了可運行的實現,而且核心指標都得到了驗證。

可以說,演算法本身夠簡潔,不依賴複雜的訓練流程,獨立開發者幾天就能復現。

團隊陣容方面,除了 Google 的 Amir Zandieh 和 Vahab Mirrokni(Google Fellow),還有來自 KAIST 和 NYU 的研究者參與,三篇相關論文分別發在 ICLR 2026、AAAI 2025 和 AISTATS 2026。

未來影響

:::

TurboQuant 解決的問題,表面上看是「省視訊記憶體、提速度」。但往遠了想,它動的其實是 AI 部署的門檻。

現在跑大模型,動輒需要幾塊 H100,一年下來光算力成本就是天文數字。如果 KV Cache 能壓縮 6 倍,同樣的視訊記憶體就能裝下更長的上下文,或者服務更多的並行請求。對雲端來說,這直接就是成本帳。

而對本地部署來說,意義可能更大。32GB 視訊記憶體的消費級顯示卡,原本只能勉強跑個 7B 模型的長上下文,壓縮 6 倍之後,想像空間就打開了。

更遠一點……手機、邊緣裝置、嵌入式系統,這些地方記憶體寸土寸金,TurboQuant 這類技術可能是 AI 真正進入這些場景的前提條件。

有人評論稱:

這可能是 2026 年最重要的創新之一。

說「最重要」可能有些誇張了。

但我想,至少可以說,最性感的 AI 突破,未必來自下一個兆參數的巨無霸模型,而可能來自這種聰明的數學技巧。

壓縮、量化、高效計算,

這也許才是,讓 AI 真正無處不在的關鍵。 (AGI Hunt)