Google公開全新極限壓縮演算法：LLM提速8倍、記憶體佔用狂降6倍，精度零損失

2026/03/26

•

Google帶來了一套有深厚理論基礎的全新量化演算法。這套演算法的出現，直接瞄準了當前AI領域的兩大痛點：大模型極其吃記憶體的鍵值快取（KV Cache），以及高維向量搜尋的算力瓶頸。直接把大模型推理中最燒錢的那塊記憶體砍掉六分之五，同時推理速度提升最高8倍，精度還沒有任何下降。

說人話就是如果這個演算法真的有效，記憶體價格將有望大幅降低，也不要那麼多的GPU來訓練大模型了，當然根據傑文斯悖論，記憶體和GPU可能又會迎來一波更大的需求。

這組演算法叫 TurboQuant，將在 ICLR 2026 正式發表。（實際上論文的預印本2025年就發了）

記憶體瓶頸卡在那裡

要理解 TurboQuant 解決的問題，先得搞清楚大模型推理時最貴的東西是什麼。

大模型處理資訊的方式，本質上是把一切轉化成向量——一串數字。維度越高，向量能承載的資訊越複雜，也越精確。但高維向量極其耗記憶體。

推理過程中有一個叫 KV Cache（鍵值快取）的機制，相當於模型的臨時記事本，把之前算過的結果存起來，避免重複計算。模型上下文越長，這個記事本佔的空間越大，記憶體很快就被撐滿了。

解決思路自然是壓縮向量。但傳統的向量量化方法有一個隱藏成本：壓縮時需要存一批次化常數，這些常數本身又要佔掉1到2個位元，部分抵消了壓縮的效果。

TurboQuant 就是衝著這個隱藏成本來的。

TurboQuant 分兩步走

第一步是 PolarQuant——處理主體壓縮。

傳統量化用的是直角坐標系，相當於告訴你往東走3步、往北走4步。PolarQuant 改用極坐標，變成沿某個角度走5步。這樣一來，向量被拆成兩個量：半徑（代表資料的強度）和角度（代表資料的方向/含義）。

極坐標有一個好處：角度的分佈規律是已知的、高度集中的，像一個固定的圓形網格，而不是邊界隨時在變的方形網格。不需要再額外算一遍資料歸一化，量化常數這個記憶體開銷就被徹底消掉了。

第二步是 QJL——用1個位元處理殘餘誤差。

第一步壓縮之後，還會留下一點點誤差。QJL 用 Johnson-Lindenstrauss 變換處理這個殘差：把每個數壓縮成一個符號位，+1 或 -1，記憶體開銷為零。關鍵是 QJL 用了一個特殊的估計量，把高精度的 query 和低精度的壓縮資料組合起來，使得最終計算注意力分數時誤差不會累積偏移。

兩步合在一起，TurboQuant 用大部分位元做高品質的主體壓縮，再用1個位元做誤差修正，整體實現了零額外開銷。

實驗資料

Google在多個標準長上下文基準上做了測評，包括 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval，使用 Gemma 和 Mistral 兩個開源模型。

主要結論：

TurboQuant 把 KV Cache 壓縮到 3 位元，不需要任何訓練或微調，模型精度沒有任何下降。在長上下文針尖大海撈針任務中，壓縮比達到至少6倍，結果依然滿分。

在速度上，4位元的 TurboQuant 在 H100 GPU 上計算注意力 logits 的速度是原始32位元未量化版本的8倍。

在向量檢索任務上，TurboQuant 在 GloVe 資料集上的1@k召回率超過了 PQ 和 RabbiQ 等當前最優方法，而後者還用了更大的碼本和針對資料集的專項調優。

意義在那裡

這套極限壓縮技術的出現，不僅直接解決了Gemini等大模型的鍵值快取瓶頸，更將深刻改變現代搜尋的格局。

如今的搜尋引擎正在從關鍵詞匹配進化為理解意圖和含義，這離不開在數十億級向量庫中尋找最相似內容的向量搜尋技術。借助TurboQuant，以最小的記憶體、幾乎為零的預處理時間建構和查詢超大型向量索引成為可能，且精度達到當前最高水平。隨著AI技術全面融入各類產品，這類基礎級的向量量化突破將爆發出前所未有的威力。

Google研究人員強調，這三個演算法不只是工程最佳化，背後有完整的理論證明，性能接近理論下界，因此在大規模系統中具有可信賴的魯棒性。

TurboQuant、QJL 和 PolarQuant 的論文將分別在 ICLR 2026 和 AISTATS 2026 正式亮相。 (AI寒武紀)