Google公開全新極限壓縮演算法:LLM提速8倍、記憶體佔用狂降6倍,精度零損失
Google帶來了一套有深厚理論基礎的全新量化演算法。這套演算法的出現,直接瞄準了當前AI領域的兩大痛點:大模型極其吃記憶體的鍵值快取(KV Cache),以及高維向量搜尋的算力瓶頸。直接把大模型推理中最燒錢的那塊記憶體砍掉六分之五,同時推理速度提升最高8倍,精度還沒有任何下降。
說人話就是如果這個演算法真的有效,記憶體價格將有望大幅降低,也不要那麼多的GPU來訓練大模型了,當然根據傑文斯悖論,記憶體和GPU可能又會迎來一波更大的需求。
這組演算法叫 TurboQuant,將在 ICLR 2026 正式發表。(實際上論文的預印本2025年就發了)
記憶體瓶頸卡在那裡
要理解 TurboQuant 解決的問題,先得搞清楚大模型推理時最貴的東西是什麼。
大模型處理資訊的方式,本質上是把一切轉化成向量——一串數字。維度越高,向量能承載的資訊越複雜,也越精確。但高維向量極其耗記憶體。
推理過程中有一個叫 KV Cache(鍵值快取)的機制,相當於模型的臨時記事本,把之前算過的結果存起來,避免重複計算。模型上下文越長,這個記事本佔的空間越大,記憶體很快就被撐滿了。
解決思路自然是壓縮向量。但傳統的向量量化方法有一個隱藏成本:壓縮時需要存一批次化常數,這些常數本身又要佔掉1到2個位元,部分抵消了壓縮的效果。
TurboQuant 就是衝著這個隱藏成本來的。
TurboQuant 分兩步走
第一步是 PolarQuant——處理主體壓縮。
傳統量化用的是直角坐標系,相當於告訴你往東走3步、往北走4步。PolarQuant 改用極坐標,變成沿某個角度走5步。這樣一來,向量被拆成兩個量:半徑(代表資料的強度)和角度(代表資料的方向/含義)。
極坐標有一個好處:角度的分佈規律是已知的、高度集中的,像一個固定的圓形網格,而不是邊界隨時在變的方形網格。不需要再額外算一遍資料歸一化,量化常數這個記憶體開銷就被徹底消掉了。
第二步是 QJL——用1個位元處理殘餘誤差。
第一步壓縮之後,還會留下一點點誤差。QJL 用 Johnson-Lindenstrauss 變換處理這個殘差:把每個數壓縮成一個符號位,+1 或 -1,記憶體開銷為零。關鍵是 QJL 用了一個特殊的估計量,把高精度的 query 和低精度的壓縮資料組合起來,使得最終計算注意力分數時誤差不會累積偏移。
兩步合在一起,TurboQuant 用大部分位元做高品質的主體壓縮,再用1個位元做誤差修正,整體實現了零額外開銷。
實驗資料
Google在多個標準長上下文基準上做了測評,包括 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval,使用 Gemma 和 Mistral 兩個開源模型。
主要結論:
TurboQuant 把 KV Cache 壓縮到 3 位元,不需要任何訓練或微調,模型精度沒有任何下降。在長上下文針尖大海撈針任務中,壓縮比達到至少6倍,結果依然滿分。
在速度上,4位元的 TurboQuant 在 H100 GPU 上計算注意力 logits 的速度是原始32位元未量化版本的8倍。
在向量檢索任務上,TurboQuant 在 GloVe 資料集上的1@k召回率超過了 PQ 和 RabbiQ 等當前最優方法,而後者還用了更大的碼本和針對資料集的專項調優。
意義在那裡
這套極限壓縮技術的出現,不僅直接解決了Gemini等大模型的鍵值快取瓶頸,更將深刻改變現代搜尋的格局。
如今的搜尋引擎正在從關鍵詞匹配進化為理解意圖和含義,這離不開在數十億級向量庫中尋找最相似內容的向量搜尋技術。借助TurboQuant,以最小的記憶體、幾乎為零的預處理時間建構和查詢超大型向量索引成為可能,且精度達到當前最高水平。隨著AI技術全面融入各類產品,這類基礎級的向量量化突破將爆發出前所未有的威力。
Google研究人員強調,這三個演算法不只是工程最佳化,背後有完整的理論證明,性能接近理論下界,因此在大規模系統中具有可信賴的魯棒性。
TurboQuant、QJL 和 PolarQuant 的論文將分別在 ICLR 2026 和 AISTATS 2026 正式亮相。 (AI寒武紀)