Google新論文把記憶體股價干崩了！KV cache壓縮6倍，“Google的DeepSeek時刻”

2026/03/26

•

學術會議ICLR，居然和美光和西部資料大跌扯上關係了？

兩家儲存晶片巨頭股價大跌，沒有財報暴雷，沒有供應鏈斷裂，只是Google展示了一篇即將在ICLR 2026正式亮相的論文。

Google研究院推出TurboQuant壓縮演算法，把AI推理過程中最吃記憶體的KV cache壓縮至少6倍，精度零損失。

市場的解讀簡單粗暴，長上下文AI推理以後不需要那麼多記憶體了，利空記憶體。

網友紛紛表示，這不就是美劇《矽谷》裡的Pied Paper？

Pied Piper是2014年開播的HBO經典美劇《矽谷》裡的虛構創業公司，核心技術就是一種“近乎無損的極限壓縮演算法”。

2026年，類似的演算法在現實世界居然成真了。

KVCache量化到3 bit

要理解TurboQuant為什麼重要，先得理解它解決的是什麼問題。

AI大模型推理時處理過的資訊會臨時存在KV Cache，方便後續快速呼叫，不用每次從頭算起。

問題是隨著上下文窗口越來越長，記憶體消耗急劇膨脹。KV cache正在成為AI推理的核心瓶頸之一。

傳統的解決思路是向量量化，把高精度資料壓成低精度表示。

但尷尬的是，大部份量化方法本身也需要儲存額外的“量化常數”，每個數字要多佔1到2個bit。

TurboQuant用兩個改動把這個額外開銷幹到了零。

PolarQuant（極坐標量化）：

不用傳統的X、Y、Z坐標描述資料，轉而用極坐標”距離+角度”。

Google團隊發現，轉換後角度的分佈非常集中且可預測，根本不需要額外儲存歸一化常數。

就像把“往東走3個路口，往北走4個路口”壓縮成”朝37度方向走5個路口”。

資訊量不變，描述更緊湊，還省掉了坐標系本身的開銷。

QJL（量化JL變換）：

把高維資料投影后壓縮成+1或-1的符號位，完全不需要額外記憶體。TurboQuant用它來消除PolarQuant壓縮後殘留的微小誤差。

兩者組合後PolarQuant先用大部分bit容量捕捉資料的主要資訊，QJL再用1個bit做殘差修正。

最終實現3-bit量化，無需任何訓練或微調，精度零損失。

Google團隊在Gemma和Mistral等開源模型上，跑了主流長上下文基準測試，覆蓋問答、程式碼生成、摘要等多種任務。

在“大海撈針”任務上，TurboQuant在所有測試中拿下完美分數，同時KV cache記憶體佔用縮小了至少6倍。

PolarQuant單獨使用，精度也幾乎無損。

速度提升同樣顯著。在輝達H100 GPU上，4-bit TurboQuant計算注意力分數的速度，比32-bit未量化版本快了8倍。

不只是省記憶體，還更快了。

在向量搜尋領域，TurboQuant同樣超越了現有最優量化方法的召回率，而且不需要針對具體資料集做調優，也不依賴低效的大碼本。

Cloudflare CEO評價“這是Google的DeepSeek時刻”。

他認為DeepSeek證明了用更少的資源也能訓出頂尖模型。

TurboQuant的方向類似，用更少的記憶體，也能跑同樣質量的推理。

Google表示，TurboQuant除了可以用在Gemini等大模型上，同時還能大幅提升語義搜尋的效率，讓Google等級的兆級向量索引查詢更快、成本更低。

不過TurboQuant目前還只是一個實驗室成果，尚未大規模部署。

更關鍵的是，它只解決推理階段的記憶體問題。而AI訓練環節完全不受影響。 (量子位)