Google新論文把記憶體股價干崩了!KV cache壓縮6倍,“Google的DeepSeek時刻”

學術會議ICLR,居然和美光和西部資料大跌扯上關係了?

兩家儲存晶片巨頭股價大跌,沒有財報暴雷,沒有供應鏈斷裂,只是Google展示了一篇即將在ICLR 2026正式亮相的論文

Google研究院推出TurboQuant壓縮演算法,把AI推理過程中最吃記憶體的KV cache壓縮至少6倍,精度零損失

市場的解讀簡單粗暴,長上下文AI推理以後不需要那麼多記憶體了,利空記憶體。

網友紛紛表示,這不就是美劇《矽谷》裡的Pied Paper?

Pied Piper是2014年開播的HBO經典美劇《矽谷》裡的虛構創業公司,核心技術就是一種“近乎無損的極限壓縮演算法”。

2026年,類似的演算法在現實世界居然成真了。

KVCache量化到3 bit

要理解TurboQuant為什麼重要,先得理解它解決的是什麼問題。

AI大模型推理時處理過的資訊會臨時存在KV Cache,方便後續快速呼叫,不用每次從頭算起。

問題是隨著上下文窗口越來越長,記憶體消耗急劇膨脹。KV cache正在成為AI推理的核心瓶頸之一。

傳統的解決思路是向量量化,把高精度資料壓成低精度表示。

但尷尬的是,大部份量化方法本身也需要儲存額外的“量化常數”,每個數字要多佔1到2個bit。

TurboQuant用兩個改動把這個額外開銷幹到了零。

PolarQuant(極坐標量化):

不用傳統的X、Y、Z坐標描述資料,轉而用極坐標”距離+角度”。

Google團隊發現,轉換後角度的分佈非常集中且可預測,根本不需要額外儲存歸一化常數。

就像把“往東走3個路口,往北走4個路口”壓縮成”朝37度方向走5個路口”。

資訊量不變,描述更緊湊,還省掉了坐標系本身的開銷。

QJL(量化JL變換):

把高維資料投影后壓縮成+1或-1的符號位,完全不需要額外記憶體。TurboQuant用它來消除PolarQuant壓縮後殘留的微小誤差。

兩者組合後PolarQuant先用大部分bit容量捕捉資料的主要資訊,QJL再用1個bit做殘差修正。

最終實現3-bit量化,無需任何訓練或微調,精度零損失。

8倍加速,Benchmark全線拉滿

Google團隊在Gemma和Mistral等開源模型上,跑了主流長上下文基準測試,覆蓋問答、程式碼生成、摘要等多種任務。

在“大海撈針”任務上,TurboQuant在所有測試中拿下完美分數,同時KV cache記憶體佔用縮小了至少6倍。

PolarQuant單獨使用,精度也幾乎無損。

速度提升同樣顯著。在輝達H100 GPU上,4-bit TurboQuant計算注意力分數的速度,比32-bit未量化版本快了8倍。

不只是省記憶體,還更快了。

在向量搜尋領域,TurboQuant同樣超越了現有最優量化方法的召回率,而且不需要針對具體資料集做調優,也不依賴低效的大碼本。

AI記憶體的DeepSeek時刻?

Cloudflare CEO評價“這是Google的DeepSeek時刻”

他認為DeepSeek證明了用更少的資源也能訓出頂尖模型。

TurboQuant的方向類似,用更少的記憶體,也能跑同樣質量的推理。

Google表示,TurboQuant除了可以用在Gemini等大模型上,同時還能大幅提升語義搜尋的效率,讓Google等級的兆級向量索引查詢更快、成本更低。

不過TurboQuant目前還只是一個實驗室成果,尚未大規模部署。

更關鍵的是,它只解決推理階段的記憶體問題。而AI訓練環節完全不受影響。 (量子位)