Google一篇論文引爆儲存晶片崩盤！AI記憶體需求暴降6倍，推理狂飆8倍

2026/03/26

•

【新智元導讀】Google一篇論文，直接讓儲存巨頭們「集體失眠」，一夜市值蒸發幾百億！最新部落格官宣TurboQuant演算法，直接將快取壓到3-bit，記憶體佔用只有1/6。

一篇論文攪動兆市場，儲存晶片的天塌了...

誰也未曾料到，本周三美股開盤，儲存晶片類股遭遇「黑色時刻」，巨頭股價全線飄綠——

截至收盤，美光科技下跌4%，西部資料下跌4.4%，希捷下跌5.6%，閃迪更是重挫6.5%。

引發這場拋售地震的導火線，正是Google發佈的TurboQuant壓縮演算法。

眾所周知，大模型跑起來時，KV快取（KV cache）簡直是記憶體界的「吞金獸」。

為了不重複計算之前的Token，LLM維持一份「運行記憶」，隨著對話越來越長，這份記憶會像滾雪球一樣迅速膨脹。

Google的TurboQuant，給出了一套極其「暴力」的瘦身方案：

首先，把KV快取裡的高維向量做一次「旋轉」，再換一套極坐標系來描述，記憶體開銷直接歸0。

然後，用僅僅1-bit額外空間，放一個數學「校正器」進去，把壓縮帶來的系統性偏差精確抹平。

TurboQuant論文將於下月舉辦的ICLR 2026上正式發表

結果非常頂：不用任何重訓，TurboQuant把快取壓縮至喪心病狂的3-bit。

這麼一來，KV快取開銷驟降6倍，關鍵是，推理表現幾乎零損耗。

在H100上，相較於32-bit基線，4-bit的計算注意力速度飆升了8倍。不僅省空間，還跑得更快了。

一時間，全網陷入瘋狂。照這樣說，16GB Mac mini又能用來跑大模型了。

這一幕，現實版「魔笛手」（Pied Piper）真的降臨了！

記憶體佔用暴降6倍，儲存巨頭集體重挫

對於晶片儲存巨頭來說，這無異於一場「底層邏輯大地震」。

美光、西數等巨頭的估值基石，向來建立在「AI伺服器單機容量紅利」之上。

一旦單次推理任務的位元（Bit）需求發生結構性驟降，高性能儲存的增長動能將直接面臨「縮水」危機。

直白講，GoogleTurboQuant出世，直接衝擊了晶片儲存巨頭們，備受追捧的AI硬體邏輯。

KV快取暴降6倍，速度提升8倍，意味著每台伺服器所需的高端記憶體晶片可能變少。

Cloudflare首席執行長Matthew Prince甚至將其形容為「Google的DeepSeek時刻」！

KV快取，大模型瘋狂吞金

要理解TurboQuant的份量，先得搞清楚它瞄準的靶心——KV快取到底有多吃記憶體。

大模型生成每一個Token時，都要「回看」之前所有Token的資訊。

為了避免重複計算，模型把每一層注意力機制產出的Key和Value向量全部快取起來，形成一張高速「速查表」。

問題在於，這張表隨對話長度線性膨脹。

當上下文從4K擴展到128K甚至百萬等級，KV快取吞掉的視訊記憶體往往反超模型參數本身，成為推理階段最大的記憶體瓶頸。

傳統的解法是向量量化，也就是把16-bit浮點數壓縮成4-bit整數。

但幾乎所有傳統方法都需要為每一小塊資料額外儲存一組全精度的量化常數，每個數字多吃1到2個bit。

壓到4-bit，實際可能是5到6-bit，壓縮的意義被自己的「手續費」蠶食了一大截。

而TurboQuant的野心，正是徹底消滅這筆附加費。

兩步「絕殺」

極坐標變換 + 1-bit誤差校驗

TurboQuant的核心，是一個精巧的兩階段流程。

第一階段：PolarQuant換一個坐標系看世界

傳統量化在笛卡爾坐標系（X、Y、Z軸）下操作，每個軸的取值範圍不固定，必須額外儲存歸一化參數來「對齊」。

換句話說，每一小塊資料都要自帶一張「比例尺」，而這張比例尺本身就很佔空間。

PolarQuant的第一步，是對資料向量做一次隨機旋轉。

這一步看似隨意，背後的數學意義卻很深：在高維空間裡，隨機旋轉會讓向量的每個坐標份量收斂到一種高度集中的Beta分佈，而且各份量之間近似獨立同分佈。

不管原始資料長什麼樣，轉完之後，統統變成「一個模子刻出來的」。

PolarQuant就像一座高效的壓縮橋樑，能把笛卡爾坐標輸入轉換成緊湊的極坐標「速記」形式，方便後續的儲存和處理

這讓複雜的高維量化問題，降格為一組簡單的一維標量量化問題。

Google只需要提前算好不同位寬下的最優碼本，推理時直接查表即可，不需要為每一組資料單獨計算任何東西。

然後，PolarQuant把旋轉後的向量「笛卡爾坐標系」轉換成「極坐標系」。

舉個栗子，傳統方法描述一個位置：向東走3個街區，再向北走4個街區。PolarQuant則說：朝37度方向直接走5個街區。

轉換之後，資料被拆成兩組資訊：一個半徑（代表訊號強度），一組角度（代表訊號方向）。

接下來才是真正精妙的一步，即「遞迴配對」。

PolarQuant把坐標兩兩分組進行極坐標變換，得到一組半徑和一組角度；再把這些半徑兩兩配對，做第二輪極坐標變換；如此遞迴往復，最終整個高維向量被濃縮為一個最終半徑和一系列描述性角度。

因為角度的分佈模式在數學上是已知且高度集中的，整個過程不需要儲存任何歸一化常數。

開銷，歸零。

這一步消耗了絕大部分的壓縮預算（分配b-1個bit），專注於把均方誤差（MSE）壓到最低，精準捕捉原始向量的核心資訊。

第二階段：QJL用1 - bit消滅殘餘誤差

再精準的壓縮，也會留下誤差。

而且這裡有個隱蔽的陷阱：一個在MSE意義上最優的1-bit量化器，在高維空間中會引入一個2/π的乘性偏差。

也就是說，你把資料壓得很小、失真也很低，但用它算內積（注意力分數的核心操作）時，結果是系統性偏斜的。

TurboQuant的第二步，專門來「殺」這個偏差。

它將Johnson-Lindenstrauss變換應用到第一階段的殘餘誤差上，把每個誤差值壓縮為一個符號位：+1或-1。

然後配合一個特殊的估計器——用高精度的Query向量和低精度的壓縮Key做聯合計算。

這套組合拳，在數學上被證明是「無偏」的：壓縮前後的內積期望值嚴格相等。

只消耗最後1個bit，就把第一階段殘留的系統性偏差徹底抹平。

兩步合璧的效果

TurboQuant在僅僅3-bit的總預算下，實現了接近無損的壓縮效果，全程零額外開銷。

論文給出了嚴格的理論證明：TurboQuant的MSE失真率，在所有位寬下都控制在理論絕對下限的約2.7倍以內。在1-bit極端壓縮的情況下，更是只有最優值的約1.45倍。

換句話說，它幾乎貼著資訊理論的「物理極限」在運行。

整套演算法是「資料無感知」（data-oblivious）的——不需要任何校準資料，不依賴任何預訓練，對資料集零假設。

同時，演算法內部全程使用向量化運算，避免了傳統方法中緩慢的二分尋找，對GPU加速器極其友好。

拿來即用，即插即飛。

跑分全面碾壓，大海撈針完美通關

光說原理不夠，得看實戰。

Google在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER和L-Eval五大長上下文基準測試上，對TurboQuant進行了嚴格驗證，測試模型覆蓋Gemma、Mistral和Llama-3.1-8B-Instruct。

結果相當硬核。

在LongBench的問答、程式碼生成、文字摘要等綜合任務中，3-bit配置下的TurboQuant，性能全面優於KIVI等基線方法，甚至逼近全精度模型的表現。

最殘酷的考驗來自「大海撈針」——在10萬Token的文字海洋裡，精準撈出一句特定資訊。

在4倍壓縮比下，TurboQuant的檢索精度一路保持到10.4萬Token，與全精度模型完全一致。6倍壓縮之後，模型該記住的，一個字都沒丟。

在H100 GPU上，4-bit TurboQuant計算注意力logits的速度，相比32-bit未量化基線提升了8倍。

需要說明的是，這個8倍是注意力計算環節的加速比，並非端到端推理的整體提速，但注意力計算恰恰是長上下文推理中最吃資源的那一環。

Google特別強調，TurboQuant引入的執行階段開銷「幾乎可以忽略不計」。

這也好理解——演算法本身不涉及任何資料集相關的查表或搜尋操作，純粹是矩陣運算，天然適合GPU平行。

在高維向量搜尋方面，TurboQuant也沒有放過對手。

在GloVe資料集（200維）上，它擊敗了PQ和RabbiQ兩大前沿方法，拿下最優1@k召回率。而那些對手還依賴龐大的密碼本和針對性調優，TurboQuant全程「裸奔」通殺。

這個結果的含金量在於：向量搜尋是Google搜尋、推薦系統、廣告系統等核心產品的底層引擎。

TurboQuant在這個賽道上的優勢，意味著它不只是一個學術玩具，而是有明確的工程落地路徑。

部落格官宣這天，獨立開發者在Reddit上曬出了復現成果：

基於PyTorch和自訂Triton kernel，在RTX 4090上用2-bit精度跑Gemma 3 4B，輸出與未壓縮版本逐字元一致。

論文寫的「零損耗」，社區用程式碼投了票。

另一位開發者Prince Canuma實測後驚嘆道：「面對8.5K到64.2K不等的大跨度上下文，TurboQuant讓模型對視訊記憶體實現極致壓縮」。

2.5-bit量化讓KV快取縮小了4.9倍；3.5-bit量化也實現了3.8倍的縮小。

Google一張紙，儲存晶片天塌了？

儲存晶片的天，真的塌了嗎？大機率沒有。

科技行業有一條反覆被驗證的鐵律——傑文斯悖論：資源使用效率越高，總消耗量反而越大。

KV快取壓縮6倍，最可能的結果不是少買記憶體，而是同樣的視訊記憶體跑更長的上下文、更多的並行、更大的模型。

雖然壓縮演算法還從未從根本上改變過採購量，但有兩件事確實在發生改變。

第一，推理成本的地板價被改寫了。

TurboQuant的三篇論文將在ICLR 2026和AISTATS 2026上公開發表，核心思想向全行業敞開。

當3-bit能做到過去16-bit的事情，受益的是每一個做推理服務的公司，感到壓力的是那些指望「量價齊升」永遠持續的儲存廠商。

第二，從論文到落地的路正在縮短。

TurboQuant目前僅在8B參數等級的開源模型上得到驗證，70B以上的模型、MoE架構、百萬級上下文窗口上的表現尚未證實。

Google也沒有宣佈它已部署到Gemini或任何生產系統中。

這次Google部落格一發出，不到24小時，就有獨立開發者從論文出發寫出了完整實現並跑通驗證。

在算力軍備競賽裡，最鋒利的武器未必是更大的晶片，也可能是更聰明的數學。

技術不關心股票程式碼，只關心位元的邊界在那裡。 (新智元)

TurboQuant - Extreme KV Cache Quantization · ggml-org/llama.cpp · Discussion #20969 https://share.google/errGlmfVU5rSvVqNd

2026/03/27