Google扔出技術核彈，記憶體需求將崩塌？

2026/03/27

•

全球AI算力競賽出現重大技術拐點！

近日，Google公佈的全新AI內存壓縮技術“TurboQuant”，引發了業界的極大關注。該技術宣稱能在不犧牲模型精準度的前提下，將生成式AI推理階段最吃資源的“鍵值快取”（KV Cache）空間需求減少到原來的1/6，並讓計算速度暴增8倍。這一突破性的技術，也引發了整個市場對於記憶體需求將斷崖式下跌的擔憂，美光、Sandisk、西部資料等儲存相關美股紛紛大跌。

TurboQuant究竟是什麼？

在LLM（大語言模型）推理過程中，為了處理長文字，系統必須將過往對話資訊存放在KV Cache中，這如同AI的“隨身筆記本”。隨著對話長度增加，這本筆記本需要儲存的資訊會迅速擠爆AI GPU的高頻寬內存（HBM），成為AI運行的最大瓶頸。

Google的TurboQuant技術的核心優勢在於解決了傳統記憶體壓縮技術產生的“內存噪聲”（Overhead）。該技術由兩大關鍵部分組成：

PolarQuant（極坐標量化）：傳統向量以XYZ坐標標註，運算繁瑣。Google改為採用“極坐標”邏輯，將複雜的方位簡化為“半徑”與“角度”。這好比將原本要標記“往東走3公里、再往北走4公里”的資訊，簡化為“以37度角走5公里”。這種幾何結構的轉換，大幅減少了資料處理的負荷。

QJL（Quantized Johnson-Lindenstrauss）：這是一套極其精簡的1bit數學校正機制。僅利用額外的1bit來精準修正壓縮過程中的殘餘誤差，讓模型即使被壓縮到僅剩3bit，在LongBench等多項基準測試中仍能達成“零精度損失”。

△在Llama-3.1-8B-Instruct模型上，TurboQuant 在LongBench基準測試中展現出強大的 KV 快取壓縮性能，優於各種壓縮方法（括號中標明了位寬）。

Google選擇將這套足以成為核心競爭力的技術完全開源，不僅最佳化了Gemini等大型模型的檢索效率，更為其他大模型減少對於記憶體依賴，加速端側AI發展鋪平道路。

根據實測，在輝達（NVIDIA）H100加速器上，TurboQuant相比未壓縮方案，性能最高提升了8倍，且無須重新訓練模型即可直接掛載，堪稱AI部署的降本增效的“神兵利器”。

△在NVIDIA H100加速器上，TurboQuant 在計算鍵值快取中的注意力邏輯值方面表現出顯著的性能提升，在各種位寬等級上均優於高度最佳化的JAX基線。

△TurboQuant 展現出強大的檢索性能，在GloVe資料集 (d=200)上實現了相對於各種最先進的量化基線的最佳1@k 召回率。

Cloudflare首席執行長Matthew Prince等人將TurboQuant稱為Google的“DeepSeek時刻”，認為其有望像DeepSeek一樣，通過極高的效率收益大幅拉低AI的運行成本，同時在結果上保持競爭力。

記憶體需求會降低，還是會帶來更大需求？

針對TurboQuant技術會引發了整個市場對於記憶體需求斷崖式下跌的擔憂，產業專家與研究機構也給出了截然不同的看法：

富國銀行（Wells Fargo）分析師Andrew Rocha指出：“當context window（上下文窗口）越來越大，KV Cache的爆炸性成長原本是推升內存需求的保證。但TurboQuant正在直接攻擊這條成本曲線，一旦被廣泛採用，資料中心對內存容量的規格要求將被打上大問號。”

不過，知名投行摩根士丹利（Morgan Stanley）和研究機構Lynx Equity Strategies則給出了截然不同的觀點，

摩根士丹利認為市場可能忽視了“效率提升帶動總量增長”的經濟規律。當AI計算所需的記憶體成本降低到原本的1/6，這將會使得原本因記憶體太貴而無法上線的AI應用（如長文字翻譯、複雜程式碼生成）需求大規模爆發，反而會填補、甚至超越被壓縮掉的記憶體缺口。

這就是傑文斯悖論（Jevon's paradox），即當技術進步提高了使用資源的效率（減少任何一種使用所需的數量），但成本降低導致需求增加，令資源消耗的速度不減反增。

摩根士丹利分析師約瑟夫·摩爾（Joseph Moore）及其團隊在周四發佈的投資者報告中指出： “有報導稱Google的TurboQuant會導致記憶體使用量減少了到原來的1/6，但這忽略了他們僅僅指的是KV Cache，而不是整體記憶體使用量。

“值得注意的是，Google的 Gemini 3 和 2.5 Pro 模型都擁有 100 萬個Token的上下文窗口，但Google曾透露，他們使用 Gemini 1.5 Pro 測試過高達 1000 萬個Token的上下文窗口，並取得了非常好的結果，但由於推理成本較高，他們最終沒有發佈該模型，”摩爾說道。“因此，我們預計，隨著此類創新以及其他技術的出現，成本將會降低，這項技術將被用於服務於更智能、計算密集型的產品。”

摩根士丹利進一步指出，TurboQuant主要最佳化的是“推理階段”的快取，並非“訓練階段”的模型權重。因此，對於支撐AI核心訓練的HBM（高頻寬內存）採購邏輯影響相對有限。

相比之下，TurboQuant對手機、筆記型電腦等終端裝置的人工智慧部署更具意義。由於移動裝置的內存有限，這類高效壓縮技術能讓更強大的AI模型在手機端運行，這反而會刺激各類終端裝置進行內存規格的全面換代。

Lynx Equity Strategies 的觀點認為，雖然人工智慧提供商需要創新來解決推理中隨著Token上下文長度增加而出現的瓶頸問題，但由於供應限制，這在未來三到五年內並不會減少對記憶體和快閃記憶體的需求。 (芯智訊)