Google扔出技術核彈,記憶體需求將崩塌?
全球AI算力競賽出現重大技術拐點!
近日,Google公佈的全新AI內存壓縮技術“TurboQuant”,引發了業界的極大關注。該技術宣稱能在不犧牲模型精準度的前提下,將生成式AI推理階段最吃資源的“鍵值快取”(KV Cache)空間需求減少到原來的1/6,並讓計算速度暴增8倍。這一突破性的技術,也引發了整個市場對於記憶體需求將斷崖式下跌的擔憂,美光、Sandisk、西部資料等儲存相關美股紛紛大跌。
TurboQuant究竟是什麼?
在LLM(大語言模型)推理過程中,為了處理長文字,系統必須將過往對話資訊存放在KV Cache中,這如同AI的“隨身筆記本”。隨著對話長度增加,這本筆記本需要儲存的資訊會迅速擠爆AI GPU的高頻寬內存(HBM),成為AI運行的最大瓶頸。
Google的TurboQuant技術的核心優勢在於解決了傳統記憶體壓縮技術產生的“內存噪聲”(Overhead)。該技術由兩大關鍵部分組成:
PolarQuant(極坐標量化):傳統向量以XYZ坐標標註,運算繁瑣。Google改為採用“極坐標”邏輯,將複雜的方位簡化為“半徑”與“角度”。這好比將原本要標記“往東走3公里、再往北走4公里”的資訊,簡化為“以37度角走5公里”。這種幾何結構的轉換,大幅減少了資料處理的負荷。
QJL(Quantized Johnson-Lindenstrauss):這是一套極其精簡的1bit數學校正機制。僅利用額外的1bit來精準修正壓縮過程中的殘餘誤差,讓模型即使被壓縮到僅剩3bit,在LongBench等多項基準測試中仍能達成“零精度損失”。
Google選擇將這套足以成為核心競爭力的技術完全開源,不僅最佳化了Gemini等大型模型的檢索效率,更為其他大模型減少對於記憶體依賴,加速端側AI發展鋪平道路。
根據實測,在輝達(NVIDIA)H100加速器上,TurboQuant相比未壓縮方案,性能最高提升了8倍,且無須重新訓練模型即可直接掛載,堪稱AI部署的降本增效的“神兵利器”。
Cloudflare首席執行長Matthew Prince等人將TurboQuant稱為Google的“DeepSeek時刻”,認為其有望像DeepSeek一樣,通過極高的效率收益大幅拉低AI的運行成本,同時在結果上保持競爭力。
記憶體需求會降低,還是會帶來更大需求?
針對TurboQuant技術會引發了整個市場對於記憶體需求斷崖式下跌的擔憂,產業專家與研究機構也給出了截然不同的看法:
富國銀行(Wells Fargo)分析師Andrew Rocha指出:“當context window(上下文窗口)越來越大,KV Cache的爆炸性成長原本是推升內存需求的保證。但TurboQuant正在直接攻擊這條成本曲線,一旦被廣泛採用,資料中心對內存容量的規格要求將被打上大問號。”
不過,知名投行摩根士丹利(Morgan Stanley)和研究機構Lynx Equity Strategies則給出了截然不同的觀點,
摩根士丹利認為市場可能忽視了“效率提升帶動總量增長”的經濟規律。當AI計算所需的記憶體成本降低到原本的1/6,這將會使得原本因記憶體太貴而無法上線的AI應用(如長文字翻譯、複雜程式碼生成)需求大規模爆發,反而會填補、甚至超越被壓縮掉的記憶體缺口。
這就是傑文斯悖論(Jevon's paradox),即當技術進步提高了使用資源的效率(減少任何一種使用所需的數量),但成本降低導致需求增加,令資源消耗的速度不減反增。
摩根士丹利分析師約瑟夫·摩爾(Joseph Moore)及其團隊在周四發佈的投資者報告中指出: “有報導稱Google的TurboQuant會導致記憶體使用量減少了到原來的1/6,但這忽略了他們僅僅指的是KV Cache,而不是整體記憶體使用量。
“值得注意的是,Google的 Gemini 3 和 2.5 Pro 模型都擁有 100 萬個Token的上下文窗口,但Google曾透露,他們使用 Gemini 1.5 Pro 測試過高達 1000 萬個Token的上下文窗口,並取得了非常好的結果,但由於推理成本較高,他們最終沒有發佈該模型,”摩爾說道。“因此,我們預計,隨著此類創新以及其他技術的出現,成本將會降低,這項技術將被用於服務於更智能、計算密集型的產品。”
摩根士丹利進一步指出,TurboQuant主要最佳化的是“推理階段”的快取,並非“訓練階段”的模型權重。因此,對於支撐AI核心訓練的HBM(高頻寬內存)採購邏輯影響相對有限。
相比之下,TurboQuant對手機、筆記型電腦等終端裝置的人工智慧部署更具意義。由於移動裝置的內存有限,這類高效壓縮技術能讓更強大的AI模型在手機端運行,這反而會刺激各類終端裝置進行內存規格的全面換代。
Lynx Equity Strategies 的觀點認為,雖然人工智慧提供商需要創新來解決推理中隨著Token上下文長度增加而出現的瓶頸問題,但由於供應限制,這在未來三到五年內並不會減少對記憶體和快閃記憶體的需求。 (芯智訊)