Google神了?全網都在傳的TurboQuant,真能解決當下記憶體危機?

過於理想化

等等黨是不是真的等到了?昨天,記憶體降價的消息席捲硬體圈,甚至不少聊遊戲的社群都在傳,追根溯源,原來是Google那邊發佈了一個新技術。

Google研究團隊發佈了一項名為 TurboQuant 的極限壓縮演算法,號稱能讓大語言模型的記憶體需求 6 倍壓縮,甚至還能實現 8 倍的性能提升。

根據Google介紹,TurboQuant 極限壓縮演算法能降低大語言模型和向量搜尋引擎的記憶體佔用。該演算法主要針對 AI 系統中用於儲存高頻訪問資訊的鍵值快取(key-value cache)瓶頸問題。隨著 AI 模型上下文窗口不斷擴大,這些快取正成為主要的記憶體瓶頸。

TurboQuant 無需重新訓練或微調模型,便可將鍵值快取壓縮至 3bit 精度,同時基本保持模型精準率不受影響。對包括 Gemma、Mistral 等開源模型的測試顯示,該技術可實現約 6 倍的鍵值快取記憶體壓縮效果。

此外,在輝達 H100 加速器上的測試結果顯示,與未量化的鍵向量相比,TurboQuant 最高可實現約 8 倍性能提升。相關研究人員表示,這項技術的應用不侷限於 AI 模型,還包括支撐大規模搜尋引擎的向量檢索能力。Google計畫於 4 月的國際學習表徵會議(ICLR 2026)上展示 TurboQuant 技術。

消息一出,資本市場先坐不住了。在美股交易日,儲存晶片類股集體跳水。美光科技市值蒸發 151 億美元,韓國巨頭 SK 海力士和三星電子也分別錄得 6.23% 和 4.71% 的跌幅。 市場之所以如此恐慌,是擔心 AI 對儲存硬體的需求會被大幅削弱。如果演算法能解決 6 倍的問題,那廠家還怎麼賣那些堆滿昂貴 HBM 視訊記憶體的算力卡?

這裡就不得不提到一個經濟學理論,“傑文斯悖論”。簡單說就是:當某種資源的利用效率提升、成本降低時,人們反而會因為“便宜好用”而大規模增加使用量,最終導致總消耗不降反增(說個題外話,前段時間我看B站一個UP的“電力帝國”就講到,如果國內電力成本無限降低,消費者無限用電,就會導致銅價無限升高)。

放在 AI 領域也是一樣。以前因為記憶體太貴、推理太慢,很多長文字應用只能停留在實驗室。現在成本降下來了,AI 規模化部署的門檻低了,大家反而會去跑更複雜的模型、處理更長的資料。

實際上類似的技術,輝達也在著手開發,此前發佈的 KVTC 技術同樣能將記憶體用量縮減最高 20 倍。大廠們都在拚命壓榨單位硬體的效率,但這不代表儲存晶片不值錢了,而是代表這些增強效率的技術正在加速 AI 生態的擴張。

而為什麼普通使用者發現消費端的記憶體條價格有點鬆動?實際上這一部分是末端管道的去庫存行為,囤貨商因資金壓力拋售,導致現貨鬆動,但廠家的出廠價依然穩如泰山。也有消息稱,目前顆粒價格與模組成品價格已經倒掛,上游出手砸盤,然後將末端管道較低價收回,至於這個是不是真的,那就只有行業內部知道了。

總結來看,TurboQuant 確實是解決 AI 記憶體危機的一劑神藥,但它救的是推理效率,而不是你我的錢包。演算法的突破長期看反而是利多硬體需求的。當 AI 應用無處不在時,那怕單次消耗降低了,總體的儲存缺口依然會是一個天文數字。

所以說,Google神了嗎?確實技術挺神的,在 AI 領域又邁出一步。但是要解決當下的記憶體危機,終究還是要看廠商的產能分配,正如最近英特爾前 CEO 帕特·基辛格採訪中提到,半導體行業是個重資產高投入長周期的風險行業,而資本的短視讓決策者很難下定決心擴張。在可見的未來,記憶體還將橫盤震盪:消費端DDR5記憶體暴漲似乎已觸頂,進入博弈瓶頸期,新勢力將影響明年市場格局 (AMP實驗室)