南亞科、華邦電、旺宏…被錯殺?2表看懂降本核彈TurboQuant 記憶體慘淪「DeepSeek時刻」?大摩打臉是利多


10:232026-03-27

旺得富理財網

李宗莉

演算法「TurboQuant」標榜僅需6分之1存儲容量,引發美韓台記憶體股崩跌。(示意圖/達志影像/shutterstock)

外界擔心,記憶體霸權恐被軟體顛覆,導致美台韓記憶體股全數團滅,南亞科(2408)華邦電(2344)旺宏(2337)創見(2451)力積電(6770)等多檔指標股,今(27)日開盤隨台股持續重挫,跌幅都逾半根停板。

但大摩最新分析指出,Google最新AI演算法「TurboQuant」,透過壓縮技術將AI推論速度提升8倍,記憶體使用量減少6倍,對大型CSP(雲端服務供應商)、LLM(大型語言模型)是一項利多,且長期而言,該演算法不僅不會降低記憶體需求,反而會推升存儲晶片使用量,對運算和記憶體產業有正面助益。

大摩指出,該演算法僅在推論階段影響KV快取(KV cache),讓每個GPU產出更多內容,主要用於隨上下文長度增加的暫時性記憶體,而GPU/TPU上的HBM記憶體佔用,以及訓練工作負載則不受影響。

pending

TurboQuant運作原理(翻攝法人報告)

由於該技術允許在相同的硬體上,運行4~ 8倍長的上下文,或在不耗盡記憶體的情況下,大幅增加批次處理量(batch sizes),KV快取則是如同暫存的記憶小抄,讓系統不必每次都從頭讀取資料,大摩分析,並不代表整體硬體需求或記憶體減少了6倍,反而提高了每個GPU的吞吐效率。

長期來看,由於「TurboQuant」旨在提升每個加速器的吞吐量,並降低單次查詢的成本,大摩認為,記憶體產業將出現經濟學中著名的傑文斯悖論(Jevon's Paradox)效應,即效率提升帶動總需求增加,最終該資源的總消耗量反而上升,並從2角度看好長期發展。

1.擴展實質的GPU容量: 雖然壓縮技術降低了記憶體需求,但其近期的主要影響並非減少市場對GPU的絕對需求量,而是解放現有硬體的更高利用率,以及更長的上下文處理能力。

雲端巨頭很可能將提升的效率重新投資於3領域,包括:1.更大的模型或更長的上下文;2. 更高的查詢處理量;3.更佳的延遲服務水準協議 (SLA),效率提升終會被擴張的需求所吸收,從而抵銷GPU需求量下滑的風險。

2.對重度推論平台與邊緣部署是利多:無需重新訓練即可壓縮至3位元的能力,降低導入門檻,對於擴展推論工作負載的CSP、部署私有LLM的企業,以及記憶體受限的邊緣/設備端AI來說,具有極高價值。

pending

TurboQuant主要看點(翻攝法人報告)

大摩指出,就像瓦特改良蒸汽機後,煤炭需求反而飆升一樣,「TurboQuant」讓AI推理變得便宜、快速且能處理更長的資訊,將激發出更多原本受限於成本,而無法實現的應用場景。

如果模型能在不犧牲效能的前提下,以極低的記憶體需求運行,單次查詢的服務成本將大幅下降,從而讓AI部署變得更有利可圖。

像是原本需要上雲端的大型模型,將能安裝在本地端硬體上,有效降低大規模部署AI的門檻,且更多的應用程式將變得可行,更多模型能維持活躍狀態,現有基礎設施的利用率也會隨之提高。

正如去年的DeepSeek震撼,並未摧毀硬體需求,反而帶動了新一波效率競賽,大摩認為,Google的技術突破,最終可能演變成推動記憶體與算力需求攀升的助燃火箭,即便暫時引發記憶體股的恐慌,但長遠來看,更有可能扮演「開啟新應用大門」的角色。

若「TurboQuant」確實改變AI布署的成本曲線,隨AI變得更輕盈、更聰明、成本更低,全球對於運算資源的渴望,或許才正要進入下一個高光階段。

單一演算法難動搖超級周期

官股金控旗下投顧則表示,市場直覺認為「軟體演算法解決了硬體短缺」,CSP巨頭未來對記憶體的採購量將下修,記憶體晶片廠近年好不容易建立的「強勢定價權」恐將鬆動。

但該投顧認為,在供給依然吃緊、邊緣AI(Edge Al)落地、HBM規格升級不變的3前提下,預期未來3年內,記憶體與快閃記憶體的供給依然受限,單一演算法難以動搖硬體周期大勢。

其次,記憶體需求壓縮,反而代表AI模型更容易被塞進手機、PC、車用等終端設備,進而擴大邊緣裝置對標準型DRAM的拉貨基數。

最後則是模型架構的演進(如多模態),對參數量與傳輸頻寬的要求指數級增長,軟體壓縮只是稍稍緩解物理極限,無法逆轉硬體堆疊的長期趨勢。