#TurboQuant | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#TurboQuant

Google一篇論文，帶崩全球儲存晶片股！中國學者實名“打假”：用了我們的方法，卻不承認

3月26日，Google研究院發表了一篇論文，全球儲存晶片市場應聲大跌——美國和韓國巨頭一夜之間蒸發超900億美元市值。引發這場“血案”的，是一個叫 TurboQuant 的新演算法。Google宣稱，它能在幾乎不損失精度的前提下，把AI大模型的記憶體佔用壓縮到原來的1/6。論文發表僅一天後，一位中國學者在社交媒體公開“開火”：“Google的論文存在嚴重學術問題，明知有錯卻不改，還刻意迴避與我們方法的相似性。”這位學者叫高健揚，目前是蘇黎世聯邦理工學院的博士後。他在新加坡南洋理工大學讀博期間，曾發表過一個叫 RaBitQ 的向量量化演算法。01. “Google主動找我們幫忙偵錯程式碼”高健揚說，早在2025年1月，Google論文的第二作者就主動聯絡過他，請他幫忙偵錯自己基於RaBitQ程式碼翻譯的Python版本，還詳細描述了復現步驟和報錯資訊。“這說明他們對我們方法的技術細節非常瞭解。”高健揚說。但2025年4月Google論文正式發佈後，高健揚發現，論文中對RaBitQ的描述嚴重失實：把RaBitQ的核心技術說成別的東西，反而忽略了自己最關鍵的設計，在沒有證據的情況下，說RaBitQ的理論保證“不如他們的”實驗對比故意設定了不公平的條件02. 溝通一年對方只是“最小限度讓步”發現問題後，高健揚團隊從2025年5月開始與Google論文作者郵件溝通。對方第二作者表示已把意見轉告給全體作者。但當高健揚要求修正論文中的事實錯誤後，對方就不再回覆了。2025年11月，高健揚發現這篇論文被AI頂會ICLR 2026接收，裡面的錯誤內容一字未改。他聯絡了會議主席，沒得到回應。今年3月，Google通過官方管道大規模推廣這篇論文，高健揚再次給全體作者發郵件。這次對方回覆了——但只同意修正理論描述和實驗條件，明確拒絕討論方法論的相似性，而且承諾只在會議結束後才改。03. “核心像一道菜的完整食譜”高健揚用一個比喻來解釋兩者的相似性：一位廚師率先公開發佈了一道菜的完整食譜。另一位廚師後來做了一道菜，用了幾乎一樣的關鍵步驟，卻在介紹中把前者說成“做法不同、效果較差”的另一道菜，對兩者的聯絡隻字不提。讀者在不知情的情況下，根本無法做出公正判斷。但Google作者在最終版本中，不但沒有補充討論，反而把原本正文中對RaBitQ的不完整描述移到了附錄。04. “小型團隊很難與Google抗衡”為什麼不繼續通過學術管道解決，而是選擇公開？他們先後聯絡了論文作者、會議主席、倫理委員會，也提交了正式投訴，並在公開評審平台發佈了評論。“但我們是一個小型高校團隊，對方是Google研究院。在資源、影響力和話語權上，完全不對等。”Google論文在社交媒體上的相關瀏覽短時間內達到數千萬次——這是任何高校實驗室都不可能做到的。05. 如果不更正，會有什麼後果？龍程認為，如果不修正，至少帶來三個問題：扭曲學術史：後來的研究者會誤判技術源頭，在錯誤的基礎上繼續研究。打擊原創：一個經過嚴格理論推導的高品質方法，被重新包裝後以千萬級曝光推向公眾，原創者卻得不到應有的認可。誤導產業：向量量化是工業界高度關注的方向，不精準的方法歸屬會讓從業者選錯技術路線。06. 接下來怎麼辦？高健揚和龍程表示，他們會在學術平台發佈詳細的技術報告，系統梳理兩者的真實關係。同時繼續通過正式管道向Google研究申訴理事會反映。“我們的目標從來不是製造對立，而是讓學術記錄精準地反映各方法之間的真實關係。”這場爭議裡，有一個細節值得所有人留意：Google論文的問題，歸根結底不是演算法好壞，而是如何精準描述自己的工作、如何恰當地引用前人的貢獻——這恰恰是學術寫作中最基礎、也最容易出錯的環節。 (科研轉運站)

DDR5崩盤！商家瘋狂拋售！

3月30日消息，據報導，上週開始，DDR5記憶體價格出現斷崖式下跌，市場普遍認為前期囤積記憶體的大戶正在拋售！在百腦匯經營儲存裝置多年的批發商表示：“上週六開始，價格直接崩了。昨天到今天，一款主流的 16G 記憶體條又掉了四五十塊。上週六那天更誇張，一天就掉了一百多塊。”這種罕見的劇烈跳水，讓許多仍在持貨的商家感到措手不及。對於這輪價格暴跌的原因，市場普遍認為是個別囤貨心態與供需失衡共同作用的結果。最根本的問題在於需求端的極度疲軟。由於此前記憶體漲價幅度過大，非剛需消費者紛紛選擇推遲購買，導致目前的市場銷量相比去年11月之前下滑了超過六成。另一個關鍵推手是前期囤貨者的恐慌性拋售。去年記憶體步入漲價通道時，不少圈外投機者一哄而上、盲目囤貨。如今隨著價格訊號調頭向下，這部分持貨者為了止損開始不計成本地出貨。然而，由於市場缺乏足夠的接盤能力，這種踩踏式的拋售行為進一步加劇了價格的下滑。近日，中國DDR5記憶體價格出現下跌，引發市場關注。行業人士分析，記憶體條未來將持續降價，只是時間跨度較長。隨著產能逐步穩定，供需缺口已反映在價格上，後續記憶體條價格難有支撐。此外，Google最新推出的TurboQuant記憶體壓縮演算法，據稱可將大型語言模型執行階段的快取記憶體佔用至少壓縮至原來的六分之一，性能提升八倍。業內認識表示，記憶體條作為快速迭代的科技產品，長期不可能短缺，老舊記憶體製造門檻也將越來越低。 (國芯網)

Google爆紅論文塌房！被曝抄襲、貶低華人學者成果，Google回應：晚點改

華人學者相關成果2024年就已發佈。Google干崩記憶體股的論文，竟被曝出學術不端？智東西3月29日報導，近日，Google的TurboQuant論文引發全網廣泛關注。該論文提出的TurboQuant技術，據說能將大模型KV快取的記憶體佔用壓縮至原來的1/6，似乎給當下的“AI儲存荒”提供瞭解決思路，因此一度引發美股多支儲存股大跌，市值合計蒸發超過900億美元（約合人民幣6220億元）。然而，反轉也來得很快。3月27日，蘇黎世聯邦理工學院電腦博士後、RaBitQ論文作者華人高健揚發佈文章，指出Google的TurboQuant論文存在三大問題：系統性地迴避了其與已有RaBitQ方法（2024年發佈）的相似性，錯誤描述了RaBitQ的理論結果，並刻意營造不公的實驗環境。▲高健揚在知乎上發表的澄清文章並且，GoogleTurboQuant團隊可能還存在“知錯不改”的嫌疑。高健揚稱，早在2025年5月，在TurboQuant論文正式投稿至ICLR 2026之前，RaBitQ團隊已經向作者指出了論文存在的問題，TurboQuant團隊承認了相關問題，但選擇不予修復。▲高健揚在X平台上發表的推文今天下午，高健揚更新了知乎帖子，稱他們僅收到TurboQuant論文第一作者Amir Zandieh的籠統答覆，承諾會修正對RaBitQ理論結果的錯誤描述和實驗環境差異，但拒絕在文中討論TurboQuant與RaBitQ在技術上的相似性。並且，TurboQuant團隊僅願意在今年4月ICLR 2026正式會議結束之後才做相應修正。高健揚稱，他決定此時公開說明這一事件，是因為錯誤的學術敘事一旦廣泛傳播，糾正的成本會越來越高。高健揚在知乎上發佈的公開澄清文章：https://zhuanlan.zhihu.com/p/2020969476166808284?wechatShare=1&s_r=001. KV快取砍至1/6、推理提速8倍 TurboQuant具體做了什麼？在釐清事實之前，我們需要首先看看Google的TurboQuant究竟提出了什麼方法。向量量化一直是AI資料“瘦身”的主流技術，主要用於壓縮高維向量、節省記憶體、提升檢索與推理效率。但傳統壓縮方法通常會引入額外的記憶體開銷，反而會影響向量量化的效果。Google提出的TurboQuant是一種無損極限壓縮演算法，該演算法主要通過兩個關鍵步驟，在實現零精度損失的同時大幅縮小模型尺寸。▲TurboQuant部落格第一步是高品質壓縮（PolarQuant方法）。TurboQuant首先對資料向量進行隨機旋轉。這一操作能夠簡化資料的幾何結構，從而便於使用標準且高品質的模型量化器。通過這一階段，TurboQuant能夠將大部分壓縮能力（即多數位元）用於捕捉原始向量的主要特徵和強度。第二步是消除隱藏誤差。TurboQuant僅用少量剩餘壓縮能力（僅1位元），對第一階段殘留的微小誤差應用QJL演算法。QJL階段相當於一個數學誤差檢查器，能夠消除偏差，從而獲得更加精準的注意力評分。QJL採用一種了稱為“Johnson-Lindenstrauss變換”的方法，縮小複雜、高維資料，同時保持資料點之間的基本距離和關係。實驗中，Google稱TurboQuant在所有基準測試中均達到了“完美的下游任務表現”，同時將KV快取的記憶體佔用減至1/6。▲TurboQuant基準測試結果使用TurboQuant計算注意力邏輯值後，在H100 GPU加速器上，4位元TurboQuant相比32位元未量化的鍵值實現了高達8倍的性能提升。▲TurboQuant性能測試結果02. RaBitQ論文作者完整復盤：去年就已提出質疑，TurboQuant團隊不回郵件TurboQuant論文在3月25日被“Google Research”官方帳號轉發後，獲得了海量關注。然而，這篇論文與2024年5月由高健揚等人發佈RaBitQ論文，有不少說不清道不明的聯絡。高健揚在他發佈的知乎帖子中回顧了相關爭議的完整時間線：▲高健揚回顧事件完整時間線可以看到，在2024年，RaBitQ團隊就陸續發佈了論文的預印本和擴展版，同時開源了相關程式碼。這篇論文還發表在頂級會議SIGMOD上。2025年1月，TurboQuant論文第二作者Majid Daliri與RaBitQ團隊取得聯絡，請求協助偵錯Python版RaBitQ實現，三個月後TurboQuant論文在arXiv發佈。TurboQuant發佈後，RaBitQ團隊很快發現了TurboQuant團隊針對RaBitQ採用了不同的實驗條件，然而TurboQuant團隊在被要求修改事實性錯誤後，採取了消極態度，停止回覆郵件。2025年11月，TurboQuant論文被提交至ICLR 2026，相關錯誤並未修改，RaBitQ團隊聯絡ICLR 2026後也未獲得回應。在高健揚看來，TurboQuant論文至少存在三個問題。問題一：系統性地迴避TurboQuant方法與已有RaBitQ方法的相似性RaBitQ與TurboQuant在方法層面有直接的結構聯絡，兩者都在量化前對輸入向量施加隨機旋轉（Johnson-Lindenstrauss變換）。這是兩篇論文方法設計中最核心、最接近的部分。對於這一質疑，TurboQuant團隊曾回覆道：“隨機旋轉和Johnson-Lindenstrauss變換已成為該領域的標準技術，我們無法列舉所有使用這些方法的方法。”高健揚認為這一回應是在轉移矛盾：作為在相同問題設定下，率先將隨機旋轉（Johnson-Lindenstrauss變換）與向量量化結合、並建立最優理論保證的先行工作，RaBitQ應當在文中被精準描述，其與TurboQuant方法的聯絡應當充分討論。問題二：錯誤描述RaBitQ的理論結果高健揚稱，TurboQuant論文在不提供任何論據的情況下，將RaBitQ的理論保證定性為“次優”，將原因歸結為“較粗糙的分析（loose analysis）”。然而，RaBitQ的誤差界實際上已經達到了理論電腦頂級會議論文（Alon-Klartag，FOCS 2017）給出的漸近最優誤差界，並因這一結果被邀請至理論電腦科學頂級會議FOCS的Workshop進行報告。2025年，RaBitQ團隊與TurboQuant的第二作者Majid Daliri進行了多輪詳細的郵件技術討論，澄清TurboQuant團隊對RaBitQ理論結果的錯誤解讀，然而相關錯誤定性一直未被修正。問題三：刻意創造不公平的實驗環境TurboQuant團隊在測試RaBitQ和TurboQuant時採用了不同的實驗設定。具體來看，TurboQuant團隊使用單核CPU、關閉多線程平行的設定來測試RaBitQ演算法，但卻使用輝達A100 GPU測試TurboQuant演算法。TurboQuant團隊還使用了自己翻譯的Python程式碼，而非RaBitQ團隊開放原始碼的C++實現，前者的效果要差於後者。同時，以上兩點差異均未在論文中充分披露。03. 論文評審發帖：只提一次RaBitQ，我是震驚的RaBitQ團隊的維權，獲得了一些網友和學術圈人士的聲援。TurboQuant論文的一位評審者在公開的學術論文評審平台OpenReview發表評論，稱他雖然認為TurboQuant的理論分析和實驗結果都很出色，但是也發現這一方法與RaBitQ存在明顯的共通之處，並要求TurboQuant團隊比較兩者在設計上的差異如何影響性能。然而，在查看TurboQuant的最終版本時，他驚訝地發現在論文的實驗部分RaBitQ僅被提到了一次。▲TurboQuant論文評審談這篇論文的問題在知乎上，有位網友稱自己去年讀TurboQuant論文時，就感受到其與RaBitQ的相似之處，更像是把RaBitQ換了一種表達方式，在GPU上實現一遍，創新性不夠。▲知乎網友評論TurboQuant創新性問題還有網友稱，自己復現了TurboQuant，發現至少在向量檢索領域TurboQuant的召回率低於RaBitQ。▲知乎網友質疑TurboQuant復現結果X平台上，有網友評價道，在論文提交前問題就被指出，但卻被忽略，這是最糟糕的結果。這意味著TurboQuant團隊明明意識到問題存在卻故意保留了下來。雖然同行評審流程應該能發現這些問題，但ICLR的接收並不總是意味著技術論斷站得住腳。▲X平台網友評價TurboQuant涉嫌學術不端事件04. 結語：頂會論文、大廠標籤不是護身符學術敘事不容“帶病傳播”截至目前，TurboQuant與RaBitQ之間的爭議尚未有官方定論。然而，學術研究的核心在於“可追溯”與“可復現”。當一篇論文被頂級會議接收，並通過大型科技公司的管道獲得千萬級曝光時，其技術敘事的影響力已遠超學術圈本身，甚至波及資本市場。在這種情況下，對先行工作的準確引用、對實驗條件的完整披露、對質疑的及時回應，便不再是可有可無的環節，而是維護學術共同體公信力的基本責任。目前，RaBitQ論文團隊已向ICLR官方再次提交正式投訴和完整證據包。未來，他們還考慮在arXiv上發佈詳細技術報告，進一步呈現兩項研究的關係。無論結果如何，它都再次提醒我們，對學術規範的敬畏、對先行者的尊重，以及對每一份實驗資料的誠實，始終是不可踰越的底線。 (智東西)

Google神了？全網都在傳的TurboQuant，真能解決當下記憶體危機？

過於理想化等等黨是不是真的等到了？昨天，記憶體降價的消息席捲硬體圈，甚至不少聊遊戲的社群都在傳，追根溯源，原來是Google那邊發佈了一個新技術。Google研究團隊發佈了一項名為 TurboQuant 的極限壓縮演算法，號稱能讓大語言模型的記憶體需求 6 倍壓縮，甚至還能實現 8 倍的性能提升。根據Google介紹，TurboQuant 極限壓縮演算法能降低大語言模型和向量搜尋引擎的記憶體佔用。該演算法主要針對 AI 系統中用於儲存高頻訪問資訊的鍵值快取（key-value cache）瓶頸問題。隨著 AI 模型上下文窗口不斷擴大，這些快取正成為主要的記憶體瓶頸。TurboQuant 無需重新訓練或微調模型，便可將鍵值快取壓縮至 3bit 精度，同時基本保持模型精準率不受影響。對包括 Gemma、Mistral 等開源模型的測試顯示，該技術可實現約 6 倍的鍵值快取記憶體壓縮效果。此外，在輝達 H100 加速器上的測試結果顯示，與未量化的鍵向量相比，TurboQuant 最高可實現約 8 倍性能提升。相關研究人員表示，這項技術的應用不侷限於 AI 模型，還包括支撐大規模搜尋引擎的向量檢索能力。Google計畫於 4 月的國際學習表徵會議（ICLR 2026）上展示 TurboQuant 技術。消息一出，資本市場先坐不住了。在美股交易日，儲存晶片類股集體跳水。美光科技市值蒸發 151 億美元，韓國巨頭 SK 海力士和三星電子也分別錄得 6.23% 和 4.71% 的跌幅。市場之所以如此恐慌，是擔心 AI 對儲存硬體的需求會被大幅削弱。如果演算法能解決 6 倍的問題，那廠家還怎麼賣那些堆滿昂貴 HBM 視訊記憶體的算力卡？這裡就不得不提到一個經濟學理論，“傑文斯悖論”。簡單說就是：當某種資源的利用效率提升、成本降低時，人們反而會因為“便宜好用”而大規模增加使用量，最終導致總消耗不降反增（說個題外話，前段時間我看B站一個UP的“電力帝國”就講到，如果國內電力成本無限降低，消費者無限用電，就會導致銅價無限升高）。放在 AI 領域也是一樣。以前因為記憶體太貴、推理太慢，很多長文字應用只能停留在實驗室。現在成本降下來了，AI 規模化部署的門檻低了，大家反而會去跑更複雜的模型、處理更長的資料。實際上類似的技術，輝達也在著手開發，此前發佈的 KVTC 技術同樣能將記憶體用量縮減最高 20 倍。大廠們都在拚命壓榨單位硬體的效率，但這不代表儲存晶片不值錢了，而是代表這些增強效率的技術正在加速 AI 生態的擴張。而為什麼普通使用者發現消費端的記憶體條價格有點鬆動？實際上這一部分是末端管道的去庫存行為，囤貨商因資金壓力拋售，導致現貨鬆動，但廠家的出廠價依然穩如泰山。也有消息稱，目前顆粒價格與模組成品價格已經倒掛，上游出手砸盤，然後將末端管道較低價收回，至於這個是不是真的，那就只有行業內部知道了。總結來看，TurboQuant 確實是解決 AI 記憶體危機的一劑神藥，但它救的是推理效率，而不是你我的錢包。演算法的突破長期看反而是利多硬體需求的。當 AI 應用無處不在時，那怕單次消耗降低了，總體的儲存缺口依然會是一個天文數字。所以說，Google神了嗎？確實技術挺神的，在 AI 領域又邁出一步。但是要解決當下的記憶體危機，終究還是要看廠商的產能分配，正如最近英特爾前 CEO 帕特·基辛格採訪中提到，半導體行業是個重資產高投入長周期的風險行業，而資本的短視讓決策者很難下定決心擴張。在可見的未來，記憶體還將橫盤震盪：消費端DDR5記憶體暴漲似乎已觸頂，進入博弈瓶頸期，新勢力將影響明年市場格局 (AMP實驗室)

集邦最新報告:TurboQuant將全面推升（DRAM）與快閃記憶體（Flash）需求經濟學傑文斯悖論　吹記憶體反攻號角財經理財Google新演算法引發記憶體股市震盪，產業端以經濟學理論回擊。文吳玲臻攝影攝影組Google演算法AITurboQuantDRAM記憶體半導體產業大型語言模型Google研究團隊24日發表最新AI壓縮演算法「TurboQuant」，宣稱能將大型語言模型的記憶體需求降低6倍，並將推論速度提升8倍。市場一度擔憂記憶體需求將因「效率提升」而大幅萎縮，導致三星、SK海力士及美光等指標股出現劇烈波動，且影響一路向亞洲股市擴散。然而，產業界與研調機構隨即提出反向觀點，指出這場技術變革並非記憶體產業的終點，反而可能觸發經濟學著名的「傑文斯悖論」（Jevons Paradox）。傑文斯悖論最早由英國經濟學家威廉·斯坦利·傑文斯（William Stanley Jevons）在1865年的著作《煤炭問題》（The Coal Question）中提出，意思是當技術進步提高了資源的使用效率時，該資源的總消耗量反而會增加，而不是減少。若帶入AI情境，意味著當AI運算成本因演算法優化而斷崖式下跌，原本昂貴、受限的AI應用將迎來爆炸性增長。去年1月中國的低成本開源模型DeepSeek橫空出世，也曾一度引發市場擔憂雲端商對AI晶片的投資過多、效率過低，導致美股斯達克綜合指數（Nasdaq）單日蒸發超過 1兆美元，輝達（Nvidia）市值單日暴跌約5,890億美元。然而，後續證實更高效的模型大幅增加了AI需求。TrendForce（集邦）針對TurboQuant發布的最新報告便指出，推理成本驟降反而會激發長文與多代理系統的龐大需求，加速人工智慧向邊緣端落地。並且，TurboQuant技術從改變資料表徵切入，未來有望成為晶片加速的標配。TrendForce指出，記憶體快取壓力緩解，將極大化既有資源效益，不僅未減弱高頻寬記憶體（HBM）需求，更全面推升動態隨機存取記憶體（DRAM）與快閃記憶體（Flash）做為運算延伸層的容量升級。摩根史丹利半導體產業首席分析師Joseph Moore更重申對美光（Micron）和晟碟（SanDisk）的「加碼」評級，並指出TurboQuant「減少6倍記憶體使用量」其實是指「KV 快取（Key-Value Cache）」的記憶體占用，而非AI系統的總記憶體需求。KV快取主要影響推理時的上下文長度，但並不改變模型權重（Model Weights）本身對HBM的龐大需求。業界專家進一步分析，當單一模型的記憶體占用量降低，開發者並不會因此滿足，而是會傾向在同一硬體配置下運行更複雜、更龐大的模型，或是啟動多智能體（Multi-Agent）協作系統。換言之，節省下來的記憶體空間會立即被新的應用填滿。這種「供給創造需求」的模式，正是記憶體產業長期成長的動力來源。更新時間｜2026.03.27 20:35臺北時間

南亞科、華邦電、旺宏…被錯殺？2表看懂降本核彈TurboQuant 記憶體慘淪「DeepSeek時刻」？大摩打臉是利多10:232026-03-27旺得富理財網李宗莉演算法「TurboQuant」標榜僅需6分之1存儲容量，引發美韓台記憶體股崩跌。（示意圖/達志影像/shutterstock）外界擔心，記憶體霸權恐被軟體顛覆，導致美台韓記憶體股全數團滅，南亞科(2408)、華邦電(2344)、旺宏(2337)、創見(2451)、力積電(6770)等多檔指標股，今（27）日開盤隨台股持續重挫，跌幅都逾半根停板。但大摩最新分析指出，Google最新AI演算法「TurboQuant」，透過壓縮技術將AI推論速度提升8倍，記憶體使用量減少6倍，對大型CSP（雲端服務供應商）、LLM（大型語言模型）是一項利多，且長期而言，該演算法不僅不會降低記憶體需求，反而會推升存儲晶片使用量，對運算和記憶體產業有正面助益。大摩指出，該演算法僅在推論階段影響KV快取（KV cache），讓每個GPU產出更多內容，主要用於隨上下文長度增加的暫時性記憶體，而GPU/TPU上的HBM記憶體佔用，以及訓練工作負載則不受影響。TurboQuant運作原理(翻攝法人報告)由於該技術允許在相同的硬體上，運行4~ 8倍長的上下文，或在不耗盡記憶體的情況下，大幅增加批次處理量（batch sizes），KV快取則是如同暫存的記憶小抄，讓系統不必每次都從頭讀取資料，大摩分析，並不代表整體硬體需求或記憶體減少了6倍，反而提高了每個GPU的吞吐效率。長期來看，由於「TurboQuant」旨在提升每個加速器的吞吐量，並降低單次查詢的成本，大摩認為，記憶體產業將出現經濟學中著名的傑文斯悖論（Jevon's Paradox）效應，即效率提升帶動總需求增加，最終該資源的總消耗量反而上升，並從2角度看好長期發展。1.擴展實質的GPU容量：雖然壓縮技術降低了記憶體需求，但其近期的主要影響並非減少市場對GPU的絕對需求量，而是解放現有硬體的更高利用率，以及更長的上下文處理能力。雲端巨頭很可能將提升的效率重新投資於3領域，包括：1.更大的模型或更長的上下文；2. 更高的查詢處理量；3.更佳的延遲服務水準協議 (SLA)，效率提升終會被擴張的需求所吸收，從而抵銷GPU需求量下滑的風險。2.對重度推論平台與邊緣部署是利多：無需重新訓練即可壓縮至3位元的能力，降低導入門檻，對於擴展推論工作負載的CSP、部署私有LLM的企業，以及記憶體受限的邊緣/設備端AI來說，具有極高價值。TurboQuant主要看點(翻攝法人報告)大摩指出，就像瓦特改良蒸汽機後，煤炭需求反而飆升一樣，「TurboQuant」讓AI推理變得便宜、快速且能處理更長的資訊，將激發出更多原本受限於成本，而無法實現的應用場景。如果模型能在不犧牲效能的前提下，以極低的記憶體需求運行，單次查詢的服務成本將大幅下降，從而讓AI部署變得更有利可圖。像是原本需要上雲端的大型模型，將能安裝在本地端硬體上，有效降低大規模部署AI的門檻，且更多的應用程式將變得可行，更多模型能維持活躍狀態，現有基礎設施的利用率也會隨之提高。正如去年的DeepSeek震撼，並未摧毀硬體需求，反而帶動了新一波效率競賽，大摩認為，Google的技術突破，最終可能演變成推動記憶體與算力需求攀升的助燃火箭，即便暫時引發記憶體股的恐慌，但長遠來看，更有可能扮演「開啟新應用大門」的角色。若「TurboQuant」確實改變AI布署的成本曲線，隨AI變得更輕盈、更聰明、成本更低，全球對於運算資源的渴望，或許才正要進入下一個高光階段。單一演算法難動搖超級周期官股金控旗下投顧則表示，市場直覺認為「軟體演算法解決了硬體短缺」，CSP巨頭未來對記憶體的採購量將下修，記憶體晶片廠近年好不容易建立的「強勢定價權」恐將鬆動。但該投顧認為，在供給依然吃緊、邊緣AI（Edge Al）落地、HBM規格升級不變的3前提下，預期未來3年內，記憶體與快閃記憶體的供給依然受限，單一演算法難以動搖硬體周期大勢。其次，記憶體需求壓縮，反而代表AI模型更容易被塞進手機、PC、車用等終端設備，進而擴大邊緣裝置對標準型DRAM的拉貨基數。最後則是模型架構的演進（如多模態），對參數量與傳輸頻寬的要求指數級增長，軟體壓縮只是稍稍緩解物理極限，無法逆轉硬體堆疊的長期趨勢。

南亞科、華邦電、旺宏…被錯殺？2表看懂降本核彈TurboQuant 記憶體慘淪「DeepSeek時刻」？大摩打臉是利多10:232026-03-27旺得富理財網李宗莉演算法「TurboQuant」標榜僅需6分之1存儲容量，引發美韓台記憶體股崩跌。（示意圖/達志影像/shutterstock）外界擔心，記憶體霸權恐被軟體顛覆，導致美台韓記憶體股全數團滅，南亞科(2408)、華邦電(2344)、旺宏(2337)、創見(2451)、力積電(6770)等多檔指標股，今（27）日開盤隨台股持續重挫，跌幅都逾半根停板。但大摩最新分析指出，Google最新AI演算法「TurboQuant」，透過壓縮技術將AI推論速度提升8倍，記憶體使用量減少6倍，對大型CSP（雲端服務供應商）、LLM（大型語言模型）是一項利多，且長期而言，該演算法不僅不會降低記憶體需求，反而會推升存儲晶片使用量，對運算和記憶體產業有正面助益。大摩指出，該演算法僅在推論階段影響KV快取（KV cache），讓每個GPU產出更多內容，主要用於隨上下文長度增加的暫時性記憶體，而GPU/TPU上的HBM記憶體佔用，以及訓練工作負載則不受影響。TurboQuant運作原理(翻攝法人報告)由於該技術允許在相同的硬體上，運行4~ 8倍長的上下文，或在不耗盡記憶體的情況下，大幅增加批次處理量（batch sizes），KV快取則是如同暫存的記憶小抄，讓系統不必每次都從頭讀取資料，大摩分析，並不代表整體硬體需求或記憶體減少了6倍，反而提高了每個GPU的吞吐效率。長期來看，由於「TurboQuant」旨在提升每個加速器的吞吐量，並降低單次查詢的成本，大摩認為，記憶體產業將出現經濟學中著名的傑文斯悖論（Jevon's Paradox）效應，即效率提升帶動總需求增加，最終該資源的總消耗量反而上升，並從2角度看好長期發展。1.擴展實質的GPU容量：雖然壓縮技術降低了記憶體需求，但其近期的主要影響並非減少市場對GPU的絕對需求量，而是解放現有硬體的更高利用率，以及更長的上下文處理能力。雲端巨頭很可能將提升的效率重新投資於3領域，包括：1.更大的模型或更長的上下文；2. 更高的查詢處理量；3.更佳的延遲服務水準協議 (SLA)，效率提升終會被擴張的需求所吸收，從而抵銷GPU需求量下滑的風險。2.對重度推論平台與邊緣部署是利多：無需重新訓練即可壓縮至3位元的能力，降低導入門檻，對於擴展推論工作負載的CSP、部署私有LLM的企業，以及記憶體受限的邊緣/設備端AI來說，具有極高價值。TurboQuant主要看點(翻攝法人報告)大摩指出，就像瓦特改良蒸汽機後，煤炭需求反而飆升一樣，「TurboQuant」讓AI推理變得便宜、快速且能處理更長的資訊，將激發出更多原本受限於成本，而無法實現的應用場景。如果模型能在不犧牲效能的前提下，以極低的記憶體需求運行，單次查詢的服務成本將大幅下降，從而讓AI部署變得更有利可圖。像是原本需要上雲端的大型模型，將能安裝在本地端硬體上，有效降低大規模部署AI的門檻，且更多的應用程式將變得可行，更多模型能維持活躍狀態，現有基礎設施的利用率也會隨之提高。正如去年的DeepSeek震撼，並未摧毀硬體需求，反而帶動了新一波效率競賽，大摩認為，Google的技術突破，最終可能演變成推動記憶體與算力需求攀升的助燃火箭，即便暫時引發記憶體股的恐慌，但長遠來看，更有可能扮演「開啟新應用大門」的角色。若「TurboQuant」確實改變AI布署的成本曲線，隨AI變得更輕盈、更聰明、成本更低，全球對於運算資源的渴望，或許才正要進入下一個高光階段。單一演算法難動搖超級周期官股金控旗下投顧則表示，市場直覺認為「軟體演算法解決了硬體短缺」，CSP巨頭未來對記憶體的採購量將下修，記憶體晶片廠近年好不容易建立的「強勢定價權」恐將鬆動。但該投顧認為，在供給依然吃緊、邊緣AI（Edge Al）落地、HBM規格升級不變的3前提下，預期未來3年內，記憶體與快閃記憶體的供給依然受限，單一演算法難以動搖硬體周期大勢。其次，記憶體需求壓縮，反而代表AI模型更容易被塞進手機、PC、車用等終端設備，進而擴大邊緣裝置對標準型DRAM的拉貨基數。最後則是模型架構的演進（如多模態），對參數量與傳輸頻寬的要求指數級增長，軟體壓縮只是稍稍緩解物理極限，無法逆轉硬體堆疊的長期趨勢。

Google TurboQuant是舊技術，效率提升帶動更多儲存需求記憶體崩恐慌過頭了？需求反看俏 DeepSeek為鑑MoneyDJ新聞 2026-03-27 08:45:20 郭妍希發佈記憶體大廠美光(Micron Technology, Inc.)、電腦儲存設備領導服務商Sandisk等如日中天的記憶體股本週受創，跟谷歌(Google)新發布的「TurboQuant」演算法，有望將大型語言模型(LLM)的KV快取(KV cache)記憶體需求壓縮6倍有關。然而，分析人士認為市場恐慌過頭，除了因為這並非全新技術外，歷史經驗顯示，效率提升通常會降低成本、進而帶動更多硬體需求，也就是所謂的傑文斯悖論(Jevons’ Paradox)。Barron`s、MarketWatch等外電報導，TurboQuant是一種專門用來解決KV快取(key-value cache)瓶頸的演算法。Google將其描述為「數位備忘單」(digital cheat sheet)，實際上是充當了AI模型的「短期記憶」。雖然目前已有壓縮資訊、以便在備忘單塞入更多訊息的方法，但快取空間仍會迅速填滿。此外，傳統壓縮技術可能會導致模型出現幻覺(hallucinate)或出錯。TurboQuant的目標是解決這些問題。Google研究人員表示，該技術能在不損害模型準確度的情況下，將AI模型的KV記憶體需求降低至少6倍、速度提升最多8倍。對過去因AI對記憶體與儲存容量需求不斷成長而獲利的投資人來說，聽到AI相關記憶體需求會「壓縮6倍」，無疑是敲響警鐘。然而，TurboQuant其實沒有聽起來那麼可怕。首先，這並非全新技術，這項演算法的技術草稿早在2025年4月就在網路出現。瑞穗(Mizuho)科技產業專家Jordan Klein指出，每個雲端巨頭與LLM開發商都在研發類似技術，「如果這項技術真的好到能在Google內部大量使用，相信我，他們絕對不會發表論文公開它。」第二，記憶體使用效率上升，很可能會導致需求進一步上揚。舉例來說，2025年1月中國的DeepSeek橫空出世，展現了降低AI模型訓練成本的能力，一度引發市場擔憂雲端商對AI晶片的投資過頭，導致美股市值一口氣蒸發1兆美元。然而，隨後發生的正是「傑文斯悖論」，更高效的模型大幅增加AI服務需求，反而證明擴大投資的合理性。Sandisk財務長Luis Visoso與美銀證券(BofA Securities)對談時也持相同觀點。美銀分析師Wamsi Mohan引述Visoso的說法指出，TurboQuant能提升超大規模資料中心資本支出的投報率(ROI)，而效率的提升反將推高需求。Mohan將Sandisk的投資評等維持在「買進」，目標價為900美元。摩根士丹利(Morgan Stanley、通稱大摩)分析師Joseph Moore也指出，Google對KV快取效率的提升，對整體記憶體需求的直接影響有限。因為這些數據是儲存在高頻寬記憶體(HBM)中，而該組件的容量並不會因此改變。