#KV快取
Google爆紅論文塌房!被曝抄襲、貶低華人學者成果,Google回應:晚點改
華人學者相關成果2024年就已發佈。Google干崩記憶體股的論文,竟被曝出學術不端?智東西3月29日報導,近日,Google的TurboQuant論文引發全網廣泛關注。該論文提出的TurboQuant技術,據說能將大模型KV快取的記憶體佔用壓縮至原來的1/6,似乎給當下的“AI儲存荒”提供瞭解決思路,因此一度引發美股多支儲存股大跌,市值合計蒸發超過900億美元(約合人民幣6220億元)。然而,反轉也來得很快。3月27日,蘇黎世聯邦理工學院電腦博士後、RaBitQ論文作者華人高健揚發佈文章,指出Google的TurboQuant論文存在三大問題:系統性地迴避了其與已有RaBitQ方法(2024年發佈)的相似性,錯誤描述了RaBitQ的理論結果,並刻意營造不公的實驗環境。▲高健揚在知乎上發表的澄清文章並且,GoogleTurboQuant團隊可能還存在“知錯不改”的嫌疑。高健揚稱,早在2025年5月,在TurboQuant論文正式投稿至ICLR 2026之前,RaBitQ團隊已經向作者指出了論文存在的問題,TurboQuant團隊承認了相關問題,但選擇不予修復。▲高健揚在X平台上發表的推文今天下午,高健揚更新了知乎帖子,稱他們僅收到TurboQuant論文第一作者Amir Zandieh的籠統答覆,承諾會修正對RaBitQ理論結果的錯誤描述和實驗環境差異,但拒絕在文中討論TurboQuant與RaBitQ在技術上的相似性。並且,TurboQuant團隊僅願意在今年4月ICLR 2026正式會議結束之後才做相應修正。高健揚稱,他決定此時公開說明這一事件,是因為錯誤的學術敘事一旦廣泛傳播,糾正的成本會越來越高。高健揚在知乎上發佈的公開澄清文章:https://zhuanlan.zhihu.com/p/2020969476166808284?wechatShare=1&s_r=001. KV快取砍至1/6、推理提速8倍 TurboQuant具體做了什麼?在釐清事實之前,我們需要首先看看Google的TurboQuant究竟提出了什麼方法。向量量化一直是AI資料“瘦身”的主流技術,主要用於壓縮高維向量、節省記憶體、提升檢索與推理效率。但傳統壓縮方法通常會引入額外的記憶體開銷,反而會影響向量量化的效果。Google提出的TurboQuant是一種無損極限壓縮演算法,該演算法主要通過兩個關鍵步驟,在實現零精度損失的同時大幅縮小模型尺寸。▲TurboQuant部落格第一步是高品質壓縮(PolarQuant方法)。TurboQuant首先對資料向量進行隨機旋轉。這一操作能夠簡化資料的幾何結構,從而便於使用標準且高品質的模型量化器。通過這一階段,TurboQuant能夠將大部分壓縮能力(即多數位元)用於捕捉原始向量的主要特徵和強度。第二步是消除隱藏誤差。TurboQuant僅用少量剩餘壓縮能力(僅1位元),對第一階段殘留的微小誤差應用QJL演算法。QJL階段相當於一個數學誤差檢查器,能夠消除偏差,從而獲得更加精準的注意力評分。QJL採用一種了稱為“Johnson-Lindenstrauss變換”的方法,縮小複雜、高維資料,同時保持資料點之間的基本距離和關係。實驗中,Google稱TurboQuant在所有基準測試中均達到了“完美的下游任務表現”,同時將KV快取的記憶體佔用減至1/6。▲TurboQuant基準測試結果使用TurboQuant計算注意力邏輯值後,在H100 GPU加速器上,4位元TurboQuant相比32位元未量化的鍵值實現了高達8倍的性能提升。▲TurboQuant性能測試結果02. RaBitQ論文作者完整復盤:去年就已提出質疑,TurboQuant團隊不回郵件TurboQuant論文在3月25日被“Google Research”官方帳號轉發後,獲得了海量關注。然而,這篇論文與2024年5月由高健揚等人發佈RaBitQ論文,有不少說不清道不明的聯絡。高健揚在他發佈的知乎帖子中回顧了相關爭議的完整時間線:▲高健揚回顧事件完整時間線可以看到,在2024年,RaBitQ團隊就陸續發佈了論文的預印本和擴展版,同時開源了相關程式碼。這篇論文還發表在頂級會議SIGMOD上。2025年1月,TurboQuant論文第二作者Majid Daliri與RaBitQ團隊取得聯絡,請求協助偵錯Python版RaBitQ實現,三個月後TurboQuant論文在arXiv發佈。TurboQuant發佈後,RaBitQ團隊很快發現了TurboQuant團隊針對RaBitQ採用了不同的實驗條件,然而TurboQuant團隊在被要求修改事實性錯誤後,採取了消極態度,停止回覆郵件。2025年11月,TurboQuant論文被提交至ICLR 2026,相關錯誤並未修改,RaBitQ團隊聯絡ICLR 2026後也未獲得回應。在高健揚看來,TurboQuant論文至少存在三個問題。問題一:系統性地迴避TurboQuant方法與已有RaBitQ方法的相似性RaBitQ與TurboQuant在方法層面有直接的結構聯絡,兩者都在量化前對輸入向量施加隨機旋轉(Johnson-Lindenstrauss變換)。這是兩篇論文方法設計中最核心、最接近的部分。對於這一質疑,TurboQuant團隊曾回覆道:“隨機旋轉和Johnson-Lindenstrauss變換已成為該領域的標準技術,我們無法列舉所有使用這些方法的方法。”高健揚認為這一回應是在轉移矛盾:作為在相同問題設定下,率先將隨機旋轉(Johnson-Lindenstrauss變換)與向量量化結合、並建立最優理論保證的先行工作,RaBitQ應當在文中被精準描述,其與TurboQuant方法的聯絡應當充分討論。問題二:錯誤描述RaBitQ的理論結果高健揚稱,TurboQuant論文在不提供任何論據的情況下,將RaBitQ的理論保證定性為“次優”,將原因歸結為“較粗糙的分析(loose analysis)”。然而,RaBitQ的誤差界實際上已經達到了理論電腦頂級會議論文(Alon-Klartag,FOCS 2017)給出的漸近最優誤差界,並因這一結果被邀請至理論電腦科學頂級會議FOCS的Workshop進行報告。2025年,RaBitQ團隊與TurboQuant的第二作者Majid Daliri進行了多輪詳細的郵件技術討論,澄清TurboQuant團隊對RaBitQ理論結果的錯誤解讀,然而相關錯誤定性一直未被修正。問題三:刻意創造不公平的實驗環境TurboQuant團隊在測試RaBitQ和TurboQuant時採用了不同的實驗設定。具體來看,TurboQuant團隊使用單核CPU、關閉多線程平行的設定來測試RaBitQ演算法,但卻使用輝達A100 GPU測試TurboQuant演算法。TurboQuant團隊還使用了自己翻譯的Python程式碼,而非RaBitQ團隊開放原始碼的C++實現,前者的效果要差於後者。同時,以上兩點差異均未在論文中充分披露。03. 論文評審發帖:只提一次RaBitQ,我是震驚的RaBitQ團隊的維權,獲得了一些網友和學術圈人士的聲援。TurboQuant論文的一位評審者在公開的學術論文評審平台OpenReview發表評論,稱他雖然認為TurboQuant的理論分析和實驗結果都很出色,但是也發現這一方法與RaBitQ存在明顯的共通之處,並要求TurboQuant團隊比較兩者在設計上的差異如何影響性能。然而,在查看TurboQuant的最終版本時,他驚訝地發現在論文的實驗部分RaBitQ僅被提到了一次。▲TurboQuant論文評審談這篇論文的問題在知乎上,有位網友稱自己去年讀TurboQuant論文時,就感受到其與RaBitQ的相似之處,更像是把RaBitQ換了一種表達方式,在GPU上實現一遍,創新性不夠。▲知乎網友評論TurboQuant創新性問題還有網友稱,自己復現了TurboQuant,發現至少在向量檢索領域TurboQuant的召回率低於RaBitQ。▲知乎網友質疑TurboQuant復現結果X平台上,有網友評價道,在論文提交前問題就被指出,但卻被忽略,這是最糟糕的結果。這意味著TurboQuant團隊明明意識到問題存在卻故意保留了下來。雖然同行評審流程應該能發現這些問題,但ICLR的接收並不總是意味著技術論斷站得住腳。▲X平台網友評價TurboQuant涉嫌學術不端事件04. 結語:頂會論文、大廠標籤不是護身符 學術敘事不容“帶病傳播”截至目前,TurboQuant與RaBitQ之間的爭議尚未有官方定論。然而,學術研究的核心在於“可追溯”與“可復現”。當一篇論文被頂級會議接收,並通過大型科技公司的管道獲得千萬級曝光時,其技術敘事的影響力已遠超學術圈本身,甚至波及資本市場。在這種情況下,對先行工作的準確引用、對實驗條件的完整披露、對質疑的及時回應,便不再是可有可無的環節,而是維護學術共同體公信力的基本責任。目前,RaBitQ論文團隊已向ICLR官方再次提交正式投訴和完整證據包。未來,他們還考慮在arXiv上發佈詳細技術報告,進一步呈現兩項研究的關係。無論結果如何,它都再次提醒我們,對學術規範的敬畏、對先行者的尊重,以及對每一份實驗資料的誠實,始終是不可踰越的底線。 (智東西)