讓儲存晶片暴跌的Google論文,被指學術不端

近日,Google公佈的全新AI內存壓縮技術“TurboQuant”,引發了業界的極大關注。該技術宣稱能在不犧牲模型精準度的前提下,將生成式AI推理階段最吃資源的“鍵值快取”(KV Cache)空間需求減少到原來的1/6,並讓計算速度暴增8倍。這一突破性的技術,也引發了整個市場對於記憶體需求將斷崖式下跌的擔憂,美光、Sandisk、西部資料等儲存相關美股紛紛大跌。

然而,就在3月27日,蘇黎世聯邦理工學院博士後、RaBitQ系列論文第一作者高健揚公開發佈澄清信,指控TurboQuant論文存在“系統性迴避方法相似性”、“錯誤描述RaBitQ的理論結果”、“刻意創造不公平的對比實驗環境”等三處嚴重問題,且這些問題在論文投稿前已通過郵件明確告知TurboQuant團隊,對方知情卻未修正。

RaBitQ是高健揚2024年發表的高維向量量化方法,其核心創新之一是在量化前對輸入向量施加隨機旋轉(Johnson-Lindenstrauss變換),並從理論上證明其達到了理論電腦頂級會議論文(Alon-Klartag, FOCS 2017)給出的漸近最優誤差界。

以下為高健揚發佈的原文:

大家好,我叫高健揚,目前在蘇黎世聯邦理工學院做博士後,我是 RaBitQ 系列工作的第一作者。

Google Research 於2026年1月被 ICLR 2026 會議接收的論文 ”TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate“ 中,有關已有的 RaBitQ 向量量化演算法的描述,理論結果對比,實驗對比均存在嚴重問題(詳細情況後文會展開描述)。這些問題在論文投稿至 ICLR 2026 前已被我們通過郵件明確指出,TurboQuant 團隊也明確表示已知情,但選擇了不予修正。論文隨後被 ICLR 2026 會議接收,然後通過 Google 官方管道大規模推廣,在社交媒體瀏覽量已達到數千萬次。

我們此時公開說明,是因為錯誤的學術敘事一旦廣泛傳播,糾正的成本會越來越高。

背景:RaBitQ 是什麼

RaBitQ 系列論文(如下所列)於2024年發表,提出了一種高維向量量化方法,並從理論上證明其達到了理論電腦頂級會議論文(Alon-Klartag, FOCS 2017)給出的漸近最優誤差界。

RaBitQ(arXiv:2405.12497,2024年5月,隨後發表於頂級會議SIGMOD 2024) 擴展版(arXiv:2409.09913,2024年9月,隨後發表於頂級會議SIGMOD 2025)

RaBitQ 的核心想法之一是在量化前對輸入向量施加隨機旋轉(random rotation / Johnson-Lindenstrauss 變換),利用旋轉後坐標分佈的性質做向量量化,在理論上實現最優誤差界。

TurboQuant 論文問題一:系統性地迴避 TurboQuant 方法與已有 RaBitQ 方法的相似性

RaBitQ 與 TurboQuant 在方法層面有直接的結構聯絡,兩者都在量化前對輸入向量施加隨機旋轉(Johnson-Lindenstrauss 變換)。這是兩篇論文方法設計中最核心、最接近的部分。

TurboQuant 的作者在 ICLR OpenReview 審稿平台上對審稿人的回覆中,親自這樣描述自己的方法:

“We achieve this by first normalizing the vectors by their l2 norm and then applying a random rotation (隨機旋轉)to ensure the entries of the vectors will have a beta distribution post rotation.”

然而在這段回覆、TurboQuant 論文中的方法介紹乃至整篇論文中,從未正面說明這一結構與 RaBitQ 完全一致。這一迴避發生在以下背景之下:

2025年1月(TurboQuant 論文在 arXiv 發佈的數月前),TurboQuant 論文的第二作者 Majid Daliri 主動聯絡我們,請求幫助偵錯他自己基於 RaBitQ C++ 程式碼實現的 Python 版本。他詳細描述了自己復現的步驟、程式碼片段和具體報錯,這一點可以說明 TurboQuant 團隊對 RaBitQ 的技術細節有充分的瞭解。之後在2025年4月他們在 arXiv 發佈的論文版本,以及2025年9月他們在 ICLR 2026 會議投稿的論文版本中,他們將 RaBitQ 描述為 grid-based PQ,並且在描述中忽略了 RaBitQ 中核心的 random rotation 的步驟。ICLR 的一位審稿人也在審稿意見中獨立指出:”RaBitQ and variants are similar to TurboQuant in that they all use random projection”,並明確要求更充分的討論和比較。儘管如此,在 ICLR 會議最終版本論文中,TurboQuant 的作者不僅沒有加入對 RaBitQ 討論,甚至反而還將原本正文中對 RaBitQ 不完整描述移到了附錄中。

為此,我們於2026年3月通過郵件聯絡了 TurboQuant 所有作者,提出了以上問題及糾正請求後,TurboQuant 作者在回覆中以

“The use of random rotation and Johnson-Lindenstrauss transformations has become a standard technique in the field, and it is not feasible for us to cite every method that employs them.”

為由拒絕了這一請求。我們認為這一回應是在轉移矛盾:作為在相同問題設定下率先將隨機旋轉(Johnson-Lindenstrauss 變換)與向量量化結合、並建立最優理論保證的具體先行工作,RaBitQ 應當在文中被精準描述,其與 TurboQuant 方法的聯絡應當充分討論。

TurboQuant 論文問題二:錯誤描述 RaBitQ 的理論結果

TurboQuant論文在不提供任何論據的情況下,將 RaBitQ 的理論保證定性為”次優”。TurboQuant 論文寫道:

“While the paper’s theoretical guarantees are suboptimal, likely due to loose analysis — as practical performance surpasses theoretical bounds”

這句話直接將 RaBitQ 的理論保證定性為”次優(suboptimal)”,將原因歸結為”較粗糙的分析(loose analysis)”。但論文沒有提供任何推導、對比或證據來支撐這一判斷。

事實是:我們在拓展版 RaBitQ 論文(arXiv:2409.09913)的 Theorem 3.2 中,已經嚴格證明 RaBitQ 的誤差界達到了理論電腦頂級會議論文(Alon-Klartag, FOCS 2017)給出的漸近最優誤差界。因為這一結果,我們被邀請至理論電腦科學頂級會議 FOCS 的 Workshop 進行報告。 為此,我們於2025年5月通過郵件與 TurboQuant 的第二作者 Majid Daliri 進行了多輪詳細的郵件技術討論,逐條澄清了 TurboQuant 團隊對我們理論結果的錯誤解讀。Majid Daliri 在郵件中明確表示已將這些討論告知全體共同作者。

然而後面 TurboQuant 論文在提交至 ICLR 2026、經過審稿、被接收,最終大規模宣發的全過程中,這個對 RaBitQ 理論保證的錯誤定性始終未被修正。

一個沒有證據支撐的斷言,在被原作者具體指出錯誤、且 TurboQuant 作者方已明確知情的情況下,仍被保留在正式發表的 TurboQuant 論文中,我們認為這已超出普通失誤的範疇。

TurboQuant 論文問題三:刻意創造不公平的實驗環境

TurboQuant 論文使用劣化的實現、關閉多線程使用單核CPU測試 RaBitQ 的效果,卻使用 A100 GPU 測試 TurboQuant 的效果。TurboQuant 報告的 RaBitQ 量化速度比我們開源實現的實際速度慢了數個數量級。 2025年5月的郵件中,Majid Daliri 本人解釋了這一差距的來源:

“we were using a single-core CPU instance, and multiprocessing was indeed disabled […] we weren’t fully utilizing parallelism, which explains why it was significantly slower”

我們的官方 RaBitQ 程式碼在論文發佈至 arXiv 時(2024年5月與2024年9月)就已經公開,並且默認採用多線程平行。並且,Majid Daliri 在2025年1月的郵件中還說明,他成功跑通 RaBitQ 的程式碼用以測試,但他用於實驗的仍是自己翻譯的 Python 版本。這意味著,TurboQuant 論文中對 RaBitQ 速度的報告,疊加了兩層系統性的不公平條件:

使用自己翻譯的 Python 程式碼,而非我們開放原始碼的 C++ 實現

  1. 使用單核CPU,關閉多線程平行測試 RaBitQ 演算法,但卻使用 NVIDIA A100 GPU 測試 TurboQuant 演算法

以上兩點均未在論文中充分披露。讀者看到的是 RaBitQ 比 TurboQuant 慢數個數量級這一結論,卻無從知道這一結論建立在刻意創造的不公平的實驗條件之上。

事件完整時間線

2024年5月:RaBitQ 論文在 arXiv 發佈,同時原始碼公開(後面發表在頂級會議 SIGMOD 2024)

2024年9月:拓展版 RaBitQ 論文在 arXiv 發佈,同時原始碼公開(後面發表在頂級會議 SIGMOD 2025)

2025年1月:TurboQuant 論文第二作者 Majid Daliri 聯絡我們,請求協助偵錯 Python 版 RaBitQ 實現

2025年4月:TurboQuant 論文在 arXiv 發佈

2025年5月:我們跟 Majid Daliri 通過郵件詢問了實驗條件的差異並清楚解釋了 RaBitQ 的理論保證最優性, Majid Daliri 表示他已告知全體作者,但在我們要求修正 TurboQuant 論文中的事實性錯誤之後,Majid Daliri 停止回覆

2025年11月:我們發現 TurboQuant 論文被提交至 ICLR 2026 會議,且論文中的事實性錯誤並未修正,為此我們聯絡了 ICLR 2026 PC Chairs,未獲回應

2026年1月:TurboQuant 論文被 ICLR 2026 接收 2026年3月:TurboQuant 團隊通過 Google 官方管道持續推廣,社交媒體相關瀏覽量已達數千萬次

2026年3月:我們正式向 TurboQuant 全體作者傳送郵件,闡述以上三個事實性問題並要求做出修正及澄清。截至目前為止,我們僅收到 TurboQuant 論文第一作者 Amir Zandieh 的籠統答覆,承諾會修正問題二和問題三,但拒絕修正問題一(即討論 TurboQuant 與 RaBitQ 在技術上的相似性)。並且,他們僅願意在 ICLR 2026 正式會議結束之後才做相應修正

我們已經做了什麼

在 ICLR OpenReview 發佈公開評論: https://openreview.net/forum?id=tO3ASKZlok

向 ICLR General Chairs, PC Chairs, Code and Ethnics Chairs 再次提交正式投訴,附完整證據包

我們接下來會做什麼

在 arXiv 發佈詳細的關於 TurboQuant 和 RaBitQ 的技術報告

考慮向相關機構進一步反映

最後

我們提出這些問題,目標是讓公共學術記錄精準地反映各方法之間的真實關係。一篇論文被 Google 以數千萬曝光量推向公眾,在這種體量下,論文中錯誤的敘事不需要主動傳播,只需要不被糾正,就會自動成為共識,這也是我們選擇公開記錄的原因。

在此我們也懇請大家讓更多人知道 TurboQuant 論文背後存在的問題,我們相信真理越辯越明。 (芯智訊)