#Google晶片
Google一篇論文引爆儲存晶片崩盤!AI記憶體需求暴降6倍,推理狂飆8倍
【新智元導讀】Google一篇論文,直接讓儲存巨頭們「集體失眠」,一夜市值蒸發幾百億!最新部落格官宣TurboQuant演算法,直接將快取壓到3-bit,記憶體佔用只有1/6。一篇論文攪動兆市場,儲存晶片的天塌了...誰也未曾料到,本周三美股開盤,儲存晶片類股遭遇「黑色時刻」,巨頭股價全線飄綠——截至收盤,美光科技下跌4%,西部資料下跌4.4%,希捷下跌5.6%,閃迪更是重挫6.5%。引發這場拋售地震的導火線,正是Google發佈的TurboQuant壓縮演算法。眾所周知,大模型跑起來時,KV快取(KV cache)簡直是記憶體界的「吞金獸」。為了不重複計算之前的Token,LLM維持一份「運行記憶」,隨著對話越來越長,這份記憶會像滾雪球一樣迅速膨脹。Google的TurboQuant,給出了一套極其「暴力」的瘦身方案:首先,把KV快取裡的高維向量做一次「旋轉」,再換一套極坐標系來描述,記憶體開銷直接歸0。然後,用僅僅1-bit額外空間,放一個數學「校正器」進去,把壓縮帶來的系統性偏差精確抹平。TurboQuant論文將於下月舉辦的ICLR 2026上正式發表結果非常頂:不用任何重訓,TurboQuant把快取壓縮至喪心病狂的3-bit。這麼一來,KV快取開銷驟降6倍,關鍵是,推理表現幾乎零損耗。在H100上,相較於32-bit基線,4-bit的計算注意力速度飆升了8倍。不僅省空間,還跑得更快了。一時間,全網陷入瘋狂。照這樣說,16GB Mac mini又能用來跑大模型了。這一幕,現實版「魔笛手」(Pied Piper)真的降臨了!記憶體佔用暴降6倍,儲存巨頭集體重挫對於晶片儲存巨頭來說,這無異於一場「底層邏輯大地震」。美光、西數等巨頭的估值基石,向來建立在「AI伺服器單機容量紅利」之上。一旦單次推理任務的位元(Bit)需求發生結構性驟降,高性能儲存的增長動能將直接面臨「縮水」危機。直白講,GoogleTurboQuant出世,直接衝擊了晶片儲存巨頭們,備受追捧的AI硬體邏輯。KV快取暴降6倍,速度提升8倍,意味著每台伺服器所需的高端記憶體晶片可能變少。Cloudflare首席執行長Matthew Prince甚至將其形容為「Google的DeepSeek時刻」!KV快取,大模型瘋狂吞金要理解TurboQuant的份量,先得搞清楚它瞄準的靶心——KV快取到底有多吃記憶體。大模型生成每一個Token時,都要「回看」之前所有Token的資訊。為了避免重複計算,模型把每一層注意力機制產出的Key和Value向量全部快取起來,形成一張高速「速查表」。問題在於,這張表隨對話長度線性膨脹。當上下文從4K擴展到128K甚至百萬等級,KV快取吞掉的視訊記憶體往往反超模型參數本身,成為推理階段最大的記憶體瓶頸。傳統的解法是向量量化,也就是把16-bit浮點數壓縮成4-bit整數。但幾乎所有傳統方法都需要為每一小塊資料額外儲存一組全精度的量化常數,每個數字多吃1到2個bit。壓到4-bit,實際可能是5到6-bit,壓縮的意義被自己的「手續費」蠶食了一大截。而TurboQuant的野心,正是徹底消滅這筆附加費。論文地址:https://arxiv.org/pdf/2504.19874兩步「絕殺」極坐標變換 + 1-bit誤差校驗TurboQuant的核心,是一個精巧的兩階段流程。第一階段:PolarQuant換一個坐標系看世界傳統量化在笛卡爾坐標系(X、Y、Z軸)下操作,每個軸的取值範圍不固定,必須額外儲存歸一化參數來「對齊」。換句話說,每一小塊資料都要自帶一張「比例尺」,而這張比例尺本身就很佔空間。PolarQuant的第一步,是對資料向量做一次隨機旋轉。這一步看似隨意,背後的數學意義卻很深:在高維空間裡,隨機旋轉會讓向量的每個坐標份量收斂到一種高度集中的Beta分佈,而且各份量之間近似獨立同分佈。不管原始資料長什麼樣,轉完之後,統統變成「一個模子刻出來的」。PolarQuant就像一座高效的壓縮橋樑,能把笛卡爾坐標輸入轉換成緊湊的極坐標「速記」形式,方便後續的儲存和處理這讓複雜的高維量化問題,降格為一組簡單的一維標量量化問題。Google只需要提前算好不同位寬下的最優碼本,推理時直接查表即可,不需要為每一組資料單獨計算任何東西。然後,PolarQuant把旋轉後的向量「笛卡爾坐標系」轉換成「極坐標系」。舉個栗子,傳統方法描述一個位置:向東走3個街區,再向北走4個街區。PolarQuant則說:朝37度方向直接走5個街區。轉換之後,資料被拆成兩組資訊:一個半徑(代表訊號強度),一組角度(代表訊號方向)。接下來才是真正精妙的一步,即「遞迴配對」。PolarQuant把坐標兩兩分組進行極坐標變換,得到一組半徑和一組角度;再把這些半徑兩兩配對,做第二輪極坐標變換;如此遞迴往復,最終整個高維向量被濃縮為一個最終半徑和一系列描述性角度。因為角度的分佈模式在數學上是已知且高度集中的,整個過程不需要儲存任何歸一化常數。開銷,歸零。這一步消耗了絕大部分的壓縮預算(分配b-1個bit),專注於把均方誤差(MSE)壓到最低,精準捕捉原始向量的核心資訊。第二階段:QJL用1 - bit消滅殘餘誤差再精準的壓縮,也會留下誤差。而且這裡有個隱蔽的陷阱:一個在MSE意義上最優的1-bit量化器,在高維空間中會引入一個2/π的乘性偏差。也就是說,你把資料壓得很小、失真也很低,但用它算內積(注意力分數的核心操作)時,結果是系統性偏斜的。TurboQuant的第二步,專門來「殺」這個偏差。它將Johnson-Lindenstrauss變換應用到第一階段的殘餘誤差上,把每個誤差值壓縮為一個符號位:+1或-1。然後配合一個特殊的估計器——用高精度的Query向量和低精度的壓縮Key做聯合計算。這套組合拳,在數學上被證明是「無偏」的:壓縮前後的內積期望值嚴格相等。只消耗最後1個bit,就把第一階段殘留的系統性偏差徹底抹平。兩步合璧的效果TurboQuant在僅僅3-bit的總預算下,實現了接近無損的壓縮效果,全程零額外開銷。論文給出了嚴格的理論證明:TurboQuant的MSE失真率,在所有位寬下都控制在理論絕對下限的約2.7倍以內。在1-bit極端壓縮的情況下,更是只有最優值的約1.45倍。換句話說,它幾乎貼著資訊理論的「物理極限」在運行。整套演算法是「資料無感知」(data-oblivious)的——不需要任何校準資料,不依賴任何預訓練,對資料集零假設。同時,演算法內部全程使用向量化運算,避免了傳統方法中緩慢的二分尋找,對GPU加速器極其友好。拿來即用,即插即飛。跑分全面碾壓,大海撈針完美通關光說原理不夠,得看實戰。Google在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER和L-Eval五大長上下文基準測試上,對TurboQuant進行了嚴格驗證,測試模型覆蓋Gemma、Mistral和Llama-3.1-8B-Instruct。結果相當硬核。在LongBench的問答、程式碼生成、文字摘要等綜合任務中,3-bit配置下的TurboQuant,性能全面優於KIVI等基線方法,甚至逼近全精度模型的表現。最殘酷的考驗來自「大海撈針」——在10萬Token的文字海洋裡,精準撈出一句特定資訊。在4倍壓縮比下,TurboQuant的檢索精度一路保持到10.4萬Token,與全精度模型完全一致。6倍壓縮之後,模型該記住的,一個字都沒丟。在H100 GPU上,4-bit TurboQuant計算注意力logits的速度,相比32-bit未量化基線提升了8倍。需要說明的是,這個8倍是注意力計算環節的加速比,並非端到端推理的整體提速,但注意力計算恰恰是長上下文推理中最吃資源的那一環。Google特別強調,TurboQuant引入的執行階段開銷「幾乎可以忽略不計」。這也好理解——演算法本身不涉及任何資料集相關的查表或搜尋操作,純粹是矩陣運算,天然適合GPU平行。在高維向量搜尋方面,TurboQuant也沒有放過對手。在GloVe資料集(200維)上,它擊敗了PQ和RabbiQ兩大前沿方法,拿下最優1@k召回率。而那些對手還依賴龐大的密碼本和針對性調優,TurboQuant全程「裸奔」通殺。這個結果的含金量在於:向量搜尋是Google搜尋、推薦系統、廣告系統等核心產品的底層引擎。TurboQuant在這個賽道上的優勢,意味著它不只是一個學術玩具,而是有明確的工程落地路徑。部落格官宣這天,獨立開發者在Reddit上曬出了復現成果:基於PyTorch和自訂Triton kernel,在RTX 4090上用2-bit精度跑Gemma 3 4B,輸出與未壓縮版本逐字元一致。論文寫的「零損耗」,社區用程式碼投了票。另一位開發者Prince Canuma實測後驚嘆道:「面對8.5K到64.2K不等的大跨度上下文,TurboQuant讓模型對視訊記憶體實現極致壓縮」。2.5-bit量化讓KV快取縮小了4.9倍;3.5-bit量化也實現了3.8倍的縮小。Google一張紙,儲存晶片天塌了?儲存晶片的天,真的塌了嗎?大機率沒有。科技行業有一條反覆被驗證的鐵律——傑文斯悖論:資源使用效率越高,總消耗量反而越大。KV快取壓縮6倍,最可能的結果不是少買記憶體,而是同樣的視訊記憶體跑更長的上下文、更多的並行、更大的模型。雖然壓縮演算法還從未從根本上改變過採購量,但有兩件事確實在發生改變。第一,推理成本的地板價被改寫了。TurboQuant的三篇論文將在ICLR 2026和AISTATS 2026上公開發表,核心思想向全行業敞開。當3-bit能做到過去16-bit的事情,受益的是每一個做推理服務的公司,感到壓力的是那些指望「量價齊升」永遠持續的儲存廠商。第二,從論文到落地的路正在縮短。TurboQuant目前僅在8B參數等級的開源模型上得到驗證,70B以上的模型、MoE架構、百萬級上下文窗口上的表現尚未證實。Google也沒有宣佈它已部署到Gemini或任何生產系統中。這次Google部落格一發出,不到24小時,就有獨立開發者從論文出發寫出了完整實現並跑通驗證。在算力軍備競賽裡,最鋒利的武器未必是更大的晶片,也可能是更聰明的數學。技術不關心股票程式碼,只關心位元的邊界在那裡。 (新智元)
TurboQuant - Extreme KV Cache Quantization · ggml-org/llama.cpp · Discussion #20969 https://share.google/errGlmfVU5rSvVqNd
Google工程師:定製晶片才是未來!
一位Google軟體工程師表示,若不考慮成本因素,博通等廠商生產的定製晶片,永遠會是他建構前沿人工智慧模型的首選方案。“如果資源不受限,且我需要快速推進項目、開展儘可能多的模型訓練工作,那麼我會百分之百選擇某種定製晶片。” Google Gemini 人工智慧團隊工程師加布裡埃爾・拉斯金在接受美國消費者新聞與商業頻道(CNBC)採訪時強調,“計算過程的每一秒都至關重要。”隨著超大規模資料中心營運商對定製晶片的需求日益攀升,這種觀點正被越來越多人認同,而博通在該賽道已處於領跑地位。Google正是借助由博通聯合設計的張量處理單元(TPU),成功完成了 Gemini 3 大語言模型的訓練。這款模型於去年 11 月正式發佈,助力這家字母表公司(Alphabet)旗下業務重新躋身頂級大語言模型的競爭行列。TPU 的出色性能,也讓Google成為能與行業標準輝達圖形處理器(GPU)分庭抗禮的 AI 晶片供應商。定製晶片專為特定的大規模任務設計,這一點是輝達通用型 GPU 所不具備的。不過,輝達首席執行長黃仁勳近期卻淡化了定製晶片對其業務的威脅。他在上個月接受吉姆・克萊默採訪時稱:“輝達的產品具備更強的通用性,能夠覆蓋的市場範圍也遠比聊天機器人領域廣闊得多。”去年 11 月,輝達曾在社交平台 X 上發文稱 “對Google的成功感到欣喜”,但同時也強調:“輝達的技術領先行業一代 —— 我們是唯一能運行所有 AI 模型,且能在各類計算場景中落地應用的平台。”誠然,無論是 TPU 還是其他同類競爭產品 —— 這類晶片也被稱為專用積體電路(ASIC),都不會徹底取代輝達。Google本身也是輝達的大客戶之一,其雲基礎設施營運高度依賴大量 GPU,同時也依靠這些 GPU 為客戶提供算力,支撐他們訓練和運行自有 AI 模型。Google研發 TPU 的歷史已超過十年,目前也向雲服務客戶開放 TPU 的使用權限。Google雲在全球雲服務市場中排名第三,僅次於亞馬遜雲和微軟雲。值得注意的是,亞馬遜與微軟同樣一邊維持著輝達大客戶的身份,一邊積極推進自研定製晶片的佈局。行業專家普遍認為,現階段輝達面臨的市場風險相對有限,但部分人士指出,輝達在 AI 晶片市場的主導地位正迎來考驗。D.A. 戴維森公司分析師吉爾・盧里亞在接受 CNBC 採訪時表示:“任何市場中,企業都會面臨一定的市場份額流失風險。這是自由市場的必然規律,高額利潤自然會吸引競爭者入局,當前的 AI 晶片市場正是如此。輝達的大客戶,尤其是亞馬遜、Google、微軟、元宇宙平台公司(Meta)這類頭部企業,並不希望過度依賴單一供應商。”去年 10 月博通與 ChatGPT 開發商 OpenAI 達成定製晶片合作協議,進一步印證了市場的多元化趨勢。儘管博通在定製晶片領域進展顯著,但盧里亞強調,GPU 的核心地位仍不可撼動。“即便是Google,TPU 也只是一種補充工具。過去,Google的 TPU 主要用於內部業務;如今雖開始對外開放,甚至啟動銷售,但該公司採購的晶片仍以輝達產品為主。”一位熟悉晶片研發細節的蘋果內部人士指出,專用積體電路(ASIC)的生產門檻極高,這一特點對輝達十分有利。對規模較小的企業而言,研發定製晶片不僅耗時長久,成本也十分高昂,此外,晶片代工廠的產能供應受限也是一大制約因素。需要明確的是,博通與輝達均為無晶圓廠晶片設計公司,它們的晶片生產工作均交由台積電(TSMC)等代工廠完成。蘋果自 2010 年起便啟動自研晶片項目,目前正逐步用自研晶片替換旗下裝置中的第三方晶片。盧里亞評價道:“博通在定製晶片領域的表現最為突出。” 博通首席執行長霍克・譚在上個月的財報電話會議中披露,公司 AI 業務營收同比增長 65%,達到 200 億美元,帶動半導體業務全年營收創下 370 億美元的歷史新高。他同時證實了此前的傳聞 —— 上一輪財報中提及的、下達 100 億美元訂單的第四大客戶,正是人工智慧公司 Anthropic。不過盧里亞也指出:“輝達的主導地位未來仍將穩固,這一點不難預判,但博通的市場地位則相對脆弱。Google是博通目前最大的客戶,如果Google效仿蘋果,直接與台積電開展合作,那麼博通面臨的風險將遠超輝達當前的處境。”盧里亞預測,未來五年內,輝達有望維持 50% 以上的市場份額;未來三年內,其市場份額或將保持在 70% 以上。這位 D.A. 戴維森分析師給予輝達 “買入” 評級,目標股價定為 250 美元 / 股,較周四收盤價仍有近 31% 的上漲空間。華爾街其他機構也在密切關注兩家公司的動態。摩根士丹利本周重申對博通和輝達的 “買入” 評級,同時指出 “儘管市場對 ASIC 晶片熱情高漲,但更看好輝達”。該機構分析師表示,隨著維拉・魯賓(Vera Rubin)平台將於 2026 年下半年正式投產,輝達將憑藉雲端運算領域 “行業最高投資回報率解決方案” 鞏固優勢。相比之下,沃爾夫研究公司對博通的態度更為樂觀。該機構分析師在報告中寫道:“Google向第三方開放 TPU 使用權,意味著輝達真正的競爭對手已經出現。” 他們補充稱,博通將成為這一趨勢的主要受益者。沃爾夫研究於周五將博通評級上調至 “買入”,並預測到 2028 年,TPU 的出貨量將達到約 700 萬片,同時給予博通 400 美元 / 股的目標價,較周四收盤價有近 21% 的上漲潛力。吉姆・克萊默在周五的《財經早班車》節目中表示,此次評級上調對投資者而言是 “及時的科技股投資建議”。博通股價目前較其近 413 美元的歷史收盤高點下跌近 20%,年初至今跌幅達 4%,正是佈局優質標的的時機。“我實在無法理解博通近期低迷的股價表現。” 吉姆在 CNBC 投資俱樂部 1 月月度會議上如此說道。他逢低買入的傾向,與去年 12 月的操作思路一致。當時博通發佈的財報遠超市場預期,但因部分言論被市場誤讀,股價單日暴跌 11.4%,吉姆彼時便主張逢低佈局。輝達股價雖年初至今小幅上漲,但同樣面臨多重壓力。隨著投資者對其每股收益的估值溢價意願下降,公司正遭遇市盈率壓縮的困境;同時,持續的地緣政治緊張局勢也對股價形成壓制。吉姆重申了對輝達股票 “長期持有、不做短線交易” 的策略,但同時提醒投資者,在相關晶片採購交易落地前需保持耐心。他表示,黃仁勳有望在 3 月中旬輝達年度 GPU 技術大會(GTC)上發佈新一代晶片,這一事件或將推動公司股價上行。 (EDA365電子論壇)
輝達緊急發聲!
輝達官方稱其技術領先行業一代,是唯一能運行所有AI模型並應用於所有計算場景的平台。周二(11月25日),輝達官方表示,其技術依然領先行業一代,是唯一能夠運行所有人工智慧(AI)模型並應用於所有計算場景的平台。分析認為,輝達此舉是為了回應華爾街對該公司在AI基礎設施領域主導地位可能受到Google晶片威脅的擔憂。輝達在社交平台X上發文稱:“我們對Google的成功感到高興——他們在人工智慧方面取得了巨大進展,而我們也將繼續向Google供貨。”“輝達領先行業整整一代——是唯一一個能運行所有AI模型、並在所有計算場景中部署的平台。”輝達補充道:“與專為特定AI框架或功能設計的ASIC(專用積體電路)晶片相比,輝達提供更高的性能、更強的通用性以及更好的可替代性。”此番表態發佈之際,有報導稱輝達重要客戶之一的Meta,可能與Google達成協議,在資料中心使用Google的張量處理單元(TPU)。受此影響,輝達股價日內一度跌超7%。上周,Google發佈了最新的大語言模型Gemini 3,多位業內權威人士認為其已經“超越”了OpenAI的GPT模型。該模型是使用TPU進行訓練的,而不是輝達GPU。分析師指出,輝達在AI晶片市場的份額超過90%,儘管Blackwell價格昂貴,但性能強大。不過,近幾周以來,Google的自研晶片作為Blackwell晶片的一種可行替代方案,受到了越來越多的關注。Google雲內部高管透露,擴大TPU的市場採用率,有望幫助公司搶佔輝達年收入份額的10%。不同於輝達,Google並不向其他公司出售其TPU晶片,但會將其用於內部任務,並允許企業通過Google雲來租用。Google發言人在先前一份聲明中提到:“我們對自研TPU和輝達GPU的需求都在加速增長。我們將一如既往地同時支援這兩種技術。”輝達CEO黃仁勳在本月早些時候的財報電話會上也談到了來自TPU的競爭。他指出,Google本身就是輝達GPU晶片的客戶,Gemini模型也可以在輝達的技術上運行。黃仁勳還提到,他一直與GoogleDeepMind的CEO德米斯·哈薩比斯(Demis Hassabis)保持聯絡。黃仁勳稱,哈薩比斯給他發簡訊表示,科技行業裡認為“使用更多的晶片和資料可以打造更強大的AI模型”的理論——也就是AI開發者常說的“規模化法則(scaling laws)”——依然成立。輝達認為,規模化法則將帶動對其晶片和系統形成更強勁的需求。 (科創板日報)
與OpenAI深度繫結,博通在陪Altman進行一場“AI豪賭”
博通與OpenAI合作開發定製晶片和AI基礎設施面臨高成本風險。如果OpenAI出現問題,相關系統難以轉移給其他客戶。博通CEO Hock Tan承認,雖然開發大型AI系統能提升盈利,但會稀釋毛利率,具體幅度未透露。相比輝達和AMD,博通對OpenAI的押注風險更大。博通與OpenAI的深度合作,是一場高風險與高回報並存的豪賭。周一華爾街見聞撰文,市場傳出博通將為OpenAI開發大量晶片及計算系統的消息,推動其股價周一飆升近10%。這項協議是OpenAI與包括輝達、AMD在內的全球頂級AI晶片供應商達成的一系列採購計畫中的一部分。據報導,OpenAI計畫投入數十億美元,用數十萬顆晶片填充資料中心,其總耗電量將達到26吉瓦,這一數字足以讓紐約市夏季的峰值用電需求相形見絀。然而,這僅僅是OpenAI首席執行官Sam Altman向員工透露的未來八年建設計畫的十分之一。然而,關鍵問題在於,OpenAI將如何為此買單尚不明朗。這家AI領域的明星初創公司今年的預計收入約為130億美元,雖已相當可觀,但遠不足以支撐Altman所描繪的龐大支出。該公司已告知投資者,預計到2029年才能實現盈利。對博通而言,這意味著它將大量資源押注於一個充滿不確定性的客戶。01 豪賭背後的潛在回報與風險對於博通而言,與OpenAI的合作描繪了巨大的商業前景,但也伴隨著對等的風險。Bernstein Research分析師Stacy Rasgon周一估計,該交易有望在未來三到四年內為博通帶來“遠超1000億美元”的額外收入。OpenAI的敘事邏輯是,人工智慧將實現指數級增長,如今因畏懼風險而猶豫不決的競爭者,未來終將被淘汰。Altman已討論通過新的融資工具為其雄心提供資金,而這日益依賴於大規模的債務。但對博通來說,這本質上是對一個高風險客戶的巨大押注。外界有理由懷疑,Altman的宏偉目標最終能否實現。如果OpenAI的增長未能達到預期,博通將面臨直接衝擊。相較於輝達或AMD,博通在這場賭局中的投入甚至更大,因為其合作的定製化性質決定了更高的成本。更關鍵的是,一旦OpenAI的業務陷入困境,這些專門為其開發的系統將很難轉移給其他客戶使用。博通首席執行官Hock Tan在近期與分析師Stacy Rasgon的討論中坦言,雖然開發大型AI系統將提振公司盈利,但也會稀釋其毛利率,儘管他並未透露具體幅度。從這個意義上說,博通對 OpenAI 的押注甚至比輝達或 AMD 更大。02 競爭加劇與估值難題儘管與OpenAI的合作看似風光,但博通在其定製晶片業務領域正面臨日益激烈的競爭,其高企的估值也令部分市場人士感到困惑。輝達和AMD仍在積極爭奪OpenAI的訂單,這可能引發價格戰,從而進一步擠壓博通的利潤空間。一個值得警惕的訊號是,博通定製晶片業務的核心客戶Google,已經開始與台灣的聯發科合作開發定製AI晶片。博通的股價目前約為其明年預期收益的40倍。在一定程度上,這得益於CEO Hock Tan在提升效率和搾取利潤方面的卓越往績,他將博通打造成一個盈利持續增長、整體毛利率超過70%的綜合性企業。但難以解釋的是,今年大部分時間裡,博通的遠期市盈率一直高於輝達。後者是AI晶片領域遙遙領先的市場領導者,並擁有更廣泛的客戶基礎。分析認為,與OpenAI的繫結或許能為博通未來數年的銷售增長奠定基礎,但考慮到OpenAI的宏大願景仍缺乏清晰的財務模型支撐,投資者不應將其視為一筆穩賺不賠的買賣。 (硬AI)