#視訊記憶體
梁文鋒署名!DeepSeek再發炸裂論文:提出“條件記憶”新範式,徹底打破GPU推理視訊記憶體牆
當業界紛紛湧入MoE(Mixture-of-Experts)架構以實現高效擴容時,一個根本性的低效問題卻始終存在:強大的Transformer模型,本質上缺乏一種原生的“知識尋找”機制。它們被迫通過複雜的“動態計算”來模擬簡單的“靜態檢索”過程。例如,為了識別“戴安娜王妃”這樣的實體,模型需要消耗多層注意力與前饋網路資源,逐步建構其內部表徵。這無異於用高射炮打蚊子,浪費了寶貴的計算深度來自DeepSeek 的最新論文,為解決這一難題提出了一個全新的稀疏性維度:條件記憶(Conditional Memory)他們推出名為Engram的新模組,它以O(1)的恆定時間複雜度實現了可擴展的知識尋找,作為對MoE“條件計算”的有力補充。通過系統性研究,團隊揭示了一條指導兩種稀疏性權衡的U形縮放定律。依據該定律,他們建構了一個270億參數的Engram模型,在總參數量與計算量(FLOPs)完全相同的情況下,其性能全面超越了純MoE基線。令人矚目的是,這種提升不僅體現在知識密集型任務上(MMLU +3.4),更在通用推理(BBH +5.0)、程式碼(HumanEval +3.0)和數學(MATH +2.4)等領域取得了更大的收益。機理分析表明,Engram通過接管早期層的靜態模式重構任務,有效“加深”了網路,為複雜推理釋放了更多計算資源。同時,它將局部依賴關係的處理委託給尋找操作,從而解放了注意力機制,使其能更專注於全域上下文,極大地提升了模型的長文字處理能力(如Multi-Query NIAH任務得分從84.2提升至97.0)。更重要的是,Engram的設計充分考慮了系統效率。其確定性的尋找機制支援在執行階段從低速的主機記憶體預取資料,幾乎不產生額外開銷,從而打破了GPU視訊記憶體的瓶頸。論文地址:https://github.com/deepseek-ai/Engram語言模型的雙重任務:計算與檢索語言建模包含兩種性質截然不同的子任務:一是需要深度動態計算的組合推理,二是對本地、靜態、高度模式化的文字片段(如命名實體、慣用語)的知識檢索。經典的N-gram模型證明了,後一種任務通過廉價的尋找操作就能高效完成。然而,當前的LLM架構缺少這種原生尋找功能,導致它們必須通過計算來模擬檢索,造成了資源浪費。為了讓模型架構與語言訊號的這種二元性對齊,DeepSeek提出了“條件記憶”這一新的稀疏軸,與MoE的“條件計算”形成互補。• 條件計算 (MoE):稀疏啟動參數,處理動態邏輯。• 條件記憶 (Engram):稀疏尋找操作,檢索靜態知識。研究團隊提出的Engram模組,正是這一理念的具體實現。它以經典的N-gram結構為基礎,並融入了分詞器壓縮、多頭雜湊、上下文門控和多分支整合等現代化改造。Engram架構:兩階段實現高效尋找與融合Engram作為一個條件記憶模組,旨在將靜態模式儲存與動態計算在結構上分離。其工作流程分為兩個核心階段:檢索與融合1. 稀疏檢索:通過雜湊N-grams定位記憶首先,模組需要將局部上下文對應到靜態記憶條目。這包括兩個步驟:分詞器壓縮 (Tokenizer Compression):標準的分詞器常為語義等價的詞分配不同ID(如Apple vs. apple)。為提升語義密度,Engram首先通過一個預計算的對應函數,將原始Token ID壓縮為規範化的ID。多頭雜湊 (Multi-Head Hashing):直接參數化所有N-gram組合是不現實的。Engram採用基於雜湊的方法,為每個N-gram階數(如2-gram, 3-gram)配備K個獨立的雜湊頭,將上下文雜湊到不同嵌入表中的索引,以降低衝突。最終,所有檢索到的嵌入向量被拼接成一個記憶向量et。2. 上下文感知門控與融合檢索到的記憶向量et是靜態的、上下文無關的先驗知識,可能存在雜湊衝突或歧義。為瞭解決這個問題,Engram引入了受注意力機制啟發的上下文感知門控它將當前層的隱藏狀態ht(已聚合了全域資訊)作為Query,將記憶向量et投影為Key和Value。通過計算Query與Key的相似度,生成一個門控標量αt。這個標量決定了檢索到的資訊與當前上下文的匹配程度:如果匹配度低,門控值趨近於0,有效抑制噪聲。最後,通過門控的Value向量會經過一個輕量級的深度因果摺積,以擴大感受野並增強非線性。最終的輸出通過殘差連接融入到Transformer主幹網路中核心發現:稀疏性分配的U形定律為了量化MoE(計算)與Engram(記憶)之間的協同作用,研究人員提出了稀疏性分配問題:在固定的總參數和計算預算下,應如何在這兩者之間分配“稀疏容量”?他們定義了一個分配比例ρ,其中ρ=1代表純MoE模型,ρ<1則代表將一部分原用於MoE專家的參數轉而分配給Engram的嵌入表。實驗在兩個不同的計算規模(2e20和6e20 FLOPs)下進行,結果揭示了一條清晰的U形縮放定律:MoE主導 (ρ → 100%):模型缺乏專門的記憶模組,被迫低效地通過計算重構靜態模式Engram主導 (ρ → 0%):模型喪失了條件計算能力,無法處理需要動態、上下文相關推理的任務最佳平衡點:將大約20%-25%的稀疏參數預算分配給Engram時,模型性能達到最優。這一穩定的U形關係證明了條件計算和條件記憶在結構上的互補性。此外,在“無限記憶體”設定下,單獨增加Engram的記憶槽數量,模型性能也呈現出可預測的對數線性提升,證明了Engram是一個有效的、可獨立擴展的性能提升手段。大規模預訓練:性能全面超越,推理提升更顯著基於上述定律,研究團隊訓練了一系列模型,並與嚴格對等的基線進行比較。所有模型均在262B Tokens上訓練,並保持啟動參數量(3.8B)一致。Engram-27B:總參數26.7B,與MoE-27B基線相同。它將MoE專家的數量從72個減少到55個,並將節約的參數(5.7B)用於建構Engram記憶模組。Engram-40B:在Engram-27B基礎上,進一步將Engram記憶擴展至18.5B參數,總參數達到39.5B。實驗結果(Table 1)表明:1.稀疏模型優於密集模型:所有稀疏變體(MoE與Engram)均顯著優於同等計算量的Dense-4B模型2.Engram全面超越MoE:在參數和計算量完全匹配的情況下,Engram-27B在所有評估維度上都優於MoE-27B3.推理與程式碼數學領域增益尤為突出:雖然Engram在知識任務(如MMLU +3.4, CMMLU +4.0)上表現出色,但其在通用推理(BBH +5.0, ARC-Challenge +3.7)和程式碼數學(HumanEval +3.0, MATH +2.4)上的優勢更為顯著這證明了引入專用的知識尋找原語,能夠極大地提升模型的表徵效率,其益處遠不止於知識檢索本身。Engram如何工作?機理分析揭示“有效深度”增加為了探究Engram的內部工作機制,研究團隊使用了LogitLens和CKA(中心核對齊)兩種可解釋性工具。加速預測收斂:LogitLens分析顯示,與MoE基線相比,Engram模型的淺層網路就能生成更接近最終預測結果的表徵(KL散度更低)。這表明,通過直接尋找知識,Engram減少了模型逐步建構特徵所需的計算步驟提升有效深度:CKA分析則揭示了Engram模型與MoE模型之間的層間表徵相似性。結果顯示,Engram模型的淺層(如第5層)在功能上等價於MoE模型的深層(如第12層)結論很明確:Engram通過顯式尋找繞過了早期的特徵組合階段,在功能上等價於增加了模型的有效深度系統效率:解耦計算與儲存,打破GPU視訊記憶體牆Engram的一個關鍵優勢在於其系統設計。與依賴執行階段隱藏狀態進行動態路由的MoE不同,Engram的尋找索引完全由輸入Token序列決定,具有嚴格的確定性這一特性使得在推理時可以實現高效的 預取-重疊(prefetch-and-overlap) 策略:系統可以在GPU計算前序Transformer塊的同時,非同步地從大容量、低成本的主機記憶體(DRAM)甚至NVMe SSD中預取後續Engram層所需的嵌入。實驗在一個1000億參數的Engram層上進行了驗證。結果顯示,將整個嵌入表解除安裝到主機記憶體,所帶來的吞吐量懲罰峰值僅為2.8%,幾乎可以忽略不計。這證明了Engram能夠有效繞過GPU視訊記憶體限制,以極小的開銷實現參數規模的激進擴展。這意味著可以用較少/較低配的GPU(視訊記憶體有限)來運行一個總參數量極大的模型。這大大降低了模型的部署和使用成本寫在最後DeepSeek AI的Engram工作,為大模型稀疏化設計開闢了一個全新的、與MoE互補的軸線——條件記憶。通過將靜態知識檢索從動態計算中剝離,Engram不僅在知識任務上取得優勢,更在推理、程式碼、數學等複雜任務上實現了超預期的性能提升。這項研究的核心貢獻包括:1. 提出Engram模組:一個可擴展、系統高效的條件記憶實現。2. 發現稀疏分配的U形定律:為平衡計算與記憶提供了理論指導。3. 驗證了架構優勢:在同等參數和計算成本下,混合模型全面超越純MoE模型。4. 揭示了工作機理:Engram通過提升模型的“有效深度”來最佳化表徵效率。研究人員認為,條件記憶應成為下一代稀疏大模型不可或缺的建模原語,為建構更強大、更高效的智能系統鋪平了道路。我彷彿已經看到了v4的影子 (AI寒武紀)
DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要動 AI 用了 10 年的“承重牆”?
DeepSeek 又扔了個王炸。本來準備躺平過節(嗯,是真的躺著了),結果睜眼發現一篇新論文 mHC(流形約束超連接)突然刷屏。我看了一眼作者列表,直接“垂死病中驚坐起”——最後一位赫然寫著:Wenfeng Liang(梁文鋒)。圖:DeepSeek CEO 梁文鋒署名熟悉 DeepSeek 的都知道,這位 CEO 極少在技術論文上親自署名。老闆親自掛帥,還選在新年第一天發,說明這事兒絕對不簡單。讀完我才發現,他們這次竟然要革深度學習祖師爺 ResNet 的命。聽起來很狂?但我研究了一下原理,發現這幫人是真有東西。01|從何愷明的“神來之筆”說起要看懂 DeepSeek 的操作,我們得先回看一眼歷史。2016年,大神何愷明(Kaiming He) 團隊提出了 ResNet,徹底解決了深層網路訓練不動的難題。其中的核心設計叫“恆等對應”。圖:何愷明,深度殘差網路(ResNet)的主要發明者打個比方,這就像在迷宮裡修了一條“直通車道”。訊號可以無腦地從這一層傳到下一層,不被中間商賺差價。正是因為有了這條路,今天的 ChatGPT、DeepSeek 這些結構極深的龐然大物才跑得起來。但問題是,對於現在胃口越來越大的模型來說,這一條“單車道”漸漸不夠用了。於是,學術界搞出了一個叫 HC(Hyper-Connections,超連接) 的東西。(主要來自字節跳動 2024 年發表的論文)HC 的想法很美好:既然單車道不夠,那我就擴建成多車道唄!它把殘差流變寬(n倍),讓資訊在不同車道間亂竄、混合,以此來提升模型的能力。圖:三代架構進化史:(a) 是經典的“單車道” ResNet; (b) 是路修寬了但沒紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。但問題來了,這一擴建,出事了。原來的 ResNet 是“直通車”,很穩。現在的 HC 變成了“無紅綠燈的超級路口”。論文裡的資料特別嚇人:在 HC 的架構下,訊號在網路裡傳著傳著,就會因為缺乏管束而瘋狂膨脹。看原論文裡的資料,HC 的訊號增益幅度峰值直接幹到了 3000!(下圖右側)圖:HC 的訊號增益幅度峰值直接幹到了 3000這意味著啥?意味著訊號被放大了 3000 倍。這就像早高峰的十字路口沒有紅綠燈,車全撞在一塊了,這就是典型的“訊號爆炸”。結果就是:模型訓練極其不穩定,錯誤率(Loss) 說炸就炸,根本沒法在大規模模型上用。02|DeepSeek 的解法:數學暴力美學面對這種“車禍現場”,一般人的思路可能是:“那我就少修兩條路吧。”但 DeepSeek 的思路是:路我要修,但我要請一個懂數學的交警。這就是 mHC(流形約束超連接)的核心邏輯。他們發現,只要把那些負責指揮交通的矩陣,強行按在一個叫“雙隨機矩陣”的數學規則裡,問題就解決了。別被這個數學名詞嚇跑,它的原理其實也挺簡單,就像“能量守恆定律”:不管你在路口怎麼變道、怎麼混合,進來的流量總和,必須嚴格等於出去的流量總和。既不允許車子憑空消失(訊號衰減),也不允許憑空變出車來(訊號爆炸)。為了做到這一點,DeepSeek 用了一個叫 Sinkhorn-Knopp 的演算法,像是給矩陣戴上了“緊箍咒”。不管這矩陣原來長啥樣,經過這個演算法一處理,它就必須變得老老實實,行和列的加和都得等於1。這就很漂亮了。它保留了多車道互聯帶來的資訊豐富度(性能提升),又把訊號嚴格限制在了一個安全的範圍內(穩定性),完美致敬了何愷明當年追求的“恆等對應”精神。03. 效果怎麼樣?直接看療效理論吹得再好,還得看實驗。還記得剛才說 HC 的訊號增益飆到了 3000 嗎?用了 mHC 之後,這個數字被死死按在了 1.6 左右。從 3000 到 1.6,這是直接降低了三個數量級!這也直接體現在了訓練曲線上:穩如老狗: mHC 的訓練 Loss 曲線(藍線)極其平滑,跟基線模型幾乎一樣穩。圖:mHC 的訓練 Loss 曲線極其平滑性能更強: 在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務上,提升非常明顯。圖:在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。04. 不止是數學,更是工程上的“摳門”讀 DeepSeek 的論文,你永遠能感覺到他們那種“把算力榨乾到最後一滴”的執著。因為把路修寬,本來是一件非常費視訊記憶體、費時間的事。如果不做最佳化,記憶體訪問成本(I/O)會增加好幾倍,這誰受得了?所以 mHC 不僅僅是一個數學創新,還是一套工程最佳化方案。算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計算合併成一步,減少 GPU 讀寫記憶體的次數。重計算(Recomputing): 為了省視訊記憶體,他們選擇在反向傳播時重新計算中間結果,而不是一直存著。通訊重疊: 利用 DualPipe 策略,把額外的通訊時間“藏”在計算時間裡。結果就是:在擴展率為 4 的情況下,mHC 帶來的額外訓練時間開銷,僅僅只有 6.7%。用極小的代價,換來了模型性能和穩定性的雙重提升。這種“又好又省”的風格,確實很 DeepSeek。寫在最後說實話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術,而是他們“死磕底層”的態度。特別是在現在,大家都忙著卷應用、卷 Agents 的時候,他們願意回過頭去修補 AI 的“地基”。ResNet 已經統治了深度學習這麼多年,大家都覺得它是完美的。但 mHC 告訴我們:只要你不迷信權威,那怕是地基,也有重修的可能。mHC 這種架構,或許不會馬上改變你的生活,但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。 (AI范兒)
因DRAM上漲,日本秋葉原開啟對16GB及以上視訊記憶體顯示卡限購措施
挺合理的日媒 ITmedia報導,隨著 2025 年最後一個周末到來,東京秋葉原的各家店舖紛紛進入大促模式,不過記憶體和儲存相關產品的供應緊張局面依舊沒有緩解。其中,Dospara 秋葉原本店的店主表示:“記憶體價格依然在持續上漲。不過我們還是儘量留了一些庫存,因此從目前來看,應該不會出現‘特意跑來卻無法把整台電腦配齊’的情況”。另一方面,一些店舖的顯示卡貨架已經開始出現空位,與記憶體和固態硬碟相比,雖然顯示卡的價格上漲趨勢不算明顯,但有商家冷靜地指出:“這更多是庫存周轉速度的差異,漲價恐怕只是時間問題”。這種背景下,TSUKUMO eX.等部分店家開始對輝達 RTX 5060 Ti 16GB、AMD Radeon RX 9000 系列顯示卡採取限購措施,每名顧客限購 1 張。該店舖還表示:“大容量視訊記憶體的顯示卡現在非常難進貨。雖然我們目前還有庫存,但下一批貨什麼時候到、甚至還會不會到,都很難說”。而且,類似的不安情緒開始在多家店舖中蔓延,某家電腦店舖的店主坦言:“這波短缺潮不僅波及高端顯示卡,像 RTX 5060 Ti 和 RX 9060 XT 這種同時有 8GB 和 16GB 視訊記憶體的中端產品也受影響,16GB 版本以後恐怕很難再補貨了”。由於 DRAM 產能持續吃緊,華碩、惠普、戴爾等頭部廠商在記憶體配額上頻頻受阻。為緩解壓力,廠商開始繞過中間管道,直接與三星、SK 海力士、美光等談判,希望通過長期供貨協議鎖定 DRAM 資源。 (AMP實驗室)
傳輝達因DRAM短缺已停止向GPU主機板合作夥伴提供視訊記憶體
11月27日消息,業內傳聞顯示,由於DRAM記憶體晶片供應緊缺、價格持續上漲,輝達已經停止向GPU板卡合作夥伴出售GPU捆綁的視訊記憶體,導致合作夥伴自行採購所需的視訊記憶體才能生產顯示卡。這似乎很合理,因為輝達本身不生產視訊記憶體,它主要也是向三星、SK海力士和美光採購。過去,輝達提供視訊記憶體與GPU捆綁銷售給GPU板卡合作夥伴的選擇,可幫助合作夥伴降低單獨採購視訊記憶體的成本。現在,輝達不再捆綁視訊記憶體銷售,這也意味著持續的DRAM短缺已經失控到連輝達都難以把控。對於大型GPU板卡廠商來說,也有自行採購GDDR來進行整合的,因為這已經是標準做法。他們有足夠的人脈和經驗,能夠遵循輝達的規範,並保持獨立來源的視訊記憶體與參考設計保持一致。但現在的問題是,他們能夠拿到足夠的視訊記憶體,並且還要具有價格優勢,否則成本將會面臨大幅上漲。而中小型的GPU板卡廠商可能會受到更大的影響。值得注意的是,由於記憶體供應短缺和漲價,顯示卡巨頭輝達和AMD都考慮暫停生產入門及部分中端顯示卡,以優先將手上的DRAM用於高端顯示卡產品,以便降低成本壓力,並提升獲利。此外,傳聞還顯示,AMD已向合作夥伴發佈通知,宣佈將對顯示卡價格漲價10%以上。 (芯智訊)
AMD與NVIDIA顯示卡計畫明年漲價:視訊記憶體漲的太快了
目前記憶體正迎來了史上前所未有的漲價潮,記憶體價格也跟火箭一樣,一天一個價,甚至未來記憶體價格還將上漲,讓消費者叫苦不迭。當然除了記憶體之外,視訊記憶體的報價也是水漲船高,達到了前所未有的程度,作為兩大GPU供應商,AMD以及NVIDIA已經明顯感受到儲存上漲帶來的成本壓力,預計將會在今年底或者明年初通知顯示卡漲價,到時候大家購買顯示卡又要花上不小的一筆錢。據悉,這一次成本壓力主要在於GDDR視訊記憶體的成本上漲,包括GDDR6以及GDDR7視訊記憶體顆粒都迎來了一波漲價潮,這波漲價潮直接影響就是NVIDIA的GeForce RTX 50 SUPER系顯示卡的發售時間,原本計畫年底或者CES 2026發佈的RTX 50系SUPER顯示卡現在估計要到2026年下半年才能和大家見面了。除此之外,AMD和NVIDIA的現有顯示卡預計也將迎來一波漲價潮,當然考慮到視訊記憶體供應的滯後性,預計這波漲價潮將會在2025年12月或者2026年初正式到來,包括AMD以及NVIDIA已經開始向廠商通知相關的漲價通知,原因當然就是視訊記憶體報價的提升,其中影響最大的就是像GeForce RTX 5090這樣的擁有32GB視訊記憶體的產品。NVIDIA GeForce RTX 50系顯示卡自從年初發佈之後,像是GeForce RTX 5090這樣的旗艦顯示卡就一直處於溢價的狀態,最近才恢復到建議零售價,然而這麼一操作,售價又要上去,並且零售價還會有溢價,也就是說大家要加價不小的一筆錢去購買如今的顯示卡,再加上暴漲的記憶體以及SSD,年末裝機實在是有些尷尬。 (ITheat熱點科技)
顯示卡要降價了:輝達命令三星將GDDR7視訊記憶體大幅增產,訂單量增加100%
翻倍下單?韓國媒體ETNEWS報導,據其消息管道透露,輝達已向三星電子要求擴大GDDR7視訊記憶體的工藝,訂單數量相比之前增加多達一倍,要求三星電子盡快做好準備。因此,三星電子已開始擴大GDDR7視訊記憶體的生產,增加了裝置以及GDDR7視訊記憶體所需的材料和零件。目前,擴產的所有準備工作已經完成,而擴充後的供應鏈計畫最早於本月開始運行,其消息人士稱:“三星已應輝達的要求完成擴建,量產箭在弦上。”GDDR DRAM是一種專門用於視訊和3D圖形處理的記憶體。它具有比普通 DRAM 更高的頻寬,用於顯示卡和遊戲機。GDDR7是國際半導體標準化組織(JEDEC)規定的圖形DRAM標準中性能最高的產品。輝達要求三星電子提高GDDR7產量,據說是由於AI加速器的生產需求。同樣的需求也給到了高頻寬記憶體(HBM),但據稱輝達開發了一款新的AI加速器,它使用 GDDR7 來滿足特定需求和市場,這裡很可能指的是之前傳說中的Blackwell架構的B40,準備瞄準中國市場。顯然B40資料處理能力低於現有的B100,但是可以規避美國政府對AI晶片的出口法規。而輝達向三星翻倍下單GDDR7視訊記憶體,即表示B40即將在國內市場開始大量供應。之前輝達H20通過了美國政府的許可,雖然代價是銷售的一部分利潤將被抽成給他們,但這也表示,一切所謂的限制,都是商榷的餘地。實際上,三星並不是輝達的GDDR7視訊記憶體獨家供應商,此前輝達GeForce RTX 5070Ti推出後不久,就傳出輝達同時開始向海力士和美光開始訂購GDDR7視訊記憶體。最早的時候有消息傳出,三星將獨佔桌面級顯示卡的GDDR7視訊記憶體供應,但是很顯然,以當時三星的產能,沒法滿足輝達的需求。目前,採用GDDR7視訊記憶體的只有RTX 50系顯示卡,而新一代的視訊記憶體成本雖然相比整卡不算高,但相比上一代成本價格是翻倍有餘了。如果三星能夠大幅增產GDDR7視訊記憶體,勢必會讓RTX 50顯示卡乃至後續的3GB顆粒實裝的SUPER升級版本價格更合理和穩定。同時,三星電子也在推動向輝達交付第六代HBM記憶體(HBM4),作為真正在計算密集型產業中的硬需求產品,HBM以高溢價撐起了三家相當多的利潤,基本上HBM記憶體的產量是要多少就收多少。因此,三星在HBM記憶體業務上更加要上心。 (AMP實驗室)
英特爾大視訊記憶體GPU放猛料:性價比拉滿,本地跑DeepSeek-R1,性能秒RTX 5060Ti
陳立武表露對“新英特爾”的期許。芯東西5月20日報導,台北國際電腦展COMPUTEX 2025今日盛大開幕,晶片產業領袖雲集,陳立武首次以英特爾CEO身份赴台,並與台灣供應鏈夥伴餐敘。英特爾更是一舉發佈多款GPU和AI產品,包括英特爾銳炫Pro B50/B60 GPU、Gaudi 3 AI加速器、輕量級開放原始碼軟體框架Intel AI Assistant Builder,展露其在AI及專業視覺領域的最新佈局。英特爾銳炫Pro B60/B50 GPU基於Xe 2架構,具備AI特性,為要求嚴苛的AI推理工作負載和工作站應用而設計,進一步豐富了英特爾專業級GPU產品線。其中,銳炫Pro B60配備24GB視訊記憶體,AI峰值算力為197TOPS,適用於推理工作站;銳炫Pro B50配備16GB視訊記憶體,AI峰值算力為170TOPS,適用於圖形工作站。兩款GPU均搭載英特爾XMX AI核心和先進的光線追蹤單元,並支援多GPU擴展,通過將高視訊記憶體容量與關鍵軟體相容性相結合,為創作者和AI開發者提供了可擴展的、經濟高效的解決方案。銳炫Pro B50直接面向零售市場,建議零售價為299美元(約合人民幣2159元),性價比優勢突出。銳炫Pro B60將主要通過B2B模式進行項目採購,正在與多家系統整合商和OEM廠商進行合作。華擎、藍戟、Lanner、銘瑄、傲世、Senao和撼與科技等AIB合作夥伴將於今年6月開始提供英特爾銳炫Pro B60 GPU樣品。英特爾銳炫Pro B50 GPU將於今年7月開始在英特爾授權經銷商處上市。有合作夥伴將提供銳炫Pro B60的單卡雙GPU方案,板載視訊記憶體容量達48GB。英特爾Gaudi 3 AI加速器提供PCIe和機架級系統部署選擇,為企業和雲AI推理提供可擴展的開放解決方案。英特爾Gaudi 3 PCIe卡支援在現有伺服器資料中心環境中進行可擴展的AI推理,將於今年下半年上市。在CES 2025首次亮相後,英特爾AI Assistant Builder軟體框架現已在GitHub上提供公開測試版。該框架專為在基於英特爾AI PC上本地建構和運行自訂AI agents而設計,可幫助企業或個人快速建構並部署AI agents。01. 銳炫Pro B50:AI性能提升至3倍,性價比較RTX A1000翻番英特爾銳炫Pro B50 GPU實現了同類價位段最高配置:擁有16個Xe核心,配備16GB視訊記憶體、128 XMX引擎,視訊記憶體頻寬為224GB/s,AI峰值算力(Int8)為170TOPS,單卡功耗僅70W。PCIe Gen 5速度的提升也會帶來10%-20%的性能提升。與同類產品對比,銳炫Pro B50的視訊記憶體容量、驅動程式最佳化、PCIe Gen 5提升均表現更優。同類產品通常配備6GB或8GB視訊記憶體。與上一代產品及競品相比,銳炫Pro B50在圖形和AI推理性能上有1.1倍~3.5倍的提升。在通用性能方面,銳炫Pro B50相比上一代產品提升50%~130%。其性價比不僅相較銳炫Pro A50、輝達RTX A1000翻倍提升,比起銳炫Pro A60也略勝一籌。該系列GPU在Windows上相容消費級和專業級驅動程式,在Linux上支援容器化的軟體棧。其軟體棧可以簡化AI部署,並支援逐步升級和功能最佳化。新發佈的兩款GPU針對AEC(建築、工程、施工)和推理工作站進行了最佳化,並通過大量ISV認證和最佳化的軟體提供穩定、可靠的性能。英特爾副總裁兼客戶端顯示卡總經理Vivian Lien稱,全新英特爾銳炫Pro GPU為一直在尋求針對性解決方案的中小型企業,提供了易於獲取且可擴展的解決方案。02. 銳炫Pro B60:AI峰值算力197TOPS,跑DeepSeek-R1倍殺RTX 5060Ti銳炫Pro B60擁有20個Xe核心,配備24GB視訊記憶體、160 XMX引擎,視訊記憶體頻寬為456GB/s,AI峰值算力(Int8)為197TOPS,根據不同系統設計,單卡功耗區間為120~200W。從性能來看,銳炫Pro B60運行DeepSeek-R1、Phi 4、QwQ、Qwen 2.5、Llama 3等模型時,相比輝達RTX 2000 Ada 16GB、RTX 5060Ti 16GB的吞吐量更高。更大參數規模的模型,需要更大的視訊記憶體。7B模型若採用FP16進行推理,至少需要16GB視訊記憶體。70B模型採用INT4量化,需要超過30GB的視訊記憶體,若採用FP16,視訊記憶體需求更是將超過100GB。通過多卡互連,銳炫Pro B60能夠以更大的視訊記憶體容量,來支撐大模型運行,並在上下文和並行擴展方面展現優勢。一張銳炫Pro B60跑不了32B參數量的DeepSeek-R1蒸餾模型,但2張GPU就能支援20k tokens上下文,4張GPU可將上下文窗口擴展到100k以上,足以直接輸入一本不太厚的書或論文。企業級應用場景對並行性提出了更高的要求。在設定8k上下文窗口的情況下,單張銳炫Pro B60無法支撐DeepSeek-R1 32B FP8精度模型的運行。使用兩張顯示卡時,系統可支援5-6個並行使用者。而當採用四張顯示卡、利用全部96GB視訊記憶體時,系統可支援超過50個並行使用者,足以滿足中小企業的大部分需求。英特爾自己也用銳炫Pro B60來解決問題。在開發酷睿Ultra第二代Lunar Lake產品時,英特爾在VPC解碼過程中發現了一個Bug,表現出現破圖現象。這類問題通常非常複雜,可能跨越多個軟體層,且程式碼量巨大。一位經驗豐富的工程師通常需要花費數天時間,從數萬行log中發現問題,debug找到根源,並提供程式碼修複方案,然後重新進行測試。而英特爾在配備4張銳炫Pro B60和至強W處理器的伺服器上部署運行多AI agent協同方案,僅花費數小時便完成了從問題定位到程式碼修復的全過程,並最終完成了所有問題的修復和重新測試。03. 8張銳炫Pro B60互連,可跑1500億參數大模型推理工作站具有廣闊的發展前景,主要體現在:1)安全部署,資料無需上傳至雲端,可在本地處理;2)提供一站式解決方案,將所有軟體置於容器中,幫助客戶解決問題,易於設定;3)易於擴展,可靈活配置不同數量的顯示卡;4)成本效益具有顯著優勢。英特爾發佈了一款可配置的工作站級英特爾至強平台(代號Project Battlematrix),旨在減少AI開發人員的摩擦點。借助高達192GB的視訊隨機存取儲存器(VRAM),它最多可支援8張英特爾銳炫Pro B60 24GB GPU,運行高達1500億個參數的中等規模且精度高的AI模型。為了最佳化AI推理性能,英特爾在底層軟體上引入GPUDirect Peer-to-Peer技術,可在GPU之間直接複製資料,不需要CPU參與。此外,其張量平行演算法則可以把一張顯示卡放不下的大模型平均切分到4張或者是8張卡上進行推理,然後把結果合併輸出給使用者。英特爾採用容器化方案來幫助客戶解決軟體部署的複雜性問題,在容器內部對大語言模型進行了大量的最佳化,包括Linux軟體棧的支援、驗證以及分階段的軟體發佈。其Project Battlematrix Linux軟體棧如下圖所示,Linux作業系統位於容器之外,往上是使用者層驅動,Level 0是英特爾的底層驅動,再向上是英特爾OneAPI和XPU Manager,上層是英特爾對生態系統的支援。目前該軟體棧採用vLLM Serving,未來也將支援SGLang等其他開放原始碼軟體。英特爾對各層軟體進行了完整的驗證和最佳化,並通過容器形式一鍵交付給客戶,以方便部署。英特爾還展示了軟體功能路線圖,預計第三季度發佈經過完整驗證和產品化的容器,第四季度推出SR-IOV、VDI虛擬桌面的軟體性能最佳化以及完整的管理功能。04. 英特爾Gaudi 3:PCIe卡AI峰值算力達1678TFLOPS,機架級配備8.2TB HBM英特爾進一步推進其AI戰略,推出英特爾Gaudi 3 AI加速器的全新部署方案。英特爾Gaudi 3 PCIe卡配備128GB HBM2e,FP8精度下AI峰值算力達到1678TFLOPS,支援在現有伺服器資料中心環境中進行可擴展的AI推理。以AI大模型Llama為例,得益於可擴展配置,可靈活運行從輕量級Llama 3.1 8B到規模較大的Llama 4 Scout或Maverick等各種規模的AI模型。英特爾Gaudi 3機架級系統參考設計帶來了極大的靈活性和可擴展性,每個機架最多可容納64個加速器,並擁有高達8.2TB的高頻寬記憶體(HBM)。其機架級架構針對大型AI模型進行深度最佳化,可提供即時推理性能。開放式模組化設計打破了供應商的限制,而有線背板和盲插2D全機架布線讓安裝和維護變得更加簡單。通過液冷,這些系統可提供強大的性能,並有助於TCO的控制。這些配置支援雲服務提供商(CSP)的定製化需求和開放計算項目(OCP)設計規範。英特爾承諾建構開放、靈活和安全AI基礎設施。05. 結語:英特爾邁向全面轉型,力補AI產品實力,強調“執行力”與“說真話”此次新品發佈正值英特爾與台灣科技生態系統合作40周年。英特爾進一步擴大專業級GPU陣容,提供大視訊記憶體、高性價比以及為AI推理和專業工作站量身定製的配置,並展示了其AI加速器產品及AI Assistant Builder的可用性。這些新產品有望為英特爾開闢新的局面。在英特爾台灣40周年晚宴活動上,陳立武發表致詞,談到英特爾將全面轉型,重回工程導向,不僅做CPU,還要建構完整的AI計算系統,包括晶片、軟體、儲存、互連及工作負載整合,並強化與台灣科技供應鏈及客戶的交流合作。陳立武再度表露改造英特爾的決心和策略,以及對“新英特爾”的期許。英特爾在PC市場有超過68%的市佔率,在伺服器市場有55%的市佔率。據陳立武透露,一些客戶反饋為了提高系統性能,正在評估推動開發定製晶片。陳立武強調了兩個目標:打造好產品,令客戶滿意。為此,他讓英特爾工程團隊直接向他匯報,確保做出正確的晶片產品,並積極招募人才。他告訴團隊:“如果你不先告訴我壞消息,而是讓我從客戶口中得知,那你就麻煩大了。我要的是誠實、真實的文化。”此次來台行程中,陳立武拜訪了許多OEM客戶,聽到很多反饋。“你會看到一個全新的英特爾。”他相信英特爾未來將以更謙卑、更開放的態度,主動傾聽客戶聲音,不僅要推出好產品,更要讓生產穩定、準時、品質穩定。“我相信只要持續執行、執行、執行,就能讓英特爾恢復元氣。”陳立武說,他不是搞行銷的,不會吹噓表現,英特爾將用成果說話。 (芯東西)
價格真香,英特爾發佈24G大視訊記憶體顯示卡!
5月19日,英特爾在台北國際電腦展上發佈了Arc Pro B系列工作站顯示卡,最高24G的大視訊記憶體容量,還有良心的價格,讓英特爾獨顯瞬間閃耀著吸引力。也馬上引起了我的好奇,我想說,囊中羞澀的等等黨再也不用盼著老黃大發慈悲才能用大視訊記憶體顯示卡了。英特爾這次發佈了Arc Pro B50和B60兩張顯示卡,肯定有人想知道跟輝達的顯示卡比起來怎麼樣。翻了資料發現,基本面上,這兩張卡相較於輝達的50系顯示卡,硬體條件差了點兒。英特爾的這兩張顯示卡都支援GDDR6,而輝達的50系支援GDDR7視訊記憶體。此外,B50和B60目前採用的是台積電的N5工藝,而輝達50系則支援N4工藝。所以,看待英特爾的這兩張卡,合理控制預期很重要。不要想著能對輝達造成多大壓力,能認識到它的差異化優勢,找到場景用起來最重要。英特爾Arc Pro B50,全面超越 RTX A1000B50是一款專為圖形工作站設計的緊湊型顯示卡,配備16GB GDDR6視訊記憶體,視訊記憶體位寬128,可提供 224 GB/s 的視訊記憶體頻寬。零售價為299美元,初步估算,約合人民幣2000出頭。B50採用緊湊的雙插槽設計,適用於輕薄小型圖形工作站,額定總板載功率為70W。它擁有16個Xe核心和128 個XMX引擎,可提供高達170 TOPS 的峰值運算能力。B50的16GB視訊記憶體遠超同等級、同價位的主要競爭對手,後者通常配備6或8GB視訊記憶體。都2025年了,8G視訊記憶體真的越來越不夠用了,更別提6G的了。英特爾發佈了一系列與輝達RTX A1000 8GB和上一代A50 6GB 的基準測試結果。在圖形工作負載方面,英特爾聲稱其性能比上一代A50提升了高達3.4倍,並且全面超越 RTX A1000。在一系列AI推理基準測試中,它也展現出類似的優勢。英特爾Arc Pro B60,24G大視訊記憶體太香了Arc Pro B60則是給AI推理工作站準備的,它配備了24GB GDDR6視訊記憶體,這種配置是此前輝達RTX 3090和RTX 4090這種旗艦卡才能擁有的,50系可能要等到5080的加強版才能給出24G。輝達的Geforce旗艦顯示卡價格不用我多說了吧。現在丐一點的4090都得1.6萬,5090的溢價更嚴重,有的都快逼近三萬了。英特爾的B60大約需要500美元,約合人民幣3600多就能拿到24G視訊記憶體的顯示卡,真的香。美中不足的是,B60的視訊記憶體位寬只有192,視訊記憶體頻寬456 GB/s。相比之下,RTX 5070的視訊記憶體位寬雖然也是192,不過,視訊記憶體是GDDR7,視訊記憶體頻寬672.0 GB/s,搭配12G的視訊記憶體,整體的資料吞吐效率依舊更勝一籌。雖然B60在視訊記憶體容量方面佔據明顯優勢,但由於視訊記憶體速度和頻寬的限制,它在高負載、高解析度、尤其是AI訓練和某些專業應用場景中,可能無法充分發揮全部視訊記憶體的性能潛力,實際用起來還得參考實測資料。B60擁有20個Xe 核心和160 個XMX引擎,峰值 TOPS 可達 197,功耗為120 至 200W。它支援在一塊板子上放置2個B60 GPU晶片,銘瑄的雙GPU顯示卡就利用了這一特性。英特爾的基準測試再次凸顯了B60的24GB視訊記憶體相對於輝達RTX 2000 Ada 16GB 和RTX 5060Ti 16GB GPU 的優勢,可以在各種 AI 模型中帶來比競爭對手高達 2.7 倍的提升。英特爾推出了叫“Project Battlematrix”的計畫,就是讓Arc Pro B60預裝到推理工作站裡,把硬體和軟體結合起來,做了一些最佳化,打造一個統一的工作站解決方案。Battlematrix項目工作站採用英特爾至強處理器,最多可配備8個GPU、192GB的視訊記憶體,支援運行700億參數的模型。售價在5000美元到10000 美元之間。多家合作夥伴都推出了自己的方案英特爾的合作夥伴推出了很多方案,最離譜的就是銘瑄,它真的如傳聞所說,開發了一款基於B60 GPU的雙GPU顯示卡。什麼是雙GPU顯示卡?簡單說,就是一張顯示卡上焊了兩塊顯示卡晶片。其他合作夥伴包括華擎、撼與科技、藍戟、Senao、Lanner 和 Onix(傲世),也都推出了自家的方案(看圖片,目前都以渦輪版為主,三風扇的只有一個),好像比此前A系列發佈時候的合作夥伴要多。不過,這幾家除了華擎和藍戟,我都不太熟。目前沒看見華碩、技嘉、微星、索泰、七彩虹等常見顯示卡品牌的合作,這幾家與輝達合作密切,也都盼著輝達多供貨,不敢讓老黃不高興啊Orz。英特爾的合作夥伴建構了多個demo。有外媒在現場的報導中提到,有一個demo展示的是在單機8卡的系統上運行滿血版Deepseek。不過,DeepSeek的256個專家模型是在CPU上運行的,最常用的專家模型則是在GPU上運行。這套Demo也挺有意思,8張24GB的B60肯定不能跟現在很多DeepSeek一體機的8張H20的配置直接對比。所以,這裡的方案有一些特殊性,希望有機會能看到更多資訊。最後要說的是,英特爾Arc Pro B50 和英特爾Arc Pro B60將於2025年第三季度上市。如果打算入手,你想拿它做什麼呢? (雲體驗師)