#HBM4
漲幅超150%!三星HBM4對輝達供應價格看齊SK海力士!
11月27日消息,據韓國媒體dealsite報導,繼SK海力士完成了與輝達的HBM4供應價格談判之後,三星電子與輝達的HBM4供應價格談判也進入了最後階段。雖然三星電子此前供應的12層堆疊的HBM3E的單價相對較低,但是對於12層堆疊的HBM4的供應價格,三星電子的目標是與SK海力士持平,即維持在500美元中段左右,相比之前的HBM3E供應價格提升了超過150%。據業內人士透露,輝達在與SK海力士敲定明年的HBM4供貨合同僅一周後,便邀請三星電子參與明年HBM4供應的價格談判。目前談判已進入最後階段,預計年內將做出最終決定。一位熟悉該公司情況的官員表示:“我們目前內部判斷,三星電子的HBM4 的主要性能,包括速度,優於 SK 海力士的產品。”他還表示:“我們之前向輝達提供的12層堆疊的HBM3E價格相對較低,但我們正在與輝達談判,目標是以輝達與 SK海力士簽訂HBM4供應合同的價格相當。”此前的報導顯示,SK海力士和輝達最近達成的明年HBM4供貨價格約為500美元中段。考慮到SK海力士12層堆疊的HBM3E的定價在300美元中段,這意味著價格上漲超過50%。雖然SK海力士在台積電生產的HBM4晶片總成本比上一代產品增加了30%,但該公司獲得了相應的溢價,從而顯著抵消了成本負擔。目前,三星電子的HBM3E晶片價格比SK海力士的同類產品低約30%。一位消息人士解釋說:“三星電子此前已為輝達預留了HBM3E晶片,但由於認證延遲,導致產品無法及時出貨,迫使該公司緊急將產品供應給其他大型科技公司。這部分產品不得不以更低的價格出售,從而拉低了平均單價。” 據報導,三星電子的HBM3E晶片供應價格在200美元左右。顯示,三星電子要求對輝達供應HBM4的價格與SK海力士一致,這也意味著三星希望供應價格也能夠提高到超過500美元,相比之前的HBM3E的200美元供應價格提升了超過150%。需要指出的是,三星電子正在避免導致其在 DRAM 領域失去主導地位的錯誤,正在利用更先進的1c DRAM 的 HBM4的大規模生產,來確保對SK海力士的基於1b DRAM的HBM4的競爭優勢。而這或許也是三星電子要求對輝達供應HBM4的價格與SK海力士相當的底氣。另一方面,目前明年市場對於HBM4的需求已經超過了市場供應,畢竟目前只有SK海力士和三星電子具有HBM4量產供應能力,所以三星電子自然是不願意降低單價。一位半導體行業內部人士表示:“輝達對HBM4的需求如此之高,以至於三星電子希望以高價確保供應。目前,三星電子沒有理由降低單價。” 他補充道:“即使他們降價,價格差異也不會很大。” 這表明三星電子在談判桌上佔據相對優勢。另外,為了滿足市場對於HBM4的需求,提升對於SK海力士的競爭力,三星電子計畫在明年年底前將其HBM4的1C DRAM產能從目前的每月2萬片晶圓提高到每月15萬片晶圓。一位三星電子公司官員解釋說:“我們計畫明年將 1c DRAM 產能每月增加約 8 萬片晶圓”,並且“如果算上現有成熟工藝線改造為 1c DRAM的產能,我們明年每月將能夠分配約 15 萬個1c DRAM晶圓用於 HBM4。”HBM 樣品分為 WD(工作晶片)→ ES(工程樣品)→ CS(客戶樣品)三類。三星電子已於去年 9 月向輝達交付了 ES 樣品,認證結果將於本月公佈。一旦獲得批准,必須立即提交量產樣品。整個流程完成後,最終認證結果將於明年初公佈。業內人士最初預計,即便三星電子明年初通過最終認證並立即開始量產,產品出貨也要等到明年下半年。然而,隨著近期市場對輝達HBM4的需求激增,一些人預測三星電子最早可能在明年第二季度就開始供應晶片。這將打破SK海力士在上半年壟斷輝達HBM4供應的格局,並將兩家公司之間的供應差距從半年一次縮小到季度一次。然而,要實現這一願景,提早實現大規模量產必不可少。目前,三星電子1c DRAM的HBM4標準良率僅為50%。另一位半導體行業內部人士解釋說:“最大的挑戰是良率,而非質量。”他還表示:“雖然有人擔心發熱問題,但目前已得到顯著改善。包括輝達在內的主要客戶也更注重速度而非發熱,因此不存在重大問題。”三星電子的HBM4核心晶片採用1c DRAM,邏輯晶片則採用4nm工藝製造。雖然這種先進工藝相比競爭對手在速度和能效方面具有優勢,但也可能導致發熱。 (芯智訊)
儲存晶片+AI電力+CPO,這4家公司未來增長或超100%
今日,市場全天震盪走強,滬指成功重返4000點,受AI產業的持續推動,儲存晶片、AI電力裝置、CPO等領域表現尤為活躍。繼儲存晶片連續漲價後,昨日SK海力士再次釋放漲價消息,其與輝達就明年HBM4供應完成談判,HBM4單價較當前上漲超50%,高端儲存晶片價值持續上升。同時,受益於AI資料中心基建熱潮,全球主要AI客戶正大幅上調對1.6T光模組的採購預期,而CPO技術能解決其功耗高、散熱難等瓶頸,成為資料中心互聯關鍵技術。此外,微軟CEO近日指出,當前AI行業的核心瓶頸並非“算力過剩”而是“電力短缺”,電網裝置集體爆發,也使AI電力產業鏈的價值凸顯。今天我們為大家精選4家處於低位的潛力公司,它們在儲存晶片、CPO、AI算力用電等領域佈局,未來或持續受益於AI產業發展,成長空間可觀:第一家: 儲存晶片+HBM+CPO+PCB+資料中心+軍工公司概述:全球PCB製造百強企業、也是國內少數具備軍工四級資質的民企,公司PCB產品已用於資料中心、機器人、無人機等領域,14-16層HDI板量產能力匹配AI手機需求;能批次生產儲存晶片封裝基板、CPO光模組等,同時投資儲能項目。核心亮點:公司HBM封裝基板通過三星驗證,2025中國IC載板排名前十,股價目前不到20元,且今年以來呈上升趨勢。第二家:儲存晶片+CPO+先進封裝+華為海思+機器人+大基金持股公司概述:全球積體電路封裝測試行業前十企業,在國內外擁有9座生產基地,掌握包括CPO在內的多種先進封裝技術,其儲存晶片封裝產品已量產,與華為海思等知名企業形成穩定合作關係,深度繫結半導體國產替代與行業復甦。核心亮點:與智元機器人戰略合作,打開具身智能市場,2025三季報歸母淨利潤大增超50%,股價目前在10元左右,上升通道打開。第三家:資料中心+核電+儲能+特高壓+深海科技+新材料公司概述:公司是國內特高壓標準主導者,特高壓變壓器、電抗器市佔率領先,擁有核電、海上風電、充電樁、儲能等產品,中標沙烏地阿拉伯164億元訂單;且已為國內多個重點資料中心提供產品,近年來資料中心訂單增長迅速。核心亮點:近三年累計現金分紅超70億元,年均歸母淨利潤超100億元,股價與市盈率TTM目前都小於30,存在低估性,未來潛力巨大。第四家:資料中心+可控核聚變+核電+特高壓+晶片+量子科技公司概述:中國電氣裝備集團旗下,國內最具規模、成套能力最強的輸變電裝置生產基地,業務覆蓋80多個國家和地區;參與核電站及ITER項目,研發全球首套±800千伏高壓直流量子電流感測器,並中標馬來西亞資料中心業務。核心亮點:其研發的800VDC架構SST已在 “東數西算” 資料中心投運,公司連續5年歸母淨利潤實現增長,股價目前不到10元,增長勢頭強勁。 (智牛韜略)
請問這是陸股上市的哪幾家公司呢?
2
爆!HBM4漲價50%:輝達買單!
SK 海力士 HBM4 炸場!560 美元單價較上代飆漲 50%,搶先與輝達鎖明年訂單。手握 62% HBM 市佔率,Q3 利潤暴增 62% 破紀錄,9 月量產 HBM4 四季度出貨,2048 位介面 + 16 層堆疊技壓三星美光,明年業績穩沖歷史峰值!(Q3業績炸裂!SK海力士:全系DRAM/NAND 明年100%售罄!!)一、價格狂飆 50%!SK 海力士鎖死輝達,HBM4 王座穩了!560 美元!SK 海力士給 HBM4 的定價直接炸穿行業預期!較 HBM3E 的 370 美元暴漲超 50%,比此前業內猜測的 500 美元還要高出 10%,這波操作直接將 AI 儲存的 “身價” 抬到新巔峰。更狠的是,它已與輝達敲定明年供應協議,手握全球 AI 巨頭的訂單,等於攥住了行業的 “錢袋子”。要知道,SK 海力士本就手握 HBM 市場的半壁江山 —— 二季度 62% 的出貨量佔比碾壓美光(21%)和三星(17%),如今搶先量產 HBM4,直接把競爭壁壘堆到天際。三季度財報早已暴露其強勢底氣:營收 24.45 兆韓元同比暴漲 39%,營業利潤 11.38 兆韓元狂增 62%,史上首次突破 10 兆韓元大關,這還是 HBM3E 撐起來的戰績,HBM4 的爆發力不敢想像!二、技術 + 產能壟斷,AI 儲存話語權穩了!HBM4 的技術飛躍堪稱 “降維打擊”!介面位寬從 1024 位翻倍至 2048 位,頻寬衝破 2TB/s,16 層堆疊直接將容量拉到 64GB,更用 Advanced MR-MUF 工藝把晶片間隙壓到 7 微米內,解決了高堆疊的散熱死結。更狠的是它把速度幹到 10Gb/s,遠超 JEDEC 的 8Gb/s 標準,完美適配輝達 Rubin 平台對 15TB/s 總頻寬的變態需求。當三星還在追趕量產進度、美光樣品剛送檢時,SK 海力士已經在四季度啟動出貨,2026 年全面放量的計畫更是鎖死先機。這種 “技術先跑 + 產能卡位 + 客戶繫結” 的組合拳,讓其 HBM 市佔率有望穩在 60% 以上。隨著 AI 資料中心瘋狂擴張,HBM4 已成剛需,SK 海力士這波不僅賺得盆滿缽滿,更用一枚記憶體晶片,攥住了全球 AI 算力的命脈。 (芯榜)
噩耗!認證崩盤!美光 HBM4 被輝達 "否決"
出貨將推遲至2027年第一快閃記憶體消息:美光 HBM4 栽大跟頭了!因良率拉胯、傳輸速度不達標,直接被輝達驗證流程 “一票否決”,被迫啟動全面重造。而 SK 海力士已搶先量產 HBM4,三星也在加速送樣認證,美光供貨推遲至 2027 年,在 AI 記憶體生死戰中徹底落後,千億市場蛋糕恐被韓系雙雄瓜分!GF證券表示:“預計輝達的HBM4晶片出貨將推遲到2027年”,並補充道:“即使HBM4晶片的交付計畫推遲,也不會對美光的盈利造成重大影響。”一、認證崩盤!美光 HBM4 被輝達 "一票否決"AI 算力軍備賽的關鍵一役,美光直接摔出賽道!廣發證券香港分行報告驚雷炸響:美光 HBM4 因性能不達標、良率慘不忍睹,慘遭輝達驗證流程 "死刑判決"。核心癥結直指資料傳輸速度 —— 連客戶最基本的性能紅線都未能跨越,逼得這家美國儲存巨頭啟動全面架構重造。更致命的是時間窗口的丟失:原本瞄準 2026 年的量產計畫被迫延後,最悲觀預測指向 2027 年才能供貨。要知道,HBM4 作為 AI 伺服器的 "算力心臟",直接決定 GPU 的運算效率,而輝達、AMD 的下一代 GPU 已箭在弦上,2026 年量產計畫容不得半分等待。業內狠批:"這不是延遲,是主動退出下一代 AI 供應鏈的爭奪戰"。二、韓系雙雄狂奔!三星 SK 海力士搶食千億美元蛋糕就在美光陷入重造泥潭時,韓國雙雄已踩下量產油門,上演教科書等級的競速突襲。SK 海力士 9 月率先宣告完成全球首條 HBM4 量產線搭建,第四季度已啟動出貨,其產品不僅實現 10Gbps 速率超越 JEDEC 標準,更憑 2048 個 I/O 終端將頻寬翻倍,還硬生生把能效提升 40%。更關鍵的是,它已穩穩通過輝達驗證,攥緊 Rubin GPU 供應鏈入場券。三星則祭出 "良率殺器":1c DRAM 工藝良率突破 50%,HBM4 邏輯晶片良率飆至 90%,10 月底更在科技展上公開展出實品,敲定 2025 年底量產時間表。Counterpoint 資料顯示,SK 海力士已以 62% 份額壟斷市場,三星正蓄力衝擊 30% 份額,韓系雙雄合計掌控近 80% 市場,把美光 21% 的份額襯得岌岌可危。三、千億市場洗牌!遲到者恐遭 "驅逐"這場延遲絕非小事,而是關乎千億美元市場的生死判決。摩根大通預警:2026 年 HBM 市場規模將暴漲 70%,佔 DRAM 總市場 45%,2030 年更將衝至千億美金量級,而輝達一家就壟斷 60% 需求。偏偏 HBM4 比 HBM3E 有 30%-40% 價格溢價,誰能卡位量產誰就躺賺暴利。更殘酷的是行業鐵律:AI 供應鏈一旦定型,1-2 年內絕無替換可能。黃仁勳訪韓時那句 "三星 SK 海力士對 AI 至關重要",早已把美光排除在核心圈外。分析師戳破真相:"2026 年 HBM4 供應佔比將達 30%,2027 年更是飆升至 70%,美光若錯失這次,未來連喝湯的資格都沒有"。更要命的是,三星已打響價格戰,進一步壓縮遲到者的生存空間。三星降價搶佔HBM市場。點選看:無貨可賣!炸裂:三大原廠暫停DDR5報價!四、絕地反擊還是徹底出局?美光押注 "技術重生"絕境中的美光仍在頑抗,財報電話會議上拋出 "2026 年 Q2 量產" 的救命稻草,宣稱已送出 11Gbps 速率的樣品,還計畫在 HBM4E 時代轉由台積電代工,押注定製化方案拉高毛利。眼下其 AI DRAM 和 NAND 業務同比暴漲三倍,暫時能撐住營收體面。但現實骨感:HBM4 已轉向 16 層堆疊,無助焊劑鍵合等新技術門檻陡升,美光既要補性能短板,又要追良率差距,難度堪比登天。市場已給出預判:2026 年 HBM4 市場仍由 SK 海力士主導,三星緊追其後。這場 AI 記憶體的生死競速中,美光已被判罰 "遲到離場",能否改寫結局,全看其重造進度能否跑出奇蹟。 (第一快閃記憶體)
三星HBM4,首次亮相
三星首次向公眾展示了其 HBM4 記憶體模組,這表明這家韓國巨頭確實為即將到來的 HBM 競爭做好了準備。雖然目前市場以第五代 HBM3E 晶片為主,但業內觀察人士預計 HBM4 將成為明年的主要因素,因為 Nvidia 計畫在其下一代 AI 加速器 Rubin 中使用它。SK海力士目前是HBM3E的主要供應商,與Nvidia和台積電組成了三方供應鏈,目前已完成HBM4的開發,並正在準備量產。據報導,該公司正在與Nvidia洽談大規模供應事宜。對於長期佔據記憶體市場主導地位但最近在 HBM 領域失利的三星電子而言,新的 HBM4 系列被視為重新獲得競爭優勢的潛在遊戲規則改變者。在今年3月份的股東大會上,三星電子半導體部門負責人全永鉉誓言要按計畫推進HBM4產品的研發和量產,以避免重蹈公司此前在HBM3E市場遭遇的覆轍。根據研究公司 Counterpoint Research 的最新報告,SK 海力士在第二季度的 HBM 出貨量方面領先,佔有 62% 的份額,其次是美光科技公司 (21%) 和三星電子 (17%)。HBM4 是當今市場上最“尊貴”的計算必需品之一,主要是因為該記憶體模組將負責提升 AI 性能。三星、SK 海力士和美光等韓國 HBM 製造商正全力以赴,向全球展示具有競爭力的 HBM4 解決方案,以確保其應用。在主流 HBM 製造商中,三星是在該領域經歷多年低迷後強勢回歸的企業之一。在 2025 年半導體展覽會 (SEDEX) 上,三星向公眾展示了其 HBM4 工藝。據報導,三星正在避免重蹈覆轍,避免在 DRAM 領域失去主導地位。為了確保不落後,這家韓國巨頭正與競爭對手一起推進 HBM4 的量產。據《電子時報》報導,三星 HBM4 邏輯晶片的良率已達到驚人的 90%,這表明該公司的量產進度已步入正軌,更重要的是,目前預計不會出現延期。據報導,這家韓國巨頭還在實施多項策略,以確保HBM4的早期普及,包括保持有競爭力的價格、提供更高的產能,更重要的是,為NVIDIA等客戶提供更快的引腳速度(額定速度約為11 Gbps),高於SK海力士和美光的預期速度。目前,三星尚未獲得NVIDIA的HBM4供應批准,但考慮到該技術取得的進展,這家韓國巨頭無疑對此持樂觀態度。除了三星之外,SK海力士也在此次展會上展示了其與台積電合作開發的HBM4模組。考慮到三星的快速發展,以及市場需求達到前所未有的水平,可以肯定的是,DRAM市場的未來競爭將會更加激烈。三巨頭,競逐HBM 4SK 海力士、美光科技和三星電子正在展開激烈競爭,以爭奪 HBM4 市場的主導地位,該市場價值估計為 1000 億美元(141 兆韓元)。繼SK海力士上個月完成下一代HBM4開發並建立量產系統後,三星電子也已開始為HBM4的量產做準備。與此同時,美國美光公司近日宣佈,其下一代HBM4記憶體樣品已開始出貨,其性能和效率均創下了歷史新高。美光首席執行官 Sanjay Mehrotra 表示:“該模組實現了超過 2.8TB/s 的頻寬和超過 11Gbps 的針腳速度。”這些資料大大超過了 JEDEC HBM4 官方規範的 2TB/s 和 8Gbps。美光科技已開始出貨 12-Hi HBM4 樣品,以支援主要客戶平台的升級,並聲稱該產品提供業界領先的性能和一流的能效。該公司補充說,其 12-Hi HBM4 產品的主要差異化優勢包括美光科技的 1-gamma DRAM 以及基於 CMOS 的專有晶片和封裝創新。關於通過邏輯晶片定製選項擴展基礎設計的HBM4E,美光宣佈它不僅會提供標準產品,還會提供基礎邏輯晶片的定製選項。首席執行官 Sanjay Mehrotra 表示:“定製需要與客戶密切合作,我們預計採用定製基礎邏輯晶片的 HBM4E 將比標準 HBM4E 提供更高的毛利率。” 他補充道:“這項與台積電合作開發的技術,使 NVIDIA 和 AMD 等關鍵客戶能夠定製設計具有最佳化記憶體堆疊的加速器,以實現低延遲和更好的封包路由。”美光公司計畫今年在價值 1000 億美元的 HBM 市場中佔據比去年大幅提高的市場份額,並預計今年高頻寬記憶體領域的收入將超過 80 億美元。HBM領域龍頭企業SK海力士宣佈,已於3月份領先美光、三星等向NVIDIA等大客戶出貨12-Hi HBM4樣品,並於9月份開始準備量產。SK海力士出樣的12-Hi HBM4產品採用台積電12nm工藝製造邏輯晶片,相當於“大腦”,據稱資料處理速度超過每秒2TB(兆兆字節)。不過,目前尚不清楚這款產品是否超越了美光12-Hi HBM4產品,後者的頻寬超過2.8TB/s。SK Hynix 還計畫為其 HBM4E 系列提供“定製 HBM4E”產品,以滿足 NVIDIA、Broadcom 和 AMD 等客戶的需求。據報導,三星電子已於9月向NVIDIA等客戶交付了HBM4樣品,其運行速度提升至每秒11Gbps,與美光的規格一致。三星也正在為HBM4的量產做準備,目標是在今年內開始。 (半導體行業觀察)
輝達推動海力士"超頻"HBM4記憶體到10Gb/秒
當前,輝達正積極推動其記憶體合作廠商突破 JEDEC 組織為 HBM4 設定的官方性能標準。根據 TrendForce 的行業報告,該企業已明確要求 2026 年推出的 Vera Rubin 平台,需將記憶體堆疊的每針傳輸速度提升至 10Gb/s 水平。這一舉措的核心目標,是進一步拉高單 GPU 的頻寬表現,從而在性能上壓制 AMD 計畫推出的下一代 MI450 Helios 系統。按照 JEDEC 為 HBM4 規定的 8Gb/s 每Pin速率計算,若搭配全新的 2048 位介面,單個記憶體堆疊的傳輸速率會略低於 2TB/s。而當速率提升至 10Gb/s 後,單個堆疊的傳輸能力將直接達到 2.56TB/s。若採用六堆疊設計,單塊 GPU 的原始頻寬可實現 15TB/s 的突破。值得注意的是,輝達專為高負載推理任務打造的 Rubin CPX 計算最佳化配置,其整個 NVL144 機架據稱能實現每秒 1.7PB 的傳輸效率。顯然,記憶體針腳速度越高,輝達在其他硬體或軟體層面所需的性能冗餘就越少,更易達成目標傳輸數值。不過,要實現 10Gb/s 的 HBM4 運行速度並非毫無挑戰。更快的輸入輸出(I/O)速率不僅會導致功耗上升,還會對時序控制提出更嚴苛的要求,同時增加基礎晶片的運行壓力。對此,TrendForce 分析指出,若後續成本攀升或散熱問題超出預期,輝達可能會對 Rubin 系列產品的 SKU 進行層級劃分 —— 具體而言,Rubin CPX 版本或將搭載 10Gb/s 速率的記憶體部件,而標準版 Rubin 配置則會選用速率較低的堆疊。為應對潛在風險,輝達已在籌備備選方案,例如通過錯開供應商資質認證流程、延長產品驗證周期等方式,提升記憶體部件的良率水平。從供應商佈局來看,SK 海力士仍是輝達 HBM 產品的核心合作夥伴。該公司透露,目前已完成 HBM4 的研發工作,且具備量產條件,同時提及產品性能 “可超過 10Gb/s”,但尚未公開晶片具體規格、功率指標及製造工藝細節。與之相比,三星在晶片節點迭代上更為激進。其 HBM4 基礎晶片正轉向 4nm FinFET 工藝 —— 這一邏輯級工藝的優勢在於,能夠支援更高的時脈頻率,同時降低開關功耗。即便 SK 海力士當前的 HBM 出貨量更大,三星憑藉這一工藝升級,仍有望在高端 HBM 市場佔據競爭優勢。另外,美光也已確認推出 HBM4 樣品,該樣品採用 2048 位介面,頻寬表現超過 2TB/s,但暫未說明是否支援 10Gb/s 的傳輸速率。再看行業競爭格局,AMD 的 MI450 雖仍處於規劃階段,但其記憶體配置參數已初步曝光。據悉,該產品所屬的 Helios 機架,單 GPU 預計最高可支援 432GB HBM4 視訊記憶體容量。這一配置使得 AMD 在記憶體原始容量上,有望縮小與輝達的差距,甚至實現反超。此外,借助 CDNA 4 架構升級,AMD 也在進一步最佳化性能,力求抵消輝達 Rubin 平台在推理任務中的優勢。不難看出,輝達對提升記憶體速率有著明確的戰略訴求。但需要注意的是,該企業對 10Gb/s HBM4 的依賴程度越高,所面臨的不確定性風險也隨之增加: 無論是供應商間的技術差異、記憶體部件的良率波動,還是機架等級的功率限制,都可能對其計畫造成影響,而可供調整的容錯空間則會不斷縮小。 (IT前哨站)
SK海力士全球率先完成HBM4開發並建構量產體系
將以客戶行程及時供應業界最高效能HBM4,以鞏固競爭優勢相較於HBM3E,其頻寬擴大一倍,且能源效率也提升40%“不僅是突破AI基礎設施極限的一個標誌性轉折點,更是可解決AI時代技術難題的核心產品”2025年9月12日,SK海力士宣佈,已成功完成以AI為導向的超高效能記憶體新產品HBM4*的開發,並在全球首次建構了量產系統。SK海力士表示:“公司成功開發將引領人工智慧新時代的HBM4,並基於此技術成果,在全球首次建構了HBM4的量產體系。此舉再次向全球市場彰顯了公司在面向AI的儲存器技術領域的領導地位。”SK海力士HBM開發擔任趙珠煥副社長表示:HBM4的開發完成將成為業界新的里程碑。本公司將及時為客戶提供在效能、能源效率和可靠性方面都滿足需求的產品,以此鞏固在面向AI的記憶體市場的競爭優勢,並縮短產品上市時間(Time to Market)。隨著AI需求和資料處理量劇增,為實現更快的系統速度,對高頻寬*記憶體的需求也在激增。此外,資料中心龐大的耗電使得其營運負擔日益加重,記憶體的能源效率已成為客戶所要求的關鍵因素。藉此,SK海力士可望提升頻寬和能源效率的HBM4將成為滿足要求的最佳解決方案。這次全新建置量產體系的HBM4採用了較前一代產品翻倍的2048條資料傳輸通道(I/O),將頻寬擴大一倍,同時能源效率也提升40%以上。憑藉這一突破,該產品實現了全球最高水準的資料處理速度和能源效率。公司預測,將該產品引入客戶系統後,AI服務效能最高可提升69%,這項創新不僅能從根本解決資料瓶頸問題,還能大幅降低資料中心電力成本。同時,此次HBM4實現了高達10Gbps(每秒10千兆位元)以上的運行速度,這大幅超越JEDEC*標準規定的8Gbps(每秒8千兆位元)。本公司在HBM4的開發過程中採用了產品穩定性方面獲得市場認可的自主先進MR-MUF*技術和第五代10奈米級(1b)DRAM工藝,最大程度地降低其量產過程中的風險。SK海力士AI Infra擔當金柱善社長(CMO,Chief Marketing Officer)表示:「此次正式宣佈全球率先建構量產體系的HBM4,不僅是突破AI基礎設施極限的一個標誌性轉折點,更是可解決AI時代技術難題的核心產品。」又表示:「公司將及時供應器材供應器時代所需的最高品質和多樣化性能的全方位服務工具, Provider)'。* 高頻寬記憶體(HBM,High Bandwidth Memory):垂直連接多個DRAM,與現有的DRAM相比顯著提升資料處理速度的高附加價值、高效能產品。 HBM DRAM產品以HBM(第一代)-HBM2(第二代)-HBM2E(第三代)-HBM3(第四代)-HBM3E(第五代)-HBM4(第六代)的順序開發。* 頻寬(Bandwidth):HBM產品中的頻寬,指一個HBM封裝每秒可處理的資料總容量。* JEDEC(Joint Electron Device Engineering Council):國際半導體元件標準組織,該組織決定半導體裝置的規格。* 批次回流模製底部填充(MR-MUF,Mass Reflow Molded Underfill):在堆疊半導體晶片後,為了保護晶片間的電路,在其中填充液體保護材料,使其固化。有評價稱,與每堆一個晶片就鋪設薄膜型材料的方式相比,該技術提高了效率和散熱效果。特別是SK海力士的先進MR-MUF技術,較現有技術減少了晶片堆疊時所施加的壓力,提高了晶片的翹曲控制力(Warpage Control),這是確保HBM穩定量產的關鍵。 (半導體材料與製程裝置)
蘇姿丰宣戰“世界最強”!AMD發兩代旗艦AI晶片,全球首推432GB HBM4
算力飆漲、豪氣堆料,AMD展露全端AI實力。芯東西美國聖何塞6月12日現場報導,今日,年度AI盛會AMD Advancing AI大會火爆開幕,全球第二大AI晶片供應商AMD亮出其史上最強AI新品陣容——旗艦資料中心AI晶片、AI軟體棧、AI機架級基礎設施、AI網路卡與DPU,全面展露與輝達掰手腕的雄心宏圖。xAI技術團隊成員Xiao Sun、Meta工程副總裁Yee Jiun Song、甲骨文雲基礎設施執行副總裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相繼登台,與AMD董事會主席及首席執行官蘇姿丰(Lisa Su)博士對談。OpenAI聯合創始人兼CEO Sam Altman作為驚喜嘉賓壓軸登場,透露OpenAI團隊在MI300X和MI450上開展了一些工作。他評價說,MI450的記憶體架構已為推理做好準備,相信它也會成為出色的訓練選擇。此次AMD最新發佈或預覽的重點產品包括:1、資料中心AI晶片AMD Instinct MI350系列:採用3nm製程,整合了1850億顆電晶體,基於AMD CDNA 4架構,搭載288GB HBM3e記憶體,記憶體頻寬達到8TB/s,單GPU可運行5200億個參數的大模型,FP4/FP6精度下峰值算力達到20PFLOPS,達到上一代MI300X的4倍,推理性能達到上一代的35倍;跑DeepSeek R1模型時,推理吞吐量超過輝達B200。2、資料中心AI晶片AMD Instinct MI400系列(明年推出):專為大規模訓練和分佈式推理而設計,將FP4精度下峰值算力翻倍提升至40PFLOPS,FP8峰值性能達到20PFLOPS,搭載432GB HBM4記憶體,記憶體頻寬達到19.6TB/s,每GPU橫向擴展頻寬達到300GB/s,可實現跨機架和叢集的高頻寬互連,旨在訓練和運行擁有數千億和兆級參數的大模型。相比MI355X,MI400系列的性能提升高達10倍。▲相比MI355X,MI400系列的AI計算性能猛躥新高3、全新AI軟體棧ROCm 7.0:相比上一代,推理性能提升至4倍以上,訓練性能可提升至3倍,實現對GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等許多主流模型的Day 0級支援,可在筆記型電腦和工作站上開發,首度支援Windows系統。AMD還首次推出開發者云。4、下一代“Helios”AI機架級基礎設施(明年推出):AMD首個AI機架級解決方案,進一步提升AI計算密度和可擴展性,支援多達72塊MI400系列GPU緊密耦合,支援260TB/s的擴展頻寬,支援UALink,FP4峰值算力達2.9EFLOPS。蘇姿丰博士稱Helios是“世界上最好的AI機架級解決方案”。與採用輝達下一代Vera Rubin晶片的Oberon機架相比,Helios AI機架擁有同等的GPU域、縱向擴展頻寬,FP4和FP8精度下的性能也大致相同,HBM4記憶體容量、記憶體頻寬、橫向擴展頻寬分別提升50%。Helios整合了AMD EPYC “Venice” CPU、MI400系列GPU和Pensando “Vulcano” NIC網路卡。其中AMD EPYC “Venice”伺服器CPU將採用2nm製程,基於Zen 6架構,最多256核,CPU-to-GPU頻寬翻倍,代際性能提升70%,記憶體頻寬達到1.6TB/s。蘇姿丰博士還劇透了將於2027年推出的AMD下一代機架級解決方案。該方案將整合EPYC “Verano” CPU、MI500系列GPU、Pensando “Vulcano” NIC。AMD有三大AI戰略支柱:領先的計算引擎,開放的生態系統,全端解決方案。現場,蘇姿丰博士展示了AMD端到端AI計算硬體產品組合。全新Instinct MI350系列、ROCm 7軟體、AMD開發雲、AMD Threadripper和Radeon AI解決方案,都將在今年問世。蘇姿丰博士談道,AMD相信開放的生態系統對AI未來至關重要,並且是唯一一家致力於硬體、軟體和解決方案開放的公司。01.MI350系列:記憶體容量比B200多60%,8卡峰值AI算力達161PFLOPS據蘇姿丰博士分享,資料中心AI加速器TAM市場將每年增長60%以上,到2028年達到5000億美元,預計推理將在未來幾年內每年增長80%以上,成為AI計算的最大驅動力。AMD履行Instinct GPU路線圖承諾,繼2023年發佈MI300A/X、2024年推出MI325後,MI350系列今年第三季度上市,下一代MI400系列將在明年推出。目前全球10大AI公司中,有7家正大規模部署AMD Instinct GPU。MI350系列GPU是AMD當前最先進的生成式AI平台。MI350X和MI355X採用相同的電腦體系結構和記憶體,MI350X更適用於典型板卡功耗(TBP)較低的風冷,MI355X的訓練吞吐量、效率、功耗更高,更適用於液冷。和輝達B200/GB200相比,MI355X的紙面性能同樣能打,記憶體容量多出60%,FP64/FP32、FP6精度下的峰值性能翻倍提升,FP16、FP8、FP4精度下峰值性能相當。相比上一代MI300系列,MI355X重點對低精度資料類型進行了最佳化。FP16/BF16資料類型吞吐量提高到4k FLOPs/clock/CU,FP8資料類型吞吐量增加到8k FLOPs/clock/CU,FP6/FP4數值格式支援2倍的每CPU FP8速率。從表格中可以看到,MI355X的向量FP64峰值性能會比MI300X略低,矩陣FP64峰值性能幾乎只有MI300X的一半。8卡MI355X總共有2.3TB HBM3e記憶體、64TB/s記憶體頻寬,FP4/FP6精度下峰值算力可達到161PFLOPS。MI350系列GPU採用UBB8版型。每個節點搭載8塊GPU,通過153.6GB/s的Infinity Fabric雙向鏈路進行通訊。風冷機架最多可配備64個MI350系列GPU、18TB HBM3e。直接液冷機架最多可配備128個MI350系列GPU、36TB HBM3E,可提供高達2.6EFLOPS的FP4性能。02.1850億顆電晶體,多種先進封裝混搭MI350系列採用增強的模組化Chiplet封裝,電晶體數量從上一代的1530億顆增加到1850億顆,但核心總數減少。和前代相似,MI350系列GPU採用了多種3D和2.5D先進封裝技術。採用台積電N3P工藝的8個加速器Complex die(XCD)堆疊在2個採用N6工藝的I/O base die(IOD)上。每個XCD有32個CU(計算單元)、4MB L2快取。AMD還給每個XCD預留了4個CU,這些CU會根據需要被停用。IOD包含128個HBM3e通道、256MB Infinity Cache、第四代Infinity Fabric Link。中間Infinity Fabric先進封裝對分頻寬提升到5.5TB/s,通過Chiplet整合和統一記憶體架構實現更高的靈活性和擴展性,並通過降低匯流排頻率和電壓來降低非核心功耗。GPU與其它晶片通訊用的4代Infinity Fabric匯流排頻寬達到1075GB/s。相比上一代,MI350系列增加了更多記憶體容量和記憶體頻寬。通過矩陣核心增強和靈活的量化控制,與MI300X相比,MI350X的每CU峰值HBM讀頻寬提升多達50%。03.跑DeepSeek R1提速高達3倍,推理成本遠低於B200推理方面,當運行Llama 3.1 405B大模型,執行AI Agent與聊天機器人、內容生成、摘要總結、對話式AI等廣泛AI用例時,相比上一代MI300X,MI355X能實現2.6倍~4.2倍的推理性能提升。無論是運行DeepSeek R1、Llama 3 70B還是Llama 4 Maverick,MI355X都能實現3倍於MI300X的推理性能。在採用相同GPU數量、以FP4精度運行DeepSeek R1和Llama 3.1 405B模型時,相比輝達B200使用自研TensorRT-LLM推理引擎,MI355X使用SGLang、vLLM等開源推理框架的推理性能可提升20%~30%。運行Llama 3.1 405B模型時,MI355X使用vLLM的推理性能,與GB200使用TensorRT-LLM的性能相媲美。與B200相比,MI355X每美元可提供多出40%的token,相應也就能提供更低的推理成本。訓練方面,與上一代MI300X相比,在FP8精度下進行Llama 3 70B模型預訓練,MI355X可提供3.5倍的吞吐量;在微調Llama 2 70B時,MI355X可實現多達2.9倍的加速。與輝達B200、GB200相比,MI355X也能取得同等甚至更高的預訓練或微調性能。這意味著理論上MI355X能實現更快的訓練和推理,縮短從模型開發到部署的時間。04.ROCm 7:超3.5倍推理性能提升,支援桌面端與WindowsAMD的開放原始碼軟體戰略正在取得成效。在開源社區幫助下,AMD軟體生態系統發展突飛猛進。ROCm軟體棧是AMD為前沿模型訓練和大規模推理而設計的統一架構,在計算密度、記憶體、頻寬、擴展、互連方面提供領先優勢。AMD ROCm軟體生態系統持續最佳化推理和訓練性能,對Llama、DeepSeek等主流模型實現Day 0級支援,將發佈節奏從每季度加快到每兩周,持續改善開發者的開箱即用體驗。AMD還增加了捐贈開源社區的GPU數量。PyTorch、VLLM、SGLang、Hugging Face等公司或組織將免費獲得GPU,這樣就能持續整合測試,確保他們研發的軟體棧和新功能都能在AMD硬體上開箱即用。通過頻繁的更新、先進的資料類型(如FP4)和新演算法(如FAv3),ROCm正在實現下一代AI性能,同時推動開源框架(如vLLM和SGLang)比封閉替代方案更快地向前發展。ROCm 7將於2025年第三季度普遍可用,支援MI350系列GPU。AMD將在6月12日發佈一個公開預覽版,官方版本將於8月發佈。亮點包括:1、性能提升:與上一代ROCm 6版本相比,ROCm 7擁有超過3.5倍的推理能力和3倍的訓練能力。這源於可用性、性能和對低精度資料類型(如FP4和FP6)支援等方面的進步。通訊棧的進一步增強最佳化了GPU利用率和資料移動。▲ROCm的新推理功能推理方面,與上一代ROCm 6對比,ROCm 7在相同硬體上運行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型,可實現3.2~3.8倍的推理和訓練性能。AMD在訓練方面同樣擁抱開源,有自研的開源模型。AMD組建了一個AI科學家團隊,該團隊用AMD的軟體和硬體來研發模型(包括文字模型、文生圖模型、歐洲模型、多模態模型、遊戲Agent等),試圖實現最佳性能。▲新訓練功能這裡補充個插曲,歐洲模型源自AMD之前收購的芬蘭silo AI。silo AI一直致力於建構支援多種歐洲語言的模型,他們也跟法國明星大模型獨角獸Mistral AI合作。相比ROCm 6,ROCm 7在相同硬體上訓練Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等開源模型,可實現3~3.1倍的性能提升。2、分佈式推理:ROCm 7引入了一種健壯的分佈式推理方法,利用與開源生態系統的協作,包括SGLang、vLLM、llm-d等開源推理框架。通過採用開放策略,ROCm 7與這些合作夥伴一起建構、共同開發共享介面和原語,從而在AMD平台上實現高效的分佈式推理。輝達TensorRT-LLM工具不支援DeepSeek R1 FP8精度,但vLLM、SGLang等開源推理框架均可支援。由於AMD與這些開放原始碼軟體緊密合作,MI355X能取得更好的推理結果,吞吐量比B200高出30%。3、企業AI解決方案:ROCm企業級AI軟體棧作為一個全端MLOps平台首次亮相,專為企業環境中的無縫AI操作而設計,通過交鑰匙工具實現安全、可擴展的AI,用於微調、合規性、部署和整合。它包括針對行業特定資料進行模型微調的工具,以及與結構化和非結構化工作流的整合,通過AMD生態系統內的合作夥伴關係來開發參考應用,如聊天機器人和文件摘要。4、支援在Ryzen筆記型電腦和工作站上的開發:可執行AI輔助程式碼、定製自動化、先進推理、模型微調等任務,將ROCm體驗擴展到端側。AMD Ryzen AI 300筆記型電腦可本地運行240億個參數的AI模型。更專業的Ryzen AI Max筆記型電腦,本地可跑700億個參數的模型。Threadripper + Radeon AI工作站,本地可跑1280億個參數的模型。ROCm將支援In-Box Linux,並首度支援Windows作業系統。預計從2025年下半年開始,ROCm將出現在主要的發行版中,將Windows定位為一流的、得到全面支援的作業系統,確保家庭和企業設定的可移植性和效率。AMD還首次推出開發者云,讓開發者能夠即時、無障礙地訪問ROCm和AMD GPU,實現無縫的AI開發和部署。這個完全託管的環境提供了對MI300X GPU的即時訪問,無需硬體投資或本地設定,只需Github或電子郵件地址即可輕鬆設定。Docker容器預裝了流行的AI軟體,最大限度地減少了安裝時間,同時給開發人員定製程式碼的靈活性。其可擴展的計算選項包括:小型,1x MI300X GPU (192GB GPU記憶體);大型,8x MI300X GPU (1536GB GPU記憶體)。率先註冊的開發者可獲得25小時的免費積分,通過ROCm Star開發者證書等計畫可獲得最多50個小時的額外時間。05.“Helios” AI機架明年問世,搭載下一代3nm AI網路卡MI350系列機架基礎設施完全基於開放標準,可採用x86 CPU(5代EPYC)、Instinct GPU(MI350系列)、UEC Scale-Out NIC(AMD Pensando “Pollara” NIC)。明年,AMD將推出下一代AI機架基礎設施解決方案——Helios AI機架,將整合EPYC “Venice” CPU、MI400系列GPU、Pensando “Vulcano” NIC。該架構橫向擴展基於超乙太網路(Ultra Ethernet),縱向擴展基於UALink(Ultra Accelerator Link),並提供Fabric Manager作為ROCm生命周期管理的一部分,以支援基礎設施自動化。網路對於建構機架級規模的AI系統至關重要。為了擴大網路規模,AMD去年推出了Pensando Pollara 400 AI NIC。該NIC現可在MI350系統裡大規模部署。相比輝達ConnectX7、博通Thor2,AMD Pollara可實現高出10%~20%的RDMA性能。AMD使用UEC標準來推動創新。由於先進UEC功能運行在Pollara內部,AMD可將客戶的fabric成本降低16%,這個分析是基於8k GPU叢集。當將這些叢集擴展到32k、64k、128k時,成本和節省幅度會快速增加。作為MI400系列的一部分,下一代AMD Pensando “Vulcano” AI NIC將在2026年作為默認配置發貨。Vulcano採用3nm製程,提供800G網路吞吐量,每GPU的橫向擴展頻寬是上一代的8倍,支援UAL和PCIe Gen6,相比PCIe Gen6提供了2倍的頻寬,可擴展到100萬塊GPU,並具有完整的軟體向前和向後相容。這些優勢將直接轉化為更快的模型訓練和更好的推理性能,為客戶帶來巨大的經濟優勢。06.AI網路:UALink支援1024塊GPU互連,今年Q3推出全新DPUAI模型尺寸每三年增長1000倍,不僅需要更多的計算、記憶體,還需要更多的網路頻寬來進行訓練和分佈式推理。如今訓練資料集每8個月翻一番。這些需求都超過了晶片的發展速度,晶片電晶體密度每兩年才翻一番。唯一的方法是建構分佈式系統創新,實現AI晶片的資料中心級擴展。為了支援大量GPU一起工作,AMD與100多家公司一起成立了超乙太網路聯盟(Ultra Ethernet)。超乙太網路技術是乙太網路的進化,能擴展至輝達Infiniband的20倍、經典乙太網路的10倍。去年成立的UALink(Ultra Accelerator Link)聯盟旨在擴展將AI晶片網路規模,提供更高的頻寬、更低的延時。與輝達NVLink相比,UALink完全開放,由100多個聯盟成員支援,意味著客戶可以使用任何GPU、任何CPU和任何交換機來擴展他們的架構。UALink支援多達1024個GPU連接在一起的能力,是輝達NVLink支援GPU規模的2倍。在GPU系統連接的前端網路方面,AMD宣佈Salina 400 DPU將在今年第三季度推出,目標成為“目前市場上性能最好、最安全、可擴展的AI前端網路基礎設施”。Salina 400 DPU的性能達到上一代的2倍,相比輝達Bluefield 3 DPU性能提升40%。該DPU可安全橋接AI伺服器到企業,提高AI伺服器性能與網路、安全性、儲存解除安裝,引擎對網路功能的加速可達到CPU的40倍。自動化同樣不可或缺。ROCm  AI生命周期管理軟體,可將客戶的部署時間從幾個月減少到幾天。ROCm將在2026年推出Fabric Manager,確保使用者可自動部署機架級規模的應用,並自帶可靠性、可用性和可維護性。07.AMD設定2030年新目標:將機架級能效提高20倍能效長期是與AMD的路線圖和產品戰略相一致的指導核心設計原則。在2020年,AMD通過在短短六年內將AMD移動處理器的能效提高25倍,超額完成了25x20的目標。如今AMD已超越其30x25的目標(與2020年相比,將加速計算節點的能源效率提高30倍),在AI訓練和高性能計算方面,使用當前配置的4個MI355X GPU和一個EPYC第五代CPU,實現了38倍的節點級能效提升,與5年前的系統相比,在相同的性能下,能耗降低了97%。現在,AMD又設定了一個新的2030年目標,即在2024年的基礎上,將機架規模的能源效率提高20倍(幾乎是之前行業效率的3倍),使目前需要超過275個機架的典型AI模型到2030年能夠在一個機架內進行訓練,同時減少95%的營運用電量,將模型訓練的碳排放量從約3000公噸減少到100公噸。這些預測是基於AMD晶片和系統設計路線圖以及經能效專家Jonathan Koomey博士驗證的測量方法。結合軟體和演算法的進步,新目標可以使整體能源效率提高100倍。到2030年機架規模的20x目標反映了下一個前沿領域:不僅關注晶片,還關注更智能、更高效的系統,從晶片到全機架整合,以滿足資料中心級的功率需求。08.結語:全端佈局,豪賭AI計算未來AI基礎設施如今已是資料中心AI晶片兵家必爭之地。從今日釋放資訊來看,AMD面向整個機架級基礎設施的佈局已趨於完整,覆蓋從CPU、GPU、記憶體、網路、儲存、軟硬體協同設計到系統的性能與能效最佳化。隨著頂尖大模型性能增長放緩,產學界不再一味煉大模型,而是更多探索圍繞可持續、更經濟地擴展AI計算的相關創新,這正推動AI模型的訓練和部署效率持續提升。除了提升硬體性能與配置外,AI軟體棧和AI機架級基礎設施的最佳化,都成為AMD面向未來增強AI競爭力的重點投入方向。與輝達不同的是,AMD認定開源才能推動AI以最快速度進步,正堅定擁抱開源,建構一個完全開放的軟體生態系統。在演講尾聲,蘇姿丰博士強調:“AI的未來不會由任何一家公司或在一個封閉的生態系統中建立,它將由整個行業的開放合作來塑造成型。”作為全球資料中心AI晶片市場的第二名,AMD比第一名的包袱更輕,比後位者吞食市場份額的機會更大。而蓄勢待出的MI400系列和“Helios” AI機架級基礎設施,將蘊藏著AMD押注下一股AI浪潮、釋放生成式AI和高性能計算的機遇與潛力。 (芯東西)