由於設計缺陷,輝達下一代Blackwell架構系列AI晶片GB200的出貨時間,將被推遲至少三個月。
美國司法部或對輝達啟動反壟斷調查,主要涉及一樁併購案和輝達的商業行為。雖然輝達面臨新的挑戰,但當前在產業中的地位一馬當先,從晶片平台到生態系統體系都元朝競爭對手。
一顆GraceCPU和兩顆BlackwellGPU組成的超級晶片GB200功耗達到恐怖的2700W。功耗也是創歷史新高,對應的液冷伺服器的需求也不可忽視。
GB200量產前出現問題
GB200晶片包含兩個相連的BlackwellGPU和一個GraceCPU。然而,在最近幾周台積電工程師為量產進行準備時,卻在連接兩個BlackwellGPU的裸晶上發現了設計缺陷。這一缺陷會導致晶片良率降低,通常做法是停止量產。
影響出貨量的核心問題與Nvidia的Blackwell架構設計直接相關。由於台積電的封裝問題以及Nvidia的設計,原始Blackwell封裝的供應有限。Blackwell封裝是首款採用台積電CoWoS-L技術進行封裝的大批次設計。
總結一下,CoWoS-L使用RDL中介層,其中嵌入了局部硅互連(LSI)和橋接晶片,以橋接封裝上各種計算和記憶體之間的通訊。
CoWoS-L是一項複雜得多的技術,但它代表著未來。Nvidia和台積電的目標是制定一個非常積極的計畫,每季度生產超過一百萬塊晶片。因此,出現了各種各樣的問題。
橋接晶片的放置需要非常高的精度,尤其是兩個主計算晶片之間的橋接,因為它們對於支援10TB/s晶片間互連至關重要。據傳,一個主要的設計問題與橋接晶片有關。這些橋接需要重新設計。還有傳言稱,Blackwell晶片頂部的幾個全域布線金屬層和凸塊需要重新設計。這是延遲數月的主要原因。
台積電原本計畫在2024Q3開始量產Blackwell系列晶片,並從Q4開始向輝達客戶批次發貨。然而,由於設計缺陷的發現,量產時間不得不推遲到Q4,批次出貨的時間預計要推遲到2025Q1。台積電為量產GB200保留了產能,但在問題解決之前,不得不讓產線閒置。
對台積電COWOS產能利用率的影響
報導下指出台積電的cowos產能缺口為兩周,因此今年剩餘時間有將會10k-5kwpm的產能分配給輝達的backwell生產。鑑於H100的強勁需求,缺口兩周時間這些閒置的cowos產能將會暫時生產H100兩周,後期將會滿足對backwell的強勁需求,因此不會對台積電形成較大影響。
GB200帶來的潛在機會
輝達Blackwell要到2025年才會正式大規模放量,取代現在的Hopper平台,成為高端主力,佔整體高端產品的近83%。
BlackwellB200單顆晶片的功耗就高達1000W,一顆GraceCPU和兩顆BlackwellGPU組成的超級晶片GB200更是恐怖的2700W。
查詢資料可知,Hopper系列的H100、H200GPU功耗都是700W,H20隻需要400W,Grace+Hopper超級晶片則是1000W。
輝達HGX伺服器每台預裝8顆GPU,NVL36、NVL72伺服器每台36顆、72顆GPU,整體功耗將分別達到70千瓦、140千瓦。
據悉,NVL36伺服器2024年底先上市,初期以風冷、液冷平行方案為主;NVL722025年跟進,直接優先上液冷,整體設計和散熱都複雜得多。
NVIDIA預計,GB200折算NVL36的出貨量在2025年預計可達6萬台,BlackwellGPU的總出貨量有望達到210-220萬顆。
伺服器液冷主要分為水冷板(ColdPlate)、冷卻分配系統(CoolantDistributionUnit,CDU)、分歧管(Manifold)、快接頭(QuickDisconnect,QD)、風扇背門(RearDoorHeatExchanger,RDHx)等五大零部件。
其中,CDU是最關鍵的部分,負責在整個系統內調節冷夜的流量,確保溫度可控。
曙光數創
公司主營業務為浸沒相變液冷資料中心基礎設施產品、冷板液冷資料中心基礎設施產品及模組化資料中心產品的研究、開發、生產及銷售。
公司產品線涵蓋浸沒相變液冷資料中心基礎設施產品、冷板液冷資料中心基礎設施產品、模組化資料中心產品、配套產品、服務等產品;產品廣泛應用於科研、能源、金融、網際網路等領域。
在國內率先實現將相變浸沒式液冷技術大規模應用到大型資料中心中,突破了能耗效率PUE的紀錄,推動了傳統高耗能資料中心建設模式升級。
飛榮達
風冷和液冷散熱核心供應商,AI驅動液冷方案加速滲透。
伺服器:公司向華為、超聚變等客戶提供散熱及電磁遮蔽等產品。客戶包括:華為、中興、思科、浪潮、新華三、超聚變、神州鯤泰等。
液冷散熱:液冷散熱將成為AI算力需求下最優選擇。公司提供伺服器液冷/虹吸(單相/雙相)等產品,具備技術與導熱相變材料等優勢。我們認為,未來全球伺服器產業鏈或進一步轉移至中國大陸,公司有望受益於AI驅動液冷散熱規模提升,以及液冷價值量增長,實現量價齊升。
液冷伺服器方案領導者,受益於AI算力需求,公司伺服器風冷:崑山品岱技術領先,客戶認可度較高;公司伺服器液冷:研發單相/兩相液冷技術,具導熱材料配方優勢;公司通訊業務:合作華為等優質客源,發展3DVC創新熱管理技術;液冷vs風冷量增:散熱/安全/能效比優,液冷市場規模增速較快;液冷vs風冷價增:液冷價值量提升,散熱廠商有望受益;冷板vs浸沒:相變浸沒式PUE收益最高,浸沒資料中心三年CAGR38%;全球化:伺服器產業或轉移大陸,公司對標奇鋐,液冷或快速成長。
浪潮資訊
浪潮資訊在2022年將“Allin液冷”納入公司發展戰略,在2023年上半年位列中國液冷伺服器市場佔比第一,佔據了中國液冷近5成的市場份額(IDC資料)。浪潮資訊能夠在競爭激烈的液冷市場以絕對優勢領跑,得益於公司前瞻的戰略眼光、領先的技術實力及完善的產品佈局。
技術方面,為從根源解決冷卻液洩露問題,浪潮資訊首創了液環式真空CDU,由於管路內均為負壓,徹底杜絕了漏液隱患;公司還創新研發了低流阻冷板,以使真空泵提供的動力能夠克服系統流阻,保證冷卻液穩定流動,同時使CDU距離末端冷板的距離由最大15m延伸到20m,更方便部署,大幅提高CDU利用率。
此外,浪潮資訊已擁有500多項液冷技術領域核心專利,已參與制定與發佈10余項冷板式液冷、浸沒式液冷相關設計技術標準,其中,浪潮資訊牽頭編制並行布的國內首批冷板式液冷核心部件團體標準,涵蓋冷板、連接系統、冷量分配單元、監控系統等方面,填補了冷板式液冷資料中心標準的空白。
沃澤有話說
今日,全球暴跌,“黑色星期一”,日本領跌,觸發熔斷機制。韓國方面,今日收跌8.8%,三星創2008年以來最大跌幅。台灣大跌8.4%,刷新單日跌幅紀錄。因此在該環境下大家要廣屯糧,緩稱王,資本市場大家不能用過去的方式方法去對待,切記控制倉位,把防範風險放在第一位。 (沃澤周期)
