#冷卻技術
重大突破!全球首個採用“金剛石”冷卻技術H200伺服器完成交付!
01.全球首個“金剛石”冷卻技術輝達H200服務器完成交付鑽石冷卻®技術的先驅Akash Systems, Inc.宣佈在人工智慧基礎設施領域取得重大里程碑:向印度最大的自主雲服務提供商NxtGen AI PVT Ltd交付全球首批鑽石冷卻GPU伺服器。此次交付的產品配備了全球能效和資本效率最高的NVIDIA H200 GPU伺服器,並整合了Akash專有的Diamond Cooling®散熱技術。這項創新預計將在高溫資料中心內將GPU計算能力提升前所未有的15% ,同時顯著降低總體擁有成本(TCO)。“鑽石冷卻技術解決了人工智慧基礎設施競賽中最棘手的兩大難題——能源效率和資本效率,” Akash Systems聯合創始人兼首席執行長Felix Ejeckam博士 表示。 “在計算能力提升1%到2%都意義重大的今天,15%的提升更是顛覆性的。我們很榮幸能與NxtGen合作,共同完成這項史無前例的部署。”02.熱管理材料革新,而非系統重構從資料中心熱管理技術演進的角度來看,Akash Systems推出的 Diamond Cooling® 本質上代表了一種“從材料與晶片層級重構散熱路徑”的思路,與傳統風冷、冷板液冷和浸沒液冷形成明顯差異。過去幾十年資料中心散熱始終圍繞系統級展開,無論是風冷還是液冷,核心邏輯都是在晶片封裝之外建構換熱介面,例如當前主流的GPU伺服器(如基於NVIDIA H200)的熱路徑大致為:晶片 → 封裝 → 導熱介面材料(TIM)→ 冷板或散熱器 → 冷卻介質。隨著AI算力密度爆發,這條路徑中的介面熱阻成為瓶頸,尤其是熱點(hotspot)區域溫度高企,導致GPU頻率受限、降頻甚至壽命下降。Diamond Cooling®的核心優勢在於將高導熱金剛石材料直接整合到半導體或封裝結構中,使熱量在產生的第一時間就被快速擴散,從而顯著降低熱點溫度和局部熱阻,這是一種“源頭級散熱”,而不是傳統意義上的“末端散熱”。與風冷相比,其最大差異在於不再依賴空氣換熱能力的提升,風冷的極限來自空氣熱容和對流效率,隨著AI伺服器單櫃功率逼近甚至超過100kW,單純提高風速或最佳化風道已難以滿足需求;Diamond Cooling®則通過降低晶片結溫,使風冷在一定功率區間內仍可延續,從而延緩液冷基礎設施投入。與冷板液冷相比,冷板液冷通過液體帶走封裝層面的熱量,可以大幅降低整體溫度並提升PUE,但其本質仍然依賴晶片與冷板之間的介面傳熱,熱點區域溫差仍較大,而金剛石導熱可顯著降低封裝內部溫差,使冷板系統更加高效,甚至在相同流量和冷卻能力下獲得更高算力輸出。與浸沒液冷相比,浸沒技術通過完全消除空氣介面並提升換熱係數,在系統層面具有最強散熱能力,但依然無法解決晶片內部熱點問題,同時還面臨維運複雜度、材料相容性及生態成熟度挑戰;Diamond Cooling®則可以與浸沒結合,在不改變資料中心基礎架構的前提下進一步降低晶片溫度,提高系統穩定性和壽命。從產業邏輯來看,這一技術的優勢不僅在於溫度降低和性能提升,更在於改變AI算力競爭的關鍵變數——功率密度和能效。隨著AI GPU功耗持續攀升,未來算力提升越來越依賴散熱能力,誰能更有效地控制晶片溫度,誰就能釋放更高頻率和更高利用率。因此,Diamond Cooling®與風冷、冷板液冷、浸沒液冷並非簡單替代關係,而是形成分層協同:風冷與液冷解決系統層熱管理,浸沒解決高密度場景,而金剛石導熱解決晶片與封裝層的根本熱阻問題。這意味著未來資料中心散熱體系可能從“單一系統方案競爭”轉向“材料+封裝+系統多層協同”,在AI時代形成新的技術路徑。03.從金剛石Diamond Cooling®看AI晶片的散熱未來:材料+封裝+系 統的協同發展目前全球AI晶片廠商輝達也在陸續推進金剛石熱管理相關技術研究,近期也在和國內廠商推進聯合開發用,可以看出AI晶片廠商對熱管理材料的重視程度和系統的協調發展。回到金剛石材料端,從行業演進角度看,金剛石散熱正在成為AI算力時代一個極具戰略意義的方向。以Akash Systems為代表的技術路徑,本質上標誌著散熱從“外部輔助功能”轉向“晶片架構的一部分”,這背後反映的是AI功率密度不斷突破極限所帶來的系統性變革。過去幾十年,散熱一直被視為IT基礎設施中的配套工程,核心創新集中在空調、風道、冷板和冷卻液等系統層,但隨著高功率GPU和AI伺服器(例如NVIDIA H200等架構)的發展,功率密度已經逼近材料與封裝極限,傳統路徑逐漸難以支撐未來算力增長,這正是金剛石散熱興起的核心背景。首先,從技術層面來看,金剛石散熱最大的優勢在於其極高的熱導率。天然或合成金剛石的熱導率可達2000 W/mK以上,是銅的數倍,是矽、碳化矽等傳統半導體材料的顯著提升。這意味著在晶片熱點區域,熱量可以以更快速度橫向擴散,降低局部溫度峰值。對於AI晶片而言,這一點尤為關鍵,因為GPU並不是均勻發熱,而是存在明顯熱點,這些熱點通常決定了頻率、穩定性和壽命。金剛石材料能夠在熱量尚未擴散至封裝層之前進行快速均溫,顯著降低熱點溫度,從而提升性能上限並減少降頻。這種能力與傳統系統級散熱完全不同,後者更多降低平均溫度,而無法根本解決局部熱阻問題。其次,金剛石散熱不僅提升熱性能,還帶來系統級能效優勢。隨著AI叢集規模不斷擴大,資料中心的電力瓶頸逐漸顯現,散熱效率直接影響PUE和整體算力成本。如果晶片溫度降低,可以減少風扇功耗、降低冷卻液流量需求,並延長裝置壽命,從而降低維運成本。從長期來看,這種材料級散熱有可能成為降低算力成本的重要路徑之一。尤其在高溫環境或電力緊張區域,晶片級熱管理可以顯著提高系統穩定性,使資料中心在更寬環境條件下運行。第三,金剛石技術具有很強的協同潛力,而不是替代現有液冷方案。未來的散熱體系更可能呈現分層結構:材料層解決熱點問題,封裝層最佳化熱擴散,系統層負責熱量搬運。這一模式意味著風冷、冷板液冷、浸沒液冷不會消失,而是與金剛石技術形成互補關係。例如,在冷板液冷架構中,金剛石可以降低晶片結溫,使冷板設計更加簡單,減少泵功耗和流體複雜度;在浸沒液冷系統中,金剛石可以降低氣泡形成和局部熱失控風險,提高可靠性。因此,未來競爭的焦點不再是單一技術路線,而是多層協同能力。從產業趨勢看,散熱正從單一輔助功能轉變為“材料+封裝+系統”的綜合工程。過去,晶片設計完成後再由系統廠商解決散熱問題,但AI時代這一邏輯正在改變。未來,散熱將成為晶片架構設計的重要輸入變數。例如,在先進封裝中,熱管理已經與Chiplet、3D堆疊和HBM整合深度耦合,封裝結構將同時最佳化電、熱和機械性能。金剛石基底、金剛石中介層甚至熱導通孔等方案,將成為先進封裝的重要組成部分。這意味著半導體材料公司、封裝廠、伺服器廠和資料中心營運商之間的協同將不斷增強,行業邊界逐漸模糊。這一趨勢將推動散熱產業鏈上移。未來競爭不再侷限於冷板設計或冷卻液最佳化,而是延伸至晶圓材料、介面工程和封裝技術。類似TSMC、Intel等先進封裝能力強的廠商,可能成為散熱創新的重要參與者。同時,伺服器OEM、雲廠商也可能直接參與散熱材料選擇,因為這將直接影響算力效率和資本回報率。總結來看,金剛石散熱的意義不僅在於導熱性能提升,更在於改變了散熱的產業邏輯。未來熱管理將從“系統層最佳化”轉向“材料、封裝與系統的協同設計”,成為晶片架構和算力競爭的重要組成部分。誰能夠在材料級散熱、先進封裝和系統級液冷之間形成閉環能力,誰就更有可能在AI算力時代獲得長期競爭優勢。這種趨勢也預示著,資料中心散熱正在從基礎設施領域向半導體核心技術延伸,成為下一輪技術和產業變革的重要方向。 (零氪1+1)
輝達重要合作夥伴預測10年後晶片功耗將達功耗15360瓦!浸沒和嵌入式液冷將成為必選
01.Kaist Teralab預測晶片TDP將達15360瓦近日,輝達的重要晶片研發合作夥伴韓國科學技術研究院(Kaist Teralab)發表文章稱:目前AI GPU 的功耗穩步上升,預計未來 AI 處理器整合更多計算能力和 HBM 晶片,功耗還將持續飆升。預計未來 10 年,AI GPU 的熱設計功耗 (TDP) 將一路飆升至 15,360 瓦。未來需要相當極端的冷卻方法,包括浸入式冷卻甚至嵌入式冷卻。同時韓國科學技術研究院(KAIST)的領導Joungho Kim教授最近在接受《The Elec》採訪時指出,冷卻技術將成為未來HBM技術競爭的關鍵。隨著領先的記憶體製造商在 HBM 開發方面取得進展,一旦 HBM5 進入商業化階段(可能在 2029 年左右),冷卻技術預計將成為一個關鍵的競爭因素。這意味著,未來晶片性能的差異,不再僅僅依靠誰的運算更快,而是誰的冷卻做得更好。Kim 還解釋說,雖然封裝目前是半導體製造的主要差異化因素,但隨著 HBM5 的到來,冷卻的重要性將顯著提升。他進一步指出,隨著從 HBM4 開始,基礎晶片開始承擔 GPU 的部分工作負載,導致溫度升高,冷卻變得越來越關鍵。目前 HBM4 使用的液冷方法(冷板式液冷)在未來將面臨侷限性。為此,HBM5 結構預計將採用浸沒式冷卻,將基座晶片和整個封裝都浸入冷卻液中。這裡解釋一下什麼是HBM:HBM(High Bandwidth Memory)是一種將多個DRAM晶片垂直堆疊,並通過矽通孔(TSV)進行高速連接的三維記憶體結構。相比傳統的DDR記憶體,HBM擁有更高的資料傳輸速度、更小的佔板面積,並且功耗更低。在目前的AI晶片中,比如NVIDIA的H100或AMD的MI300系列,HBM已經成為核心配置之一。尤其是在訓練像GPT-4或大模型時,HBM能將數千億參數的訪問延遲降低到極小。但問題也隨之而來:資料吞吐越快,發熱就越多(下方是目前主流晶片的HBM架構,主要是HBM3架構)。韓國科學院對未來10年與輝達晶片功耗和冷卻方案做出的大膽預測。02. 未來的 HBM 架構和冷卻創新由金教授領導的韓國科學技術研究院(KAIST Teralab)公佈了HBM4至HBM8的技術路線圖,涵蓋2025年至2040年。該路線圖概述了HBM架構、冷卻方法、TSV密度、中介層等方面的進展。金教授還指出,正如報告所示,預計通過異構和先進的封裝技術,基礎晶片將轉移到HBM堆疊的頂部。目前,風冷系統(包括銅散熱器和高壓風扇)可以滿足輝達 H100 AI 處理器。然而,隨著 輝達的 Blackwell 將其散熱功率提升至 1200W,Blackwell Ultra 又將其 TDP 提升至 1400W,液冷解決方案几乎成為必需。接下來2026年的Rubin 的散熱性能將進一步提升,TDP 將提升至 1800W;而 Rubin Ultra 的 GPU 晶片和 HBM 模組數量將翻倍,TDP 也將一路飆升至 3600W。韓國科學技術研究院 (KAIST)的研究人員認為:輝達及其合作夥伴將在 Rubin Ultra 中使用直接晶片 (D2C) 液冷技術,但對於 Feynman,他們將將使用更強大的冷卻技術。韓國科學技術研究院 (KAIST) 的研究人員預測:AI GPU 模組(尤其是 Nvidia 的 Feynman)的功耗將達到 4,400W,而業內其他一些消息人士則認為,Nvidia 的 Feynman Ultra 的 TDP 將提升至 6,000W。如此極端的散熱要求需要採用浸入式冷卻技術,即將整個 GPU-HBM 模組浸入液體中。此外,此類處理器及其 HBM 模組預計將通過熱通孔 (TTV) 引入,TTV 是矽基板上專用於散熱的垂直通道。這些 TTV 將與嵌入 HBM 模組基片中的熱粘合層和溫度感測器配對,以實現即時熱監控和反饋控制。預計到 2032 年,浸入式冷卻將足夠好,屆時後 Feynman GPU 架構將把每個封裝的 TDP 提高到 5,920W(後 Feynman)甚至 9000W(後 Feynman Ultra)。GPU 模組中的主要功耗是計算晶片。隨著後 Feynman 時代 HBM 堆疊數量增加到 16 個,並且 HBM6 的單堆疊功耗增加到 120W,記憶體的功耗將在 2000W 左右,約佔整個模組功耗的三分之一。預估到 2035 年,AI GPU 的功耗將增至約 15,360 瓦,這將需要為計算和記憶體晶片組配備嵌入式冷卻結構。該團隊提出兩項關鍵創新:將熱量從熱點橫向轉移到冷卻介面的熱傳輸線 (TTL),以及允許冷卻液垂直流過 HBM 堆疊的流體矽通孔 (F-TSV)。這些技術直接整合到中介層和矽片中,以保持熱穩定性。到 2038 年,全整合散熱解決方案將更加普及和先進。這些解決方案將採用雙面中介層,實現兩側垂直堆疊,並在整個過程中嵌入流體冷卻。此外,GPU-on-top 架構將有助於優先從計算層散熱,而同軸 TSV 則有助於平衡訊號完整性和熱流。03.關於韓國國家科學院韓國科學技術研究院(Kaist Teralab)是輝達的重要合作夥伴之一。它幫助輝達解決矽片之間的互連、HBM 儲存器以及 AI 加速器的封裝問題。在 ISC High Performance 2025 大會上,Kaist Teralab 發佈了截至 2038 年的 HBM 未來發展路線圖,以及截至 2035 年的輝達加速器發展計畫。 (零氪1+1)
2025科技浪潮:這七項技術將顛覆你的想像!
自動駕駛實驗室:開啟科學研究新範式 在多倫多的Acceleration Consortium,自動駕駛實驗室正以前所未有的方式推動材料科學的發展。這裡的實驗不再依賴傳統的人工操作,取而代之的是演算法和機器人的協同工作,它們就像不知疲倦的科學研究助手,日夜不停地探索著材料科學的未知領域。 去年,一個國際團隊借助由五個AI 驅動的機器人實驗室組成的全球網路,成功發現了一系列有望用於有機固態雷射器的材料。多倫多大學的計算化學家Alán Aspuru-Guzik 參與了此項研究,他表示,這個項目充分展示了「自動駕駛」 實驗室在材料研究中的強大力量。在項目開始時,已知的有機雷射化合物僅有約十種,而最終,他們成功篩選出了21 種頂級材料,極大地推動了低成本、高能效電子產品的發展處理程序。 自動駕駛實驗室的核心在於將現代機器人技術與AI 演算法深度整合。這些演算法能夠根據預設的目標和現有的資料,規劃出複雜的實驗流程,並對實驗結果進行即時分析和解讀。通過這樣的方式,實驗室能夠實現高通量的實驗操作,在短時間內測試大量的材料組合和實驗條件,這是傳統實驗室難以企及的。阿貢國家實驗室的材料科學家Jie Xu 所開發的Polybot 平台,就是一個很好的例子。在試點實驗中,研究人員利用它成功合成了可拉伸的導電聚合物,以及在電場作用下光學性質會改變的材料。