#較低電壓
晶片,太熱了
隨著電晶體數量的持續增長,我們越來越接近矽的物理和熱極限。隨著電晶體尺寸的縮小,漏電流不斷增大,每平方毫米產生的熱量也越來越難以消散。近年來,業界已轉向先進的封裝技術(例如小晶片、3D堆疊和中介層),以突破這些限制,而不是強行突破。如今,性能提升不再僅僅依賴於縮小電晶體尺寸,而更多地依賴於巧妙的架構、互連和熱設計策略。為了對這些涉及熱量和電腦在奈米尺度上工作方式的物理問題給出適當的答案,本文將涉及熱量的基本科學、熱量在電子器件中產生的方式和原因,以及我們為控制熱量而開發的各種方法。熱的基礎知識如果你還記得高中物理,熱量其實就是構成我們世界的原子和分子的隨機運動。當一個分子的動能高於另一個分子時,我們說它更熱。當兩個物體接觸時,熱量會從一個物體傳遞到另一個物體,持續傳遞直到兩者達到平衡。這意味著較熱的物體會將部分熱量傳遞給較冷的物體,最終溫度會介於兩者之間。傳熱所需的時間取決於相關材料的熱導率。熱導率衡量的是材料傳導熱量的能力。像泡沫塑料這樣的絕緣體具有相對較低的熱導率,約為 0.03,而像銅這樣的導體具有較高的熱導率,約為 400。在兩個極端下,真正的真空具有 0 的熱導率,而鑽石具有已知的最高熱導率,超過 2,000。要記住的一件重要事情是,熱量總是流向較冷的區域,但從技術上講,並不存在“冷”這種東西——只有當某物的熱量低於周圍環境時,我們才會感覺到它的“冷”。需要記住的一點是,熱量總是流向較冷的區域,但嚴格來說,並不存在所謂的“冷”——只有當物體的熱量低於其周圍環境時,我們才會感覺到它的“冷”。我們需要的另一個關鍵定義是熱質量,它代表了物體對溫度波動的慣性。使用相同尺寸的暖氣爐,加熱一個房間比加熱整棟房子要容易得多。這是因為一個房間的熱質量比整棟房子的熱質量小得多。我們可以用燒水這個簡單的例子來概括所有這些概念。當你打開爐子時,熱的火焰會與較冷的鍋接觸。由於鍋的材質是良好的熱導體,火的熱量會傳遞到水中,直到水沸騰。燒開水所需的時間取決於加熱方式、鍋的材質和水量。如果你嘗試用小打火機燒開一壺水,比用爐子的大火燒開要花很長時間。這是因為爐子的熱輸出(以瓦特為單位)比小打火機高得多。其次,如果鍋的導熱係數更高,水沸騰的速度也會更快,因為更多的熱量會被傳遞到水中。如果你足夠有錢,一口鑽石鍋絕對是你的夢想!最後,我們都知道,小鍋比大鍋燒水更快。這是因為小鍋需要加熱的熱質量更小。烹飪完成後,你可以讓水自然冷卻。冷卻過程中,水中的熱量會釋放到較冷的房間。由於房間的熱質量遠高於鍋具,因此其溫度不會有太大變化。晶片中的三大熱源既然我們瞭解了熱量的工作原理以及它在物體之間的傳遞方式,那麼我們首先來談談它的來源。所有數字電子裝置都由數百萬甚至數十億個電晶體組成。本質上,電晶體是每秒數十億次開關的電控開關。通過將它們連接在一起,我們可以構成電腦晶片的複雜結構。這些電晶體工作時,會從三個來源耗散功率:開關、短路和漏電。開關功率和短路功率都被視為動態熱源,因為它們會受到電晶體導通和關斷的影響。另一方面,漏電功率被視為靜態,因為它保持恆定,不受電晶體工作狀態的影響。兩個電晶體連接在一起形成一個非門。nMOS(底部)導通時允許電流通過,pMOS(頂部)關斷時允許電流通過我們先從開關電源說起。要打開或關閉電晶體,我們必須將其柵極接地(邏輯 0)或 Vdd(邏輯 1)。但這並非像撥動開關那麼簡單,因為這個輸入門的電容非常小。我們可以把它想像成一個微型可充電電池。為了啟動柵極,我們必須將電池充電至超過某個閾值。當我們準備再次關閉柵極時,我們需要將電荷釋放到地。雖然這些柵極非常微小,但在現代晶片中卻有數十億個這樣的柵極,它們每秒開關數十億次。每次柵極電荷釋放到地時,都會產生少量熱量。為了計算開關功率,我們將活動因子(即在任何給定周期內電晶體開關的平均比例)、頻率、柵極電容和電壓的平方相乘。現在我們來看一下短路功率。現代數字電子技術採用一種稱為互補金屬氧化物半導體 (CMOS) 的技術。電晶體的排列方式使得電流永遠不會直接流向地。在上面的非門示例中,有兩個互補電晶體。當上面的電晶體導通時,下面的電晶體截止,反之亦然。這確保輸出為 0 或 1,並且與輸入相反。然而,當我們開關電晶體時,兩個電晶體同時導通的時間非常短。當一組電晶體關閉而另一組電晶體導通時,它們會在到達中間點時同時導通。這是不可避免的,並為電流直接流向地面提供了一條臨時路徑。我們可以嘗試通過加快電晶體在導通和關斷狀態之間的切換來限制這種情況,但無法完全消除它。隨著晶片工作頻率的提高,狀態變化和瞬時短路也會增多。這會增加晶片的發熱量。為了計算短路功率,我們將短路電流、工作電壓和開關頻率相乘。這兩個都是動態功耗的例子。如果我們想降低動態功耗,最簡單的方法就是降低晶片頻率。但這通常不太實際,因為它會降低晶片的性能。另一個選擇是降低晶片的工作電壓。以前的晶片工作電壓為 5V 及以上,而現代 CPU 的工作電壓約為 1V。通過設計電晶體以較低的電壓工作,我們可以減少動態功耗造成的熱量損失。動態功耗也是超頻時 CPU 和 GPU 發熱的原因。超頻不僅會增加工作頻率,通常還會提高電壓。工作頻率越高,每個周期產生的熱量就越多。數字電子產品中產生的最後一種熱量是漏電功率。我們通常認為電晶體要麼完全導通,要麼完全關閉,但實際情況並非如此。即使電晶體處於非導通狀態,也總會有微弱的電流流過。這是一個非常複雜的公式,而且隨著電晶體尺寸的不斷縮小,其影響只會越來越嚴重。當它們變得更小的時候,當我們想要它們關閉時,阻擋電子流動的材料就越來越少。這是限制新一代晶片性能的主要因素之一,因為漏電功率的比例每一代都在不斷增加。物理定律將我們逼入了絕境,而且這個困境正在加劇。正因如此,像 NPU 和 TPU 這樣的 AI 加速器(它們將海量計算封裝在極小的空間內)帶來了全新的重大散熱設計挑戰。這些晶片通常部署在氣流和功率預算有限的資料中心,這使得高效的散熱策略比以往任何時候都更加重要。除了性能之外,可持續性也正成為人們關注的焦點。資料中心正越來越多地探索液浸式冷卻、熱回收和低全球變暖潛能值 (GWP) 製冷劑,以在滿足環保目標的同時控制高耗能硬體。綠色冷卻技術已不再僅僅是未來的目標——它正在現代基礎設施中積極部署。熱電冷卻,又稱珀耳帖 (Peltier) 裝置,目前仍屬於小眾市場,但近年來重新引起了人們的興趣。一些製造商嘗試了 AIO + TEC 的混合解決方案,以提升冷卻性能,超越傳統的空氣或水冷。雖然這些裝置仍然效率低下且耗電,但熱電材料的改進最終可能會使其在特定應用中更加實用。同樣,蒸汽壓縮式製冷機和相變系統仍然主要用於資料中心和極端超頻環境。但目前,人們正在研究使用先進製冷劑和新型壓縮機設計的緊湊、高效的冷卻解決方案,這些解決方案有朝一日可能會將亞環境冷卻技術引入更主流的裝置。如何保持晶片冷卻我們知道了電子產品的熱量從何而來——但我們該如何處理它呢?我們需要消除熱量,因為如果溫度過高,電晶體就會開始發生故障並損壞。熱節流是晶片內建的冷卻機制,用於在散熱不足時進行自我冷卻。如果內部溫度感測器檢測到溫度過高,晶片會自動降低工作頻率以減少產生的熱量。然而,這種情況並非我們所希望的,而且還有更好的方法來處理電腦系統中多餘的熱量。有些晶片實際上並不需要複雜的散熱方案。看看你的主機板,你會看到幾十個沒有散熱器的小晶片。它們是如何避免過熱損壞的呢?原因很可能是它們本身就不怎麼發熱。大型、強大的 CPU 和 GPU 可以耗散數百瓦的功率,而小型網路或音訊晶片的功耗可能只有幾分之一瓦。在這種情況下,主機板本身或晶片的外殼可以充當足夠的散熱器,保持晶片冷卻。不過,一般來說,一旦功耗超過 1 瓦,就需要開始考慮適當的熱管理了。一塊老款主機板上有很多小型晶片,沒有散熱片——它們不需要主動散熱,因為它們產生的熱量很少。北橋和南橋晶片採用被動散熱,它們被鋁製散熱片覆蓋這裡的關鍵在於儘可能降低材料之間的熱阻。我們希望建立一條最短、最高效的路徑,讓熱量從晶片傳導到周圍空氣。正因如此,CPU 和 GPU 晶片頂部都配備了整合式散熱器 (IHS)。晶片內部的實際矽片尺寸遠小於封裝尺寸,但通過將熱量分散到更大的區域,我們可以更有效地冷卻晶片。在晶片和散熱器之間使用優質的導熱矽脂也至關重要。如果沒有這條高導熱性的路徑,熱量從 IHS 傳導到散熱器就會更加困難。冷卻主要有兩種形式:被動冷卻和主動冷卻。被動冷卻使用一個簡單的散熱器連接到晶片上,依靠周圍的氣流帶走熱量。這種材料導熱係數高,表面積大,能夠有效地將晶片的熱量傳遞到周圍的空氣中。電壓調節器和記憶體晶片通常不需要被動冷卻,因為它們產生的熱量較少。通常只有高端 DDR5 模組和伺服器記憶體才需要主動冷卻。同樣,大多數手機處理器都是被動冷卻的,儘管某些小眾或遊戲智慧型手機有時會使用蒸汽室或微型有源風扇來管理更高的熱負荷。帶有被動冷卻板的手機 CPU 的熱圖晶片性能越高,產生的功率就越大,所需的散熱片尺寸也就越大。這就是為什麼手機處理器的性能不如桌面級處理器:根本無法提供足夠的散熱能力來維持性能。一旦功耗達到幾十瓦,您很可能會開始考慮主動冷卻。這需要使用風扇或其他方法強制空氣流過散熱器,使其能夠承受高達幾百瓦的功率。然而,為了充分利用如此強大的冷卻能力,我們需要確保晶片產生的熱量能夠有效地擴散到散熱器的整個表面。如果沒有有效的散熱方式,那麼即使擁有巨大的散熱器也毫無意義。這時,液冷和熱管就派上用場了。兩者都執行相同的基本任務:將儘可能多的熱量從晶片傳遞到散熱器或散熱器。在液冷裝置中,熱量通過高導熱性導熱膏從晶片傳遞到水冷頭。水冷頭通常由銅或其他高導熱材料製成,它會加熱液冷。液體會儲存熱量並將其輸送到散熱器,然後散發到空氣中。對於筆記型電腦等無法安裝完整液冷裝置的小型系統,熱管非常常見。與基本的銅管相比,熱管裝置將晶片熱量傳匯出去的效率可提高 10 到 100 倍。Xbox 360 中使用了整合熱管的散熱器。熱管利用相變冷卻技術顯著改善熱傳遞,比單獨使用固體金屬更有效地將熱量從 CPU 或 GPU 等熱元件中帶走熱管與液冷非常相似,但採用相變來增強熱傳遞。在熱管內部,液體受熱後蒸發成蒸汽。蒸汽沿著熱管流動,直到到達較冷的一端,在那裡冷凝回液體。然後,液體通過重力或毛細作用返回到較熱的一端。這種蒸發冷卻的原理與您在淋浴或游泳池出來時感覺寒冷的原理相同:液體在蒸發時吸收熱量,在冷凝時釋放熱量。既然我們可以將晶片中的熱量傳遞到熱管或液體中,那麼如何有效地將這些熱量釋放到空氣中呢?這時,散熱片和散熱器就派上用場了。一根簡單的水管或一根熱管會將一些熱量傳遞到周圍的空氣中,但熱量不會太多。為了真正降低溫度,我們需要增加暴露在溫度梯度下的表面積。散熱器或散熱器中的薄翅片將熱量分散到較大的表面積上,使風扇能夠有效地將熱量帶走。翅片越薄,在給定空間內可容納的表面積就越大。但是,如果翅片太薄,它們就無法與熱管充分接觸,從而無法有效地將熱量傳遞到翅片中。這是一個微妙的平衡——這就是為什麼在某些情況下,較大的散熱器性能可能不如較小、更最佳化的散熱器。Gamers Nexus製作了一張很棒的圖表(如下),展示了典型散熱器的工作原理:先進且獨特的冷卻技術到目前為止,我們討論的所有冷卻方法都是通過將熱量從熱晶片傳遞到周圍空氣來實現的。這意味著晶片的溫度永遠不會低於其所在房間的環境溫度。如果我們想要將溫度降至環境溫度以下,或者需要冷卻像整個資料中心這樣龐大的物體,就需要運用一些額外的科學技術。這時,冷卻器和熱電冷卻器就派上用場了。熱電冷卻,也稱為珀爾帖裝置,目前並不十分流行,但未來潛力巨大。這些裝置通過消耗電力將熱量從冷卻板的一側傳遞到另一側。它們使用特殊的熱電材料,可以通過電勢產生溫差。當直流電流流過該裝置時,熱量從一側吸收並轉移到另一側,使“冷”側溫度降至環境溫度以下。目前,這類裝置仍屬於小眾市場,因為它們需要大量能量才能實現顯著的冷卻效果。不過,研究人員正在努力開發更高效的版本,以實現更廣泛的應用。正如狀態轉換可以傳遞熱量一樣,改變流體的壓力也可以用來傳遞熱量。這正是冰箱、空調以及大多數其他大型製冷系統背後的原理。在這些系統中,一種特殊的製冷劑流經一個閉合回路,最初是蒸汽,經過壓縮、冷凝成液體、膨脹,然後蒸發回蒸汽。這個循環不斷重複,並在過程中傳遞熱量。壓縮機確實需要能量輸入,但這樣的系統可以冷卻到遠低於環境溫度。這就是資料中心和建築物即使在夏季最炎熱的日子也能保持涼爽的原因。對於電子產品來說,這樣的系統通常是二階冷卻系統:首先,晶片產生的熱量被排放到房間中,然後房間中的熱量通過蒸汽壓縮系統排放到外面。然而,極限超頻玩家和性能愛好者可以將專用冷卻器直接連接到 CPU,以獲得額外的冷卻性能。也可以使用液氮或乾冰等消耗品,臨時實現極致冷卻。MIT的解決方案近日,MIT也提出了一個晶片冷卻方案。麻省理工學院林肯實驗室開發了一款專用晶片,用於測試和驗證封裝晶片堆疊的冷卻解決方案。該晶片能夠消耗極高的功率,模擬高性能邏輯晶片,通過矽層和局部熱點產生熱量。然後,當冷卻技術應用於封裝晶片堆疊時,該晶片會測量溫度變化。當晶片被嵌入晶片堆疊中時,研究人員可以研究熱量如何在堆疊層中移動,並對保持晶片冷卻的進展進行基準測試。“如果你只有一塊晶片,你可以從上方或下方進行冷卻。但如果你開始將多個晶片堆疊在一起,熱量就無處散發了。目前還沒有冷卻方法可以讓業界堆疊多個如此高性能的晶片,”Chenson Chen 說道,他與 Ryan Keech 共同領導了該晶片的開發,兩人都來自該實驗室的 先進材料和微系統組。該基準晶片目前正由波音公司和通用汽車共同擁有的研發公司HRL實驗室使用,用於開發用於3D異質整合(3DHI)系統的冷卻系統。異質整合是指將矽晶片與非矽晶片(例如射頻(RF)系統中使用的III-V族半導體)堆疊在一起。“射頻元件可能會變得非常熱,並且以非常高的功率運行——這給 3D 整合增加了額外的複雜性,這就是為什麼如此需要這種測試能力,”Keech 說。美國國防高級研究計畫局 (DARPA) 資助了該實驗室開發基準測試晶片,以支援 HRL 項目。所有這些研究都源自 DARPA 的“用於 3D 異構整合的微型整合熱管理系統 ( Minitherms3D )”項目。對於國防部而言,3DHI 為關鍵系統開闢了新的機遇。例如,3DHI 可以擴大雷達和通訊系統的探測範圍,使先進感測器能夠整合到無人駕駛飛機等小型平台上,或者允許人工智慧資料直接在現場系統(而非遠端資料中心)中進行處理。該測試晶片是由該實驗室的電路設計師、電氣測試專家和微電子實驗室的技術人員合作開發的。該晶片具有兩個功能:產生熱量和感測溫度。為了產生熱量,該團隊設計了能夠在極高功率密度下運行的電路,功率密度達到千瓦/平方釐米,與當前及未來高性能晶片的預計功率需求相當。他們還複製了這些晶片中的電路佈局,使測試晶片可以作為逼真的替代品。“我們調整了現有的矽技術,主要用來設計晶片級加熱器,”陳教授說道。他為該項目帶來了多年的複雜整合和晶片設計經驗。21世紀初,他幫助實驗室率先製造了雙層和三層積體電路,引領了3D整合的早期發展。晶片的加熱器模擬了堆疊內的背景熱量水平和局部熱點。熱點通常出現在晶片堆疊最隱蔽、最難以觸及的區域,這使得3D晶片開發人員難以評估冷卻方案(例如輸送冷液的微通道)是否能夠到達這些位置,並且是否足夠有效。這就是溫度感測元件的作用所在。晶片上分佈著陳所比喻的“微型溫度計”,當使用冷卻劑時,這些元件可以讀出晶片上多個位置的溫度。這些溫度計實際上是二極體,或者說是開關,當施加電壓時,電流會流過電路。隨著二極體升溫,電流電壓比會發生變化。“我們可以檢查二極體的性能,例如知道溫度是 200 攝氏度、100 攝氏度還是 50 攝氏度,”Keech 說。“我們創造性地思考了裝置過熱失效的原因,然後利用這些特性設計出實用的測量工具。”Chen 和 Keech,以及實驗室其他設計、製造和電氣測試專家,目前正與 HRL 實驗室的研究人員合作,將晶片與新型冷卻技術相結合,並將這些技術整合到 3DHI 堆疊中,以增強射頻訊號功率。HRL 聯合首席研究員 Christopher Roper 在最近 宣佈該項目的新聞稿 中表示:“我們需要冷卻相當於 190 多個筆記型電腦 CPU(中央處理器)的熱量,但尺寸要與單個 CPU 封裝相同。”Keech 表示,快速交付晶片的時間表是通過晶片設計、製造、測試和 3D 異構整合等各個階段的團隊合作克服的挑戰。他說:“堆疊架構被認為是微電子技術的下一個前沿。我們希望幫助美國政府找到有效整合這些架構的方法,並讓這些晶片發揮出最高的性能。”為什麼冷卻比以往任何時候都重要所有電子產品都需要散熱,但散熱方式多種多樣。散熱的目的是將熱量從發熱的晶片或系統轉移到溫度較低的環境中。沒有辦法真正地散熱——我們能做的只是將熱量轉移到不會造成問題的地方。所有數字電子裝置都會因其內部電晶體的運行特性而產生熱量。如果這些熱量得不到妥善管理,半導體材料就會開始分解,損壞晶片並縮短其使用壽命。熱量是所有電子設計師的敵人,也是制約性能提升的關鍵因素之一。我們不能簡單地把 CPU 和 GPU 做得更大,因為沒有切實可行的方法來冷卻如此強大的裝置。你根本無法足夠快地散熱。隨著計算需求的持續增長,高效的熱量管理變得越來越重要——這不僅體現在單個晶片上,還體現在整個資料中心、AI計算叢集,甚至未來的量子系統中。熱管理創新如今已成為擴展技術本身的核心。 (半導體行業觀察)