2022 年, ChatGPT 的推出引發了人工智慧 (AI) 和高性能計算 (HPC) 應用的指數級增長,使人工智慧對日常生活越來越重要。大型人工智慧模型擅長處理複雜任務,但它們需要大型訓練資料集和大型計算系統。這些大型計算工作負載導致晶片尺寸更大、功率密度更高,使得設計節能架構變得更加困難。然而,即使傳統的擴展速度減慢,對計算的需求仍在繼續增長。
因此,晶片的異構整合 (HI) 對於實現高系統吞吐量(每秒兆次操作或 TOPS)和能源效率(TOPS/W)以滿足不斷增長的計算需求至關重要。通過將片上系統 (SoC) 拆分為多個Chiplet並將它們整合到單個封裝中,可以顯著提高系統的設計靈活性、功能性、頻寬、吞吐量和延遲。這可以通過橫向、垂直甚至雙向拉近Chiplet來實現,從而允許在單個封裝中整合更多記憶體或邏輯。此外,減小die的尺寸並在封裝前執行已知良好晶片 (KGD:known good die) 測試可以實現對晶片性能的更高水平的控制,從而提高良率並降低總體成本。
HI 是實現專用於訓練大型生成式 AI 模型的高性能系統的潛在解決方案。通過將高頻寬記憶體 (HBM)、中央處理器 (CPU) 和圖形處理單元 (GPU) 等晶片整合到一個封裝中,吞吐量、延遲和能效得到顯著提高,並克服了傳統 2D 單片晶片設計的侷限性。
如今,Nvidia、Intel 和 AMD 等半導體公司已在自己的產品中利用 HI 技術來運行即時生成式 AI 模型並訓練具有數十億個參數的 LLM(大型語言模型)。在這篇評論中,我們首先介紹當前和新興的 HI 技術,並討論它們的優勢和當前的侷限性。然後,我們調查了 Cerebras、Nvidia、AMD、Intel 和 Tesla 等半導體公司最近為高計算 AI 工作負載設計的 HI 架構的商業部署。
最後,我們還總結了玻璃芯封裝的最新進展,並評估了它們的優點和侷限性。
將 SoC 劃分為Chiplet的主要動機是提高系統功能並降低製造成本。為了提高這些基於Chiplet的系統的性能,多晶片 HI 架構出現了多項創新。我們根據 IEEE 電子封裝協會 (EPS) 異構整合路線圖的定義,將multi-die 架構分為 2D、2.5D 或 3D,並在圖 1 中提供概述。表 1 總結了當前的異構整合技術。
多晶片模組 (MCM:Multi-chip-Modules) 是最早的多晶片 2D 架構之一,其中晶片橫向放置在有機基板上,以減少導線長度並增加封裝頻寬,從而提高系統性能和設計靈活性。這是最簡單的整合技術之一,但是,由於使用傳統的有機基板和基於粗焊料的鍵合技術,MCM 的互連密度可能會受到限制。這些基於焊料的互連(例如 C4 凸塊)很難縮小到更細的間距,因為相鄰的互連在鍵合過程中會短路,從而限制了系統性能。對於大型 AI 系統,需要低延遲和高效的記憶體訪問,但是,由於互連有限,將 MCM 擴展到更大的系統很困難,這可能會成為瓶頸。
這些挑戰導致了 2.5D 架構的出現,這種架構利用玻璃、硅中介層或局部硅橋等基板來提高橫向互連密度。細間距微凸塊和硅通孔 (TSV) 技術可以提高堆疊在玻璃或硅中介層上的晶片的互連密度。
然而,隨著計算需求的增長,將中介層擴展到大規模 AI 系統的成本可能很高。
因此,基於橋的架構(例如英特爾的嵌入式多晶片互連橋 (EMIB))利用嵌入在封裝基板中的局部硅和多個布線層來實現更細的布線間距。晶片間訊號位於局部硅橋中,電源/接地互連和其他訊號位於有機封裝中,從而消除了對 TSV 的需求並簡化了組裝過程。
與 EMIB 類似,高架扇出橋 (EFB:elevated fanout bridge) 使用局部硅橋來增加晶片間互連密度,橋位於封裝基板上方 。這種方法可以進一步降低組裝成本和複雜性。與 3D HI 相比,基於橋的技術具有更高的設計功能性、更低的設計複雜性和更簡單的熱管理,因此有望用於大規模 AI 系統,然而,傳統的互連技術(如微凸塊)可能會限制其系統性能。這導致了新的鍵合技術(如銅對銅鍵合)成為克服這一限制的潛在解決方案。
晶圓級封裝 (WLP:Wafer-Level Packaging) 技術對於基於先進晶片的架構具有重要意義,因為它們可以實現高互連密度、減少互連延遲和增加頻寬。通過扇出晶片 I/O 訊號,而不是使用傳統互連(例如引線鍵合或 C4 凸塊),可以實現高整合密度,從而使 WLP 適用於高性能系統。在傳統的 WLP 中,KGD 被封裝在環氧模塑料 (EMC:epoxy mold compound) 中以形成重構晶圓。
然而,由於 EMC 和晶片之間的熱膨脹係數 (CTE) 不匹配,EMC 可能導致製造問題,從而導致翹曲和晶片移位/錯位,並且材料的低熱導率使高功率系統的功率耗散變得困難。因此,已經提出了替代材料來嵌入/封裝晶片。
3D HI 技術是一種很有前途的方法,可以滿足 AI 系統的計算需求。使用 TSV 和細間距互連技術(例如微凸塊或混合鍵合),3D 堆疊可以實現高頻寬和低延遲系統。許多半導體公司都開發了自己的 3D 架構,包括英特爾的 Foveros 、三星的 X-Cube和 AMD 的 3D V-Cache 產品,該產品使用台積電的整合晶片系統 (SoIC) 技術。SoIC 技術將 SoC 劃分為多個晶片,這些晶片可以重新整合到各種 3D 組態中。這允許靈活地整合不同技術節點、
材料和晶片尺寸的無源和有源晶片(見圖 2),以支援超過 20 Tbps 的記憶體頻寬。
與傳統的 3D IC 微凸塊相比,混合鍵合的鍵合密度大幅提高了 16 倍,並降低了 IR 降等電寄生效應,降低了每位的能耗。除了更精細的互連間距外,SoIC 技術還具有更高的金屬布線密度和更薄的鍵合層,可以提高熱性能。然而,該技術面臨著與傳統 3D IC 類似的挑戰。由於嚴格的表面清潔度和化學機械拋光 (CMP) 要求,縮小混合鍵合間距變得越來越困難。
值得注意的是,3D 系統頻寬由堆疊總數和底部晶片的大小決定。雖然增加 3D 堆疊中的晶片數量對於增加記憶體頻寬或計算能力是可取的,但組裝複雜性和成本可能會顯著增加。此外,散熱和機械穩定性變得更加困難。液體冷卻已被提議作為一種有助於散熱的潛在解決方案 ,然而,這一領域超出了本文的討論範圍。
最近,使用 WLP 技術的其他 3D 架構也出現了。M.-J. Li 等人提出了一種晶圓級晶片重構技術,稱為三維整合晶片封裝 (3D-ICE),其中多個晶片封裝在低溫 SiO2中以形成重構 SiO2 層,如圖 3 所示 。然後可以對該SiO2層進行後處理以實現高密度 3D HI。同樣,英特爾提出了准單片晶片 (QMC:quasi-monolithic chip) 作為一種新的 3D HI 架構,其中晶片也封裝在超厚二氧化硅層中。SiO作為封裝材料具有多種優勢。由於其低損耗特性,它可以促進高速訊號傳輸,並且由於不需要固化,因此基本上不存在晶片移位或錯位,並且它與現有的CMOS製造工藝相容,從而模糊了封裝處理和裝置處理之間的界限。
儘管SiO2具有出色的電氣性能,但該材料的熱導率較低,這可能導致熱性能不佳。因此,A. Victor 等人提出了一種帶有整合散熱器的晶片重組工藝。30 µm 厚的無源晶片被封裝在 15 µm 厚的 ICP-PECVD SiO2中 。蝕刻掉沉積在晶片頂部的氧化物,然後在晶片上電鍍 36 µm 的銅。單片銅散熱器有助於降低晶片層的最高結溫,從而解決了大多數 FOWLP 解決方案所面臨的電氣和熱性能權衡問題。
人工智慧的快速發展推動了 HI 架構的多種商業部署,這些架構專門用於加速最大的人工智慧工作負載。在本節中,我們調查了最近報告的行業產品,並在表 2 中總結了它們的規格。
2024 年,Cerebras 推出了 WSE-3,這是一款晶圓級人工智慧加速器,速度是 WSE-2 的兩倍,旨在訓練比 GPT-4 和 Claude 大 10 倍的模型。有趣的是,Cerebras 使用傳統的裝置縮放和晶圓級整合來超越摩爾定律。借助台積電的 5 納米技術,在單個晶圓上製造了四兆個電晶體,晶片尺寸約為 GPU 的 57 倍。然而,計算和記憶體元件是分離的,以實現記憶體容量擴展,因此單個 WSE-3 系統能夠比由 10,000 個 GPU 組成的叢集更高效地儲存和訓練具有 24 兆個參數的模型。
相比 Cerebras,其他半導體公司正在使用先進的封裝技術來設計大規模 AI 系統。Nvidia 宣佈推出 GB200 Grace Blackwell 晶片,該晶片由兩個 Blackwell GPU 和一個 Grace CPU 組成。該晶片專為具有超過 10 兆個參數和 384 GB 片外記憶體的大型語言模型而設計,裝置總功率為 2700 W。為實現這一目標,Nvidia 使用了台積電的晶圓上晶片基板 (CoWoS)-L 封裝技術。該封裝技術使用局部硅互連 (LSI) 晶片和重構中介層來實現大整合面積、頻寬和低延遲的高性能系統。
AMD 在其 MI300X 封裝中採用了小晶片方法,並結合了中介層技術和 3D 堆疊,以實現高性能和記憶體頻寬。MI300X 由多個 GPU 小晶片、I/O 晶片和 192 GB 高頻寬記憶體 (HBM) 組成,總裝置功率為 750 W。CPU 復合晶片 (CCD) 和加速器復合晶片 (XCD) 以 3D 方式堆疊在 I/O 晶片 (IOD) 上,以實現低訊號延遲。最後,使用大型硅中介層整合 3D 堆疊和高頻寬記憶體 (HBM) 晶片,以實現高性能系統 。
英特爾的 Gaudi-3 加速器產品利用其嵌入式橋接晶片技術將兩個英特爾計算晶片與 128 GB HBM 整合在一起,以增強大規模 AI 系統。與其他基於橋接的中介層技術類似,EMIB 允許英特爾提高設計功能並降低組裝成本。雖然 Gaudi-3 加速器不如 Nvidia 的 H100 強大,但它是一款經濟高效的高性能系統。
最後,特斯拉憑藉 Dojo 進入了 AI 市場,這是一款針對大型神經網路訓練進行了最佳化的晶片。
Dojo 的總裝置功率為 400 W,比競爭對手低得多,專為駕駛情況的即時資料處理而設計。特斯拉正在使用台積電的整合扇出晶圓系統 (InFo-SoW) 技術實現高密度、低延遲系統。
總之,隨著人工智慧模型的規模和複雜性不斷增長,技術已經轉向 HI 和新興 HI 技術。
隨著單個系統中晶片數量的增加,晶片間 (D2D) 介面對於各個元件之間的資料移動變得越來越重要。AMD 的 Infinity Fabric和英特爾的高級介面匯流排 (AIB) 是 D2D 介面,用於其 AI 加速器產品中,以最大限度地減少延遲並最大化頻寬。
然而,隨著系統變得越來越多樣化,晶片由不同的供應商提供,通用晶片互連 Express (UCIe) 協議已開始成為通用行業標準 。標準 D2D 協議對於設計靈活性和可擴展性至關重要,尤其是對於大規模 AI 和 HPC 系統以及網路系統。圖 4 顯示了異構計算的不同標準協議的摘要。
AI 應用通常需要更大的中介層和非常高密度的互連以實現高頻寬。這些嚴格的要求加上可靠性和性能,要求開發和實施先進的封裝技術來建構大型封裝。
隨著對適用於 AI 和 HPC 應用的更先進封裝技術的需求,利用玻璃作為核心基板因其眾多優勢而最近引起了極大關注 。英特爾最近展示了他們的第一款玻璃基板測試晶片,並宣佈了他們朝著玻璃封裝發展的軌跡,以滿足對更強大計算的需求。(圖 5(a))韓國 SKC 的子公司 Absolics Inc. 也已開始準備小批次製造(SVM)其玻璃基板(圖 5(b)),旨在以亞馬遜、Meta 和微軟等超大規模企業為潛在客戶。
基於玻璃的中介層通過提高訊號完整性、支援高密度互連、整合光通訊、最佳化熱管理以及確保可靠性和可擴展性,增強了用於 AI 應用的半導體封裝的頻寬能力。這些特性使玻璃中介層成為實現高性能計算和實現高級 AI 功能的重要元件。玻璃表面光滑/表面粗糙度極低,可以實現細線和空間的縮放,這對於實現非常高密度的互連至關重要。
此外,玻璃由 Si-O 鍵組成的表面結構有助於粘附各種聚合物材料,用作介電樹脂和感光樹脂。將玻璃的低介電常數與多層中介層結構的低介電常數累積層相結合,可以顯著降低系統的延遲。這一特性在最小化訊號傳播延遲和減少相鄰互連之間的串擾方面起著至關重要的作用,尤其有利於高速電子裝置和共封裝光學器件。
此外,玻璃基板降低了互連之間的電容,從而實現了更快的訊號傳輸並提高了整體系統性能。在資料中心、電信和高性能計算等速度至關重要的關鍵應用中,採用玻璃基板可以大大提高系統效率並增加資料吞吐量。
此外,玻璃的低介電常數還支援卓越的阻抗控制,這對於保持整個電路的訊號完整性至關重要。這一特性在射頻應用中尤其有利,因為精確的阻抗匹配對於最佳化功率傳輸和最大限度地減少訊號損失至關重要。玻璃基板確保整個基板表面的電氣特性一致,從而能夠設計和生產具有更高可靠性和性能的高頻電路。
此外,與有機封裝相比,玻璃具有出色的尺寸穩定性,有助於提高層間精度,這是在多層玻璃中介層中實現非常高的互連密度的關鍵。這不僅有助於減小焊盤尺寸,還有助於將細線和走線縮小到<1μm,從而增加多層中介層中每個再分佈層中的IO數量。此外,玻璃基板的熱膨脹係數(CTE)在3-12 ppm /◦C範圍內。這可以減輕玻璃與硅(CTE=3 ppm/◦C)晶片以及玻璃與印刷線路板(CTE=17 ppm/◦C)之間的 CTE 不匹配問題。
能夠構造玻璃是封裝和中介層應用玻璃芯基板的另一個優勢。
玻璃構造可以是以下任何一種類型:(a) 玻璃通孔 (TGV:Through Glass Vias),(b) 盲玻璃腔 (BGC:Blind Glass Cavities),或 (c) 玻璃腔 (TGC:Through Glass Cavities)。TGV 可以通過雷射誘導深蝕刻 (LIDE:Laser Induced Deep Etching) 形成,首先對玻璃進行局部雷射修改,然後進行濕化學蝕刻工藝,以最大限度地減少製造過程中微裂紋的積累。BGC 和 TGC 可以通過雷射加工輕鬆形成,必要時可以進行濕蝕刻工藝。BGC 和 TGC 對於將晶片嵌入 BGC 和 TGC 非常重要,這被稱為玻璃面板嵌入 (GPE)。製造所需尺寸的腔體,並使用精度為幾微米的自動晶片拾取和放置工具將晶片放入這些腔體中。GPE 工藝非常適合異構整合,其中不同尺寸和功能的晶片(包括電容器和磁電感器等無源元件)內建在封裝中。在這種方法中,電容器和電感器保持在靠近電力輸送/IVR 等應用所需的位置。圖 6 顯示了 GPE 中使用的典型工藝流程。
利用先進的 GPE 工藝,可以輕鬆地將熱解決方案整合到封裝中以消除熱量。例如,對於帶有 TGC 的 GPE,可以將隔熱材料和散熱器附著到玻璃基板的背面。對於 BGC,可以在減薄/研磨基板後加入散熱器來消除熱量。GPE 架構可以輕鬆地從 2.5D 架構調整為包括 3D 整合,其中可以使用以下方法之一:
(a)例如,可以將邏輯晶片與玻璃芯頂部和底部的 RDL 一起嵌入玻璃腔中,然後在頂部組裝儲存器晶片以生成具有短互連距離和小得多的外形尺寸的 3D 結構,從而顯著降低封裝的高度;
(b)無源晶片可以嵌入結構化玻璃中,並且可以通過倒裝晶片工藝在玻璃封裝結構上組裝多個晶片 ;
(c) 此外,GPE 實現了共封裝光學器件等先進封裝概念,其中可以將電子晶片嵌入玻璃腔體(晶片背面採用上述散熱解決方案),並在封裝頂部組裝光子晶片 (PIC)。通過將 PIC 安裝在頂部,可以輕鬆地從頂部安裝光纖耦合器以及任何所需的散熱解決方案。
最後,除了各種優越的性能外,玻璃對封裝中基板格式的限制更少。雖然硅只能在圓形晶圓中加工,但玻璃可以實現面板工藝,從而降低成本。例如,300 毫米晶圓可容納 2,500 個 6 毫米 x 6 毫米尺寸的封裝,而 600 毫米 x 600 毫米面板可容納 12,000 個封裝。
玻璃基板固有的易碎性帶來了重大挑戰,尤其是當行業採用更薄的基板來滿足對更高裝置整合度和性能的需求時。薄玻璃板有時薄至 100µm 或更薄,在處理和製造過程中特別容易損壞。這種在壓力下開裂或破碎的風險凸顯了專門裝置和定製工藝的必要性,這些工藝旨在安全地處理這種材料。
除了處理困難之外,玻璃還表現出相對較低的散熱性。儘管玻璃比有機層壓板導熱性更好,但與硅相比,玻璃的導熱性較差。為了克服與玻璃導熱性低相關的限制,已經證明了將銅結構(例如通孔封裝通孔 (TPV)、銅塊和重分佈層 (RDL) 中的銅跡線)結合到玻璃基板中的方法 [107]。此外,用於嵌入式和基於基板的封裝的下一代熱介面材料 (TIM) 也正在積極開發中,重點是降低熱介面電阻,以實現晶片的最大熱傳遞。 (半導體行業觀察)