先進封裝，台積電最新分享

2024/12/10

•

在人工智慧和機器學習（AI/ML）對計算性能要求呈指數級增長的推動下，使用 2.5D 和 3D 先進封裝技術進行晶片整合的需求激增。本文回顧了這些先進的封裝技術，並強調了高頻寬晶片互連的關鍵設計考慮因素，這對高效整合至關重要。我們探討了與頻寬密度、能效、電遷移、電源完整性和訊號完整性相關的挑戰。

為避免功耗開銷，晶片組互連架構設計得儘可能簡單，採用帶有前向時鐘的平行資料匯流排。然而，要實現高產製造和強勁性能，仍需要在設計和技術協同最佳化方面做出巨大努力。儘管存在這些挑戰，但在強大的晶片組生態系統和新穎的 3D-IC 設計方法的推動下，半導體行業有望實現持續增長和創新。

引言

對人工智慧（AI）和機器學習（ML）技術的需求正以前所未有的速度增長，遠遠超過了摩爾定律所預測的速度。如圖 1 所示，自 2012 年以來，用於人工智慧訓練的計算量以每年 4.1 倍的速度呈指數增長，超過了摩爾定律每 24 個月翻一番的預測。深度學習模型參數數量的增加提高了模型的靈活性和潛在性能，推動了模型複雜度的快速增長。然而，這種擴張速度在經濟上（訓練成本）、技術上（電腦叢集規模）和環境上（碳足跡）都變得不可持續。

為了部分滿足不斷升級的計算需求，必須關注演算法效率和半導體擴展方面的進步，不僅要實現更高的計算性能，還要實現高能效的計算性能。人工智慧工作負載需要大量平行矩陣乘法和累加運算，這些運算由平行計算核心叢集執行。這些工作負載需要大量記憶體容量和高互連頻寬。為了滿足這種計算需求，如今典型的 xPU/加速器晶片可能由許多計算、記憶體和 IO 晶片組成，並採用先進的封裝技術進行整合。每個晶片都是在光刻機的光掩膜限制（即網罩尺寸（photomask limit or reticle size），26 x 33 平方毫米）內設計的。

晶片的使用有幾個顯著的優點。通過將大型單片晶片分解為更小、良率可控的晶片，設計人員可以定製不同的工藝技術，以最佳化特定功能，例如，使用最先進的工藝節點製造計算晶片，而使用老一代工藝節點製造以模擬為中心的 IO 晶片和儲存器晶片。這種模組化方法不僅簡化了製造流程，還有利於快速系統整合，尤其是在使用標準化晶片介面時。通過利用現成的晶片，這種方法有望大大降低製造成本和設計周期。

隨著基於晶片的封裝系統規模和複雜性的增長，三維整合和晶圓級系統整合將帶來卓越的能效、優異的性能和更高的成本效益。然而，設計人員在每一代產品中都熟悉的幾個關鍵問題，在當今更大、更複雜的晶片系統中仍然構成重大挑戰。這些挑戰包括熱設計功率（TDP）、功率傳輸網路（PDN）損耗、機械和熱應力、網路拓撲和路由演算法、互連吞吐量、能效、延遲、可製造性、冗餘和可修復性、可測試性等。應對這些挑戰對於確保先進半導體解決方案的性能和良率至關重要。

本文結構如下。第二節概述了先進的封裝技術。第三節討論大型 CPU/GPU 擴展系統中各種封裝技術的晶片到晶片互連。第四節深入探討晶片組互連設計的實際問題，如序列介面與平行介面、晶片組 I/F 訊號、通道路由和訊號完整性、凸點圖規劃、時鐘方案、缺陷修復、ESD 路線圖和電源傳輸。第五部分介紹了全面的 3DIC 設計流程。最後，第六部分探討了未來的發展趨勢。

先進封裝技術與新能力

總統而言，先進封裝技術可分為 2D、2.xD（包括 2.1D、2.3D 和 2.5D）和 3D 封裝技術。根據這一分類，如果晶片直接放置在封裝基板上，則被視為 2D 封裝。如果使用中介層，如薄膜、橋接器或無源中介層，則屬於 2.xD 類別。具體來說，如果中間層是帶有硅通孔（TSV）的有源晶片，則屬於 3D 封裝。

雖然這種分類很直觀，但也有一定的隨意性。隨著封裝技術的不斷髮展，這些類別之間的界限可能會變得越來越模糊。為了簡化討論，大多數 2.xD 中間技術通常被歸入 2.5D 類別。此外，2D、2.5D 和 3D 整合技術也有可能在先進封裝解決方案中並存，廣義上的 3D-IC 就是指這些解決方案。無論如何區分，主要重點仍然是利用這些技術實現半導體器件的卓越性能、效率和功能。

圖 2 展示了台積電不斷髮展的 3DFabric技術組合。作為廣泛採用的先進封裝技術的一個例子，3DFabric 是一套全面的整合技術，可將多個晶片整合在一起，物理距離更近，互連密度更高，而且全部由單一供應商提供。這種整合技術可實現更小的外形尺寸、更好的電氣性能和更高的資料頻寬。更重要的是，這些技術允許系統設計人員將以前的單片系統晶片分割成晶片組，並在封裝內建構功能更強大的系統。不同的 3DFabric 封裝選項保持了一致性。這種一致性是有益的，因為 3D-IC 的複雜性要求與可製造性有關的設計規則在大批次製造之前是相容和一致的。

不同的應用領域產生了兩種不同的封裝平台。第一個是片上基板（CoWoS）平台，該平台自 2012 年起投入生產，主要用於高性能計算。它有 3 個子系列。CoWoS-S 具有硅中介層（silicon interposer），允許使用非常密集的金屬線（W/S = 0.4/0.4µm）。CoWoS-R的再分佈層（RDL）嵌入在有機中介軟體中，布線密度較粗（W/S = 2/2µm）。CoWoS-L 結合了 -R 和 -S 的優點：局部硅互連 (LSI) 可實現高布線密度，有機基板中的再分佈層 (RDL) 可實現更好的電氣性能。其中，CoWoS-S或CoWoS-L選項還在硅互聯器或橋中嵌入了深溝去耦電容（DTC：deep-trench decoupling capacitors），以增強功率傳輸。

第二種是整合風扇輸出（InFO）平台。InFO 自 2016 年起開始量產，最初是受具有成本效益的移動應用驅動。InFO 封裝上封裝（InFO-PoP）是首個使用細間距銅 RDL 將 SoC 與儲存器封裝整合的 3D Fan-Out 晶圓級封裝。由於其成本、外形尺寸和更好的訊號完整性，InFO 技術已發展出許多變體，並在很大程度上擴展了 HPC 應用中更多功能晶片的整合。InFO 平台還具有先進的選項，如用於更細間距金屬布線的本地硅橋，以及用於卓越功率傳輸的嵌入式去耦電容器。InFO 是一種晶片優先（chips first）方法，晶片面朝下放置在臨時載體上，然後在其周圍建立 RDL。

另一方面，CoWoS 是一種晶片後置（chips last）方法，首先製造晶片，然後將其放置到硅中介層上，再將中介層連接到基板上。製造步驟的這種區別會影響整合密度和熱管理。具體來說，在晶片先行方法中，硅將在隨後的周期中經歷熱循環。後期步驟缺陷的成本也明顯高於晶片後置法。

三維堆疊技術已廣泛應用於記憶體產品，包括高頻寬記憶體（HBM）和 NAND 快閃記憶體，並被晶片製造商採用以提高計算密度和資料頻寬。整合晶片系統（SoIC）就是用於這種三維晶片堆疊。它包括帶有微凸塊的 SoIC-P（間距為 18 至 25 微米）和帶有高級鍵合的 SoIC-X（間距為 3 至 9 微米或以下）。

SoIC 實現了垂直堆疊組態中多個晶片的無縫整合，為系統設計和性能最佳化提供了新的可能性。此外，SoIC 還可與 CoWoS 或 InFO 結合，形成功能更強大、更靈活的電腦系統。

晶片製造商和外包半導體組裝與測試 (OSAT) 提供商提供了一系列先進的封裝技術，每種技術在訊號完整性、互連密度、可製造性和熱管理方面都有獨特的（不）優勢和權衡。例如，英特爾的嵌入式多晶片互連橋接器（EMIB）和 AMD 的高架扇出式橋接器（EFB），都採用了無 TSV 的高密度無源橋接器，並輔以額外的 RDL 來增強電源完整性。特定封裝技術的選擇取決於具體的應用要求和所需的性能特徵，尤其是在高性能計算中，速度和能效至關重要。這也給互連設計帶來了限制和挑戰，下文將對此進行探討。

Die to Die互連應用

圖 3 顯示了從凸點間距擴展的角度來看晶片封裝的演變過程，從傳統的 2D 標準封裝類型或凸點間距為 110~130µm 的多晶片模組 (MCM)，到間距為 ~40µm 的 2.5D 高級封裝類型（如 CoWoS/InFO），再到間距小於 9µm 的 3D 晶圓上晶片或晶圓上晶片類型（如 SoIC）。隨著凸塊間距的減小，在給定面積內晶片到晶片訊號的數量會以四倍的速度增加，從而提高頻寬密度。

在間距縮放的背景下，電路架構的選擇在很大程度上取決於可達到的範圍、頻寬、能效和延遲等因素。例如，MCM 封裝中通常使用工作頻率約為 56/112Gbps 的高速序列器/解串器（SerDes），以最大限度地提高每個引腳的資料傳輸率。相比之下，2.5D 中介層通常採用高速平行資料匯流排，因為它們具有更高的能效和面積效率。與此同時，先進的 3D 堆疊技術最受益於簡單、低速的資料匯流排，這種匯流排使用最少的 CMOS 緩衝器（buffers）和觸發器（flip-flops），沒有均衡器（equalizer）或校準電路（calibration circuits），從而實現了最佳的面積頻寬密度和能效。

*圖 3. 凸塊間距縮放透檢視（XSR（extreme short reach）：極短距離，UCIe（Universal Chiplets Interconnect Express）：通用晶片互連快線）*

圖 4 描述了多個晶片用於人工智慧應用的計算性能擴展和縮小的示例。Chiplet之間的die-to-die互連可分為四種類型：1) 計算到計算和計算到 IO：採用 CoWoS/InFO 技術的 UCIeTM PHY，2) 計算到記憶體：（在CoWoS技術上的HBM PHY） 3) 計算到 SRAM：採用 SoIC 技術的 3D 堆疊；以及 4) IO chiplet 到外部 IO：採用標準封裝技術的 XSR-Serdes。

目前最廣泛使用的人工智慧加速器都採用這種拓撲結構，以最大限度地提高計算性能和記憶體訪問頻寬。晶圓級系統等競爭技術讓我們看到了未來計算系統的可能候選者。這些系統的互連和網路拓撲結構也需要相應發展，以滿足系統性能需求。

Chiplet互連設計考慮因素

A. Chiplet互連設計目標和 DTCO

將以前的單片 SoC 分解為多個 chiplet，由高頻寬晶片組互連連接，可實現更靈活的系統分區，提高良率，並利用現成的晶片組縮短周轉時間。Chiplet介面的標準化是一個重要的里程碑，UCIe就是一個例子。

在此之前，業界採用了幾種晶片介面來滿足晶片系統的要求，強調高頻寬密度、低延遲和高能效。著名的例子包括高級互連匯流排（AIB：Advanced Interconnect Bus）、束線（BoW：Bunch of Wires）、開放式高頻寬介面（OpenHBI：Open High Bandwidth Interface）和 Lipincon（台積電專有）。

圖 5 全面概述了多方面的設計和技術協同最佳化 (DTCO)，旨在滿足基於 2.5D 或 3D 晶片的系統中高速互連的性能和製造目標。DTCO 的範圍涵蓋了廣泛的考慮因素，包括但不限於以下方面：

1、器件級最佳化：重點是提高電晶體頻寬和噪聲性能，從而提高 IO 能效。

2、封裝最佳化：通過平衡線間距、層厚度和通孔封裝等關鍵參數來最佳化中介軟體上的封裝設計規則，對電源完整性（PI）、訊號完整性（SI）、可布線性和可製造性至關重要。

3、ESD：在晶片系統的 ESD 保護和 ESD 建模方面出現了新的挑戰。必須仔細評估先進封裝的 ESD 額定值，以確保 ESD 面積和電容開銷不會妨礙 IO 能效。

4、電源傳輸網路 (PDN)：這需要管理電遷移（EM）和紅外電壓降、電壓驟降以及源於電源傳輸的串擾。

5、熱管理：主要挑戰包括精準模擬熱點，緩解熱循環引起的問題，如時序漂移、機械應力和電遷移。這涉及在設計階段[51]或執行階段[52]實施解決方案，將器件保持在安全溫度範圍內，從而保持性能、可靠性和使用壽命。

6、設計可測試性、可修復性和可靠性：確保這些方面有助於實現有效的短期測試和長期使用壽命，這對產品的成功至關重要。

7、設計簽核流程：高效的人工智慧輔助 EDA 工具和流程對於提高生產率和最佳化越來越重要。

B. 序列與平行資料匯流排

採用標準封裝（MCM 或 2D）時，訊號凸塊和金屬線的間距較粗。如圖 6-a 所示，人們不得不使用帶差分訊號的序列鏈路（如 PCIe-32/64Gbps、CEI-112/224Gbps），最大限度地提高每個引腳的資料頻寬密度。

先進的封裝技術（2.5D）允許在每個訊號引腳上使用較低的資料傳輸速率，而在單位幾何尺寸上使用更多的平行單端訊號，以最大限度地提高海濱頻寬密度或區域頻寬密度（如 4-32Gbps 的 UCIe x64）。平行介面（圖 6-b）在幾個方面非常突出。

首先，平行介面有一個用於抖動和偏移跟蹤的前向時鐘，無需每線路時鐘資料恢復（CDR）機制，從而降低了系統的複雜性和延遲。其次，平行介面的較低資料速率運行意味著系統受通道損耗、抖動和串擾的影響較小。所需的通道均衡（EQ）更少，從而消除了電路開銷，實現了更高的頻寬密度和更高的能效。

對於三維堆疊，在訊號密度（間距 P ≤ 9μm）下，三維互連電路面積應小於凸塊面積（P2），以最大限度地提高互連效率（頻寬密度*能效）。在這種情況下，平行資料匯流排的速度限製為 5Gbps，以簡化時序。無需校準和適配，從而有效降低了功耗、延遲和面積開銷。UCIe-3D 具有這種精神（圖 6-c）。

C. 晶片到晶片的互連訊號

先進的封裝技術使晶片之間的距離更近，減少了互連負載，提高了訊號完整性、資料傳輸速率和能效。非回零 (NRZ：Non-return to zero) 和 4 級脈衝幅度調製 (PAM4) 訊號可能適用於不同的運行速度。在圖 7 中，核心電源（如 Vdd=0.75V）上通常使用 SST（源串聯端接）驅動器，以獲得最佳眼緣和阻抗匹配。有人採用 NFET-NFET 驅動器在低 VDDQ（如 <0.3 伏）下工作，以降低功耗。然而，在路由資源稀缺的情況下，這種額外的功率域可能並不理想。

當 PAM4 奈奎斯特（Nyquist）頻率比 NRZ 奈奎斯特頻率有顯著的插入損耗優勢時，PAM4 就具有優勢，但它在中間電平消耗直流電流，因此不太適合低損耗高級封裝通道。另一種低功耗驅動器選擇是交流耦合，它可以降低驅動器強度和訊號擺幅，從而降低功耗。同時雙向（SBD）資料傳輸也能使給定海濱的資料頻寬增加一倍。

*圖 7. Die-to-die互連訊號：（a）SST 驅動器（b）低 VDDQ NRZ 驅動器（c）交流耦合 [54] （d）同時雙向 [56]。*

D. 通道路由性和完整性分析

對於高布線密度（例如，最小間距為 0.4µm），需要適當的訊號間遮蔽，以實現充分的串擾隔離和更好的訊號完整性。

如圖 8 所示，晶圓代工廠內部的通道最佳化涉及許多指標，如介質厚度、金屬間距、金屬厚度、可用金屬層、通孔外殼、堆疊規則等。每種先進技術的中介層都要進行設計和技術的共同最佳化，這通常涉及到推動設計規則，以保持可製造性、可布線性和訊號完整性（SI，包括插入損耗和串擾，如圖所示）之間的良好平衡。

圖 9 展示了 UCIe D2D 路由設計的兩個示例，採用兩種不同的代表性封裝和不同的遮蔽方式。InFO（硅橋）具有 2 微米厚金屬的局部硅互連，InFO（有機基板）具有 2.3 微米厚金屬的 RDL。兩者都有 4 層金屬用於訊號路由，另有 1 層用於電源網。前者的金屬寬度/間距粒度更小。由於兩種情況的訊號間距都是 8 微米，前者的金屬遮蔽更寬，訊號與訊號之間的間距稍大。因此，對於 x64 UCIe 外形，前者能夠以 32Gbps 的速度運行，而後者由於串擾更嚴重，只能以 16Gbps 的速度運行 x32 資料通道。

E. 2.5D 和 3D 外形

一定的互連模組外形尺寸，包括模組幾何形狀、訊號順序、凸塊間距、多模組堆疊等，對於確保不同chiplet供應商之間的整合相容性至關重要。雖然這種標準化給晶片生態系統帶來了僵化，但卻簡化了 IP 開發--只需支援 IP 的有限變體。不過，需要注意的是，就面積、功耗和成本而言，特定的外形尺寸不一定總是最佳的。

以 UCIe 為例：最初發佈的是 x64（64 Tx + 64 Rx）外形尺寸，隨後又發佈了 x32（32 Tx + 32 Rx）外形尺寸，用於 RDL 層數較少的低成本高級封裝。最初的 10 列模組採用 45 微米凸點間距。為了進一步提高面積效率，該聯盟後來推出了適用於較小凸點間距（<38µm）的 16 柱模組和適用於較大凸點間距（>50µm）的 8 柱模組。這些連續的調整在成本和性能之間取得了平衡，以適應不同應用的不同要求。

當前的 UCIe 協議支援對稱雙向資料收發，是同構 xPU 晶片間資料通訊的典型方式。

相比之下，晶片生態系統的重要組成部分--高頻寬記憶體（HBM）介面卻顯示出非對稱的記憶體訪問（讀/寫）頻寬。為了在不引起嚴重訊號完整性問題的情況下擴展介面頻寬，即將推出的 HBM4 將雙向資料 IO 數量翻了一番，從 1024 個增加到 2048 個。擴展 HBM 以提高頻寬通常會受到路由擁塞和訊號完整性問題的限制。通過將基礎晶片邏輯過渡到先進工藝節點，我們可以縮短互連線路，提高訊號完整性和速度。另外，利用類似 UCIe 的 SerDes IO 作為 HBM 介面，可以用更少的訊號路由實現更高的通道速率，在提高訊號完整性的同時保持相同的頻寬密度。

資料轉換器和邏輯處理器之間的介面是晶片組的另一個重要應用。JESD204D 是定義資料轉換器高速序列介面的最新標準。它包括 ADC（模數轉換器）的資料接收介面和 DAC（數模轉換器）的資料傳送介面。這些標準適用於 PCB 級或多晶片模組晶片整合。不過，用於高級封裝中資料轉換器的晶片組標準尚未制定。

雖然可以設想制定一個通用的晶片組標準，以解決三種獨特類型的系統--同構雙向核心對核心介面、非對稱記憶體訪問介面和單向資料轉換器介面--但每個系統仍需要不同的外形尺寸，以實現最佳性能和效率。

三維堆疊是實現更高能效的自然選擇，這主要是因為較短的晶片間路由大大降低了晶片間資料移動所需的能量。三維互連叢集對於形成具有固有時序穩健性的硬 IP 塊至關重要，如圖 6-c 所示。這種內建的時序穩健性允許模組化時序簽核，確保三維堆疊中每個晶片的時序驗證都能以獨立和自足的方式進行。

在圖 10 中，我們提出了一種 AB|BA 模式的三維叢集結構，其中模式 A 代表發射器（TX），模式 B 代表接收器（RX），反之亦然。正方形的 A/B 圖案可根據系統要求組態成不同大小，如 4x4、8x8 或 20x20。RX 和 TX 時鐘位於各自區域的中心，為每個 I/O 引腳和整個晶片實現了最佳平衡。電源和地線在 IP 叢集內對稱分佈。這種組態的優勢在於，設計具有特定多柵極方向的單個 IP 塊時，假定邏輯級引腳重對應可在Chiplet級輕鬆實現，則該 IP 塊可適應任何Chiplet方向。

這種結構有助於輕鬆實現 SoC 級可擴展性，通過跨 SoC 的 IP 實例化實現各種chiplet-to-chiplet的堆疊方案。我們為面對面（F2B）和面對面（F2F）連接中的 SoC 級可擴展性提出了四種選擇：X 方向鏡像或階躍，Y 方向鏡像或階躍。

圖 11 展示了兩個整合示例：

1. 案例 1："X-鏡像/Y-鏡像/D2D 之間的鏡像"--該組態支援所有 F2F 和 F2B die-to-die 堆疊方案。

2. 情況 2："X-階躍/Y-階躍/D2D 之間無鏡像"--此設定具有跨裸片的相同凸塊對應。它支援 F2F 堆疊，但要求 F2B 堆疊時旋轉 90 度。

*圖 11. 支援任意三維晶片堆疊（F2F/F2B 或旋轉）的 SoC 級可擴展性。*

這些靈活的整合方法可確保 IP 叢集在各種晶片堆疊組態中得到有效利用，從而提高 SoC 設計的可擴展性和效率。

F. 通道偏移和時鐘對齊

在平行資料匯流排和轉發時鐘拓撲結構的基礎上，還需要對齊資料通道和時鐘通道，從而最大限度地減少通道間的偏移。在凹凸圖規劃中，通過 Tx 和 Rx 之間的反鏡像物理對稱來實現車道與車道之間的匹配。但是，當要連接兩種不同的外形尺寸時，物理對稱性就不成立了。例如，8 列 UCIe 與 10 列 UCIe 介面時，通道本質上是不匹配的。

此外，隨機電路失配和片上/封裝（on-die/on-package）線失配也會增加額外的偏斜。我們需要在葉時鐘樹（eaf clock tree）上為每個通道分配足夠的偏斜調整範圍，以便在發射器和/或接收器上實現每個通道的偏斜校準。接收器上的資料採樣時鐘進一步調整到 Rx 資料眼的中心，以獲得最佳的左眼和右眼余量。

圖 12 展示了用於生成前向時鐘的兩種時鐘拓撲結構。邊緣對齊拓撲（圖 12-a）的資料轉換和時鐘轉換是對齊的；在 Rx 中採用本地 DLL 生成 90 度相移的時鐘，對 Rx 資料眼進行採樣。邊緣對齊拓撲旨在減少電路和提高能效，但它對溫度或電壓漂移引起的不匹配很敏感，因此只適合資料速率較低的應用（如 20Gbps 以下）。延遲匹配拓撲（圖 12-b）在 Tx 端生成 I/Q 時鐘（使用 DLL 或 PLL 和相位中介層），I 時鐘進入資料路徑，Q 時鐘轉發到 Rx。時鐘和資料路徑在結構上相匹配，以保持良好的抖動跟蹤和延遲跟蹤。

在大多數情況下，傳送die和接收die採用獨立的 PLL 和時鐘域。為了在兩個 PLL 域之間實現穩健的時鐘域交叉，通常需要先進先出 (FIFO) 資料緩衝器，這會產生額外的功耗和延遲（圖 13-a）。對於像核心到記憶體連接這樣的介面，在兩個堆疊晶片之間強制使用單一時鐘域是可行的。在圖 13-b 中，我們提出了一種在兩個裸片之間實現單時鐘域的替代方案，即 PLL1 的主時鐘從主裸片轉發到副裸片，然後再返回主裸片。這樣，3D 晶片到晶片介面就可以在沒有先進先出器的情況下傳輸/接收資料。在第一個捕獲 DFF 邊界處，可以保留與圖 13-a 相同的時序余量。在主晶片的 Rx DFF 之後重新捕獲資料的時序裕量會受到兩個轉發時鐘路徑延遲的輕微影響，但這是可以控制的。

G. 冗餘和可修復性

冗餘性和可修復性是微處理器領域廣泛研究的課題。確定了三種不同的冗餘策略：

1、元件級冗餘：這涉及多個平行功能單元，如多個 CPU 核心。在這種安排下，一個或多個核心的故障不會影響系統的整體功能。

2、陣列冗餘：這種類型的冗餘增加了備用結構，可以替代有缺陷的結構。陣列冗餘的常見應用是在高速緩衝儲存器中，用備用元素替代故障元素，以保持性能。

3、動態佇列冗餘：這種方法要求能夠動態地標記和停用有缺陷的元素，從而防止它們的使用並保持系統的完整性。

通過利用這些冗餘策略，處理器可以實現更高的可靠性和更簡易的可修復性，即使在出現故障時也能確保穩定的性能。

由於die-to-die之間是通過密集的微凸塊或高級鍵合連接的，因此缺陷檢測和修復對於保證晶片封裝後的良品率至關重要。上述三種策略都適用於chiplet互連。

圖 14 是使用 "移位和切換修復 "（Shift and Switch Repai）概念修復三個故障通道的示例，硬體開銷僅為十分之一的冗餘。基於二項分佈的機率計算表明，這種 30+3 聯合修複方法的故障率比 3 個獨立的 10+1 組低 1000 倍。

對於汽車等關鍵任務應用，人工智慧/ML 正在形成，處理器故障的風險很高，因此採用動態可靠性管理技術是有益的，在這種技術下，處理器可以對不斷變化的應用行為做出響應，以保持其壽命可靠性目標。

要在可修復性和訊號完整性之間取得平衡，就必須進行戰略性權衡。例如，分離電源和接地凸塊有利於防止永久性短路故障。不過，這種方法可能會增加面積開銷或影響訊號完整性。

H. ESD 遷移

隨著業界推動更高頻寬的發展，ESD 結構必須相應擴展，以防止 ESD 二極體的大尺寸和高電容成為擴展瓶頸。如果不能解決這一問題，IO 能效將受到限制。我們需要制定一個積極的 ESD路線圖。圖 15 強調了 ESD 電容和面積擴展的趨勢，同時還顯示了行業支援的電荷器件模型 (CDM) 電壓的降低。

I. 電力傳輸

以 UCIe 10 列高級封裝為例：在 32Gbps 運行速度和 0.6pJ/bit 能效（0.75 伏）條件下，基於 388.8 微米 x1000 微米的 x64 通道模組尺寸，電流密度可達 4.1A/mm² 以上。在如此高的電流密度下，我們觀察到電源/接地凸點存在嚴重的電磁 (EM) 可靠性問題，其值比設計規則允許的電磁限制高出三倍。通過改變凸點材料，這一問題得到了緩解，但我們還必須增加更多的電源/接地凸點，並更新 UCIe 凸點圖，以提高可靠性和性能。

此外，UCIe 規範還支援時鐘門控模式。從空閒模式進入任務模式會引入最壞情況下的動態電流 (di/dt)，導致電壓大幅下降。由於時序和電壓裕量減少，這將導致更高的位元誤差。降低 di/dt 的最有效方法是依靠晶片或封裝上的去耦電容器來抑制噪聲紋波。去耦電容策略包括從上到下（見圖 16-a）的利用，例如 A) 通常在 µF 範圍內的封裝上分立去耦電容器 (OPD)，B) 封裝內去耦電容器，如 Si-interposer 上的嵌入式深溝電容器 (eDTC)，電容密度大於 1000nF/mm2、 C) 片上去耦電容器，包括電容密度約為 50 nF/mm² 的超高密度 MIM 電容器 (SHDMIM) 和電容密度約為 10 nF/mm² 的器件電容器。位於頂模上或頂模附近的電容器串聯電阻較低，但電容密度也較低。隨著與頂模距離的增加，串聯電阻也會增加。因此，在確定最佳去耦電容器策略時，必須考慮各種因素，包括技術、成本、面積和噪聲規格。

圖 16-b 顯示了功率阻抗最佳化示例和電壓紋波分析結果。不同的電容器用於抑制相應頻率範圍內的功率阻抗。OPD 可增強 1MHz~100MHz 範圍內的功率阻抗。片上 SHDMIM 可抑制 200MHz 以上的高頻部分。而額外的封裝內 eDTC 可以進一步抑制阻抗，使頻率範圍更低，甚至達到 40MHz。使用 eDTC 後，電壓紋波從 102.4mVpp 抑制到 32.07mVpp，接近目標規格 30mVpp。

最後，如果系統超出了電壓下降容限，則必須實施全面的系統級策略，以滿足低誤位元率的要求。潛在的解決方案包括

a) 通過車道交錯來降低 di/dt，即每次將車道從空閒狀態過渡到空閒狀態。雖然這種方法可以緩解電壓下降，但其缺點是會增加鏈路延遲。

b) 通過在時鐘門控期間增加背景電流來降低 di/dt。這可以通過保持部分或全部空閒通道處於啟動狀態來實現。這種方法雖然有效，但功耗較高。

c) 通過降低運行資料速率來降低 di/dt，這雖然有助於管理電壓下降，但會導致系統性能下降。

全面的 3DIC 設計流程

如圖 17-a 所示，先進的封裝架構包含多種封裝選項。這些選項包括改變每個層面的die數量，以及整合各種無源器件，如深溝槽電容器 (DTC) 和整合無源器件 (IPD)。該架構還支援不同類型的水平連接，包括硅中介層和有機中介層，以及各種垂直連接，如硅通孔（TSV）、中介層通孔（TIV）和模具通孔（TMV）。此外，它還提供多種介面類型，包括高級鍵合、微凸塊和 C4 凸塊，以及不同的堆疊方向，如面朝下、面朝上、面對面和面對背。

*圖 17. (a) 豐富的 3DIC 架構選擇 (b) 3Dblox 統一基礎設施。*

單個或多個供應商提供的各種封裝技術，再加上眾多可能的組合，使設計過程變得非常複雜。此外，各種物理整合和驗證任務需要不同的 EDA 工具，涉及多個 IP 和工具供應商。當前的 EDA 工具、工作流程和方法已經發生了顯著變化，以滿足複雜 3D 整合的需求。

為了應對 3D-IC 設計中的挑戰，3Dblox 開放標準已經建立並獲得了業界的廣泛認可。如圖 17-a 所示，3Dblox 採用模組化方法，將三維封裝中的每個物理元件分類並抽象為特定模組。設計三維繫統時，需要將這些模組實例化，使用高級程式語言建立相互連接的對象，並按層次組織，類似於傳統的 SoC。

3DBlox 的主要特點見圖 17-b。為了簡化設計流程，我們將斷言直接整合到語言中，從而實現了自頂向下、逐層正確構造的設計方法。分層實例化功能增強了晶片的重複使用，提高了設計效率。隨著主要 EDA 供應商和半導體製造商採用 3Dblox，由於互操作性的提高，晶片整合變得更加無縫和高效。這種整合將進一步加快 3D-IC 生態系統的發展和成熟。

未來發展趨勢

A. 設計模組化

針對支援 4 至 32 Gbps 資料傳輸速率的高級封裝，定義了六種 UCIe 外形。圖 18 (a) 顯示了這些外形尺寸的一個示例。由於凸點間距、列數、資料速率和技術節點各不相同，智慧財產權（IP）的開發成為一個耗時耗力的過程。為了緩解這一挑戰，我們採用了模組化概念和編譯器相容方案，如圖 18(b) 所示。

*圖 18. (a) UCIe 2.0 bumpmap 示例 (b) Chiplet 輸入/輸出的模組化設計。*

在這種方法中，晶片與晶片之間的互連被劃分為可重複塊（如 IO 通道）和常用共享塊（包括 DLL、PLL、DCDL 和校準電路）。特定的平面圖元素（如時鐘樹）可以定製和編譯，以滿足不同的目標規格。

B. 頻寬和能效擴展

頻寬密度和能效仍然是下一代晶片組互連的重點。

封裝凸點間距和技術節點對頻寬密度有重大影響。圖 19 展示了根據我們使用實際工藝和封裝技術縮放因子進行的一階估算得出的面積頻寬密度趨勢。要提高頻寬密度，可以提高鏈路資料速率和/或減小互連凸點間距。然而，更高的資料速率需要更強的電路驅動強度和校準，從而導致更大的電路面積。因此，可能需要調整凸塊間距。例如，對於 N7 技術，45 微米的凸塊間距 (P45) 可支援 16Gbps 速率，而 24Gbps 和 32Gbps 速率則分別需要 55 微米 (P55) 和 65 微米 (P65)，導致 16Gbps 速率之後的區域頻寬密度下降。相比之下，N4/N5（4 納米/5 納米）技術可提高頻寬密度，資料傳輸率可達 24Gbps。N3 允許進一步提高頻寬。設計和技術協同最佳化可能會稍微改變趨勢線，但總體而言，N3（3 納米）等更先進的技術可實現更高的面積/岸線頻寬密度和能效。

*圖 19. 技術和頻寬縮放（註：P30/C16 指 30µm 凸塊間距，UCIe 16 列外形尺寸）*

從海岸線頻寬密度（shoreline bandwidth density）的不同角度來看，上述研究基於 UCIe 凸點圖約束，結果是較高的資料速率與較高的海岸線頻寬密度相關。這與文獻中的評估形成鮮明對比，後者在 x 和 y 兩個方向上都使用了間距縮放。在保持凹凸受限的情況下，凹凸間距隨資料傳輸速率降低而縮放，因此海岸線頻寬密度保持不變。在這種情況下，由於電路複雜性降低，較低的資料速率有望提高能效。相反，技術擴展可以支援更複雜的設計，並提高給定凸點間距的資料速率，從而提高岸線頻寬（例如，從 1.5 Tb/s/mm 提高到 2 Tb/s/mm），如圖 20 所示。

C. 大型系統

由於視網膜尺寸的限制，最近人工智慧/ML 發展的趨勢是在晶圓級擴大規模（圖 21）。通過結合 3DFabric（或同類產品）提供的解決方案，我們可以有效地利用 SoIC（用於整合 SRAM+CPU 和 HBM+GPU）、LSI（用於整合 CPU+GPU（高密度/近距離））、LSI（用於將 xPU 整合到 I/O 晶片）、無源 LSI（用於 eDTC（用於封裝上解耦以降低電源噪聲））以及 RDL（用於大規模整合的電源傳輸和更遠距離的資料傳輸）。這種晶圓級封裝可減輕視網膜尺寸限制所帶來的制約，同時在不久的將來，晶圓上的網路和異質（序列和平行）[18]或混合（光和電）連結對於 xPU 與 xPU 之間的高效互連也是必要的。

除晶圓級封裝外，扇出面板級封裝（FOPLP）也即將問世，有望提高封裝吞吐量、降低成本，並有可能在面板級實現更大的整合系統，而在整個封裝過程中，翹曲控制仍是一項重大挑戰。

與此同時，對更高互聯資料頻寬密度的渴求仍在繼續，例如，UCIe 聯盟正在制定 48/64Gbpsie 間互聯提案。對於系統的升級和擴展，封裝光波導和共封裝光引擎仍然對業界具有吸引力。

更大的系統需要採用整合磁性元件的垂直電源傳輸，以實現有效的電壓調節。CPU、GPU、HBM、SerDes、光學引擎和電壓調節器的大規模整合是一項重大任務，超越了現有的一些工程技術[。要實現這一目標，需要各行業合作夥伴通力合作，管理技術堆疊的不同方面，以實現高性能，同時確保卓越的能效、訊號完整性、熱管理和結構穩健性。

隨著晶片生態系統變得更加強大和 3D-IC 設計方法的進步，新的可能性和更大的創新將會出現。

致謝本文作者：Shenggao Li, Sr. Member, IEEE, Mu-Shan Lin, and Wei-Chih Chen, Chien-Chun Tsai (半導體行業觀察)