輝達,被彎道超車?

根據不完全統計,目前半導體產業已開發出約1000 種封裝類型,按互連類型來劃分,其中包括了引線鍵合、倒裝晶片、晶圓級封裝(WLP) 和矽通孔(TSV)等,無數個die透過連網裝置相連接,構成瞭如今日漸繁盛的封裝市場。

其中的先進封裝,成為了近兩年最受關注和歡迎的領域,先進過程進展越緩慢,它的重要性就愈發突出, AMD、英特爾和英偉達這傳統的「禦三家」紛紛涉足,從2D封裝轉戰2.5D封裝,也向3D封裝這座高峰發起了挑戰。

2023年6月,AMD在舊金山正式推出了MI300X與MI300A兩款AI加速器, 其中MI300X 採用了8 XCD,4個IO die,8個HBM3堆棧,高達256MB的AMD Infinity Cache和3.5D封裝的設計,支援FP8 和稀疏性等新數學格式,是一款全部面向AI 和HPC 工作負載的設計,而它的電晶體也達到了1530 億顆,成為了AMD 迄今為止製造的最大晶片。




AMD表示,MI300X 在人工智慧推理工作負載中的性能比英偉達(輝達)H100高出1.6倍,在訓練工作中的性能與H100相當,從而為業界提供了亟需的高性能替代品,以取代英偉達的GPU。此外,這些加速器的HBM3 記憶體容量也是英偉達GPU 的兩倍多,達到驚人的192 GB,使其MI300X 平台能夠支援每個系統兩倍多的LLM,並能運行比H100 HGX 更大的模型。

最受矚目的當然還是AMD所宣稱的3.5D封裝,AMD表示,透過引入3D混合鍵合和2.5D的矽中介層,實現了全新的「3.5D封裝」技術。

AMD 資深副總裁兼企業研究員Sam Naffziger 表示:「這是真正令人驚嘆的矽堆疊,提供了業界目前已知的最高密度效能。這項整合採用了台積電的兩種技術,即SoIC(整合晶片系統)和CoWoS(晶片基板晶片)。前者(SoIC)使用混合鍵合技術將較小的晶片堆疊在較大的晶片之上,無需焊料就能直接連接每個晶片上的銅墊,其幫助高速緩衝儲存V-Cache 晶片堆疊在最高階的CPU 晶片上,而後者(CoWos)將晶片堆疊在一塊更大的矽片上,這塊矽片被稱為內插板(interposer),用於容納高密度互連。”

當英偉達還在H200中使用台積電CoWoS的2.5D封裝時,AMD卻率先一步,實現了台積電SoIC 3D封裝和CoWoS 2.5D封裝的結合,而它更早之前對Chiplet的佈局,似乎早已為這次彎道超車做足了準備。


搭積木一樣做成晶片

首先我們來回顧一下MI300X和MI300A的具體架構,根據AMD官方的解釋,MI300系列採用了台積電的3D 混合鍵合SoIC(集成電路上矽)技術,在四個底層I/O 晶片之上對各種運算元件進行3D 堆疊,無論是CPU CCD(核心運算晶片)或GPU XCD。每個I/O 晶片可容納兩個XCD 或三個CCD。每個CCD 與現有EPYC 晶片中使用的CCD 相同,每個CCD 擁有八個超線程Zen 4 核心。MI300A 使用了其中的三個CCD 和六個XCD,而MI300X 使用了八個XCD。

所謂XCD,是AMD在GPU中負責計算的Chiplet,在MI 300X上,8個XCD包含了304 個CDNA 3 計算單元,那就意味著每個計算單元包含了34個CU。作為對比,AMD MI 250X 擁有220個CU,這是一個較大的飛躍。

而HBM 堆疊則採用了2.5D 封裝技術的標準中介層進行連接,每個I/O 晶片都包含一個32 通道HBM3 記憶體控制器,用於託管8 個HBM 堆疊中的兩個,從而為該裝置提供了總共128 個16 位元記憶體通道。MI300X 採用12Hi HBM3 堆棧,容量為192GB,而MI300A 使用8Hi 堆棧,容量為128GB。

具體而言,AMD 的CPU CCD 透過3D 混合鍵合到底層I/O 晶片,透過利用標準2.5D 封裝的GMI3介面進行通信,AMD 為此添加了一個新的焊盤通孔接口,可繞過GMI3鏈路,從而提供垂直堆疊晶片所需的TSV。

5nm XCD GPU 晶片標誌著AMD GPU 設計的全面晶片化,XCD 和IOD 具有硬體輔助機制,可將作業分解為更小的部分、分派它們並保持它們同步,從而減少主機系統開銷,這些單元還具有硬體輔助的快取一致性。

為了MI300系列封裝的這一小步,AMD準備了多年的時間,最早的起源可以追溯到1965年,當時AMD工程師以"晶片組"概念為基礎,開發出一種將每個大晶片拆分成小塊的設計。



在和英特爾的CPU競爭中,推土機架構的失敗讓AMD的處境岌岌可危,它亟需一個低成本的解決方案來與英特爾更先進的架構競爭,Zen應運而生,新一代Ryzen處理器採用晶片組或MCM(多晶片模組)架構,標誌著整個PC 和晶片製造業的徹底轉變。

Zen初代架構相對簡單,採用了SoC 設計,從核心到I/O 和控制器的所有內容都位於同一晶片上,同時引入了CCX 概念,其中CPU 核心被分為四核單元,並使用無限高速緩存進行組合,由兩個四核心CCX 組成一塊晶片,不過消費級仍然是單晶片的設計。

而Zen+ 的情況基本上保持不變(採用了更先進節點),但Zen 2 是一個重大升級,這是第一個基於Chiplet的消費類CPU 設計,具有兩個計算晶片或CCD加一個I/O晶片. AMD 在Ryzen 9 上增加了第二個CCD,其核心數量在消費者領域前所未見。

Zen 3進一步完善了Chiplet設計,取消了CCX並將八個核心和32MB快取合併到一個統一的CCD中,這大大減少了快取延遲並簡化了記憶體子系統,AMD 銳龍處理器首次提供了比對手英特爾更好的遊戲性能。Zen 4 除了縮小CCD 設計外,沒有對CCD 設計做出顯著改變。

而EPYC系列中,第一代AMD EPYC 處理器中基於四個複製的小晶片。每個處理器都有8 個「Zen」CPU 核心、2 個DDR4 記憶體通道和32 個PCIe 通道,以滿足效能目標,AMD 必須為四個小晶片之間的Infinity Fabric 互連提供一些額外的空間。

第二代EPYC的第一個Chiplet稱為I/O die(IOD),採用12nm工藝,包含8個DDR4內存通道,128個PCIe gen4 I/O通道以及其他I/O(如USB和SATA, SoC資料結構,和其他系統級功能)。第二個Chiplet則是複合核心die(CCD),採用7nm製程。在實際產品中,AMD將一個IOD與多達8個ccd組裝在一起,每個CCD提供8個Zen 2 CPU內核,因而可以一次提供64個內核。

在第三代EPYC上,AMD提供多達64個核心和128個線程,採用AMD最新的Zen 3核心。此處理器設計有八個Chiplet,每個Chiplet有八個核心,這次Chiplet中的所有八個核心都是連接的,從而實現了有效的雙L3 快取設計,以實現較低的整體快取延遲結構。

在第四代EPYC中,AMD在原來的架構上採用多達12 個5 奈米複雜核心晶片(CCD) 的小晶片設計,其中I/O 晶片採用6nm 製程技術,而其周圍的CCD 則採用5nm 製程。每個晶片具有32MB 的L3 快取和1 MB 的L2 快取。

這些CPU最終為MI300系列的Chiplet鋪平了技術方面的道路。

2021年1月,AMD申請並通過了一項MCM GPU Chiplet 設計的專利,AMD在美國專利商標局公開了一項標題為“使用高頻寬交聯的GPU Chiplets”的專利,專利號為“US 2020 /0409859 A1”,在專利描述中,AMD概述了Chiplet設計中的圖形晶片未來的樣子,GPU Chiplet應直接與CPU 通信,而其他小Chiplet通過無源、高頻寬交叉鏈路相互通信,並作為片上系統(SoC) 佈置在對應的中介層上。

2023年11月,AMD又公開了一項關於Chiplet 設計的專利,其描述了一種與現有晶片佈局截然不同的GPU 設計,即在大型主GPU 晶片周圍分佈大量內存緩存晶片(MCD),其描述了一種將幾何工作量分配到多個晶片上的系統,所有晶片並行工作。此外,沒有一個"中央晶片"會將工作分配給下屬晶片,因為它們都將獨立運作。該專利表明,AMD 正在探索用晶片組來製造GCD,而不僅僅是一塊巨大的矽片。

從消費領域到超算領域,再到AI領域, AMD利用Chiplet掀起了一場紅色風暴,而為這場風暴不斷提供助力的,正是來自台積電的先進封裝技術。


AMD背後的人

在接受IEEE Spectrum採訪時,AMD產品技術架構師Sam Naffziger講到:「五、六年前,我們開始研發EPYC 和Ryzen CPU 系列。當時,我們進行了廣泛的研究,以找到最適合連接晶片的封裝技術。這是一個涉及成本、性能、頻寬密度、功耗和製造能力的複雜方程式。想出好的封裝技術相對容易,但要真正做到大批量、低成本地生產,則完全是兩碼事。”

2011年,台積電首次開發了2.5D封裝CoWoS,隨即就被賽靈思的高端FPGA 採用,但由於其價格過於昂貴,在封裝市場上遲遲打不開局面,直到AI浪潮的席捲全球,英偉達、 AMD、Google、英特爾紛紛拋來了橄欖枝,將CoWoS推上了最熱門先進封裝的寶座。

下面是台積電的CoWoS(晶圓基板上晶片)封裝示意圖。CoWoS 允許在單一封裝上整合多個晶片或晶片。這樣就能將不同類型的晶片(如處理器、記憶體和圖形晶片)整合到單一封裝中,從而提高效能、降低功耗並縮小外形尺寸。多個晶片透過矽通孔(TSV)垂直堆疊,並以微凸塊互連。與傳統的2D封裝相比,這種堆疊方法可以縮短互連長度、降低功耗並提高訊號完整性。



CoWoS在AMD的Chiplet上出力不少,透過將大型單晶片劃分為較小的晶片組,設計人員可以專注於優化每個晶片組的特定功能。,可實現更好的電源管理、更高的時脈速度和更高的每瓦效能,同時還有助於將這些高效能晶片與記憶體等其他元件整合到一個封裝中,從而進一步提高系統效能。

CoWoS為之後的3D封裝提供了寶貴經驗,2018年,台積電推出了SoIC 技術,其作為一種創新的多晶片堆疊技術,主要是針對10nm 以下的製程技術進行晶圓級接合,與CoWoS技術相比,SoIC可提供更高的封裝密度、更小的鍵結間隔,還可與CoWoS/InFo共用,實現多個Chiplet整合。

在IEDM 會議上,台積電副總裁介紹了該公司SoIC 路線圖的更多細節。根據路線圖,台積電首先採用目前可用的9μm 鍵結間距。然後,它計劃推出6μm 間距,接著是4.5μm 和3μm。換而言之,台積電希望每兩年左右推出新的鍵距,每一代產品的縮放比例提高70%。

他也用AMD的處理器作為SoIC應用的例子,A​​MD 設計了基於7nm 製程的處理器和SRAM,然後交由台積電生產,最後以9μm 鍵合間距的SoIC技術來連接晶片。

這裡提到的,正是AMD在2021年推出的代號為Milan-X的EPYC處理器裡加入的3D V-Cache緩存,這也是世界上首款採用3D晶片堆疊的資料中心處理器。

AMD 表示,3D V-Cache 在目前第三代EPYC CPU 每個運算晶片32 MB 的SRAM 基礎上又增加了64 MB,使Milan-X 每個運算晶片的三級快取達到96 MB,由於Milan-X處理器架構中最多有8 個運算晶片,因此CPU 中共享的L3 快取最多可達768 MB,額外的L3 快取可緩解記憶體頻寬壓力並減少延遲,從而顯著提高應用程式效能。

能實現這一步,台積電的SoIC 技術功不可沒,其將V-Cache 中的互連永久綁定到CPU,縮小了晶片之間的距離,從而實現2 TB/s 的通訊頻寬,與第三代EPYC CPU 使用的2D 小晶片封裝相比,Milan-X CPU 中的互連的每位元能耗僅為三分之一,互連密度提高了200 倍,功效提高了三倍。

這項技術後續也被下放到了Ryzen 7 5800X3D處理器之中,開始在消費市場中大展身手,包括最新的Ryzen 9 7950X3D,同樣用到了3D V-Cache的技術。

2023年,台積電在北美技術論壇上著重介紹了全新的3DFabric技術,主要由先進封裝、3D晶片堆疊和設計等三部分組成。透過先進封裝,可在單一包裝中置入更多處理器及記憶體,從而提升運算效能;在設計支援上,台積電推出開放式標準設計語言的最新版本,協助晶片設計人員處理複雜大型晶片。

2011年至2023年,台積電十餘年的封裝技術演進讓AMD的Chiplet夢想終於得以實現,而MI300系列也正是建立在最新的3DFabric基礎之上,將台積電SoIC 前端技術與CoWoS後端技術相集成,堪稱量產先進封裝技術的集大成者。


藍色巨人的封裝版圖

對英特爾來說,封裝同樣是它發展的重心之一,而且與AMD不同的是,英特爾選擇了自己搞封裝,試圖掌握晶片研發生產應用的全流程。

英特爾對標台積電CoWoS的2.5D封裝技術稱為EMIB,2017年正式應用於產品,英特爾的資料中心處理器Sapphire Rapid就是採用的這項技術;第一代的3D IC封裝則稱為Foveros,2019年時已用於英特爾電腦處理器Lakefield。

EMIB最大特色就是透過矽橋(Sillicon Bridge),從下方連接記憶體(HBM)和運​​算等各種晶片(die)。也因為矽橋會埋在基板(substrate)中並連接晶片,讓記憶體和運算晶片能直接相連,加快晶片本身的能源效率。

Foveros則是3D堆疊,將記憶體、運算和架構等不同功能的晶片組堆疊起來後,運用銅線穿透每一層,達到連接的效果,最後,工廠會將已經堆疊好的晶片送到封裝廠座組裝,將銅線與電路板上的電路做接合。

2022年,英特爾首次將下2.5D和3D封裝技術融合在一起,命名為Co-EMIB,這是一個將EMIB和Foveros技術結合的創新應用,能夠讓兩個或多個Foveros元件互連,並且基本上達到單晶片的效能水準,藉由這項技術,推出了當時電晶體規模最大的SoC-Ponte Vecchio,主要面向高性運算市場。

每顆Ponte Vecchio 處理器實際上都是使用英特爾Co-EMIB 連接在一起的兩個Chiplet的鏡像集,Co-EMIB 在兩個3D Chiplet堆疊之間形成高密度互連的橋樑,橋本身是嵌入封裝有機基板中的一小塊矽。矽上的互連線可以比有機基板上的互連線更窄。Ponte Vecchio 與封裝基板的普通連接間隔為100 微米,而Co-EMIB 晶片中的連接密度幾乎是其兩倍,Co-EMIB 晶片還將高頻寬記憶體(HBM) 和Xe Link I/O Chiplet連接到“基礎矽」(最大的Chiplet),其他晶片則堆疊在該「基礎矽」上。



基礎晶片還使用了英特爾的3D 堆疊技術,稱為Foveros,該技術在兩個晶片之間建立了密集的晶片到晶片垂直連接陣列。這些連接僅相距36 微米,並透過「面對面」連接晶片來實現;也就是說,一個晶片的頂部粘合到另一個晶片的頂部。訊號和電源經由TSV矽通孔進入此堆棧,矽通孔是相當寬的垂直互連,直接穿過大部分矽。Ponte Vecchio 上使用的Foveros 技術是對用於製造英特爾Lakefield 行動處理器的技術的改進,訊號連接密度增加了一倍。

要做到這一點並不容易,英特爾院士Wilfred Gomes表示,這需要在產量管理、時脈電路、熱調節和功率傳輸方面進行創新。例如,英特爾工程師選擇為處理器提供高於正常水平的電壓(1.8 伏特),以便降低電流,簡化封裝,基片中的電路將電壓降低到接近0.7 伏特,以便在計算晶片上使用,而且每個計算晶片都必須在基片中擁有自己的電源域。

對於英特爾來說,Ponte Vecchio將它目前已有的先進封裝技術推到了巔峰,與AMD的MI300系列相比,也未遜色多少,可謂是如今先進封裝的紅藍雙星。

實際上,英特爾雖然在先進製程上略落後於台積電,但在先進封裝卻與台積電不相上下。英特爾表示,自己靈活的代工服務,允許客戶混合搭配其晶圓製造和封裝產品,作為老牌廠商的它,晶圓封裝廠分散在世界各地,可以利用地理優勢來擴大產能和服務。

英特爾CEO Pat Gelsinge在接受採訪時也表示,英特爾擁有下一代記憶體架構的先進能力,以及3D 堆疊的優勢,既能用於Chiplet,也能用於人工智慧和高效能伺服器的超大封裝,未來我們將把這些技術應用到產品中,同時也將展示給代工廠(IFS)的客戶、


為什麼是Chiplet?

在看完AMD、英特爾以及台積電的技術歷程後,相信許多人都會有一個疑問,為什麼他們如此執著於3D封裝和Chiplet呢?

原因源自半導體產業內部的需求,摩爾定律的出現,讓不斷提高的設備集成度能夠繼續適應相同的物理尺寸,光刻縮小可以使構建塊縮小30%,那麼就可以在不增加晶片尺寸的情況下增加42% 的電路。

但並非所有半導體裝置都能享受這一紅利,例如可以包含類比電路的I/O,其擴展速度約為邏輯的一半,這就讓人必須尋找新的出路。而且光刻縮小的成本也不便宜,採用7nm 工藝加工的晶圓成本高於採用14nm 工藝加工的晶圓成本,5nm 工藝的成本高於7nm 工藝,依此類推…隨著晶圓價格的上漲,Chiplet往往比單片更經濟實惠。

此外,由於新晶片設計需要設計和工程資源,並且由於新節點的複雜性不斷增加,每個新製程節點的新設計的典型成本也隨之增加,這一的情況進一步激勵人們創建可重複使用的設計。

Chiplet設計理念使這成為可能,因為只需改變晶片的數量和組合即可實現新的產品配置,透過將單一小晶片整合到1、2、3 和4 晶片配置中,可以從單一流片創建4種不同的處理器品種,而如果想把它們整合進一塊晶片中,就需要4 次單獨的流片。



AMD 在其關於新款Radeon RX 7900 系列"Navi 31 "圖形處理器的技術演示中,詳細解釋了為什麼必須為高階圖形處理器採用晶片組路線。

事實上,AMD 近十年裡的Radeon GPU 與CPU相比,不管是利潤還是收入都不容樂觀,在面臨英偉達競爭的情況下,降低製造成本的必要性愈發突出,隨著GeForce "Ada Lovelace "一代的推出,英偉達繼續押注在單片矽GPU 上,即使是最大的"AD102 "晶片也還是單片GPU,這為AMD 提供了一個降低GPU 製造成本的機會。

Chiplet讓AMD其能和英偉達展開價格戰,拿下更多的市佔率。最典型的例子是,AMD 對Radeon RX 7900 XTX 和RX 7900 XT 分別採用了相對激進的999美元和899美元定價,根據AMD 的官網數據,這兩款產品有能力與英偉達1199 美元的RTX 4080 一決高下,在某些情況下,甚至有可能與1599 美元的RTX 4090 展開較量。

事實上,這就是Chiplet的最顯著的優點之一,透過使用Chiplet,AMD可以快速提高良率並簡化設計/驗證,同時可以為每個小晶片選擇最佳製程。邏輯部分可以採用尖端製程製造,大容量SRAM可以使用7nm左右的製程製造,而I/O和外圍電路可以使用12nm或28nm左右的製程製造,從而減少了設計和製造成本。

此外,Chiplet也能幫助它輕鬆製造衍生類型,例如相同邏輯但不同外圍電路,或相同外圍電路但不同邏輯,而且可以混合使用來自不同製造商的小晶片,而不是局限在單一製造商上。

AMD如此,英特爾也不外乎是,AMD仰賴台積電已有的技術,全力研究晶片架構設計,英特爾就要稍微吃力一點,一方面研究先進製程與封裝,另外一方面也要著手晶片與Chiplet的迭代改進,兩家甚至還在封裝上打起了擂台賽。

如今去評斷比賽的勝負已經不重要了,因為3D封裝與Chiplet逐漸從資料中心與AI加速器走向消費市場的PC處理器,最後惠及筆電與手機,成為了大家認定的新趨勢,


寫在最後

與AMD和英特爾相比,英偉達在3D封裝以及Chiplet上卻顯得如此「遲鈍」。

2017年6月英偉達發表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計,其基本上可看成是如今的Chiplet。

但英偉達一直未將這項設計付諸於實務中,反而在2021年12月發表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,其中所提出的COPA-GPU架構,實際只是單獨分離了L2緩存,這也就是說,英偉達會在未來繼續堅持Monolithic單一光刻設計。

英偉達堅持大晶片的原因其實很簡單,die與die之間通訊頻寬永遠無法和monolithic內部的通訊頻寬相比,Chiplet也許不適合高AI算力場合,更適合在CPU領域中大展拳腳,2022年英偉達發表的Grace CPU Superchip,就透過NVLink-C2C技術實現晶片高速互連,該晶片也遵循由業界共同製定的Chiplet互連規範UCIe。

在Chiplet上的謹慎,也讓英偉達與3D封裝沒了緣分,雖然英偉達目前是台積電2.5D封裝CoWoS的最大客戶之一,但SoIC的客戶裡暫時還不包括它,也讓它成了禦三家裡最晚擁抱這項先進技術的一家了。

伴隨著Chiplet的高速發展,英偉達也可能在未來開始擁抱這一設計理念,今年的爆料人士Kopite7kimi稱,英偉達面向高效能運算(HPC)和人工智慧(AI)客戶的下一代Blackwell GB100 GPU將全面採用Chiplet設計。

如今AMD在AI晶片上先行一步,利用Chiplet和3.5D封裝打造了更大更強的MI300X,英特爾也已經全面擁抱Chiplet和3D封裝,英偉達雖然依舊坐擁龐大的AI市場,但它的寶座卻出現了一道微不可察的裂縫,紅藍綠這三家,誰能在晶片封裝上掌握真正的話語權呢?(半導體產業觀察)