近日台積電董事長Mark Liu(劉德音)在IEEE刊登了一篇長文,標題為《How We'll Reach a 1 Trillion Transistor GPU》。
身為全球半導體產業巨頭,Mark Liu講述了AI產業發展背後的晶片故事,視角獨特,非常值得一讀。
下面我來跟大家解讀這篇文章。報告連結放在文末,歡迎有興趣的朋友去看原文。
(1)10年內將出現萬億電晶體整合的GPU
從1997年IBM Deep Blue擊敗西洋棋大師Garry Kasparov算起,到ChatGPT、Sora的誕生,已經過了整整27年。
這27年中,人工智慧的能力得到了極大的提升,這背後有三大驅動力:演算法架構的創新、海量資料的累積、半導體技術的革命。
可以說,半導體產業的技術革新,是人工智慧發展的重要驅動力。
IBM的Deep Blue採用的是0.6微米和0.35微米的混合晶片製造流程。
贏得ImageNet競賽的神經網路模型,背後是基於40奈米製程的晶片製程。
在圍棋界獨霸天下的AlphaGo,採用的是28nm的製程。
轟動全球的ChatGPT,則是基於4nm製程。
如果AI革命以現在的速度發展下去,10年內我們就需要一個萬億電晶體的GPU。
而要知道,英偉達最新發表的Blackwell架構的B200晶片,也只有2,080億個電晶體。也就是說,10年內GPU中電晶體的整合數量將有10倍的提升空間。
半導體技術進步的驅動力包括:新材料、光刻技術發展、新型電晶體、先進封裝製程。上圖中把這四種類型的驅動因素分別呈現,一目了然。
(2)光刻製程達到瓶頸,3D封裝成為突破口
自從積體電路發明以來,半導體技術一直致力於縮小尺寸,從而能夠將更多的電晶體塞進一個拇指大小的晶片中。
現如今,隨著2.5D、3D封裝被廣泛應用,整合度提升到了新的水平。
台積電正在將許多晶片組合成為一個緊密整合的系統。這是半導體整合領域正在發生的典範轉移。
在AI時代,電晶體的整合度變得愈發重要。這是因為光刻機在加工晶片的過程中,有一個非常重要的物理限制,就是不能製造超過800 mm²尺寸的積體電路。
更具體來說,這個數字是858 mm²(26 mm ×33 mm),可以理解為光刻機可處理的晶片極限尺寸,在業界被稱為Reticle Limit。
因此,人們無法透過單純做大晶片尺寸來提升性能。
現如今,我們可以透過將多個晶片連接到一塊更大的中介層上(interposer),從而突破光刻機Reticle Limit的性能瓶頸,在單一系統中整合更多的電晶體。
例如,台積電著名的CoWoS技術(Chip-on-Wafer-on-Substrate)可以容納多達6個遮罩板區域的運算晶片,以及十幾個HBM晶片。
(3)CoWoS先進封裝在Nvidia GPU中的應用
台積電的CoWoS技術已被廣泛應用於Nvidia的GPU中,包含Ampere架構及Hopper架構的GPU。
它們都是由一塊GPU晶片和6個HBM共同整合在矽中介層上,計算晶片的尺寸大約是目前晶片製造製程允許的最大尺寸。
Ampere架構的GPU採用7nm工藝,整合了540億個電晶體。
Hopper架構的GPU採用4nm工藝,整合了800億個電晶體。
製程製程的提升使得我們能夠在相同的表面積上多封裝50%的電晶體數量,從而有效支持ChatGPT這類大語言模型的訓練及推理。
(4)HBM、Bumpless Bonding:高效能GPU的基石
另一項關鍵的半導體技術是HBM 。
HBM在控制邏輯IC之上,垂直堆疊了若干DRAM晶片,並採用TSV (矽通孔)進行垂直互聯,讓訊號能夠穿過每個晶片的焊錫凸點,從而形成儲存晶片之間的連接。
這種將晶片堆疊在一起形成整合系統的能力,在台積電被稱為SoIC(System-on-Integrated Chips)。
現如今,高性能GPU基本上離不開HBM。
根據台積電的最新技術3D SoIC,可以將現在的HBM方案進行「無凸塊化」處理(bumpless bonding)。
新版HBM架構採用銅對銅的連接,以混合鍵結技術堆疊12層晶片,在低溫下黏合在一塊較大的邏輯晶片之上,總厚度僅600微米。
新版HBM架構能夠提供更密集的垂直互聯,銅對銅連接的密度顯著高於焊錫凸塊所提供的整合密度。
(5)矽光:未來半導體產業最重要的技術之一
對於大語言模型而言,有高性能晶片還不夠。為了達到極高的運算速度,我們還需要提升通訊速率。
現如今,光學互聯已被廣泛應用於資料中心裡的伺服器機架。不久之後,我們將需要透過基於矽光的光學接口,來將GPU和CPU封裝在一起。
這樣一來,數百台伺服器可以對外表現為一個具備統一記憶體的巨型GPU。
隨著AI應用需求的推動,矽光將成為未來半導體產業最重要的技術之一。
(6)CoW oS先進封裝在AMD MI300A中的應用
AMD的MI300A加速處理單元不只運用了CoWoS,還用到了台積電的SoIC技術。
MI300A同時包含了GPU和CPU核心,其中GPU負責處理AI任務所需的密集矩陣乘法運算,而CPU負責控制整個系統的運算,HBM則統一為二者服務。
9個基於5nm製程的運算晶片,堆疊在4個基於6nm製程的基礎晶片上,後者主要負責快取和IO通訊。處理器的運算部分包含了1500億個電晶體。
當下,單塊GPU晶片已經達到了光刻製程的製造極限(reticle limit),電晶體數量約1000億個。為了繼續增加電晶體整合度,勢必需要將多個chiplet透過2.5D或3D封裝的方式來整合互聯,執行運算。
幸運的是,業界已經能夠快速縮小chiplet之間垂直互聯的間距,從而提升連接密度,並且還有非常充足的提升空間。
我們認為透過垂直互聯技術的發展,電晶體的整合密度可以至少提成一個數量級,使得多晶片GPU內整合超過1兆個電晶體。
(7)EEP仍將維持每2年翻3倍的成長趨勢
為了有效評估半導體技術創新對系統性能的影響,業界有一個指標叫做EEP。
EEP的全名是Energy-Efficient Performance,即能源效率性能,是能源效率與性能的綜合衡量標準。
過去15年來,半導體產業的EEP呈現每2年增加3倍的趨勢。我們相信這個趨勢會持續保持下去,背後得益於新材料的應用、先進封裝製程、EUV微影技術的發展、電路及系統架構設計的最佳化等等。
(8)3D積體電路將迎來Mead-Conway時刻
1978年,加州理工大學教授Carver Mead以及Xero PARC研究中心的Lynn Conway發明了一種透過電腦輔助設計積體電路的方法。
它們透過一組設計規則,讓工程師能夠輕鬆設計超大規模的積體電路,而無需了解太多的製程細節。
當下3D晶片設計領域也需要同樣的能力。現在一位3D晶片設計師需要了解的知識非常多,包括系統架構設計、軟硬體優化、3D封裝技術等等。
正如我們在1978年所做的一樣,我們再次需要一種通用語言,用電腦能夠理解的方式來描述3D晶片設計技術,讓設計人員可以在無需考慮底層技術的同時,自由地設計3D晶片。
類似的技術正在陸續誕生,例如一項名為3Dblox的開源標準正在被越來越多的半導體技術公司和EDA公司所採用。
(9)隧道已至終點,面向無限可能的未來
過去50年,半導體技術的發展就像是走進了一條隧道,有著明確的目標和清晰的路徑。所有人的目標只有一個:shrink the transistor。
現在,我們已經走到了隧道盡頭。從現在開始,半導體技術的發展正式進入深水區,在隧道外有著各式各樣的可能性,等待人們去探索。(Alpha Engineer)
原文連結:https://spectrum.ieee.org/trillion-transistor-gpu