生成式人工智能即將到來,它將改變世界。自從ChatGPT 席捲全球並激發了我們對人工智能可能性的想像力以來,我們看到各種各樣的公司都在爭先恐後地訓練人工智能模型並將生成式人工智能部署到內部工作流程或面向客戶的應用程序中。不僅僅是大型科技公司和初創公司,許多財富500強非科技公司也在研究如何部署基於LLM的解決方案。
當然,這需要大量的GPU 計算。GPU 的銷量像火箭一樣猛增,而供應鏈卻難以滿足對GPU 的需求。公司正在爭先恐後地獲得GPU 或云實例。
即使OpenAI 也無法獲得足夠的GPU,這嚴重阻礙了其近期路線圖。由於GPU 短缺,OpenAI 無法部署其多模態模型。由於GPU 短缺,OpenAI 無法部署更長的序列長度模型(8k 與32k)。
與此同時,中國公司不僅投資部署自己的LLM,還在美國出口管制進一步收緊之前進行儲備。例如,據新聞報導,中國公司字節跳動據稱從Nvidia 訂購了價值超過10 億美元的A800/H800。
雖然數十萬個專門用於人工智能的GPU 有許多合法的用例,但也有很多情況是人們急於購買GPU 來嘗試構建他們不確定是否有合法市場的東西。在某些情況下,大型科技公司正試圖趕上OpenAI 和谷歌,以免落後。對於沒有經過驗證的商業用例的初創公司來說,有大量的風險投資資金。我們知道有十幾家企業正在嘗試利用自己的數據訓練自己的LLM。最後,這也適用於沙特阿拉伯和阿聯酋今年也試圖購買數億美元的GPU 的國家。
儘管Nvidia 試圖大幅提高產量,但最高端的Nvidia GPU H100 直到明年第一季度仍將售空。Nvidia 每季度將增加400,000 個H100 GPU 的出貨量。
Nvidia 的H100 採用CoWoS-S 上的7-die封裝。中間是H100 GPU ASIC,其芯片尺寸為814mm2 ,周圍是6 個內存堆棧HBM。不同SKU 之間的HBM 配置有所不同,但H100 SXM 版本使用HBM3,每個堆棧為16GB,總內存為80GB。H100 NVL 將具有兩個封裝,每個封裝上有6 個活躍的HBM 堆棧。
在只有5 個激活HBM 的情況下,非HBM 芯片可以使用虛擬矽,為芯片提供結構支撐。這些芯片位於矽中介層的頂部,該矽中介層在圖片中不清晰可見。該矽中介層位於封裝基板上,該封裝基板是ABF 封裝基板。
GPU Die和TSMC晶圓廠
Nvidia GPU 的主要數字處理組件是處理器芯片本身,它是在稱為“4N”的定制台積電工藝節點上製造的。它是在台積電位於台灣台南的Fab 18 工廠製造的,與台積電N5 和N4 工藝節點共享相同的設施,但這不是生產的限制因素。
由於PC、智能手機和非AI 相關數據中心芯片的嚴重疲軟,台積電N5 工藝節點的利用率降至70% 以下。英偉達在確保額外的晶圓供應方面沒有遇到任何問題。
事實上,Nvidia 已經訂購了大量用於H100 GPU 和NVSwitch 的晶圓,這些晶圓立即開始生產,遠遠早於運送芯片所需的晶圓。這些晶圓將存放在台積電的芯片組中,直到下游供應鏈有足夠的產能將這些晶圓封裝成完整的芯片。
基本上,英偉達正在吸收台積電的部分低利用率,並獲得一些定價優勢,因為英偉達已承諾進一步購買成品。
Wafer bank,也被稱為die bank,是半導體行業的一種做法,其中存儲部分處理或完成的晶圓,直到客戶需要它們為止。與其他一些代工廠不同的是,台積電將通過將這些晶圓保留在自己的賬簿上幾乎完全加工來幫助他們的客戶。這種做法使台積電及其客戶能夠保持財務靈活性。由於僅進行了部分加工,因此晶圓庫中保存的晶圓不被視為成品,而是被歸類為WIP。只有當這些晶圓全部完成後,台積電才能確認收入並將這些晶圓的所有權轉讓給客戶。
這有助於客戶修飾他們的資產負債表,使庫存水平看起來處於控制之中。對於台積電來說,好處是可以幫助保持更高的利用率,從而支撐利潤率。然後,隨著客戶需要更多的庫存,這些晶圓可以通過幾個最終加工步驟完全完成,然後以正常銷售價格甚至稍有折扣的價格交付給客戶。
HBM 在數據中心的出現:AMD 的創新如何幫助Nvidia
GPU 周圍的高帶寬內存是下一個主要組件。HBM 供應也有限,但正在增加。HBM 是垂直堆疊的DRAM 芯片,通過矽通孔(TSV) 連接並使用TCB進行鍵合(未來更高的堆疊數量將需要混合鍵合)。DRAM 裸片下方有一顆充當控制器的基本邏輯裸片。
通常,現代HBM 具有8 層內存和1 個基本邏輯芯片,但我們很快就會看到具有12+1 層HBM 的產品,例如AMD 的MI300X 和Nvidia 即將推出的H100 更新。
有趣的是,儘管Nvidia 和Google 是當今使用量最大的用戶,但AMD 率先推出了HBM。2008 年,AMD 預測,為了匹配遊戲GPU 性能而不斷擴展內存帶寬將需要越來越多的功率,而這些功率需要從GPU 邏輯中轉移出來,從而降低GPU 性能。AMD 與SK Hynix 以及供應鏈中的其他公司(例如Amkor)合作,尋找一種能夠以更低功耗提供高帶寬的內存解決方案。這驅使SK 海力士於2013 年開發了HBM。
SK Hynix 於2015 年首次為AMD Fiji 系列遊戲GPU 提供HBM,該GPU 由Amkor 進行2.5D 封裝。隨後,他們在2017 年推出了使用HBM2 的Vega 系列。然而,HBM 並沒有對遊戲GPU 性能產生太大的改變。由於沒有明顯的性能優勢以及更高的成本,AMD 在Vega 之後重新在其遊戲卡中使用GDDR。如今,Nvidia 和AMD 的頂級遊戲GPU 仍在使用更便宜的GDDR6。
然而,AMD 的最初預測在某種程度上是正確的:擴展內存帶寬已被證明是GPU 的一個問題,只是這主要是數據中心GPU 的問題。對於消費級遊戲GPU,Nvidia 和AMD 已轉向使用大型緩存作為幀緩衝區(large caches for the frame buffer),使它們能夠使用帶寬低得多的GDDR 內存。
正如我們過去所詳述的,推理和訓練工作負載是內存密集型的。隨著人工智能模型中參數數量的指數級增長,僅權重的模型大小就已達到TB 級。因此,人工智能加速器的性能受到從內存中存儲和檢索訓練和推理數據的能力的瓶頸:這個問題通常被稱為“內存牆”。
為了解決這個問題,領先的數據中心GPU 與高帶寬內存(HBM) 共同封裝。Nvidia 於2016 年發布了首款HBM GPU P100。HBM 通過在傳統DDR 內存和片上緩存之間找到中間立場,以容量換取帶寬來解決內存牆問題。通過大幅增加引腳數以達到每個HBM 堆棧1024 位寬的內存總線,可以實現更高的帶寬,這是每個DIMM 64 位寬的DDR5 的18 倍。同時,通過大幅降低每比特傳輸能量(pJ/bit) 來控制功耗。這是通過更短的走線長度來實現的,HBM 的走線長度以毫米為單位,而GDDR 和DDR 的走線長度以厘米為單位。
如今,許多面向HPC的芯片公司正在享受AMD努力的成果。具有諷刺意味的是,AMD 的競爭對手Nvidia 作為HBM 用量最大的用戶,或許會受益最多。
HBM市場:SK海力士佔據主導地位
作為HBM的先驅,SK海力士是擁有最先進技術路線的領導者。SK 海力士於2022 年6 月開始生產HBM3,是目前唯一一家批量出貨HBM3 的供應商,擁有超過95% 的市場份額,這是大多數H100 SKU 所使用的。HBM 現在的最大配置為8 層16GB HBM3 模塊。SK Hynix 正在為AMD MI300X 和Nvidia H100 刷新生產數據速率為5.6 GT/s 的12 層24GB HBM3。
HBM 的主要挑戰是存儲器的封裝和堆疊,這是SK 海力士所擅長的,他們過去在這方面積累了最強大的工藝流程知識。
三星緊隨Hynix 之後,預計將在2023 年下半年發貨HBM3。我們相信它們是為Nvidia 和AMD GPU 設計的。他們目前在銷量上與SK 海力士存在很大差距,但他們正在緊鑼密鼓地前進,並正在大力投資以追趕市場份額。三星正在投資以追趕並成為HBM 市場份額第一,就像他們在標準內存方面一樣。我們聽說他們正在與一些加速器公司達成優惠協議,以試圖獲得更多份額。
他們展示了12 層HBM 以及未來的混合鍵合HBM。三星HBM-4 路線圖的一個有趣的方面是,他們希望在內部FinFET 節點上製作邏輯/外圍設備。這顯示了他們擁有內部邏輯和DRAM 代工廠的潛在優勢。
美光科技在HBM方面排名墊底。
他們在混合存儲立方體(HMC) 技術上投入了更多資金。這是與HBM 競爭的技術,其概念非常相似,大約在同一時間開發。然而,HMC周圍的生態系統是封閉的,導致圍繞HMC的IP很難開發。此外,還存在一些技術缺陷。HBM 的採用率要高得多,因此HBM 勝出,成為3D 堆疊DRAM 的行業標準。
直到2018 年,美光才開始從HMC 轉向HBM 路線圖。這就是美光科技落在最後面的原因。他們仍然停留在HBM2E(SK海力士在2020年中期開始量產)上,他們甚至無法成功製造HBM2E。
在最近的財報電話會議中,美光對其HBM 路線圖做出了一些大膽的聲明:他們相信,他們將在2024 年憑藉HBM3E 從落後者變為領先者。HBM3E 預計將在第三季度/第四季度開始為Nvidia 的下一代GPU 發貨。
“我們的HBM3 斜坡實際上是下一代HBM3,與當今業界生產的HBM3 相比,它具有更高水平的性能、帶寬和更低的功耗。該產品,即我們行業領先的產品,將從2024 年第一季度開始銷量大幅增加,並對24 財年的收入產生重大影響,並在2025 年大幅增加,即使是在2024 年的水平基礎上。我們的目標也是在HBM 中獲得非常強勁的份額,高於行業中DRAM 的非自然供應份額。”美光首席商務官Sumit Sadana說。
他們希望在HBM 中擁有比一般DRAM市場份額更高的市場份額的聲明非常大膽。鑑於他們仍在努力大批量生產頂級HBM2E,我們很難相信美光聲稱他們將在2024 年初推出領先的HBM3,甚至成為第一個HBM3E。在我們看來,儘管Nvidia GPU 服務器的內存容量比英特爾/AMD CPU 服務器要低得多,但美光科技似乎正在試圖改變人們對人工智能失敗者的看法。
我們所有的渠道檢查都發現SK 海力士在新一代技術方面保持最強,而三星則非常努力地通過大幅供應增加、大膽的路線圖和削減交易來追趕。
真正的瓶頸- CoWoS
下一個瓶頸是CoWoS 產能。CoWoS(Chip on Wafer on Substrate)是台積電的一種“2.5D”封裝技術,其中多個有源矽芯片(active silicon)(通常的配置是邏輯和HBM 堆棧)集成在無源矽中介層上。中介層充當頂部有源芯片的通信層。然後將中介層和有源矽連接到包含要放置在系統PCB 上的I/O 的封裝基板。
HBM 和CoWoS 是互補的。HBM 的高焊盤數(high pad count)和短走線長度要求需要CoWoS 等2.5D 先進封裝技術來實現PCB 甚至封裝基板上無法實現的密集、短連接。CoWoS是主流封裝技術,能夠以合理的成本提供最高的互連密度和最大的封裝尺寸。由於目前幾乎所有HBM 系統都封裝在CoWoS 上,並且所有高級AI 加速器都使用HBM,因此,幾乎所有領先的數據中心GPU 都由台積電在CoWoS 上封裝。百度確實有一些先進的加速器,三星的版本也有。
雖然台積電(TSMC) 的SoIC 等3D 封裝技術可以將芯片直接堆疊在邏輯之上,但由於散熱和成本的原因,這對於HBM 來說沒有意義。SoIC 在互連密度方面處於不同的數量級,並且更適合通過芯片堆疊擴展片上緩存,如AMD 的3D V-Cache 解決方案所示。AMD 的Xilinx 也是多年前CoWoS 的第一批用戶,用於將多個FPGA 小芯片組合在一起。
雖然還有一些其他應用使用CoWoS,例如網絡(其中一些用於網絡GPU 集群,如Broadcom 的Jericho3-AI )、超級計算和FPGA,但絕大多數CoWoS 需求來自人工智能。與半導體供應鏈的其他部分不同,其他主要終端市場的疲軟意味著有足夠的閒置空間來吸收GPU 需求的巨大增長,CoWoS 和HBM 已經是大多數面向人工智能的技術,因此所有閒置產能已在第一季度被吸收。隨著GPU 需求的爆炸式增長,供應鏈中的這些部分無法跟上並成為GPU 供應的瓶頸。
“就在最近這兩天,我接到一個客戶的電話,要求大幅增加後端容量,特別是在CoWoS 中。我們仍在評估這一點。”台積電首席執行官CC Wei早起那說。
台積電一直在為更多的封裝需求做好準備,但可能沒想到這一波生成式人工智能需求來得如此之快。6月,台積電宣佈在竹南開設先進後端Fab 6。該晶圓廠佔地14.3 公頃,足以容納每年100 萬片晶圓的3D Fabric 產能。這不僅包括CoWoS,還包括SoIC 和InFO 技術。有趣的是,該工廠比台積電其他封裝工廠的總和還要大。雖然這只是潔淨室空間,遠未配備齊全的工具來實際提供如此大的容量,但很明顯,台積電正在做好準備,預計對其先進封裝解決方案的需求會增加。
稍微有幫助的是晶圓級扇出封裝產能(主要用於智能手機SoC)的閒置,其中一些產能可以在某些CoWoS 工藝步驟中重新利用。特別是,存在一些重疊的工藝,例如沉積、電鍍、背面研磨、成型、放置和RDL形成,這將趨勢設備供應鏈發生了有意義的轉變。
雖然市場上還有來自英特爾、三星和OSAT (例如ASE 的FOEB)提供的其他2.5D 封裝技術,但CoWoS 是唯一一種大批量使用的技術,因為台積電是迄今為止最主要的AI 加速器代工廠。甚至Intel Habana的加速器也是由台積電製造和封裝的。然而,一些客戶正在尋找台積電的替代品。
CoWoS 擁有幾種變體,但原始CoWoS-S 仍然是大批量生產中的唯一配置。這是如上所述的經典配置:邏輯芯片+ HBM 芯片通過帶有TSV 的矽基中介層連接。然後將中介層放置在有機封裝基板上。
矽中介層的一項支持技術是一種稱為“reticle stitching”的技術。由於光刻工具slit/scan最大尺寸芯片的最大尺寸通常為26mm x 33mm 。隨著GPU 芯片本身接近這一極限,並且還需要在其周圍安裝HBM,中介層需要很大,並且將遠遠超出這一標線極限。TSMC 通過reticle stitching解決了這個問題,這使得他們能夠將中介層圖案化為標線限制的數倍(截至目前,AMD MI300 最高可達3.5 倍)。
CoWoS-R 在具有重新分佈層(RDL) 的有機基板上使用,而不是矽中介層。這是一種成本較低的變體,由於使用有機RDL 而不是矽基中介層,因此犧牲了I/O 密度。正如我們所詳述的,, AMD 的MI300 最初是在CoWoS-R 上設計的,但我們認為,由於翹曲和熱穩定性問題,AMD 必須改用CoWoS-S。
CoWoS-L 預計將在今年晚些時候推出,並採用RDL 中介層,但包含嵌入中介層內部的用於芯片間互連的有源和/或無源矽橋。這是台積電相當於英特爾EMIB封裝技術。隨著矽中介層變得越來越難以擴展,這將允許更大的封裝尺寸。MI300 CoWoS-S 可能接近單矽中介層的極限。
對於更大的設計來說,使用CoWoS-L 會更加經濟。台積電正在開發6x reticle尺寸的CoWoS-L 超級載具中介層。對於CoWoS-S,他們沒有提到4x reticle 之外的任何內容。這是因為矽中介層的脆弱性。這種矽中介層只有100 微米厚,並且在工藝流程中隨著中介層尺寸增大而存在分層或破裂的風險。(半導體行業觀察)