輝達的兩道坎?

COWOS和HBM

儘管Nvidia試圖大幅增加產量,最高端的Nvidia GPU H100將一直售罄到明年第一季度。

生成人工智能即將到來,它將改變世界。自從ChatGPT 風靡全球並抓住了我們對AI 可能性的想像力以來,我們看到各種各樣的公司急於訓練AI 模型並將生成式AI 部署到內部工作流程或面向客戶的應用程序中。不僅僅是大型科技公司和初創公司,許多非科技財富5000強公司正在研究如何部署基於LLM的解決方案。

當然,這將需要大量的GPU計算。GPU銷量像火箭一樣上升,供應鏈一直在努力跟上對GPU的需求。公司正在爭先恐後地獲得GPU或云實例。

即使是OpenAI也無法獲得足夠的GPU,這嚴重阻礙了其近期路線圖。由於GPU短缺,OpenAI無法部署其多模態模型。由於GPU短缺,OpenAI 無法部署更長的序列長度模型(8k 與32k)。

與此同時,中國公司不僅投資部署自己的LLM,而且還在美國出口管制進一步收緊之前進行庫存。例如,Tik Tok背後的中國公司字節跳動(Bytedance)據稱從英偉達訂購了價值超過10億美元的A800 / H800。

最高端的Nvidia GPUH100將一直售罄到明年第一季度,儘管Nvidia試圖大幅增加產量。英偉達將每季度出貨400,000個H100 GPU。

今天,我們將詳細介紹生產瓶頸以及英偉達(輝達)及其競爭對手的下游產能正在擴大多少。



英偉達的H100採用CoWoS-S上的7芯片封裝。中間是H100 GPU ASIC,其芯片尺寸為814mm2。不同SKU之間的HBM配置有所不同,但H100 SXM版本使用HBM3,每個堆棧為16GB,總內存為80GB。H100 NVL將具有兩個封裝,每個封裝上有6個HBM有源層。

在只有5個有源HBM的情況下,非HBM芯片可以為芯片提供結構支持。這些芯片位於一個在圖片中看不清楚的矽插入物之上。該矽插入物位於一個封裝襯底上,該封裝襯底是一個ABF封裝襯底。


GPU芯片和台積電製造

英偉達GPU的主要數字處理組件是處理器芯片本身,在名為“4N”的定制台積電工藝節點上製造。它在台積電位於台南的Fab 18製造,與台積電N5和N4工藝節點共享相同的設施。這不是生產的限制因素。

台積電N5工藝節點的利用率降至70%以下,原因是PC、智能手機和非AI相關數據中心芯片的巨大疲軟,英偉達在確保額外的晶圓供應方面沒有問題。

事實上,英偉達已經訂購了大量用於H100 GPU和NVSwitch的晶圓,這些晶圓立即開始生產,遠遠早於它們需要出貨芯片。這些晶圓將存放在台積電的芯片組中,直到下游供應鏈有足夠的能力將這些晶圓封裝成完整的芯片。

基本上,英偉達正在吸收台積電的一些低利用率,並獲得一些定價優勢,因為英偉達已承諾在未來購買成品。

晶圓庫,也稱為芯片庫,是半導體行業的一種做法,其中部分加工或完成的晶圓被存儲,直到客戶需要它們。與其他一些代工廠不同,台積電將通過將這些晶圓保存在自己的賬簿上幾乎完全加工來幫助他們的客戶。這種做法使台積電及其客戶能夠保持財務靈活性。由於它們只是部分加工的,因此晶圓庫中持有的晶圓不被視為成品,而是被歸類為在製品。只有當這些晶圓完全完成時,台積電才能確認收入並將這些晶圓的所有權轉讓給客戶。

這有助於客戶裝扮他們的資產負債表,使庫存水平看起來得到控制。對於台積電來說,好處是它可以幫助保持更高的利用率,從而支持利潤率。然後,當客戶需要更多的庫存時,這些晶圓可以通過幾個最後的加工步驟完全完成,然後以正常的銷售價格甚至輕微的折扣交付給客戶。這有助於客戶修飾他們的資產負債表,使庫存水平看起來處於控制之中。對於台積電說,好處是可以幫助保持更高的利用率,從而支撐利潤率。然後,隨著客戶需要更多庫存,這些晶圓可以通過幾個最終加工步驟完全完成,然後以正常銷售價格甚至稍有扣的價格交付給客戶。



HBM在數據中心的出現

GPU周圍的高帶寬內存是下一個主要組件。HBM供應量也有限,但正在增加。HBM是垂直堆疊DRAM芯片,通過矽通孔(TSV)連接,並使用TCB鍵合(未來需要更高的堆疊數量)。在DRAM芯片下面有一個基本邏輯作為控制器的管芯。通常,現代HBM有8層內存和1個基本邏輯芯片但是我們很快就會看到12+1層HBM的產品,例如AMD的MI300X和英偉達即將推出的H100更新。



有趣的是,是AMD開創了HBM,儘管NVIDIA和谷歌是今天最大的用戶。在2008年,AMD預測,為了與遊戲GPU性能相匹配,內存帶寬的持續擴展將需要越來越多的電源,這將需要從GPU邏輯中轉移,從而降低GPU的性能。AMD與SK Hynix和供應鏈中的其他公司(如Amkor)合作,尋找一種能提供高帶寬、低功耗的內存解決方案。這導致SK Hynix在2013年開發HBM。



SK海力士於2015年首次為AMD Fiji系列遊戲GPU提供HBM,該GPU由Amkor進行2.5D封裝。隨後在2017年推出了使用HBM2的Vega系列。然而,HBM 並沒有改變遊戲GPU性能的遊戲規則。由於沒有明顯的性能優勢加上更高的成本,AMD在Vega之後重新使用GDDR作為其遊戲卡。今天,來自Nvidia和AMD的頂級遊戲GPU仍在使用更便宜的GDDR6。

然而,AMD的最初預測在某種程度上是正確的:擴展內存帶寬已被證明是GPU的一個問題,只是這主要是數據中心GPU的問題。對於消費級遊戲GPU,英偉達和AMD已轉向使用大型緩存作為頓緩衝區,使它們能夠使用帶寬低得多的GDDR內存。

正如我們過去所詳述的,推理和訓練工作負載是內存密集型的。隨著AI 模型中參數數量的指數級增長,僅權重就將模型大小推高到TB。因此,人工智能加速器的性能受到從內存中存儲和檢索訓練和推理數據的能力的瓶頸:這個問題通常被稱為內存牆。

為了解決這個問題,領先的數據中心GPU與高帶寬內存(HBM) 共同打包。英偉達在2016年發布了他們的第一個HBM GPU,P100。HBM 通過在傳統DDR 內存和片上緩存之間找到中間地帶來解決內存難題,以容量換取帶寬。通過大幅增加引腳數,達到每個HBM 堆棧1024 位寬的內存總線,這是每個DIMM 64 位寬度的DDR5 的18 倍,從而實現更高的帶寬。同時,以極低的每比特傳輸能量(pJ/bit)來控制功率。這是通過更短的走線長度實現的,HBM 的走線長度以毫米為單位,GDDR和DDR 的走線長度以厘米為單位。

如今,許多面向HPC的芯片公司正在享受AMD努力的成果。具有諷刺意味的是,AMD的競爭對手Nvidia作為HBM的最高用戶可能受益最多。


HBM市場:SK海力士佔據主導地位



作為HBM的先驅,SK Hynix是擁有最先進技術路線圖的領導者。SK Hynix公司於2022年6月開始生產HBM 3,目前是唯一一家批量交付HBM 3的供應商,市場份額超過95%,這是大多數H 100 SKU正在使用的產品。HBM的最大配置現在8層16 GB HBM 3模塊。SK Hynix為AMD MI300X和NVIDIA H 100刷新生產12層24 GB HBM 3,其數據率為5.6 GT/S。

HBM的主要挑戰是封裝和堆疊存儲器,這是SK海力士所擅長的,積累了最強的工藝流程知識。



三星緊跟SK海力士之後,預計將在2023年下半年推出HBM 3。我們相信它們都是為NVIDIA和AMD GPU設計的。他們目前對SK Hynix的數量有很大的虧空,但他們正緊追不捨,正在進行巨大的投資以追趕市場份額。三星正在投資追趕HBM,成為HBM市場份額的第一名,就像他們擁有標準內存一樣。我們聽說他們正在與一些加速器公司達成有利的交易,以爭取更多的份額。

他們已經展示了他們的12層HBM以及未來的混合粘結HBM.三星HBM-4路線圖的一個有趣方面是,他們希望在內部的FinFET節點上實現邏輯/外圍。這顯示了他們在內部擁有邏輯和DRAM製造的潛在優勢。



美光是最落後的。美光在混合內存立方體(HMC)技術上投入了更多的資金。這是一個與HBM競爭的技術,與HBM有著非常相似的概念。然而,HMC周圍的生態系統是封閉的,使得IP很難在HMC周圍發展。此外,還存在一些技術缺陷。HBM的採用率更高,因此HBM成為3D堆疊DRAM的行業標準。

直到2018年,美光才開始從HMC轉向HBM路線圖。這就是為什麼美光是最落後的。他們仍然停留在HBM2E上(SK海力士在2020年中期開始大規模生產),甚至不能成功地製造頂盒HBM2E。

在他們最近的財報電話會議上,美光對他們的HBM路線圖做了一些大膽的聲明:他們相信他們將在2024年通過HBM3E從落後者變成領導者。HBM3E預計將在第三季度/第四季度開始為英偉達的下一代GPU出貨。美光首席商務官SumitSadana表示:“我們的HBM3斜坡實際上是下一代HBM3,與當今業界生產的HBM3相比,它具有更高水平的性能、帶寬和更低的功耗。該產品,即我們行業領先的產品,將從2024年第一季度開始銷量大幅增加,並對2024財年的收入產生重大影響,並在2025年大幅增加,即使是在2024年的水平基礎上。我們的目標是在HBM中獲得非常強勁的份額,高於行業中DRAM的非自然供應份額。”

他們在HBM中擁有比一般DRMA市場份額更高的市場份額的聲明非常大膽。鑑於他們仍在努力大批量生產頂級HBM2E,我們很難相信美光聲稱他們將在2024年初推出領先的HBM3,甚至成為第一個HBM3E。在我們看來,儘管英偉達GPU服務器的內存容量比英特爾/AMD CPU服務器要低得多,但美光科技似乎正在試圖改變人們對人工智能失敗者的看法。



我們所有的渠道檢查都發現SK海力士在新一代技術方面保持最強,而三星則非常努力地通過大幅供應增加、大膽的路線圖和削減交易來追趕。


真正的瓶頸-CoWoS

下一個瓶頸是CoWoS容量。CoWoS是台積電的一種“2.5D”封裝技術,其中多個有源矽芯片(通常的配置是邏輯和HBM堆棧)集成在無源矽中介層上。中介層充當頂部有源芯片的通信層。然後將內插器和有源矽連接到包含要放置在系統PCB上的I/O的封裝基板。


HBM和CoWoS是相輔相成的。HBM的高焊盤數和短跡線長度要求需要2.5D先進封裝技術,如CoWoS,以實現這種密集的短連接,這在PCB甚至封裝基板上是無法實現的。CoWoS是主流封裝技術,以合理的成本提供最高的互連密度和最大的封裝尺寸。由於目前幾乎所有的HBM系統都封裝在Co Wos上,所有先進的人工智能加速器都使用HBM,因此幾乎所有領先的數據中心GPU都是台積電封裝在Co Wos上的。

雖然3D封裝技術,如台積電的SoIC可以直接在邏輯上堆疊芯片,但由於熱量和成本,它對HBM沒有意義。SoIC在互連密度方面處於不同的數量級,更適合用芯片堆疊來擴展片內緩存,這一點可以從AMD的3D V-Cache解決方案中看出。AMD的Xilinx也是多年前將多個FPGA芯片組合在一起的第一批CoWoS用戶。



雖然還有一些其他應用程序使用CoWoS,例如網絡(其中一些用於網絡GPU集群,如Broadcom的Jericho3-AI)、超級計算和FPGA,但絕大多數CoWoS需求來自人工智能。與半導體供應鏈的其他部分不同,其他主要終端市場的疲軟意味著有足夠的閒置空間來吸收GPU需求的巨大增長,CoWoS和HBM已經是大多數面向人工智能的技術,因此所有閒置空間已在第一季度被吸收。隨著GPU需求的爆炸式增長,供應鏈中的這些部分無法跟上並成為GPU供應的瓶頸。

台積電首席執行官魏哲家表示:“就在最近這兩天,我接到一個客戶的電話,要求大幅增加後端容量,特別是在CoWoS中。我們仍在評估這一點。”

台積電一直在為更多的封裝需求做好準備,但可能沒想到這一波生成式人工智能需求來得如此之快。6月,台積電宣佈在竹南開設先進後端晶圓廠6。該晶圓廠佔地14.3公頃足以容納每年100萬片晶圓的3DFabric產能。這不僅包括CoWoS,還包括SoIC和InFO技術。

有趣的是,該工廠比台積電其他封裝工廠的總和還要大。雖然這只是潔淨室空間,遠未配備齊全的工具來實際提供如此大的容量,但很明顯,台積電正在做好準備,預計對其先進封裝解決方案的需求會增加。



確實有點幫助的是,在Wafer級別的扇出封裝能力(主要用於智能手機SoC)方面存在不足,其中一些可以在CoWoS過程中重新使用。特別是有一些重疊的過程,如沉積,電鍍,反磨,成型,放置,和RDL形成。我們將通過CoWoS流程和所有的公司誰看到了積極的需求,因為它在一個後續部分。設備供應鏈中存在著有意義的轉變。

還有來自英特爾、三星和OSAT的其他2.5D封裝技術(如ASE的FOEB),CoWoS是唯一在大容量中使用的技術,因為TSMC是人工智能加速器的最主要的晶圓廠。甚至英特爾哈巴納的加速器都是由台積電製造和封裝的。


CoWoS變體

CoWoS有幾種變體,但原始CoWoS-S仍然是大批量生產中的唯一配置。這是如上所述的經典配置:邏輯芯片+HBM芯片通過帶有TSV的矽基中介層連接。然後將中介層放置在有機封裝基板上。



矽中介層的一項支持技術是一種稱為“掩模版縫合”的技術。由於光刻工具狹縫/掃描最大尺寸,芯片的最大尺寸通常為26mmx33mm。隨著GPU芯片本身接近這一極限,並且還需要在其周圍安裝HBM,中介層需要很大,並且將遠遠超出這一標線極限。台積電解決了這與網線拼接,這使他們的模式插入式多次的刻線限制(目前最高3.5倍與AMD MI 300)。



CoWOS-R使用在具有再分佈層(RDL)的有機襯底上,而不是矽中間層。這是一個成本較低的變體,犧牲的I/O密度,由於使用有機RDL,而不是基於矽的插入物。正如我們已經詳細介紹的,AMD的MI300最初是在CoWoS-R上設計的,但我們認為,由於翹曲和熱穩定性問題,AMD不得不使用CoWoS-S。



CoWoS-L預計將在今年晚些時候推出,它採用RDL內插器,但包含有源和/或無源矽橋,用於嵌入內插器中的管芯到管芯互連。這是台積電的相當於英特爾的EMIB封裝技術。這將允許更大的封裝尺寸,因為矽插入物越來越難以擴展。MI300 Co WO SS可能是一個單一的矽插入器的限製附近。


這將是更經濟的更大的設計去與CoWoS-L台積電正在研究一個CoWoS-L的超級載波內插器在6倍分劃板的大小。對於CoWOS-S,他們沒有提到4x reticle 之外的任何內容。這是因為矽插入物的脆弱性。這種矽中間層只有100微米厚,在工藝流程中,隨著中間層尺寸的增大,存在分層或開裂的風險。(半導體材料與工藝設備)


寫得很詳細