輝達GPU,好日子到頭了?

NVIDIA的“GPU節”會結束嗎?

自2022年11月30日美國Open AI發佈ChatGPT以來,生成式AI(人工智慧)成為一大熱潮,NVIDIA的GPU作為AI半導體開始流行。然而,在GPU的生產中,存在兩個瓶頸:台積電的中製程和高頻寬記憶體(HBM)與DRAM堆疊,導致GPU在全球範圍內短缺“瓶頸是HBM和台積電之間的中間製程嗎?”

在這些GPU中,“H100”的需求量尤其大,其價格飆升至4萬美元,引發了所謂的NVIDIA“GPU節”。

在這種情況下,台積電將中製程中介層產能翻倍,SK海力士等DRAM製造商增加了HBM產量,導致“H100”的交貨時間從52周縮短至20周。

那麼,NVIDIA的“GPU節”會結束嗎?

因此,在這篇文章中,我們將討論NVIDIA的“GPU節”是否即將結束。先說結論,預計即使到2024年,ChatGPT級AI開發和營運所需的高端AI伺服器(定義將在後面解釋)也只有3.9%的出貨量。因此,Google、亞馬遜、微軟等雲服務提供商(CSP)的需求似乎根本無法得到滿足。總之,到目前為止,NVIDIA 的“GPU 節”還只是一個開始,全面的生成式 AI 熱潮即將到來。

下面,我們先簡單回顧一下NVIDIA GPU的兩大瓶頸。

兩個NVIDIA GPU瓶頸

在NVIDIA GPU的生產中,代工廠台積電負責所有前、中、後工序。這裡,中間工序是指分別生產GPU、CPU、HBM等晶片,並將其放置在從12英吋矽片切下的方形基板上的工序。這種基板稱為硅中介層(圖 1)。


圖1 2.5D到3D中出現的中級工藝,例如NVIDIA GPU(資料來源:Tadashi Kamewada)


另外,台積電開發的NVIDIA GPU封裝稱為CoWoS(Chip on Wafer on Substrate),但兩個瓶頸是硅中介層容量和HBM(圖2)。情況如下。


圖2 CoWoS結構和NVIDIA GPU上的兩個瓶頸(來源:WikiChip)


CoWoS 於 2011 年開發,但此後,隨著 GPU 性能的提高,GPU 晶片的尺寸不斷增大,GPU 中安裝的 HBM 數量也隨之增加(圖 3)。結果,硅中介層逐年變大,而從單個晶圓上可獲得的中介層數量卻與之成反比減少。


圖3 Interposer面積和HBM數量隨著每一代的增加而增加(資料來源:KC Yee(TSMC))


此外,GPU中安裝的HBM數量增加,HBM內部堆疊的DRAM晶片數量也增加。此外,DRAM每兩年就會小型化一次,HBM標準每兩年更新一次以提高性能。因此,尖端HBM供不應求。

在這種情況下,台積電將其硅中介層產能從2023年夏季前後的每月15000片翻倍至今年夏季前後的每月超過30000片。此外,三星電子和美光科技已獲得NVIDIA認證,並開始供應尖端HBM,此前由SK海力士主導。

受上述影響,需求量最高的NVIDIA H100的交貨時間從52周大幅縮短至20周。那麼,AI伺服器的出貨量因此增加了多少呢?

兩類AI伺服器的定義

根據DIGITIMES Research發佈的《全球年度伺服器出貨量,2023-2024》(Servers Report Database, 2024)顯示,AI伺服器有兩種類型:

  • 配備兩個或多個AI加速器但未配備HBM的系統稱為“通用AI伺服器”。

配備至少四個搭載HBM的AI加速器的系統被稱為“高端AI伺服器”。

這裡的AI加速器是指為加速AI應用,特別是神經網路和機器學習而設計的特殊硬體,典型的例子就是NVIDIA的GPU。此外,ChatGPT等級的生成式AI的開發和運行需要大量高端AI伺服器,而不是通用AI伺服器。

那麼,通用AI伺服器和高端AI伺服器的出貨量分別是多少?

通用AI伺服器和高端AI伺服器出貨量

圖4顯示了2022年至2023年通用AI伺服器和高端AI伺服器的出貨量。預計2022年通用AI伺服器出貨量為34.4萬台,2023年出貨量為47萬台,2024年出貨量為72.5萬台。


圖4 通用AI伺服器和高端AI伺服器出貨量(2022-2024)(資料來源:DIGITIMES Research)


同時,ChatGPT級生成式AI開發和營運所需的高端AI伺服器預計2022年出貨3.4萬台,2023年出貨20萬台,2024年出貨56.4萬台。

那麼,高端AI伺服器的出貨量能否滿足美國CSP的需求呢?

圖5顯示了伺服器、通用AI伺服器和高端AI伺服器的出貨數量。當我畫出這張圖並看著它時,我驚呆了,想知道“這是有多少高端AI伺服器正在出貨嗎? ”這是因為,從伺服器整體來看,無論是通用人工智慧伺服器還是高端人工智慧伺服器,出貨量都非常少。


圖5 伺服器、通用AI伺服器、高端AI伺服器出貨量
資料來源:作者根據MIC和DIGITIMES


當我研究開發和運行 ChatGPT 等級的生成式 AI 需要多少高端 AI 伺服器時,我更加失望。

ChatGPT等級生成AI所需的高端AI伺服器

據報導,ChatGPT 的開發和營運需要 30,000 台 NVIDIA DGX H100 高端 AI 伺服器(圖 6)。當我看到這個三萬台的數字時,我感到頭暈。


圖6 運行ChatGPT需要多少高端AI伺服器?(來源:HPC網站)


順便說一句,“NVIDIA DGX H100”配備了八顆“H100”晶片,每顆晶片的價格已飆升至4萬美元,使得系統總價達到46萬美元。換句話說,生成 ChatGPT 等級的 AI 需要投資 30,000 單位 x 460,000 美元 = 138 億美元(按 1 美元 = 145 日元計算,約 2 兆日元!)。

我認為世界上充斥著生成式人工智慧系統,但實際上已經(或將要)建構了多少 ChatGPT 類生成式人工智慧?(圖7)


圖7 伺服器出貨量、高端AI伺服器出貨量、ChatGPT級生成AI系統數量(來源:MIC和DIGITIMES)


由於2022年高端AI伺服器出貨量為3.4萬台,因此只能建構一套ChatGPT級AI系統(這正是ChatGPT)。次年,即2023年,高端AI伺服器出貨量達到20萬台,因此可以建構6到7個ChatGPT級AI系統。由於預計2024年將出貨56.4萬台高端AI伺服器,因此將有可能建構18至19個ChatGPT級AI系統。

不過,上述估算假設ChatGPT級AI可以用3萬台高端AI伺服器“NVIDIA DGX H100”建構。然而,由於一代 AI 可能變得更加複雜,在這種情況下可能需要超過 30,000 個 NVIDIA DGX H100。綜上所述,美國通訊服務提供商不太可能對當前高端人工智慧伺服器的出貨量感到滿意。

現在,我們來看看每個終端使用者(例如美國的 CSP)擁有多少台高端 AI 伺服器。

終端使用者的高端人工智慧伺服器數量

圖 8顯示了終端使用者的高端 AI 伺服器數量。2023年,擁有OpenAI的微軟擁有最多的高端AI伺服器數量,為6.3萬台,但到2024年,Google將超越微軟,擁有最多的高端AI伺服器。


圖8 按終端使用者劃分的高端人工智慧伺服器(2023-2024)(來源:DIGITIMES Research)


2024 年排名前五的分別是Google,以 162,000 台(5 個系統)排名第一,微軟以 90,000 台(3 個系統)排名第二,超微以 68,000 台(2 個系統)排名第三,亞馬遜(67,000 台)排名第四。2個系統),其次是Meta,以46,000個單位(1個系統)排名第五(括號中的數字是ChatGPT類生成AI可以建構的系統數量)。由此可見,美國前五名光熱發電企業壟斷了約80%的份額。

接下來我們看看AI加速器的高端AI伺服器出貨量(圖9),正如預期,NVIDIA的GPU是AI加速器使用最多的,2024年將達到33.6萬台。然而,令人驚訝的是,第二受歡迎的公司不是AMD,而是Google。


圖9 按人工智慧加速器劃分的高端人工智慧伺服器(2023-2024)(資料來源:DIGITIMES Research)


Google開發了自己的張量處理單元(TPU)作為人工智慧加速器。到2024年,搭載該TPU的高端AI伺服器數量將達到13.8萬台。這裡,從圖8我們知道,Google到2024年將擁有16.2萬台高端AI伺服器。因此,預計有 138,000 台配備了 Google 自家的 TPU,其餘 24,000 台配備了 NVIDIA 的 GPU。換句話說,對於輝達來說,Google既是客戶,也是可怕的敵人。

另外,如果我們再看一下2024年的出貨量,排名第三的AMD有4.5萬台,排名第四的亞馬遜則以4萬台緊隨其後。亞馬遜還在開發 AWS Trainium 作為人工智慧加速器。如果再等等,AMD可能會被亞馬遜超越。

綜上所述,目前,NVIDIA 的 AI 加速器出貨量最多,但Google和亞馬遜正在成為其強有力的競爭對手。NVIDIA的競爭對手不是處理器製造商AMD(當然不是瀕臨危機的英特爾),而是美國的CSPGoogle和亞馬遜。

全面的生成式人工智慧熱潮即將到來

讓我們總結一下到目前為止的一切。根據 DIGITIMES Research 的一份報告,預計到 2024 年,能夠開發和運行 ChatGPT 級生成式 AI 的高端 AI 伺服器出貨量僅佔所有伺服器的 3.9%。人們認為這個出貨量根本無法滿足CSP的需求。

也就是說,NVIDIA 2023年至2024年的“GPU節”只是一個開始。因此,全面的生成式人工智慧熱潮很可能到來。讓我們在下面展示其基礎。

圖10顯示了半導體行業協會 (SIA) 發佈的按應用劃分的半導體市場及其未來預測。據SIA預測,2030年全球半導體市場規模將超過1兆美元。


圖10 按應用劃分的半導體出貨量預測(來源:SIA部落格)


截至 2030 年,最大的市場將是計算和資料儲存。其中包括PC和伺服器(當然還有高端AI伺服器),但由於PC出貨量不太可能大幅增加,因此伺服器可能會佔大多數。

有線通訊是指用於資料中心的半導體。這意味著到2030年,計算和資料儲存(3300億美元)+有線通訊(600億美元)=總計3900億美元將成為資料中心(包括PC)的半導體,成為全球最大的市場。

另一件值得關注的事情是資料中心市場及其前景,如圖11所示。2022年ChatGPT發佈後,資料中心市場預計將穩步增長。資料中心由三個要素組成:網路基礎設施、伺服器和儲存,預計從 2023 年到 2029 年,伺服器和儲存將分別增加一倍左右。


圖11 資料中心市場展望(全面的生成式AI熱潮尚未到來)(資料來源:作者根據Statista Market Insights資料製作)


這樣,伺服器用半導體(包括高端AI伺服器)將佔據全球市場最大份額,資料中心市場也將擴大。

重複最後一次。到目前為止,NVIDIA 的“GPU 節”還只是節前活動。全面的生成式人工智慧熱潮即將到來。 (半導體行業觀察)