下一代AI晶片，拼什麼？

2024/06/11

•

AI這“破天的富貴”，誰都不想錯過。儘管摩爾定律逼近極限，晶片性能的提升變得更加困難。但各大廠商仍以令人矚目的速度推出新一代產品，在近日召開的台北國際電腦展上，輝達、AMD和英特爾三大晶片巨頭齊聚一堂，紛紛秀出自家肌肉，推出了下一代AI晶片.

輝達的Hopper GPU/Blackwell/Rubin、AMD的Instinct 系列、英特爾的Gaudi晶片，這場AI晶片爭霸戰拼什麼？這是速度之爭，以輝達為首，幾家巨頭將晶片推出速度提升到了一年一代，展現了AI領域競爭的「芯」速度；是技術的角逐，如何讓晶片的運算速度更快、功耗更低更節能、更易用上手，將是各家的本事。

儘管各廠商在AI晶片方面各有側重，但細看之下，其實存在著不少的共同點。

一年一代，展現AI領域"芯"速度

雖然摩爾定律已經開始有些吃力，但是AI晶片「狂歡者們」的創新步伐以及晶片推出的速度卻越來越快。輝達Blackwell仍在勢頭之上，然而在不到3個月後的Computex大會上，輝達就又祭出了下一代AI平台——Rubin。輝達執行長黃仁勳表示，日後每年都會發布新的AI晶片。一年一代晶片，再次刷新了AI晶片的更迭速度。

輝達的每一代GPU都會以科學家名字來命名。 Rubin也是美國女性天文學家Vera Rubin的名字命名。 Rubin將配備新的GPU、名為Vera的新CPU和先進的X1600 IB網路晶片，將於2026年上市。

目前，Blackwell和Rubin都處於全面開發階段，其一年前在2023年在Computex上發布的GH200 Grace Hopper「超級晶片」才剛全面投入生產。 Blackwell將於今年稍晚上市，Blackwell Ultra將於2025年上市，Rubin Ultra將於2027年上市。

緊跟著輝達，AMD也公佈了「按年節奏」的AMD Instinct加速器路線圖，每年推出一代AI加速器。 Lisa Su在會上表示：“人工智慧是我們的首要任務，我們正處於這個行業令人難以置信的激動人心的時代的開始。”

繼去年推出了MI300X，AMD的下一代MI325X加速器將於今年第四季上市，Instinct MI325X AI加速器可視為MI300X系列的強化版，Lisa Su稱其速度更快，記憶體更大。隨後，MI350系列將於2025年首次亮相，採用新一代AMD CDNA 4架構，預計與採用AMD CDNA 3的AMD Instinct MI300系列相比，AI推理性能將提高35倍。 MI350對標的是輝達的Blackwell GPU，依照AMD的數據，MI350系列預計將比輝達B200產品多提供50%的記憶體和20%的運算TFLOP。基於AMD CDNA「Next」架構的AMD Instinct MI400系列預計2026年上市。

英特爾雖然策略相對保守，但卻正在透過價格來取勝，英特爾推出了Gaudi人工智慧加速器的積極定價策略。英特爾表示，一套包含八個英特爾Gaudi 2加速器和一個通用基板的標準資料中心AI套件將以65,000美元的價格提供給系統供應商，這大約是同類競爭平台價格的三分之一。英特爾表示，一套包含八個英特爾Gaudi 3加速器的套件將以125,000美元的價格出售，這大約是同類競爭平台價格的三分之二。 AMD和Nvidia雖然不公開討論其晶片的定價，但根據定制伺服器供應商Thinkmate的說法，配備八個Nvidia H100 AI晶片的同類HGX伺服器系統的成本可能超過30萬美元。

一路高歌猛進的晶片巨頭們，新產品發布速度和定價凸顯了AI晶片市場的競爭激烈程度，也讓眾多AI新創晶片玩家望其項背。可以預見，三大晶片巨頭將分食大部分的AI市場，大量的AI新創公司分得一點點羹湯。

製程奔向3奈米

AI晶片走向3奈米是大勢所趨，這包括資料中心乃至邊緣AI、終端。 3奈米是目前最先進製程節點，3奈米製程帶來的效能提升、功耗降低和電晶體密度增加是AI晶片發展的重要驅動力。對於高能耗的資料中心來說，3奈米製程的低功耗特性至關重要，它能夠有效降低資料中心的營運成本，緩解資料中心的能源壓力，並為綠色資料中心的建設提供重要支撐。

輝達的B200 GPU功耗高達1000W，而由兩台B200 GPU和一個Grace CPU組成的GB200解決方案消耗高達2700W的功率。這樣的功耗使得資料中心難以為這些運算GPU的大型叢集提供電力和冷卻，因此輝達必須採取措施。

Rubin GPU的設計目標之一是控制功耗，天風國際證券分析師郭明錤在X上寫道，Rubin GPU很可能採用台積電3奈米製程技術製造。另據外媒介紹，Rubin GPU將採用4x光罩設計，並將使用台積電CoWoS-L封裝技術。與基於Blackwell的產品相比，Rubin GPU是否真的能夠降低功耗，同時大幅提高效能，或者它是否會專注於效能效率，還有待觀察。

AMD Instinct系列先前一直採用5奈米/6奈米雙節點的Chiplet模式，而到了MI350系列，也升級為了3奈米。半導體知名分析師陸行之表示，如果輝達在加速需求下對台積電下單一需求量大，可能會讓AMD得不到足夠產能，轉而向三星下訂單。

英特爾用於生成式AI的主打晶片Gaudi 3採用的是台積電的5奈米，對於Gaudi 3，這部分競爭正在略微縮小。不過，英特爾的重心似乎更著重在AI PC，從英特爾最新發表的PC端Lunar Lake SoC來看，也已經使用了3奈米。 Lunar Lake包含代號為Lion Cove的新Lion Cove P核設計和新一波Skymont E 核，它取代了Meteor Lake 的Low Power Island Cresmont E 核。英特爾已揭露其採用4P+4E（8 核心）設計，禁用超線程/SMT。整個計算塊，包括P核和E核，都建立在台積電的N3B節點上，而SoC塊則使用台積電N6節點製造。

在邊緣和終端AI晶片領域，IP大廠Arm也在今年5月發布了用於智慧型手機的第五代Cortex-X 核心以及具有最新高性能圖形單元的計算子系統(CSS)。 Arm Cortex-X925 CPU就利用了3奈米製程節點，得益於此，該CPU單執行緒效能提高了36%，AI效能提升了41%，可以顯著提高如大語言模型（LLM）等裝置端生成式AI的反應能力。

高頻寬記憶體（HBM）是必需品

HBM（High Bandwidth Memory，高頻寬記憶體）已成為AI晶片不可或缺的關鍵組件。 HBM技術經歷了幾代發展：第一代（HBM）、第二代（HBM2）、第三代（HBM2E）、第四代（HBM3）和第五代（HBM3E），目前正在積極發展第六代HBM。 HBM不斷突破性能極限，滿足AI晶片日益增長的頻寬需求。

在目前一代的AI晶片當中，各家基本上已經都相繼採用了第五代HBM-HBM3E。例如輝達Blackwell Ultra中的HBM3E增加到了12顆，AMD MI325X擁有288GB的HBM3e內存，比MI300X多96GB。英特爾的Gaudi 3封裝了八塊HBM晶片，Gaudi 3能夠如此拼性價比，可能很重要的一點也是它使用了較便宜的HBM2e。

*英特爾Gaudi 3的HBM比H100多，但比H200、B200或AMD的MI300都少（資料來源：IEEE Spectrum）*

至於下一代的AI晶片，幾乎都已經擁抱了第六代HBM-HBM4。輝達Rubin平台將升級為HBM4，Rubin GPU內建8顆HBM4，而將於2027年推出的Rubin Ultra則更多，使用了12顆HBM4。 AMD的MI400也奔向了HBM4。

從HBM供應商來看，先前AMD、輝達等主要採用的是SK海力士。但現在三星也正積極打入這些廠商內部，AMD和三星目前都在測試三星的HBM。 6月4日，在台北南港展覽館舉行的新聞發布會上，黃仁勳回答了有關三星何時能成為Nvidia 合作夥伴的問題。他表示：“我們需要的HBM 數量非常大，因此供應速度至關重要。我們正在與三星、SK 海力士和美光合作，我們將收到這三家公司的產品。”

HBM的競爭也很白熱化。 SK海力士最初計劃在2026年量產HBM4，但已將其時間表調整為更早。三星電子也宣布計劃明年開發HBM4。三星與SK海力士圍繞著HBM的競爭也很激烈，兩家在今年將20%的DRAM產能轉向HBM。美光也已加入了HBM大戰行列。

炙手可熱的HBM也成為了AI晶片大規模量產的掣肘。目前，儲存大廠SK Hynix到2025年之前的HBM4產能已基本售罄，供需矛盾日益凸顯。根據SK海力士預測，AI晶片的繁榮帶動HBM市場到2027年將出現82%的複合年增長率。分析師也認為，預計明年HBM市場將比今年成長一倍以上。

三星電子DRAM產品與技術執行副總裁Hwang Sang-joon在KIW 2023上表示：「我們客戶目前的(HBM)訂單決定比去年增加了一倍多。」三星晶片負責業務的設備解決方案部門總裁兼負責人Kyung Kye-hyun 在公司會議上更表示，三星將努力拿下一半以上的HBM市場。三星記憶體業務執行副總裁Jaejune Kim對分析師表示，該公司將在2023年至2024年間將其HBM產能增加一倍。

互聯：重要的拼圖

AI晶片之間互聯一直是個難題，隨著近年來越來越多的加速器被整合在一起，如何高效傳輸資料成為了瓶頸。由於PCIe技術的發展速度跟不上時代需求，目前主流的AI晶片廠商都已經自研了互聯技術，其中較為代表的就是輝達的NVLink和AMD的Infinity Fabric。

NVIDIA的下一代Rubin平台，將採用NVLink 6交換器晶片，運行速度為3600GB/s，上一代的Blackwell採用的是NVLink 5.0。 NVLink設計之初，就是為了解決傳統的PCI Express (PCIe) 匯流排在處理高效能運算任務時頻寬不足的問題。下圖顯示了輝達各代NVLink的參數情況。

與輝達的NVLink相似，AMD則推出了其Infinity Fabric技術，AMD Infinity 架構與第二代AMD EPYC處理器一同推出，使系統建構者和雲端架構師能夠釋放最新的伺服器效能，同時又不犧牲功能、可管理性或幫助保護組織最重要資產（資料）的能力。 Infinity Fabric支援晶片間、晶片對晶片，以及即將推出的節點對節點的資料傳輸。

英特爾則是乙太網路的堅實擁護者，英特爾的用於生成式AI的Gaudi AI晶片則一直沿用傳統的乙太網路互聯技術。 Gaudi 2每個晶片使用了24個100Gb以太網鏈路；Gaudi 3也使用了24個200Gbps以太網RDMA NIC，但是他們將這些鏈路的頻寬增加了一倍，達到200Gb/秒，使晶片的外部乙太網路I/O總頻寬達到8.4TB/秒。

拼服務

像ChatGPT這樣的生成式AI開發任務極為複雜，大模型需要在多台電腦上運行數十億到數萬億個參數，它需要在多個GPU上並行執行工作，採用張量並行、流水線並行、資料並行等多種並行處理方式，以盡可能快速地處理任務。

因此，如何能夠幫助使用者更快的開發，提供良好的服務也是關鍵一役。

在這方面，輝達推出了一種新型的軟體NIMS，即NVIDIA Inference Microservices（推理微服務）。黃仁勳稱之為“盒子裡的人工智慧”，NIMS包含了輝達的CUDA、cuDNN、TensorRT、Triton。 NIMS 不僅使部署AI 變得更容易，只需幾分鐘而不是幾個月，它們還構成了客戶可以創建新應用程式和解決新問題的構建塊。如果採用，NIMS 將有助於加速創新並縮短價值實現時間。 Nvidia 也宣布，NIMS 現在可供開發人員和研究人員免費使用。在生產中部署NIMS需要AI Enterprise許可證，每個GPU的價格為4500美元。

結語

下一場AI之戰已然打響，綜合來看，當前AI晶片市場上，輝達、AMD和英特爾等主要晶片巨頭正在展開激烈的競爭。他們不僅在速度、技術和工藝方面競相創新，還在互聯和服務等領域積極拓展，致力於為用戶提供更快、更強、更智慧的AI解決方案。 AI晶片爭霸戰仍在繼續，誰能最終勝出？讓我們拭目以待。(半導體產業觀察)