AI這“破天的富貴”,誰都不想錯過。儘管摩爾定律逼近極限,晶片性能的提升變得更加困難。但各大廠商仍以令人矚目的速度推出新一代產品,在近日召開的台北國際電腦展上,輝達、AMD和英特爾三大晶片巨頭齊聚一堂,紛紛秀出自家肌肉,推出了下一代AI晶片.
輝達的Hopper GPU/Blackwell/Rubin、AMD的Instinct 系列、英特爾的Gaudi晶片,這場AI晶片爭霸戰拼什麼?這是速度之爭,以輝達為首,幾家巨頭將晶片推出速度提升到了一年一代,展現了AI領域競爭的「芯」速度;是技術的角逐,如何讓晶片的運算速度更快、功耗更低更節能、更易用上手,將是各家的本事。
儘管各廠商在AI晶片方面各有側重,但細看之下,其實存在著不少的共同點。
一年一代,展現AI領域"芯"速度
雖然摩爾定律已經開始有些吃力,但是AI晶片「狂歡者們」的創新步伐以及晶片推出的速度卻越來越快。輝達Blackwell仍在勢頭之上,然而在不到3個月後的Computex大會上,輝達就又祭出了下一代AI平台——Rubin。輝達執行長黃仁勳表示,日後每年都會發布新的AI晶片。一年一代晶片,再次刷新了AI晶片的更迭速度。
輝達的每一代GPU都會以科學家名字來命名。 Rubin也是美國女性天文學家Vera Rubin的名字命名。 Rubin將配備新的GPU、名為Vera的新CPU和先進的X1600 IB網路晶片,將於2026年上市。
目前,Blackwell和Rubin都處於全面開發階段,其一年前在2023年在Computex上發布的GH200 Grace Hopper「超級晶片」才剛全面投入生產。 Blackwell將於今年稍晚上市,Blackwell Ultra將於2025年上市,Rubin Ultra將於2027年上市。
緊跟著輝達,AMD也公佈了「按年節奏」的AMD Instinct加速器路線圖,每年推出一代AI加速器。 Lisa Su在會上表示:“人工智慧是我們的首要任務,我們正處於這個行業令人難以置信的激動人心的時代的開始。”
繼去年推出了MI300X,AMD的下一代MI325X加速器將於今年第四季上市,Instinct MI325X AI加速器可視為MI300X系列的強化版,Lisa Su稱其速度更快,記憶體更大。隨後,MI350系列將於2025年首次亮相,採用新一代AMD CDNA 4架構,預計與採用AMD CDNA 3的AMD Instinct MI300系列相比,AI推理性能將提高35倍。 MI350對標的是輝達的Blackwell GPU,依照AMD的數據,MI350系列預計將比輝達B200產品多提供50%的記憶體和20%的運算TFLOP。基於AMD CDNA「Next」架構的AMD Instinct MI400系列預計2026年上市。
英特爾雖然策略相對保守,但卻正在透過價格來取勝,英特爾推出了Gaudi人工智慧加速器的積極定價策略。英特爾表示,一套包含八個英特爾Gaudi 2加速器和一個通用基板的標準資料中心AI套件將以65,000美元的價格提供給系統供應商,這大約是同類競爭平台價格的三分之一。英特爾表示,一套包含八個英特爾Gaudi 3加速器的套件將以125,000美元的價格出售,這大約是同類競爭平台價格的三分之二。 AMD和Nvidia雖然不公開討論其晶片的定價,但根據定制伺服器供應商Thinkmate的說法,配備八個Nvidia H100 AI晶片的同類HGX伺服器系統的成本可能超過30萬美元。
一路高歌猛進的晶片巨頭們,新產品發布速度和定價凸顯了AI晶片市場的競爭激烈程度,也讓眾多AI新創晶片玩家望其項背。可以預見,三大晶片巨頭將分食大部分的AI市場,大量的AI新創公司分得一點點羹湯。
製程奔向3奈米
AI晶片走向3奈米是大勢所趨,這包括資料中心乃至邊緣AI、終端。 3奈米是目前最先進製程節點,3奈米製程帶來的效能提升、功耗降低和電晶體密度增加是AI晶片發展的重要驅動力。對於高能耗的資料中心來說,3奈米製程的低功耗特性至關重要,它能夠有效降低資料中心的營運成本,緩解資料中心的能源壓力,並為綠色資料中心的建設提供重要支撐。
輝達的B200 GPU功耗高達1000W,而由兩台B200 GPU和一個Grace CPU組成的GB200解決方案消耗高達2700W的功率。這樣的功耗使得資料中心難以為這些運算GPU的大型叢集提供電力和冷卻,因此輝達必須採取措施。
Rubin GPU的設計目標之一是控制功耗,天風國際證券分析師郭明錤在X上寫道,Rubin GPU很可能採用台積電3奈米製程技術製造。另據外媒介紹,Rubin GPU將採用4x光罩設計,並將使用台積電CoWoS-L封裝技術。與基於Blackwell的產品相比,Rubin GPU是否真的能夠降低功耗,同時大幅提高效能,或者它是否會專注於效能效率,還有待觀察。
AMD Instinct系列先前一直採用5奈米/6奈米雙節點的Chiplet模式,而到了MI350系列,也升級為了3奈米。半導體知名分析師陸行之表示,如果輝達在加速需求下對台積電下單一需求量大,可能會讓AMD得不到足夠產能,轉而向三星下訂單。
英特爾用於生成式AI的主打晶片Gaudi 3採用的是台積電的5奈米,對於Gaudi 3,這部分競爭正在略微縮小。不過,英特爾的重心似乎更著重在AI PC,從英特爾最新發表的PC端Lunar Lake SoC來看,也已經使用了3奈米。 Lunar Lake包含代號為Lion Cove的新Lion Cove P核設計和新一波Skymont E 核,它取代了Meteor Lake 的Low Power Island Cresmont E 核。英特爾已揭露其採用4P+4E(8 核心)設計,禁用超線程/SMT。整個計算塊,包括P核和E核,都建立在台積電的N3B節點上,而SoC塊則使用台積電N6節點製造。
在邊緣和終端AI晶片領域,IP大廠Arm也在今年5月發布了用於智慧型手機的第五代Cortex-X 核心以及具有最新高性能圖形單元的計算子系統(CSS)。 Arm Cortex-X925 CPU就利用了3奈米製程節點,得益於此,該CPU單執行緒效能提高了36%,AI效能提升了41%,可以顯著提高如大語言模型(LLM)等裝置端生成式AI的反應能力。
高頻寬記憶體(HBM)是必需品
HBM(High Bandwidth Memory,高頻寬記憶體)已成為AI晶片不可或缺的關鍵組件。 HBM技術經歷了幾代發展:第一代(HBM)、第二代(HBM2)、第三代(HBM2E)、第四代(HBM3)和第五代(HBM3E),目前正在積極發展第六代HBM。 HBM不斷突破性能極限,滿足AI晶片日益增長的頻寬需求。
在目前一代的AI晶片當中,各家基本上已經都相繼採用了第五代HBM-HBM3E。例如輝達Blackwell Ultra中的HBM3E增加到了12顆,AMD MI325X擁有288GB的HBM3e內存,比MI300X多96GB。英特爾的Gaudi 3封裝了八塊HBM晶片,Gaudi 3能夠如此拼性價比,可能很重要的一點也是它使用了較便宜的HBM2e。
至於下一代的AI晶片,幾乎都已經擁抱了第六代HBM-HBM4。輝達Rubin平台將升級為HBM4,Rubin GPU內建8顆HBM4,而將於2027年推出的Rubin Ultra則更多,使用了12顆HBM4。 AMD的MI400也奔向了HBM4。
從HBM供應商來看,先前AMD、輝達等主要採用的是SK海力士。但現在三星也正積極打入這些廠商內部,AMD和三星目前都在測試三星的HBM。 6月4日,在台北南港展覽館舉行的新聞發布會上,黃仁勳回答了有關三星何時能成為Nvidia 合作夥伴的問題。他表示:“我們需要的HBM 數量非常大,因此供應速度至關重要。我們正在與三星、SK 海力士和美光合作,我們將收到這三家公司的產品。”
HBM的競爭也很白熱化。 SK海力士最初計劃在2026年量產HBM4,但已將其時間表調整為更早。三星電子也宣布計劃明年開發HBM4。三星與SK海力士圍繞著HBM的競爭也很激烈,兩家在今年將20%的DRAM產能轉向HBM。美光也已加入了HBM大戰行列。
炙手可熱的HBM也成為了AI晶片大規模量產的掣肘。目前,儲存大廠SK Hynix到2025年之前的HBM4產能已基本售罄,供需矛盾日益凸顯。根據SK海力士預測,AI晶片的繁榮帶動HBM市場到2027年將出現82%的複合年增長率。分析師也認為,預計明年HBM市場將比今年成長一倍以上。
三星電子DRAM產品與技術執行副總裁Hwang Sang-joon在KIW 2023上表示:「我們客戶目前的(HBM)訂單決定比去年增加了一倍多。」三星晶片負責業務的設備解決方案部門總裁兼負責人Kyung Kye-hyun 在公司會議上更表示,三星將努力拿下一半以上的HBM市場。三星記憶體業務執行副總裁Jaejune Kim對分析師表示,該公司將在2023年至2024年間將其HBM產能增加一倍。
互聯:重要的拼圖
AI晶片之間互聯一直是個難題,隨著近年來越來越多的加速器被整合在一起,如何高效傳輸資料成為了瓶頸。由於PCIe技術的發展速度跟不上時代需求,目前主流的AI晶片廠商都已經自研了互聯技術,其中較為代表的就是輝達的NVLink和AMD的Infinity Fabric。
NVIDIA的下一代Rubin平台,將採用NVLink 6交換器晶片,運行速度為3600GB/s,上一代的Blackwell採用的是NVLink 5.0。 NVLink設計之初,就是為了解決傳統的PCI Express (PCIe) 匯流排在處理高效能運算任務時頻寬不足的問題。下圖顯示了輝達各代NVLink的參數情況。
與輝達的NVLink相似,AMD則推出了其Infinity Fabric技術,AMD Infinity 架構與第二代AMD EPYC處理器一同推出,使系統建構者和雲端架構師能夠釋放最新的伺服器效能,同時又不犧牲功能、可管理性或幫助保護組織最重要資產(資料)的能力。 Infinity Fabric支援晶片間、晶片對晶片,以及即將推出的節點對節點的資料傳輸。
英特爾則是乙太網路的堅實擁護者,英特爾的用於生成式AI的Gaudi AI晶片則一直沿用傳統的乙太網路互聯技術。 Gaudi 2每個晶片使用了24個100Gb以太網鏈路;Gaudi 3也使用了24個200Gbps以太網RDMA NIC,但是他們將這些鏈路的頻寬增加了一倍,達到200Gb/秒,使晶片的外部乙太網路I/O總頻寬達到8.4TB/秒。
拼服務
像ChatGPT這樣的生成式AI開發任務極為複雜,大模型需要在多台電腦上運行數十億到數萬億個參數,它需要在多個GPU上並行執行工作,採用張量並行、流水線並行、資料並行等多種並行處理方式,以盡可能快速地處理任務。
因此,如何能夠幫助使用者更快的開發,提供良好的服務也是關鍵一役。
在這方面,輝達推出了一種新型的軟體NIMS,即NVIDIA Inference Microservices(推理微服務)。黃仁勳稱之為“盒子裡的人工智慧”,NIMS包含了輝達的CUDA、cuDNN、TensorRT、Triton。 NIMS 不僅使部署AI 變得更容易,只需幾分鐘而不是幾個月,它們還構成了客戶可以創建新應用程式和解決新問題的構建塊。如果採用,NIMS 將有助於加速創新並縮短價值實現時間。 Nvidia 也宣布,NIMS 現在可供開發人員和研究人員免費使用。在生產中部署NIMS需要AI Enterprise許可證,每個GPU的價格為4500美元。
結語
下一場AI之戰已然打響,綜合來看,當前AI晶片市場上,輝達、AMD和英特爾等主要晶片巨頭正在展開激烈的競爭。他們不僅在速度、技術和工藝方面競相創新,還在互聯和服務等領域積極拓展,致力於為用戶提供更快、更強、更智慧的AI解決方案。 AI晶片爭霸戰仍在繼續,誰能最終勝出?讓我們拭目以待。(半導體產業觀察)
