有越來越多的網路和IT設備大廠開始自研AI伺服器晶片,最近,這一風潮吹到了蘋果公司,據悉,該智慧型設備龍頭正在開發用於AI伺服器的客製化晶片。
與微軟和谷歌等競爭對手相比,蘋果在推出生成式AI方面進展較慢,不過,蘋果公司CEO庫克稱,AI已經在蘋果產品的幕後發揮作用,此前有媒體報道,蘋果計劃使用AI來提高搜尋儲存在蘋果設備上的資料的能力。
今年2月,庫克在年度股東大會上表示,使用蘋果AI技術的功能包括Vision Pro的手部追蹤工具和Apple Watch的心率警報。他也表示,MacBook中的晶片能夠運作AI。
庫克表示,今年晚些時候,將與大家分享如何在生成式AI領域開拓新天地。蘋果公司通常在6月的年度開發者大會上宣布新的軟體產品和功能。
知名分析師郭明錤在2023年10月發布的報告顯示,預計蘋果在2023和2024年分別採購2000–3000台、1.8萬–2萬台AI伺服器,分別占同期全球AI伺服器出貨量的1.3 %和5%。估算蘋果在2023年和2024年需要分別支出約6.2億和47.5億美元,用於AI伺服器採購。
基於蘋果產品的功能需求,以及龐大的AI伺服器資本支出,再結合該公司自研晶片的歷史,相信其自研AI伺服器晶片是早晚的事,特別是蘋果放棄造車,將資金和資源重點投入到AI技術和產品研發上,自研AI伺服器晶片就更加順理成章了。
根據統計,2024年,全球伺服器出貨量約1,365.4萬台,其中,各家ODM的出貨以AI伺服器最為強勁。分析師指出,2024年,AI伺服器出貨年增長率和佔比都將達到兩位數,主要得益於生成式AI市場的成長。
預計生成式AI市場規模將從2022年的400億美元成長到2032年的1.3兆美元,年複合成長率高達41.7%。由於全球生成式AI市場商機與成長潛力大,對訓練AI系統的軟硬體需求量大,使得市場對AI 伺服器及相關晶片的需求不斷成長。
AI大模型迭代速度越來越快,廠商對智慧算力的投入大幅增加,支援儲存和訓練的高階AI伺服器的需求激增,2023和2024年,大模型訓練所需資料量激增,AI大模型廠商需要的是能夠支援儲存訓練的高階AI伺服器,因此,各伺服器廠商都在升級晶片規格、擴大卡組數量。
與傳統伺服器相比,AI伺服器在多個方面有所不同。硬體方面,AI伺服器採用異質形式,記憶體容量更大,可滿足不同場景需求;卡的數量方面,由於AI伺服器需要大量計算,至少配置4個GPU卡,有的需要8個;系統結構方面, AI伺服器在散熱、拓撲等方面進行了專門設計,以實現穩定運作。
根據應用情境不同,AI伺服器可分為深度學習訓練型和智慧型應用推理型;根據運算模組結構不同,AI伺服器可分為CPU+GPU、CPU+ASIC、CPU+FPGA等,其中,最常見的是CPU+多塊GPU組合模式。
雖然AI伺服器運算系統主要由CPU和GPU組成,但就目前而言,GPU佔據了較大市場份額,CPU份額相對較小。在這種情況下,GPU廠商的產業地位就很凸出了。然而,雖然市場很大,但能提供高性能GPU的廠商卻很少,目前,能夠形成一定市場規模的廠商只有3家:英偉達,AMD和英特爾。
基於這種市場供需關係,對AI伺服器具有很大需求量的互聯網和IT設備大廠紛紛開始自研相關晶片,如亞馬遜AWS,谷歌,Meta,微軟和蘋果。
亞馬遜AWS自研晶片始於2015年,當時收購了Annapurna Labs,2018年,AWS推出了基於Arm架構的Graviton處理器,這是其首款自研伺服器晶片。 2020年,AWS發布了Graviton2。2023年12月,AWS推出了Graviton4和Trainium2,Graviton4的表現比Graviton2提升了30%,Trainium2在AI訓練速度上提升了4倍。
2016年,Google推出了自研的AI張量處理單元(TPU),這些專為機器學習設計的晶片為Google雲端平台上提供了AI加速能力,2022年前後,Google開始研發基於Arm架構的伺服器CPU ,2024年4月,Google發布了首款自研Arm架構CPU-Axion,並宣布該晶片已經在內部使用。
2020年,微軟開始為其Azure雲端服務客製化晶片,2023年11月,微軟推出了兩款自研晶片——Maia100和Cobalt100。 Maia100是一款專為大語言模型訓練與推理而設計的晶片,採用台積電5nm製程,Cobalt100是一款基於Arm架構的128核心伺服器CPU。
今年4月初,Meta發布了新一代AI訓練和推理加速器MTIA,其運算和記憶體頻寬是上一代產品的兩倍多,最新版本晶片有助於驅動Facebook和Instagram上的排名和推薦廣告模型。
網路和IT設備大廠自研AI晶片的核心動機是降低成本。當然,自研晶片的前提是自身有很大的需求量,否則自研沒有意義。這些大廠的巨量規模能夠分攤晶片研發成本,隨著產量的增加,單位晶片的成本會降低。透過自研,這些大廠可以直接控制晶片的設計和生產成本,從而減少對外部供應商的依賴。這種成本控制能力使它們能夠更有效地管理營運支出,提高整體利潤率。自研晶片還可以優化供應鏈管理,減少中間環節,進而降低採購成本和物流成本。此外,自研晶片可根據雲端服務的特定需求進行客製化,避免不必要的功能和效能過剩,進一步降低生產成本。
透過自研晶片,這些大廠能夠掌握更多的議價權和定價權,避免成為英特爾、英偉達等傳統晶片商的「打工仔」。這不僅有助於提升利潤空間,還能夠在價格競爭中保持彈性,並根據市場狀況調整定價策略。
自研晶片還可以幫助這些大廠完善軟硬體生態系統,它們能夠根據自家的業務需求和特點定制晶片,從而實現硬體與軟體之間的無縫對接和優化。自研晶片還可以保持技術創新,隨著雲端運算、大數據、人工智慧的快速發展,資料中心面臨的工作負載越來越多樣化,自研晶片使這些大廠能夠快速響應市場變化,及時推出符合新需求的產品和服務。
AI伺服器晶片屬於超大規模積體電路,除了需要大量資金投入,其設計和製造的難度都很大,需要能夠精準把握技術路線選擇,另外,在團隊建設,以及與晶圓代工廠合作方面,需要具備業界頂級水平,才能把晶片做好。
AI伺服器需要訓練和推理兩類處理器和系統,如何規劃技術發展路線是關鍵,也就是說,是發展訓練,還是推理,或是兼而有之,是不同的技術路線,這要考慮到市場現況及未來的發展情形。
訓練晶片主要用於AI演算法訓練,即在雲端將一系列經過標記的資料輸入演算法模型進行運算,不斷調整、最佳化演算法參數,直到演算法辨識準確率達到較高水準。推理晶片主要用於AI演算法推理,將在雲端訓練好的演算法模型進行裁剪、優化變「輕」之後,進入應用階段,輸入資料直接得出辨識結果。
不同用途(訓練和推理)、不同應用場景(端-邊-雲)對AI晶片有不同的要求。訓練晶片追求的是高效能(高吞吐率)、低功耗,推理晶片追求的是低延遲(完成推理過程所需的時間盡可能短)、低功耗。 「端-邊-雲」這3個環節對AI晶片的要求也不同,在端和邊上進行的大部分是AI推理,大部分的訓練是在雲和資料中心進行的,訓練過程對時延沒什麼要求,需要確保AI晶片在盡可能保證較高算力的情況下,耗電量盡量低。
目前,英偉達GPU主導的AI訓練市場最為火熱,然而,隨著AI應用的深入展開,巨大的推理晶片市場會逐漸展現出來,該市場比我們目前看到的要大得多,沒有任何一家廠商的晶片能夠滿足這個市場需求。這就是前文提到的亞馬遜、Google、微軟,甚至英偉達自研CPU的原因所在。
有統計顯示,AI晶片市場包括約15%的訓練,45%的資料中心推理和40%的邊緣推理。在這樣的產業背景下,大廠自研晶片,必須找準方向,權衡好中短期和中長期應用需求,分配好訓練晶片和推理晶片的研發投入。
晶片研發團隊建設也很重要。
技術團隊搭建,是一個長期累積的過程,需要時間,難度不小,因此,多家網路大廠對晶片設計外包服務的依賴度較高,這恐怕只能解決短期、少量需求問題,長期來看,還需要技術累積和晶片團隊建設。
下面來看看自研晶片大廠與晶圓代工廠的合作關係。
AI伺服器晶片採用的都是最先進製程工藝,這方面,考慮到三星電子的先進製程(4nm和3nm)良率遲遲提升不上去,台積電幾乎是唯一的晶圓代工廠選擇。
根據專門研究半導體公司的金融分析師Dan Nystedt的估計,2023年,蘋果佔台積電收入的25%(175.2億美元)。
2023年,台積電的前10名客戶佔其營收的91%,高於2022年的82%,這些公司包括聯發科、AMD、高通、博通、索尼和Marvell。可以看出,沒有一家網路大廠,除了蘋果,都是IC設計大廠。
多年來,蘋果一直是台積電的頭號客戶,而且,在未來多年內將一直是台積電的第一大客戶。據悉,蘋果自研的AI伺服器晶片將採用台積電的3nm製程工藝,將在2025下半年生產,那時,台積電的3nm製程將升級到「N3E」版本。
對於網路和IT設備大廠來說,自研的AI伺服器晶片,必須找到足夠好的晶圓代工廠生產,要維持長期、穩定發展,就必須對晶圓代工廠的製程有足夠的了解。這方面,與Google、亞馬遜和微軟相比,蘋果具有先天優勢,因為該智慧型設備巨頭是台積電多年的第一大客戶,雙方有深入了解,能夠更好地把握好晶片生產規模、良率、成本,可以實現無縫過渡。
如前文所述,互聯網大廠自研AI伺服器晶片,由於研發難度大,這些大廠短時間內又難以形成有足夠技術和經驗積累的團隊,因此,選擇外包,找芯片設計服務合作夥伴就成為了不二選擇。
例如,Google開發的兩種Arm伺服器CPU,其中一款代號為“Maple”,是基於Marvell的技術。
另外,Google自研的TPU用來取代英偉達的GPU,Google設計的晶片藍圖,都由博通進行實體實作。實體實作是將邏輯電路轉換為有實體連接的電路圖的過程,博通繪製好實體版圖後,再送到台積電流片,流片成功後的晶片正式進入製造環節,整個過程都需要博通深度參與。
資料中心中成百上千個高效能處理器共同運作,它們之間的通訊就成為了大問題,這也是當下資料中心效能損耗的主要來源。
博通是通訊巨頭,最善於解決通訊頻寬問題,在全球50GB/s的SerDes市場中,博通佔據了76%的份額,其SerDes介面透過將低速並行數據轉換為高速串行數據,然後在接收端轉換回並行資料。透過這樣的操作,資料可以從一個TPU高速轉移到另一個TPU,大大提升了傳輸效率。
有了博通的幫助,Google自研晶片的專案進展速度明顯加快了,TPU從設計開始,僅用15個月就部署進了資料中心。
隨著大模型市場競爭快速展開,Google大幅增加了TPU設計服務訂單,使博通一躍成為僅次於英偉達的AI晶片廠商,Semianalysis預估,AI晶片會在2024年為博通帶來80億~90億美金的營收。
不只谷歌,Meta、亞馬遜、微軟等大廠都在加大自研AI伺服器晶片的投入力度,找晶片設計服務外包合作夥伴的需求只增不減,此時,以博通、Marvell為代表的晶片設計服務公司的商業機會越來越多。(半導體產業縱橫)