01.亞馬遜發佈Trainium3,性能對標GB300亞馬遜雲服務(AWS)本周推出了新一代Trainium3加速器,用於人工智慧訓練和推理。AWS表示,這款新處理器的速度是上一代的兩倍,效率更是提升了四倍。這使其成為性價比最高的人工智慧訓練和推理解決方案之一。AWS Trainium3是一款雙晶片 AL加速器,配備 144 GB HBM3E 記憶體,採用四組記憶體堆疊,峰值記憶體頻寬高達 4.9TB/S。每個計算晶片據稱由台積電採用 3nm 工藝製造,包含四個 Neuroncore-v4 核心(與前代產品相比,其指令集架構 (ISA)有所擴展),並連接兩個 HBM3E 記憶體堆疊。兩個晶片通過專有的高頻寬介面連接,共享 128 個獨立的硬體資料傳輸引擎、用於協調晶片間流量的通訊核心,以及四個用於橫向擴展連接的 NeuronLink-v4 介面。從絕對數值來看,Trainium3可提供高達2517 MXFP8 TFLOPS的運算能力,比輝達的Blackwell Ultra低了近一半。然而,AWS的Trainium3 Ultraserver每個機架可容納144個Trainium3晶片提供0.36 ExaFLOPS的FP8性能,與輝達的NVL72 GB300的性能相當。02.Trainium3的服務器,整機櫃資料Trainium3伺服器,每個1u伺服器配置4顆Trainium3晶片,但是沒有和輝達的Blackwell一樣採用4+2方案。Trainium3的單晶片功耗約700w,整機櫃超100kw,採用冷板液冷散熱,採用小冷板方案,每個晶片上覆蓋一個小冷板。UltraServer 的架構類似輝達的Rubin 144架構,最多可擴展至 144 顆 Trainium3 晶片(總計 362 FP8 PFLOPs),並且可通過 EC2 UltraClusters 3.0 擴展至數十萬顆晶片。一台配置完整的 Trn3 UltraServer 可提供高達 20.7 TB 的 HBM3e 記憶體和 706 TB/s 的聚合記憶體頻寬。新一代 Trn3 UltraServer 採用 NeuronSwitch-v1,這是一種全連接架構,其晶片間互連頻寬是 Trn2 UltraServer 的兩倍。與 Trn2 UltraServer 相比,Trn3 的性能提升高達 4.4 倍,記憶體頻寬提升高達 3.9 倍,每瓦性能提升高達 4 倍。03.ASIC晶片部署規模逐漸擴大,Google,AWS將帶來新大波液冷需求在AI熱潮席捲全球之際,輝達作為全球晶片霸主穩居主導地位,目前佔據AI晶片80%的市場份額,但是輝達的主要競爭對手AMD HW等晶片廠商在快速崛起,搶佔輝達的AI晶片市場。除了以上主流的晶片廠商在爭奪AI晶片市場,另外以微軟,Google等公司為代表的自研ASIC晶片也在陸續推出。從富邦發佈的台積電晶片研報資料來看,ASIC晶片在台積電的晶片先進封裝份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片封裝將會快速升高至36%-40左右。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。隨著AI的火熱競爭,ASIC晶片的研發和生產速度在加快,目前ASIC晶片推進最為積極的廠商是Google,微軟和亞馬遜,迭代速度很快,幾乎和輝達齊平,一年一個新產品,晶片性能快速上升,Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW,微軟的Maia 100晶片功耗高達700-900w。隨著國內外廠商加快 ASIC 晶片及液冷方案佈局,預計 ASIC 市場擴張將推動液冷需求進一步提升。(零氪1+1)