AWS發佈3nm晶片: 144 GB HBM3e,4.9 TB/s頻寬

亞馬遜網路服務 (AWS) 預覽其下一代 Trainium AI 加速器 Trainium3 至今已近一年。今天,這款晶片正式面世。在 AWS re:Invent 大會上,該公司宣佈 Amazon EC2 Trn3 UltraServer 正式上線,這是首批基於這款新晶片建構的系統,並作為其彈性計算雲 (EC2) 服務的一部分提供。

Trainium3 由台積電採用 3 奈米工藝製造,單晶片可提供 2.52 PFLOPs 的 FP8 計算能力。該器件整合了 144 GB 的 HBM3e 視訊記憶體,提供 4.9 TB/s 的記憶體頻寬。AWS 向HPCwire表示,這些性能提升源於架構的改進,旨在平衡現代 AI 工作負載的計算、記憶體和資料傳輸。該公司表示,Trainium3 新增了對 FP32、BF16、MXFP8 和 MXFP4 的支援,並增強了對結構化稀疏性、微擴展、隨機舍入和集體通訊引擎的硬體支援。該公司稱,這些新增功能旨在使晶片更好地適應 LLM、混合專家架構和多模態系統的訓練模式。

這些改進概述了晶片層面的新特性,但AWS表示,真正的規模優勢在於Trainium3的部署方式。該公司指出,許多最大的性能和效率提升都體現在UltraServer層面,因為新的架構、記憶體拓撲和整合引擎在數百個晶片上運行。在系統層面,一個完全配置的Trainium3 UltraServer連接144個晶片,聚合了362 FP8 PFLOPs的計算能力、20.7 TB的封裝內HBM3e記憶體以及706 TB/s的記憶體頻寬。據AWS稱,與上一代基於Trainium2的架構相比,該系統可提供高達4.4倍的計算性能提升、4倍的能效提升以及近4倍的記憶體頻寬提升。這些資料基於AWS在其發佈博文中分享的內部測量結果。

AWS 向HPCwire透露,Trainium3 引入了 NeuronSwitch-v1,這是一種全新的全連接架構,可在單個 UltraServer 中連接多達 144 個晶片,並將晶片間頻寬提升至 Trn2 UltraServer 的兩倍。該公司還重點介紹了其網路堆疊的改進:升級後的 Neuron Fabric 將晶片間通訊延遲降低至“略低於 10 微秒”,而 EC2 UltraClusters 3.0 則提供多拍位元網路,以支援跨越“數十萬個 Trainium 晶片”的大型分佈式訓練作業。

AWS 表示,UltraServer 層面更高的記憶體容量、更快的架構以及改進的協同引擎相結合,旨在減少大型 Transformer 和 MoE 模型(尤其是具有更長上下文窗口或多模態元件的模型)中的資料傳輸瓶頸。在對 OpenAI 的開源權重模型 GPT-OSS 進行的內部測試中,AWS 報告稱,與上一代 UltraServer 相比,每個晶片的吞吐量提高了 3 倍,推理響應時間提高了 4 倍,這表明該公司正在利用系統級的性能提升,使 Trainium3 能夠勝任數兆參數的訓練和大規模推理任務。

AWS 表示,客戶已經開始使用 Trainium3 來降低訓練成本,Anthropic、Metagenomi和 Neto.ai等公司報告稱,與替代方案相比,成本最多可降低 50%。AWS 還指出,Amazon Bedrock 已經在 Trainium3 上運行生產工作負載,這表明該晶片已準備好進行企業級部署。早期採用者也在積極探索新的應用領域:據 AWS 稱,人工智慧視訊初創公司 Decart 正在使用 Trainium3 進行即時生成視訊,並以 GPU 一半的成本實現了 4 倍的幀生成速度。

AWS 已著手研發下一代定製晶片。該公司表示,Trainium4 旨在顯著提升計算、記憶體和互連性能,包括至少 6 倍的 FP4 吞吐量、3 倍的 FP8 性能以及 4 倍的記憶體頻寬。AWS 將 FP8 性能的提升描述為“基礎性飛躍”,這將使企業能夠以至少三倍的速度訓練模型或處理三倍數量的推理請求,並且預計通過持續的軟體和工作負載最佳化,性能還將進一步提升。

為了支援更大規模的模型和更高的節點級擴展性,AWS 表示 Trainium4 還將整合輝達的 NVLink Fusion 互連技術。其目標是使 Trainium4、Graviton 和 Elastic Fabric Adapter 能夠在通用的基於 MGX 的機架中互操作,從而建立一個靈活的機架級設計,既可以託管 GPU 伺服器,也可以託管 Trainium 系統。

隨著 Trainium3 投入生產,Trainium4 也即將面世,AWS 似乎正在為未來做好準備。未來,人工智慧訓練的真正瓶頸將不再在於加速器本身,而在於連接它們的網路和系統設計。AWS 能否有效執行這一路線圖,將決定其在建構前沿規模人工智慧基礎設施的持續競爭中的地位。

NVIDIA NVLink Fusion 被選中用於未來的 AWS Trainium4 部署

今天,NVIDIA 和 AWS 宣佈建立多代合作夥伴關係,將 NVLink Fusion 晶片整合到未來的 AWS AI 機架和晶片設計中。AWS 在 2015 年收購 Annapurna Labs 後,開始自主設計 Graviton CPU、Nitro 網路卡和 AI 加速器。因此,AWS 的技術堆疊並非 NVIDIA 的技術堆疊,儘管它也採購了大量 NVIDIA GPU。未來,AWS 計畫將 NVIDIA 的技術整合到其定製的晶片棧中,這意義重大。

NVLink Fusion 背後的理念是,NVIDIA 可以銷售一個 IP 模組,使其他晶片能夠使用 NVIDIA NVLink 進行通訊。

NVIDIA宣佈了一系列合作夥伴,而Arm等其他公司最近也加入了進來。

從新聞稿中我們可以看出,“AWS 正在設計 Trainium4,使其能夠與 NVLink 6 和 NVIDIA MGX 機架架構整合,這是 NVIDIA 和 AWS 在 NVLink Fusion 領域開展的多代合作的首個成果。”

這對兩家公司來說都是一筆划算的交易。AWS 可以將與 NVIDIA NVL72 機架類似的機架架構用於其定製晶片項目。

對輝達而言,這項技術正被融入到一項超大規模的定製晶片項目中。它有機會將NVLink Fusion Chiplet和NVLink交換機銷售到那些非輝達的CPU/GPU/NIC晶片機架中。

或許最有趣的是,AWS在推進Trainium未來版本開發的同時,決定採用NVIDIA NVLink技術,而不是自行建構通訊協議、交換機以及機架基礎設施。此外,值得注意的是,AWS採用NVLink意味著它不會在其機架內擴展計算鏈路中使用Broadcom Tomahawk Ultra或其他基於乙太網路的交換機晶片,因為將兩種技術用於同一用途顯得不合常理。 (半導體行業觀察)