4倍性能、50%成本降幅！亞馬遜強勢推出Trainium3晶片，AI訓練推理增添新選項！

2025/12/03

•

當地時間 12 月 2 日，亞馬遜雲端運算服務（AWS）在美國拉斯維加斯舉辦的年度雲端運算盛會“AWS re:Invent 2025”上發佈了全新的自研 Trainium3 晶片，以及採用 Trainium3 晶片的 Trainium3 UltraServer 伺服器。

根據首席執行官 Matt Garman 的介紹，新款 Trainium3 晶片的性能是前代產品的 4 倍，並採用台積電 3 奈米工藝製造。每個晶片都配備了 144 GB 的 HBM3E 記憶體，記憶體頻寬為 4.9 TB/s，提供 2.52 FP8 PFLOPs 的算力。

Trainium3 UltraServer 單機最多整合 144 顆 Trainium3 晶片，總共配備 20.7 TB HBM3E、706 TB/s 記憶體頻寬，可提供最高 362 FP8 PFLOPS 的算力，時延降低 4 倍，可更快訓練超大模型，並大規模支撐推理服務。

其計算性能比 Trainium2 UltraServer 高出 4.4 倍，能源效率高出 4 倍，記憶體頻寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時，Trainium3 UltraServer 的單晶片吞吐量可提升 3 倍，推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求，顯著最佳化使用者體驗，同時降低每次推理請求的成本。

AWS 以垂直整合方式打造 Trainium3 UltraServer，從晶片架構到軟體棧全鏈路協同。核心之一是新一代網路基礎設施，用於消除傳統分佈式 AI 計算的通訊瓶頸：NeuronSwitch-v1 提供 2 倍的 UltraServer 內部頻寬；增強型 Neuron Fabric 將晶片間通訊延遲降低至 10 微秒以內。

這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載，例如：訓練大規模AI模型，可以將複雜模型的訓練時間從數月縮短至數周；處理高並行的 AI 推理請求，以低延遲即時處理數百萬使用者的請求，例如智能對話、視訊生成等；運行特定複雜任務，如智能體系統、專家混合模型和大規模強化學習等。

包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶，已經借助 Trainium 將訓練和推理成本降低最多 50%。其中，Decart 在即時生成式視訊方面實現了 4 倍推理速度提升，成本僅為 GPU 的一半；而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。

對於需要更大規模的客戶，EC2 UltraCluster 3.0 可連線千台 UltraServer，構成擁有多達 100 萬顆 Trainium 晶片的叢集——是上一代的 10 倍。這使得此前完全不可能的任務成為現實：從在兆級 token 資料集上訓練多模態模型，到為數百萬並行使用者提供即時推理服務。

自研晶片是亞馬遜的重要戰略項目之一，目標是避免過度依賴昂貴的輝達硬體。而對於 Trainium3 來說，一個關鍵問題在於：有多少大型外部客戶會願意採用這套硬體。尤其是在Google旗下的 TPU 持續搶佔 AI 晶片市場的背景下。

另一個重要變數是 AI 初創公司 Anthropic 的晶片採購分配。今年 10 月，Anthropic 宣佈與Google達成合作，將使用多達 100 萬顆Google TPU 晶片，以實現除亞馬遜和輝達之外的供應多元化。

Anthropic 表示，亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計，到今年年底，將使用超過 100 萬顆 Trainium 2 晶片，其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。

此外，AWS 也預告了下一代 AI 訓練晶片 Trainium4的研發進展。其在各方面都將實現大幅性能躍升，包括處理性能（FP4）至少提升 6 倍、FP8 性能提升 3 倍、記憶體頻寬提升 4 倍。結合持續的軟硬體最佳化，其實際性能提升將遠超基準數值。

其中，FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍，推理吞吐量也至少提升 3 倍，並且隨著軟體最佳化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。

為進一步提升單機擴展性能，Trainium4 將支援 NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter（EFA）能在統一 MGX 機架內協同工作，為客戶提供支援 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。

這一整合將建構一個靈活、高性能的平台，最佳化應對未來對訓練與推理都極其苛刻的 AI 工作負載。 (問芯)