#Trainium
解構亞馬遜最強晶片,GPU迎來勁敵
全球人工智慧模型製作者已經等待了一年多,希望能拿到 Trainium3 XPU,這些 XPU 是專門為訓練和推理而設計的,是輝達“Blackwell”B200 和 B300 GPU 以及Google“Trillium”TPU v6e 和“Ironwood”TPU v7p 加速器的可靠替代方案。但當亞馬遜網路服務 (AWS) 首席執行官 Matt Garmin 開始談論預計將於 2026 年底或 2027 年初交付的未來 Trainium4 XPU 時,所有排隊購買基於 Trainium3 的 EC2 容量塊的使用者都開始擔心自己會後悔。因為儘管 Trainium3 相較於該公司 Annapurna Labs 晶片設計部門開發的前幾代 Inferentia 和 Trainium XPU 已經相當出色,但 Trainium4 似乎將徹底改變插槽的尺寸,不僅帶來功能強大的裝置,還將帶來可擴展性更強的 UltraServer 叢集,從而更好地運行專家級和鏈式推理模型。在深入探討 Trainium4 的具體細節之前,我們先來回顧一下 Trainium3 XPU 的基本情況,尤其考慮到這款晶片及其前代產品 Trainium2 的許多技術規格直到最近才公佈。讓我們先來看看 Garmin 在本周拉斯維加斯 re:Invent 2025 大會開幕式上發表主題演講時提到的 Trainium3 規格表:這是AWS去年同期展示的幻燈片的更新版,其中預覽了AWS願意透露的三項資料。Tranium3採用了台積電的3奈米製程工藝,比我們大多數人認為Annapurna Labs用於Tranium2晶片的5奈米技術有所改進。Tranium3預計可提供兩倍的計算能力(這可能意味著很多不同的東西),並提供40%的能效提升(由於似乎沒有人知道Tranium1、Tranium2或Tranium3的功耗,因此這並非一個有價值的指標)。但顯然,製程工藝的改進主要是為了降低功耗,而不是為了在晶片中塞入新功能,而插槽尺寸的增大則是為了提升性能,最終每瓦性能淨提升了40%。亞馬遜銷售基於 Tranium2 的常規伺服器實例以及在共用記憶體域中總共有 16 個 Trainium3 插槽的 UltraServer 叢集配置,但到目前為止,僅交付了在單個記憶體域中具有 64 個 Tranium3 的 Trainium3 UltraServer。與搭載於 AWS 的 Trn3 UltraServer 相比,Trn3 UltraServer 的整體計算能力提升了 4.4 倍,這與其 XPU 數量少四倍的 Trn2 UltraServer 相比,可謂意義重大。據 Garmin 稱,最新的 UltraServer 的總 HBM 記憶體頻寬是 Trn2 UltraServer 的 3.9 倍,而對於那些擔憂推理成本(這是 GenAI 商業化的關鍵因素)的使用者來說,更重要的是,其每兆瓦的計算能力可以產生五倍的token。以下是 Garmin 為此項性能聲明提供的帕累托曲線,該曲線顯示了 Y 軸上每兆瓦輸出token數與以每秒每使用者token數表示的輸出互動性之間的相互作用:要想在2025年及以後獲得推理業務的成功,關鍵就在於如何提升並擴展這條曲線。這組圖表對比了運行OpenAI GPT-OSS 120B模型的Trn2 UltraServer叢集和Trn3 UltraServer叢集。該圖表還顯示(但 Garmin 沒有提及),如果互動性對你的推理工作量很重要,那麼在消耗相同能量的情況下,你可以獲得大約高一個數量級的互動性提升。在 Trainium2 實例在其雲上逐步部署的過程中,AWS 更新了此 XPU 的規格,我們也找到了一些 Trainium3 的規格,這消除了一些謎團,並填補了許多關於 Trainium 插槽中元件如何堆疊以構成每個後續 XPU 的空白。讓我們從神經元核心開始,逐步向外擴展。所有 NeuronCore 設計都將四種不同的計算單元整合到核心中,這與 CPU 核心長期以來混合使用整數(標量)和向量單元的做法非常相似,有時(例如 Intel Xeon 5 和 6 以及 IBM Power10 和 Power11)還會配備張量單元。從 Trainium 系列開始,Annapurna Labs 在架構中加入了集體通訊核心(CC-Core),用於處理高性能計算 (HPC) 和人工智慧 (AI) 工作負載中常見的集體操作,因此實際上共有五種計算單元。僅在 Inferentia1 晶片中使用的 NeuronCore-v1 架構包含一個用於整數運算的標量引擎(兩個整數輸入和一個整數輸出)、一個用於向量運算的向量引擎(兩個浮點輸入和一個浮點輸出)以及一個用於張量運算的張量引擎(多個矩陣浮點輸入和一個矩陣浮點輸出)。根據 AWS 文件,NeuronCore-v1 中的標量引擎每個時鐘周期可以處理 512 次浮點運算,並支援 FP16、BF16、FP32、INT8、INT16 和 INT32 資料類型。(我們認為 AWS 的本意是它支援 512 位資料)。文件還指出,向量引擎每個時鐘周期可以處理 256 次浮點運算(同樣,我們認為這是 256 位資料),並且也支援 FP16、BF16、FP32、INT8、INT16 和 INT32 資料格式。您可以根據資料寬度以及每個單元可以容納的資料量來計算每個時鐘周期的運算次數。NeuronCore-v1 的 TensorEngine 的維度從未公開,但我們知道它可以處理 FP16、BF16 和 INT8 輸入以及 FP32 和 INT32 輸出,並可提供 16 兆次浮點運算的 FP16 或 BF16 張量處理。在討論了第一個 NeuronCore-v1 設計之後,讓我們把它們全部並排擺放,看看我們認為 Trainium4 可能達到的水平:AWS 於 2020 年 12 月在 re:Invent 大會上開始討論 Trainium1,並花了兩年時間才全面投產。考慮到這是亞馬遜首款自主研發的資料中心級訓練加速器,這樣的進度也情有可原。我們認為 Trainium1 採用的是台積電 7 奈米工藝製造;已知它擁有 550 億個電晶體,運行頻率為 3 GHz。這款晶片與之後於 2023 年 4 月上市的 Inferentia2 晶片採用了相同的 NeuronCore-v2 架構,後者採用了 5 奈米工藝,電晶體數量大致相同,但針對推理工作負載進行了一些調整,例如 NeuronLink 晶片互連連接埠的數量減少了一半。隨著 Trainium2 於 2023 年 11 月發佈,並於 2024 年 12 月開始量產,AWS 轉向了 NeuronCore-v3 架構,並停止生產 Inferentia 晶片,因為推理過程開始變得越來越像訓練。Trainium2 的每個插槽核心數增加了四倍,單個記憶體域中的 NeuronCore 總數增加了 16 倍,因為每個實例的插槽數也增加了四倍。據我們所知,AWS 還將 Trainium2 的時脈頻率提升了,同時將製程從 Trainium1 的 7 奈米縮小到 5 奈米。有趣的是,每個 NeuronCore 的峰值標量和向量性能在 v3 中下降了約 60%,峰值張量吞吐量下降了 12%。但AWS為該晶片的張量運算增加了1:4稀疏度支援,再加上核心數量的增加,使得Trainium2在FP16或BF16精度下的有效吞吐量比Trainium1提升了3.5倍。事實上,NeuronCore-v3支援多種不同的稀疏度模式:4:16、4:12、4:8、2:8、2:4、1:4和1:2。三個計算單元共享的 NeuronCore-v3 的 SRAM 記憶體容量提升至每個核心 28 MB,但我們尚不清楚具體提升幅度。HBM 記憶體容量最終提升至 96 GB,提升了 3 倍,頻寬也提升了 3.5 倍,達到 2.9 TB/秒。可以說,這是首款具有競爭力的 Trainium 晶片,Anthropic 一直使用 Trainium2 裝置進行模型開發和推理,並且 AWS Bedrock 模型服務的大部分推理工作也由 Trainium 完成,這並非巧合。我們推測,Garmin 在主題演講中提到的數百萬台 Trainium 裝置中,大部分是 Trainium2 裝置。這就引出了 Trainium3,它現在已在 UltraServer 實例中批次交付。Trainium3 裝置的核心是 NeuronCore-v4 架構——沒錯,如果核心名稱與裝置名稱一致就更好了——它帶來了一些重大改進。首先,向量引擎經過調整,可以快速進行指數函數計算,其性能是標量引擎執行此任務的 4 倍,而這項任務是 GenAI 模型自注意力演算法的一部分。其次,FP16 和 BF16 資料格式可以量化為 MXFP8 格式,AWS 表示這對於 GenAI 模型中多層感知器 (MLP) 層之間的資料量化非常有用。NeuronCore-v3 設計還將每個核心的 SRAM 容量提升至 32 MB。 Trainium2 和 Trainium3 之間的時鐘速度似乎只有名義上的變化,沒有顯著變化,但該裝置最大的變化是 NeuronLink-v4 XPU 互連連接埠的頻寬翻了一番,達到 2.5 TB/秒,HBM 記憶體容量增加了 1.5 倍,達到 144 GB,HBM 頻寬增加了 1.7 倍,達到 4.9 TB/秒。我們認為 Trainium3 設計的改進旨在更好地平衡計算、記憶體和互連,從而提升 Trainium3 插槽的實際性能,而非其理論峰值性能。Trn3 Gen1 UltraServer 的記憶體域與 Trainium2 相同,仍為 64 個裝置,但目前已上市的 Trn3 Gen2 UltraServer 的記憶體域已擴展至 144 個插槽。這使得可用於 AI 訓練或推理任務的核心數量增加了 2.25 倍。這就引出了 Trainium4,預計將於明年這個時候開始推出。我們推測,AWS 將採用名為 NeuronCore-v5 的架構,為 Trainium 處理加入完整的 FP4 支援,而不僅僅是將 MXP4 資料塞進張量的 FP8 插槽中,造成大量空間浪費。Garmin 在主題演講中表示,通過採用 FP4 原生格式,Tranium4 的性能將是 Tranium3 的 6 倍,這意味著 FP8 處理能力將提升 3 倍。Garmin 還表示,Tranium4 的 HBM 記憶體容量將是 Tranium 3 的 2 倍,HBM 頻寬將是 Tranium 3 的 4 倍。在上面的巨型表格中,我們試圖弄清楚 Trainium4 可能是什麼樣子,以及如何進一步擴展一組耦合的 Trainium4 裝置的記憶體域。實現這一目標有很多不同的途徑,我們認為AWS最好的選擇是採用2奈米工藝以節省一些功耗,或者繼續使用3奈米工藝以節省一些成本,但這樣會製造出尺寸稍大、發熱量稍高的XPU。這很難抉擇,但我們認為AWS最終會傾向於採用2奈米蝕刻工藝來開發Trainium 4。如果你看一下 Garmin 上面的圖表,你會發現它表明 Tranium4 將同時支援裝置上的 NVLink 和 UALink 連接埠——Nvidia 曾大肆宣傳 AWS 採用 NVLink 技術,但我們猜測 AWS 將會推出帶有 NVLink 連接埠的 Graviton 系列晶片,並獲得 Nvidia 一直不願提及的功能:將定製 CPU 和定製 XPU 通過 NVLink 連接埠和 NVSwitch 記憶體交換結構連接到一個巨大的共用記憶體域。迄今為止,Nvidia 一直允許客戶使用連接到 Nvidia GPU 的定製 CPU 或定製 XPU,但尚未允許第三種選擇。我們認為AWS採購的GPU數量足夠多,因此它有能力提出這樣的要求並獲得相應的回報,而且價格也應該合理。我們還認為AWS會支援Nvidia的NVFP4資料格式以及用於FP4處理的MXFP4格式,這很可能是雙方交換條件的一部分,目的是為了讓在Tranium4晶片上進行的工作更容易地轉移到Nvidia的“Blackwell”和“Rubin”GPU上。當然,這些都只是我們的猜測。我們還認為AWS希望能夠將這些GPU接入到它自己的機架中,而這些機架本質上將是Nvidia機架的克隆版。但值得注意的是,Garmin 的上圖也提到了 UALink。AWS 仍在權衡各種方案,無疑希望 Tranium4 封裝採用晶片組架構,以便將 NVLink 連接埠取代為 UALink 連接埠,並採用機架式設計,以便在 UALink 交換機上市時(或許在明年晚些時候)將其取代為 NVSwitch 交換機。NeuronLink-v5 可能經過調整以相容 UALink 2.0,而這些交換機將由 Annapurna Labs 生產,而不是 Astera Labs、Upscale AI、Marvell、Cisco Systems 或其他提供可擴展互連 ASIC 的公司生產。要在相同或略微更小的散熱範圍內獲得三倍性能的最簡單方法是,將核心數量增加三倍,並保持時脈頻率基本不變,同時採用 2 奈米製程工藝。如果電晶體尺寸縮小更多(例如台積電的 1.6 奈米 A16 工藝),則可以略微降低散熱或略微提高時脈頻率。我們的建議是充分利用散熱優勢,保持其他參數不變,就像 AWS 在 Trainium2 和 Trainium3 之間所做的那樣,只需將核心數量增加三倍即可。如果將核心數量增加 3 倍,達到每個插槽 24 個核心,並可能分佈在四個晶片組上,那麼在保持精度不變的情況下,性能將提升 3 倍;如果將 FP8 降級到 FP4,那麼每個插槽的性能將提升 6 倍。現在有趣的地方來了。如果你將每個系統的裝置數量也翻倍至 288 個(與 Nvidia 的做法一致),那麼你可以在 Trainium4 UltraServer 叢集中獲得 6,912 個 NeuroCore,所有這些 NeuroCore 都位於一個記憶體域中,並擁有 1,944 TB 的 HBM 記憶體。當然,這與Google能夠在單個記憶體域中部署的 9,612 個 Ironwood TPU v7p XPU 相比,簡直是小巫見大巫……但它比目前市面上銷售的 Trn2 Gen2 UltraServer 叢集性能高出 13.5 倍。 (半導體行業觀察)
4倍性能、50%成本降幅!亞馬遜強勢推出Trainium3晶片,AI訓練推理增添新選項!
當地時間 12 月 2 日,亞馬遜雲端運算服務(AWS)在美國拉斯維加斯舉辦的年度雲端運算盛會“AWS re:Invent 2025”上發佈了全新的自研 Trainium3 晶片,以及採用 Trainium3 晶片的 Trainium3 UltraServer 伺服器。根據首席執行官 Matt Garman 的介紹,新款 Trainium3 晶片的性能是前代產品的 4 倍,並採用台積電 3 奈米工藝製造。每個晶片都配備了 144 GB 的 HBM3E 記憶體,記憶體頻寬為 4.9 TB/s,提供 2.52 FP8 PFLOPs 的算力。(來源:社交媒體 X)Trainium3 UltraServer 單機最多整合 144 顆 Trainium3 晶片,總共配備 20.7 TB HBM3E、706 TB/s 記憶體頻寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓練超大模型,並大規模支撐推理服務。其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,記憶體頻寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時,Trainium3 UltraServer 的單晶片吞吐量可提升 3 倍,推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求,顯著最佳化使用者體驗,同時降低每次推理請求的成本。AWS 以垂直整合方式打造 Trainium3 UltraServer,從晶片架構到軟體棧全鏈路協同。核心之一是新一代網路基礎設施,用於消除傳統分佈式 AI 計算的通訊瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內部頻寬;增強型 Neuron Fabric 將晶片間通訊延遲降低至 10 微秒以內。這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載,例如:訓練大規模AI模型,可以將複雜模型的訓練時間從數月縮短至數周;處理高並行的 AI 推理請求,以低延遲即時處理數百萬使用者的請求,例如智能對話、視訊生成等;運行特定複雜任務,如智能體系統、專家混合模型和大規模強化學習等。包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經借助 Trainium 將訓練和推理成本降低最多 50%。其中,Decart 在即時生成式視訊方面實現了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。(來源:社交媒體 X)對於需要更大規模的客戶,EC2 UltraCluster 3.0 可連線千台 UltraServer,構成擁有多達 100 萬顆 Trainium 晶片的叢集——是上一代的 10 倍。這使得此前完全不可能的任務成為現實:從在兆級 token 資料集上訓練多模態模型,到為數百萬並行使用者提供即時推理服務。自研晶片是亞馬遜的重要戰略項目之一,目標是避免過度依賴昂貴的輝達硬體。而對於 Trainium3 來說,一個關鍵問題在於:有多少大型外部客戶會願意採用這套硬體。尤其是在Google旗下的 TPU 持續搶佔 AI 晶片市場的背景下。另一個重要變數是 AI 初創公司 Anthropic 的晶片採購分配。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。此外,AWS 也預告了下一代 AI 訓練晶片 Trainium4的研發進展。其在各方面都將實現大幅性能躍升,包括處理性能(FP4)至少提升 6 倍、FP8 性能提升 3 倍、記憶體頻寬提升 4 倍。結合持續的軟硬體最佳化,其實際性能提升將遠超基準數值。其中,FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍,推理吞吐量也至少提升 3 倍,並且隨著軟體最佳化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。為進一步提升單機擴展性能,Trainium4 將支援 NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter(EFA)能在統一 MGX 機架內協同工作,為客戶提供支援 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。這一整合將建構一個靈活、高性能的平台,最佳化應對未來對訓練與推理都極其苛刻的 AI 工作負載。 (問芯)
CPU被超!GPU成市場新主角
2024年GPU銷售額超越APU和CPU,成為各類處理器中銷售額冠軍。Yole Group 近日發佈《2025 年處理器產業狀況》報告,指出全球處理器市場正經歷由生成式 AI 與雲端基礎設施推動的深刻變革。Yole Group 提到,2024 年 GPU 銷售額超越 APU 和 CPU,成為各類處理器中銷售額冠軍。其銷售額達 1130 億美元,佔總處理器銷售額的 39%,一年內實現 126% 的增長。這一增長主要受 NVIDIA 主導地位及生成式 AI 模型對 GPU 需求增加的推動。Yole Group 認為,到 2030 年,GPU 市場規模將達 2390 億美元,是 2024 年的 2 倍以上,增長背後是伺服器 GPU 平均售價的上升。同時,美國出口限制已重塑競爭格局,尤其在中國市場。儘管當前 GPU 佔據市場主導地位,但專為人工智慧應用設計的積體電路(AI ASIC)正成為戰略替代方案。ASIC(Application Specific Integrated Circuit特定用途積體電路)根據產品的需求進行特定設計和製造的積體電路,其定製程度相比於 GPU 和 FPGA 更高。ASIC 算力水平一般高於GPU、FPGA,但初始投入大,專業性強縮減了其通用性,演算法一旦改變,計算能力會大幅下降,需要重新定製。Google、亞馬遜(Amazon)、華為等超大規模雲端服務商,正大量投資專有解決方案,以減少對 NVIDIA GPU 的依賴。Google 早在 2013 年就秘密研發專注 AI機器學習演算法晶片,並用於雲端運算資料中心,取代輝達 GPU。這款TPU自研晶片2016年公開,為深度學習模型執行大規模矩陣運算,如自然語言處理、電腦視覺和推薦系統模型。Google 其實在 2020 年的資料中心便建構 AI 晶片 TPU v4,直到 2023 年 4 月才首次公開細節。值得注意的是TPU是一種定製化的 ASIC 晶片,它由Google從頭設計,並專門用於機器學習工作負載。亞馬遜也推出了其自研 AI 晶片Trainium,以減少對輝達的依賴並提高自身在 AI 領域的競爭力。該公司投資大量資金用於技術基礎設施建設,並已定製晶片以提升資料中心效率,降低成本。亞馬遜與被收購的晶片初創公司 Annapurna Labs 合作,旨在打造自有的 AI 晶片,同時也在投資 AI 基礎設施。據預測,2024 年至 2030 年,AI ASIC 市場年複合增長率(CAGR)將達 45%,規模將從 2024 年的 90 億美元增長至 2030 年的 850 億美元,成為行業增長最快的部分。其他類型處理器銷售情況好壞不一:DPU 增長與人工智慧及伺服器需求相關,預計 2030 年將增長至 170 億美元;FPGA 2024 年銷售額出現下滑,但預計將逐步穩定,2030 年前規模達 80 億美元,增長主要受汽車應用支撐。市場層面,2024 年電信與基礎設施領域收入佔比首次超越移動與消費領域,達 53%。預計到 2030 年,這一比例將升至 66%,凸顯雲端人工智慧部署的核心作用。汽車行業,尤其是與 ADAS 及娛樂系統相關的應用,同樣是增長引擎,預計 2030 年前年增長率將達 15%。近日來自大摩的一份報告也給GPU市場熱度再添一把火。摩根士丹利(大摩)最新報告顯示,在與輝達管理層會談後,對其在人工智慧(AI)領域的短期及長期需求信心增強,維持“增持”評級,目標價設定為 210美元,對應總市值約 5.1兆美元。這一積極的評估,反映了市場對 GPU驅動的 AI 基礎設施建設的樂觀預期,以及輝達在這一領域的領先地位。報告指出,全球雲資本支出持續擴張,計算核心正從CPU 向 GPU 加速遷移。這一趨勢是輝達收入增長的主要動力。隨著 AI技術在各行各業的深入應用,對算力的需求呈現爆發式增長。輝達憑藉其在 GPU 領域的深厚積累,以及 CUDA 等生態系統的優勢,成為了 AI 基礎設施建設的核心供應商。大摩預計,到 2030年,AI 基礎設施市場規模有望達到 3至5兆美元,遠高於此前的預測,這無疑為輝達帶來了巨大的增長潛力。針對輝達與OpenAI 合作引發的供應商融資議題,摩根士丹利的分析師團隊認為,這種模式是“需求加速器”。輝達正通過投資 CoreWeave及英國主權基金等方式擴巨量資料中心產能,以滿足市場日益增長的需求。這種戰略不僅能夠加速 AI 基礎設施的建設,也為輝達帶來了更多的市場機遇。未來,這種合作模式有望複製到更多企業,進一步鞏固輝達的市場地位。 (半導體產業縱橫)