全球人工智慧模型製作者已經等待了一年多,希望能拿到 Trainium3 XPU,這些 XPU 是專門為訓練和推理而設計的,是輝達“Blackwell”B200 和 B300 GPU 以及Google“Trillium”TPU v6e 和“Ironwood”TPU v7p 加速器的可靠替代方案。但當亞馬遜網路服務 (AWS) 首席執行官 Matt Garmin 開始談論預計將於 2026 年底或 2027 年初交付的未來 Trainium4 XPU 時,所有排隊購買基於 Trainium3 的 EC2 容量塊的使用者都開始擔心自己會後悔。因為儘管 Trainium3 相較於該公司 Annapurna Labs 晶片設計部門開發的前幾代 Inferentia 和 Trainium XPU 已經相當出色,但 Trainium4 似乎將徹底改變插槽的尺寸,不僅帶來功能強大的裝置,還將帶來可擴展性更強的 UltraServer 叢集,從而更好地運行專家級和鏈式推理模型。在深入探討 Trainium4 的具體細節之前,我們先來回顧一下 Trainium3 XPU 的基本情況,尤其考慮到這款晶片及其前代產品 Trainium2 的許多技術規格直到最近才公佈。讓我們先來看看 Garmin 在本周拉斯維加斯 re:Invent 2025 大會開幕式上發表主題演講時提到的 Trainium3 規格表:這是AWS去年同期展示的幻燈片的更新版,其中預覽了AWS願意透露的三項資料。Tranium3採用了台積電的3奈米製程工藝,比我們大多數人認為Annapurna Labs用於Tranium2晶片的5奈米技術有所改進。Tranium3預計可提供兩倍的計算能力(這可能意味著很多不同的東西),並提供40%的能效提升(由於似乎沒有人知道Tranium1、Tranium2或Tranium3的功耗,因此這並非一個有價值的指標)。但顯然,製程工藝的改進主要是為了降低功耗,而不是為了在晶片中塞入新功能,而插槽尺寸的增大則是為了提升性能,最終每瓦性能淨提升了40%。亞馬遜銷售基於 Tranium2 的常規伺服器實例以及在共用記憶體域中總共有 16 個 Trainium3 插槽的 UltraServer 叢集配置,但到目前為止,僅交付了在單個記憶體域中具有 64 個 Tranium3 的 Trainium3 UltraServer。與搭載於 AWS 的 Trn3 UltraServer 相比,Trn3 UltraServer 的整體計算能力提升了 4.4 倍,這與其 XPU 數量少四倍的 Trn2 UltraServer 相比,可謂意義重大。據 Garmin 稱,最新的 UltraServer 的總 HBM 記憶體頻寬是 Trn2 UltraServer 的 3.9 倍,而對於那些擔憂推理成本(這是 GenAI 商業化的關鍵因素)的使用者來說,更重要的是,其每兆瓦的計算能力可以產生五倍的token。以下是 Garmin 為此項性能聲明提供的帕累托曲線,該曲線顯示了 Y 軸上每兆瓦輸出token數與以每秒每使用者token數表示的輸出互動性之間的相互作用:要想在2025年及以後獲得推理業務的成功,關鍵就在於如何提升並擴展這條曲線。這組圖表對比了運行OpenAI GPT-OSS 120B模型的Trn2 UltraServer叢集和Trn3 UltraServer叢集。該圖表還顯示(但 Garmin 沒有提及),如果互動性對你的推理工作量很重要,那麼在消耗相同能量的情況下,你可以獲得大約高一個數量級的互動性提升。在 Trainium2 實例在其雲上逐步部署的過程中,AWS 更新了此 XPU 的規格,我們也找到了一些 Trainium3 的規格,這消除了一些謎團,並填補了許多關於 Trainium 插槽中元件如何堆疊以構成每個後續 XPU 的空白。讓我們從神經元核心開始,逐步向外擴展。所有 NeuronCore 設計都將四種不同的計算單元整合到核心中,這與 CPU 核心長期以來混合使用整數(標量)和向量單元的做法非常相似,有時(例如 Intel Xeon 5 和 6 以及 IBM Power10 和 Power11)還會配備張量單元。從 Trainium 系列開始,Annapurna Labs 在架構中加入了集體通訊核心(CC-Core),用於處理高性能計算 (HPC) 和人工智慧 (AI) 工作負載中常見的集體操作,因此實際上共有五種計算單元。僅在 Inferentia1 晶片中使用的 NeuronCore-v1 架構包含一個用於整數運算的標量引擎(兩個整數輸入和一個整數輸出)、一個用於向量運算的向量引擎(兩個浮點輸入和一個浮點輸出)以及一個用於張量運算的張量引擎(多個矩陣浮點輸入和一個矩陣浮點輸出)。根據 AWS 文件,NeuronCore-v1 中的標量引擎每個時鐘周期可以處理 512 次浮點運算,並支援 FP16、BF16、FP32、INT8、INT16 和 INT32 資料類型。(我們認為 AWS 的本意是它支援 512 位資料)。文件還指出,向量引擎每個時鐘周期可以處理 256 次浮點運算(同樣,我們認為這是 256 位資料),並且也支援 FP16、BF16、FP32、INT8、INT16 和 INT32 資料格式。您可以根據資料寬度以及每個單元可以容納的資料量來計算每個時鐘周期的運算次數。NeuronCore-v1 的 TensorEngine 的維度從未公開,但我們知道它可以處理 FP16、BF16 和 INT8 輸入以及 FP32 和 INT32 輸出,並可提供 16 兆次浮點運算的 FP16 或 BF16 張量處理。在討論了第一個 NeuronCore-v1 設計之後,讓我們把它們全部並排擺放,看看我們認為 Trainium4 可能達到的水平:AWS 於 2020 年 12 月在 re:Invent 大會上開始討論 Trainium1,並花了兩年時間才全面投產。考慮到這是亞馬遜首款自主研發的資料中心級訓練加速器,這樣的進度也情有可原。我們認為 Trainium1 採用的是台積電 7 奈米工藝製造;已知它擁有 550 億個電晶體,運行頻率為 3 GHz。這款晶片與之後於 2023 年 4 月上市的 Inferentia2 晶片採用了相同的 NeuronCore-v2 架構,後者採用了 5 奈米工藝,電晶體數量大致相同,但針對推理工作負載進行了一些調整,例如 NeuronLink 晶片互連連接埠的數量減少了一半。隨著 Trainium2 於 2023 年 11 月發佈,並於 2024 年 12 月開始量產,AWS 轉向了 NeuronCore-v3 架構,並停止生產 Inferentia 晶片,因為推理過程開始變得越來越像訓練。Trainium2 的每個插槽核心數增加了四倍,單個記憶體域中的 NeuronCore 總數增加了 16 倍,因為每個實例的插槽數也增加了四倍。據我們所知,AWS 還將 Trainium2 的時脈頻率提升了,同時將製程從 Trainium1 的 7 奈米縮小到 5 奈米。有趣的是,每個 NeuronCore 的峰值標量和向量性能在 v3 中下降了約 60%,峰值張量吞吐量下降了 12%。但AWS為該晶片的張量運算增加了1:4稀疏度支援,再加上核心數量的增加,使得Trainium2在FP16或BF16精度下的有效吞吐量比Trainium1提升了3.5倍。事實上,NeuronCore-v3支援多種不同的稀疏度模式:4:16、4:12、4:8、2:8、2:4、1:4和1:2。三個計算單元共享的 NeuronCore-v3 的 SRAM 記憶體容量提升至每個核心 28 MB,但我們尚不清楚具體提升幅度。HBM 記憶體容量最終提升至 96 GB,提升了 3 倍,頻寬也提升了 3.5 倍,達到 2.9 TB/秒。可以說,這是首款具有競爭力的 Trainium 晶片,Anthropic 一直使用 Trainium2 裝置進行模型開發和推理,並且 AWS Bedrock 模型服務的大部分推理工作也由 Trainium 完成,這並非巧合。我們推測,Garmin 在主題演講中提到的數百萬台 Trainium 裝置中,大部分是 Trainium2 裝置。這就引出了 Trainium3,它現在已在 UltraServer 實例中批次交付。Trainium3 裝置的核心是 NeuronCore-v4 架構——沒錯,如果核心名稱與裝置名稱一致就更好了——它帶來了一些重大改進。首先,向量引擎經過調整,可以快速進行指數函數計算,其性能是標量引擎執行此任務的 4 倍,而這項任務是 GenAI 模型自注意力演算法的一部分。其次,FP16 和 BF16 資料格式可以量化為 MXFP8 格式,AWS 表示這對於 GenAI 模型中多層感知器 (MLP) 層之間的資料量化非常有用。NeuronCore-v3 設計還將每個核心的 SRAM 容量提升至 32 MB。 Trainium2 和 Trainium3 之間的時鐘速度似乎只有名義上的變化,沒有顯著變化,但該裝置最大的變化是 NeuronLink-v4 XPU 互連連接埠的頻寬翻了一番,達到 2.5 TB/秒,HBM 記憶體容量增加了 1.5 倍,達到 144 GB,HBM 頻寬增加了 1.7 倍,達到 4.9 TB/秒。我們認為 Trainium3 設計的改進旨在更好地平衡計算、記憶體和互連,從而提升 Trainium3 插槽的實際性能,而非其理論峰值性能。Trn3 Gen1 UltraServer 的記憶體域與 Trainium2 相同,仍為 64 個裝置,但目前已上市的 Trn3 Gen2 UltraServer 的記憶體域已擴展至 144 個插槽。這使得可用於 AI 訓練或推理任務的核心數量增加了 2.25 倍。這就引出了 Trainium4,預計將於明年這個時候開始推出。我們推測,AWS 將採用名為 NeuronCore-v5 的架構,為 Trainium 處理加入完整的 FP4 支援,而不僅僅是將 MXP4 資料塞進張量的 FP8 插槽中,造成大量空間浪費。Garmin 在主題演講中表示,通過採用 FP4 原生格式,Tranium4 的性能將是 Tranium3 的 6 倍,這意味著 FP8 處理能力將提升 3 倍。Garmin 還表示,Tranium4 的 HBM 記憶體容量將是 Tranium 3 的 2 倍,HBM 頻寬將是 Tranium 3 的 4 倍。在上面的巨型表格中,我們試圖弄清楚 Trainium4 可能是什麼樣子,以及如何進一步擴展一組耦合的 Trainium4 裝置的記憶體域。實現這一目標有很多不同的途徑,我們認為AWS最好的選擇是採用2奈米工藝以節省一些功耗,或者繼續使用3奈米工藝以節省一些成本,但這樣會製造出尺寸稍大、發熱量稍高的XPU。這很難抉擇,但我們認為AWS最終會傾向於採用2奈米蝕刻工藝來開發Trainium 4。如果你看一下 Garmin 上面的圖表,你會發現它表明 Tranium4 將同時支援裝置上的 NVLink 和 UALink 連接埠——Nvidia 曾大肆宣傳 AWS 採用 NVLink 技術,但我們猜測 AWS 將會推出帶有 NVLink 連接埠的 Graviton 系列晶片,並獲得 Nvidia 一直不願提及的功能:將定製 CPU 和定製 XPU 通過 NVLink 連接埠和 NVSwitch 記憶體交換結構連接到一個巨大的共用記憶體域。迄今為止,Nvidia 一直允許客戶使用連接到 Nvidia GPU 的定製 CPU 或定製 XPU,但尚未允許第三種選擇。我們認為AWS採購的GPU數量足夠多,因此它有能力提出這樣的要求並獲得相應的回報,而且價格也應該合理。我們還認為AWS會支援Nvidia的NVFP4資料格式以及用於FP4處理的MXFP4格式,這很可能是雙方交換條件的一部分,目的是為了讓在Tranium4晶片上進行的工作更容易地轉移到Nvidia的“Blackwell”和“Rubin”GPU上。當然,這些都只是我們的猜測。我們還認為AWS希望能夠將這些GPU接入到它自己的機架中,而這些機架本質上將是Nvidia機架的克隆版。但值得注意的是,Garmin 的上圖也提到了 UALink。AWS 仍在權衡各種方案,無疑希望 Tranium4 封裝採用晶片組架構,以便將 NVLink 連接埠取代為 UALink 連接埠,並採用機架式設計,以便在 UALink 交換機上市時(或許在明年晚些時候)將其取代為 NVSwitch 交換機。NeuronLink-v5 可能經過調整以相容 UALink 2.0,而這些交換機將由 Annapurna Labs 生產,而不是 Astera Labs、Upscale AI、Marvell、Cisco Systems 或其他提供可擴展互連 ASIC 的公司生產。要在相同或略微更小的散熱範圍內獲得三倍性能的最簡單方法是,將核心數量增加三倍,並保持時脈頻率基本不變,同時採用 2 奈米製程工藝。如果電晶體尺寸縮小更多(例如台積電的 1.6 奈米 A16 工藝),則可以略微降低散熱或略微提高時脈頻率。我們的建議是充分利用散熱優勢,保持其他參數不變,就像 AWS 在 Trainium2 和 Trainium3 之間所做的那樣,只需將核心數量增加三倍即可。如果將核心數量增加 3 倍,達到每個插槽 24 個核心,並可能分佈在四個晶片組上,那麼在保持精度不變的情況下,性能將提升 3 倍;如果將 FP8 降級到 FP4,那麼每個插槽的性能將提升 6 倍。現在有趣的地方來了。如果你將每個系統的裝置數量也翻倍至 288 個(與 Nvidia 的做法一致),那麼你可以在 Trainium4 UltraServer 叢集中獲得 6,912 個 NeuroCore,所有這些 NeuroCore 都位於一個記憶體域中,並擁有 1,944 TB 的 HBM 記憶體。當然,這與Google能夠在單個記憶體域中部署的 9,612 個 Ironwood TPU v7p XPU 相比,簡直是小巫見大巫……但它比目前市面上銷售的 Trn2 Gen2 UltraServer 叢集性能高出 13.5 倍。 (半導體行業觀察)