#Trainium3
AWS Trainium3發佈,對標GB300,冷板散熱,Asic液冷迎來新“金主”
01.亞馬遜發佈Trainium3,性能對標GB300亞馬遜雲服務(AWS)本周推出了新一代Trainium3加速器,用於人工智慧訓練和推理。AWS表示,這款新處理器的速度是上一代的兩倍,效率更是提升了四倍。這使其成為性價比最高的人工智慧訓練和推理解決方案之一。AWS Trainium3是一款雙晶片 AL加速器,配備 144 GB HBM3E 記憶體,採用四組記憶體堆疊,峰值記憶體頻寬高達 4.9TB/S。每個計算晶片據稱由台積電採用 3nm 工藝製造,包含四個 Neuroncore-v4 核心(與前代產品相比,其指令集架構 (ISA)有所擴展),並連接兩個 HBM3E 記憶體堆疊。兩個晶片通過專有的高頻寬介面連接,共享 128 個獨立的硬體資料傳輸引擎、用於協調晶片間流量的通訊核心,以及四個用於橫向擴展連接的 NeuronLink-v4 介面。從絕對數值來看,Trainium3可提供高達2517 MXFP8 TFLOPS的運算能力,比輝達的Blackwell Ultra低了近一半。然而,AWS的Trainium3 Ultraserver每個機架可容納144個Trainium3晶片提供0.36 ExaFLOPS的FP8性能,與輝達的NVL72 GB300的性能相當。02.Trainium3的服務器,整機櫃資料Trainium3伺服器,每個1u伺服器配置4顆Trainium3晶片,但是沒有和輝達的Blackwell一樣採用4+2方案。Trainium3的單晶片功耗約700w,整機櫃超100kw,採用冷板液冷散熱,採用小冷板方案,每個晶片上覆蓋一個小冷板。UltraServer 的架構類似輝達的Rubin 144架構,最多可擴展至 144 顆 Trainium3 晶片(總計 362 FP8 PFLOPs),並且可通過 EC2 UltraClusters 3.0 擴展至數十萬顆晶片。一台配置完整的 Trn3 UltraServer 可提供高達 20.7 TB 的 HBM3e 記憶體和 706 TB/s 的聚合記憶體頻寬。新一代 Trn3 UltraServer 採用 NeuronSwitch-v1,這是一種全連接架構,其晶片間互連頻寬是 Trn2 UltraServer 的兩倍。與 Trn2 UltraServer 相比,Trn3 的性能提升高達 4.4 倍,記憶體頻寬提升高達 3.9 倍,每瓦性能提升高達 4 倍。03.ASIC晶片部署規模逐漸擴大,Google,AWS將帶來新大波液冷需求在AI熱潮席捲全球之際,輝達作為全球晶片霸主穩居主導地位,目前佔據AI晶片80%的市場份額,但是輝達的主要競爭對手AMD HW等晶片廠商在快速崛起,搶佔輝達的AI晶片市場。除了以上主流的晶片廠商在爭奪AI晶片市場,另外以微軟,Google等公司為代表的自研ASIC晶片也在陸續推出。從富邦發佈的台積電晶片研報資料來看,ASIC晶片在台積電的晶片先進封裝份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片封裝將會快速升高至36%-40左右。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。隨著AI的火熱競爭,ASIC晶片的研發和生產速度在加快,目前ASIC晶片推進最為積極的廠商是Google,微軟和亞馬遜,迭代速度很快,幾乎和輝達齊平,一年一個新產品,晶片性能快速上升,Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW,微軟的Maia 100晶片功耗高達700-900w。隨著國內外廠商加快 ASIC 晶片及液冷方案佈局,預計 ASIC 市場擴張將推動液冷需求進一步提升。(零氪1+1)
亞馬遜Trainium3的表現及對輝達的影響
前幾天Google的TPU剛因為Gemini3的碾壓式發佈,而獲得大家的廣泛關注。一時間,很多人會認為TPU興起,會佔了輝達GPU的市場,畢竟ASIC具有低成本,專用性,整體TCO低的優勢。這兩天,亞馬遜在Reinvent2025大會上,AWS發佈了Trainium3的規模、性能及展望。又是一款Asic晶片,如果更多的大廠比較Meta,特斯拉,Google,等都自己做自研Asic了,是不是會蠶食GPU的市場呢?這裡就再結合Trainium3進行一個分析。結論先行:在可預見的未來(3-5年),GPU 與ASIC、TPU、Trainium等很可能並存,並都有各自佔據的場景。對於GPU而言,適合各種場景,各種訓練、推理、高端、中端等, 對於邊緣、科研、混合場景疊加多工、混合任務,應對靈活性、相容性需求,什麼都能做,整體性能都很高,就是GPU最大的特點。因此只是競爭加劇,部分替代的結果,畢竟可見的2-3年內,也只有Google,亞馬遜可能真正造出厲害的專用晶片,別的公司還需要很長時間。他們已經研發了十幾年,研發了十多代的晶片產品,才最終做出高端GPU算力。其他公司,鑑於輝達CUDA的強大生態,估計最多也就是在這個基礎上進行承接。一、關於Trainium的故事:為什麼做AWS 早在十多年前,就通過收購公司,打造自研晶片能力,包括Trainium、Inferentia 等,用以降低對第三方GPU的依賴,並控製成本和能耗。亞馬遜是一家客戶導向,以客戶為中心的公司,他們一直通過雲服務,知道市場AI發展的真實情況。而且他們是一家非常長期主義的公司,也就是通過對Journey的追求,以終為始,會推出晶片的路線圖,並最終拿到結果。因此,在22年GPT出來之前,他們已經在開發Trainium1代,希望將來發展成高端GPU,並且他們也是不斷加大投入實際這麼做的。目前Trainium3代出來,達到超過TPU V5的能力,對亞馬遜而言,這不僅僅是節省成本的問題,更是“雲+ 晶片+服務+ 模型”一體化整合戰略的落地。二、Trainium3的性能Trainium3是亞麻最新代自研 AI 晶片,採用3nm工藝製造。根據 AWS 公佈,單顆 Trainium3 在 FP8 模式下能實現約 2.52 petaflops 的算力。相比上一代Trainium2,3的整體系統包括計算速度、記憶體容量、頻寬、能效等均有大幅提升。新系統綜合性能是前代的 4.4倍,記憶體、頻寬提升、能效改善約 40%~50%。硬體部署形態也升級:AWS 推出的 “UltraServer” 伺服器,每台可容納 144 顆 Trainium3 晶片。AWS 所謂“雲規模”:公司表示,通過互聯這些 UltraServers,可支援“多達百萬顆 Trainium3 晶片”的大規模叢集部署 — 顯著提高了可擴展性與系統吞吐。AWS 管理層透露,自研晶片+雲服務業務已經成長為“數十億美元級”規模,並且截至最近一個季度,該業務環比增長達 150%。我們可以看以下的對比圖:可以看出,相比B200和TPU V7的Ironwood,還是有一定差距。但相比前幾代還是有明顯的提升。而且相對的性價比其實很高。三、在 AWS 上的應用與客戶已有多家 AI服務或企業客戶被 AWS 指定為首批使用 Trainium3 的對象,包括Anthropic、Ricoh等。AWS 表示這些客戶通過3的使用降低訓練、推理成本、提升效率。AWS 自己在其 AI 雲服務(如 Amazon Bedrock)中也將 Trainium3 作為底層基礎架構,用於模型訓練 + 推理,為企業客戶提供整套託管服務。其實AWS自己也有模型的。包括以下的模型組合:四、各種算力卡的架構與定位差異GPU,比如達子的H100、Hopper 架構,是通用平行計算平台,相容廣泛,適合包括訓練、推理、圖形、多模態、非標準工作負載、科研、實驗、混合任務等。 AWS 自己也仍然為部分EC2實例保留 GPU比如H100等,而且AWS也是使用B200以上高端卡最多的公司之一,用以支援這類通用場景。而Trainium或TPU的專用ASIC,傾向“專用+高度最佳化+高性價比”,針對的是大規模訓練、推理、大模型、標準workload。相比GPU,它們不必為了通用性付出過多資源,更偏“規模、成本與效率優先”。對於大多數大規模 LLM訓練、推理、部署場景,尤其是運行在雲環境下、追求成本、能效、叢集規模、吞吐的公司、服務、平台,Trainium、TPU 具備極高競爭力。那到底能節省多少呢?有公開對比資料:某些 GPT‑class 模型訓練任務,使用 Trainium 的吞吐 與 A100 GPU 叢集相當,但成本可低約 50%。換言之,“每訓練 1 billion tokens” 的成本更低。Trainium3 單晶片 FP8 算力達 2.52 PFLOPs (FP8),且記憶體/頻寬、能效都有顯著提升。相比 GPU 系統成本高、功耗大、價格昂貴、單位算力、單位成本效率相對較低,Trainium、TPU 架構優勢非常明顯,適合“雲 + 批次訓練、推理、規模化部署 + 成本敏感”場景。再說生態、相容性、靈活性和軟體支援GPU 的主要優勢依舊是“通用、生態、靈活性”:研究人員可以用 GPU 做幾乎任何類型的計算任務(訓練、推理、圖形等),而且已有成熟工具鏈 (CUDA 、cuDNN、各種深度學習庫) 支援。Trainium、TPU 的缺點是相容性、靈活性相對弱一些,它們適合標準大模型的大規模訓練 ,但對非常定製化,混合、實驗性、特殊算子的適配和支援,還不如 GPU 通用。所以在一些 “前沿研究、非常定製、實驗、多模態、圖形、渲染、模擬” 的場景裡,GPU 仍幾乎不可替代。尤其是未來有很多這樣的任務,比如圖形、空間智能、機器人等。五、 Trainium3 背後的製造、封裝、配套系統與供應商Trainium3 由 TSMC(台積電)代工 — 3nm 工藝。設計方:台灣晶片設計公司 Alchip,專為AWS開發AI加速器。架構特徵:支援 FP32/BF16/MXFP8/MXFP4 資料類型,針對生成式AI訓練最佳化。定位:面向大模型訓練與推理,配合EC2實例組成UltraServer。結論:從更長遠看,如果Trainium3 、ASIC 架構 + 雲規模 + AI 基礎設施趨勢持續,這可能改變 AI 伺服器硬體供應鏈格局,從過去主要依賴 GPU 的 “GPU 供應鏈 + GPU 伺服器廠商” 到 “多元化:ASIC + GPU +混合 + 各類加速器”。這將帶動整個產業鏈重構。短期到中期 (1–2 年內):Trainium3 的推出 + AWS 的規模 + 其成本 /性價比 /效率優勢,極可能吸引一些對成本、能效、規模敏感的企業、AI 公司遷移到 AWS和Trainium,對 NVIDIA GPU 的邊緣市場、中低端、傳統批次訓練任務構成較大蠶食。但對高端市場沒有影響。而且Trainium和TPU的產能也沒有那麼大,供應上也不可能一下子有太多。中長期 (3–5 年):GPU 不會全面被淘汰,但其增長可能放緩、利潤率可能受到壓力。NVIDIA 若希望保持領先,需要在通用性、工具鏈、生態、混合架構上持續創新。 (老王說事)
AWS發佈3nm晶片: 144 GB HBM3e,4.9 TB/s頻寬
亞馬遜網路服務 (AWS) 預覽其下一代 Trainium AI 加速器 Trainium3 至今已近一年。今天,這款晶片正式面世。在 AWS re:Invent 大會上,該公司宣佈 Amazon EC2 Trn3 UltraServer 正式上線,這是首批基於這款新晶片建構的系統,並作為其彈性計算雲 (EC2) 服務的一部分提供。Trainium3 由台積電採用 3 奈米工藝製造,單晶片可提供 2.52 PFLOPs 的 FP8 計算能力。該器件整合了 144 GB 的 HBM3e 視訊記憶體,提供 4.9 TB/s 的記憶體頻寬。AWS 向HPCwire表示,這些性能提升源於架構的改進,旨在平衡現代 AI 工作負載的計算、記憶體和資料傳輸。該公司表示,Trainium3 新增了對 FP32、BF16、MXFP8 和 MXFP4 的支援,並增強了對結構化稀疏性、微擴展、隨機舍入和集體通訊引擎的硬體支援。該公司稱,這些新增功能旨在使晶片更好地適應 LLM、混合專家架構和多模態系統的訓練模式。這些改進概述了晶片層面的新特性,但AWS表示,真正的規模優勢在於Trainium3的部署方式。該公司指出,許多最大的性能和效率提升都體現在UltraServer層面,因為新的架構、記憶體拓撲和整合引擎在數百個晶片上運行。在系統層面,一個完全配置的Trainium3 UltraServer連接144個晶片,聚合了362 FP8 PFLOPs的計算能力、20.7 TB的封裝內HBM3e記憶體以及706 TB/s的記憶體頻寬。據AWS稱,與上一代基於Trainium2的架構相比,該系統可提供高達4.4倍的計算性能提升、4倍的能效提升以及近4倍的記憶體頻寬提升。這些資料基於AWS在其發佈博文中分享的內部測量結果。AWS 向HPCwire透露,Trainium3 引入了 NeuronSwitch-v1,這是一種全新的全連接架構,可在單個 UltraServer 中連接多達 144 個晶片,並將晶片間頻寬提升至 Trn2 UltraServer 的兩倍。該公司還重點介紹了其網路堆疊的改進:升級後的 Neuron Fabric 將晶片間通訊延遲降低至“略低於 10 微秒”,而 EC2 UltraClusters 3.0 則提供多拍位元網路,以支援跨越“數十萬個 Trainium 晶片”的大型分佈式訓練作業。AWS 表示,UltraServer 層面更高的記憶體容量、更快的架構以及改進的協同引擎相結合,旨在減少大型 Transformer 和 MoE 模型(尤其是具有更長上下文窗口或多模態元件的模型)中的資料傳輸瓶頸。在對 OpenAI 的開源權重模型 GPT-OSS 進行的內部測試中,AWS 報告稱,與上一代 UltraServer 相比,每個晶片的吞吐量提高了 3 倍,推理響應時間提高了 4 倍,這表明該公司正在利用系統級的性能提升,使 Trainium3 能夠勝任數兆參數的訓練和大規模推理任務。AWS 表示,客戶已經開始使用 Trainium3 來降低訓練成本,Anthropic、Metagenomi和 Neto.ai等公司報告稱,與替代方案相比,成本最多可降低 50%。AWS 還指出,Amazon Bedrock 已經在 Trainium3 上運行生產工作負載,這表明該晶片已準備好進行企業級部署。早期採用者也在積極探索新的應用領域:據 AWS 稱,人工智慧視訊初創公司 Decart 正在使用 Trainium3 進行即時生成視訊,並以 GPU 一半的成本實現了 4 倍的幀生成速度。AWS 已著手研發下一代定製晶片。該公司表示,Trainium4 旨在顯著提升計算、記憶體和互連性能,包括至少 6 倍的 FP4 吞吐量、3 倍的 FP8 性能以及 4 倍的記憶體頻寬。AWS 將 FP8 性能的提升描述為“基礎性飛躍”,這將使企業能夠以至少三倍的速度訓練模型或處理三倍數量的推理請求,並且預計通過持續的軟體和工作負載最佳化,性能還將進一步提升。為了支援更大規模的模型和更高的節點級擴展性,AWS 表示 Trainium4 還將整合輝達的 NVLink Fusion 互連技術。其目標是使 Trainium4、Graviton 和 Elastic Fabric Adapter 能夠在通用的基於 MGX 的機架中互操作,從而建立一個靈活的機架級設計,既可以託管 GPU 伺服器,也可以託管 Trainium 系統。隨著 Trainium3 投入生產,Trainium4 也即將面世,AWS 似乎正在為未來做好準備。未來,人工智慧訓練的真正瓶頸將不再在於加速器本身,而在於連接它們的網路和系統設計。AWS 能否有效執行這一路線圖,將決定其在建構前沿規模人工智慧基礎設施的持續競爭中的地位。NVIDIA NVLink Fusion 被選中用於未來的 AWS Trainium4 部署今天,NVIDIA 和 AWS 宣佈建立多代合作夥伴關係,將 NVLink Fusion 晶片整合到未來的 AWS AI 機架和晶片設計中。AWS 在 2015 年收購 Annapurna Labs 後,開始自主設計 Graviton CPU、Nitro 網路卡和 AI 加速器。因此,AWS 的技術堆疊並非 NVIDIA 的技術堆疊,儘管它也採購了大量 NVIDIA GPU。未來,AWS 計畫將 NVIDIA 的技術整合到其定製的晶片棧中,這意義重大。NVLink Fusion 背後的理念是,NVIDIA 可以銷售一個 IP 模組,使其他晶片能夠使用 NVIDIA NVLink 進行通訊。NVIDIA宣佈了一系列合作夥伴,而Arm等其他公司最近也加入了進來。從新聞稿中我們可以看出,“AWS 正在設計 Trainium4,使其能夠與 NVLink 6 和 NVIDIA MGX 機架架構整合,這是 NVIDIA 和 AWS 在 NVLink Fusion 領域開展的多代合作的首個成果。”這對兩家公司來說都是一筆划算的交易。AWS 可以將與 NVIDIA NVL72 機架類似的機架架構用於其定製晶片項目。對輝達而言,這項技術正被融入到一項超大規模的定製晶片項目中。它有機會將NVLink Fusion Chiplet和NVLink交換機銷售到那些非輝達的CPU/GPU/NIC晶片機架中。或許最有趣的是,AWS在推進Trainium未來版本開發的同時,決定採用NVIDIA NVLink技術,而不是自行建構通訊協議、交換機以及機架基礎設施。此外,值得注意的是,AWS採用NVLink意味著它不會在其機架內擴展計算鏈路中使用Broadcom Tomahawk Ultra或其他基於乙太網路的交換機晶片,因為將兩種技術用於同一用途顯得不合常理。 (半導體行業觀察)
亞馬遜出招:新一代 Trainium3 登場 —— 會撼動輝達的“王座”嗎?
AWS 在 re:Invent 上推出自研 Trainium3 晶片並透露與輝達合作的路線圖,引發“雲端晶片戰”新一輪比拚。一、到底發生了什麼?事實速覽在 AWS re:Invent 大會上,亞馬遜正式發佈了其新一代 AI 訓練加速器 Trainium3,並推出基於該晶片的新伺服器據稱能比上一代大幅提升性能與能效。與此同時,AWS 透露計畫在未來的 Trainium4 中採用輝達的 NVLink Fusion 技術以實現更高效的互聯。AWS 還在大會上同步推出包括 Nova 2 在內的新款基礎模型與定製化工具(如 Nova Forge),表明 AWS 正在把晶片 + 模型 + 雲服務做一體化競爭策略。(以上為最核心的兩點:亞馬遜既自研晶片,又願意相容/協作輝達的互聯技術,這種“自研+開放互通”的策略,是本次事件的關鍵。)二、Trainium3 技術與定位(通俗解讀)定位:Trainium 系列是 AWS 專為模型訓練設計的加速器家族。Trainium3 為該路線的最新一代,主打“更高訓練吞吐與更低能耗”的雲端訓練平台。性能承諾:AWS 宣稱新一代伺服器在訓練性能和能效上實現顯著提升,能以更低成本支援大型模型訓練。多家媒體報導 Trainium3 在某些指標上比上一代快數倍,並得到部分企業使用者的試用認證。路線靈活:值得注意的是,AWS 同時宣佈將在未來版本引入 NVLink Fusion(輝達的高速互聯方案),顯示 AWS 在“自研”和“相容主流生態”之間尋求平衡。三、這對輝達意味著什麼?——威脅在那兒、機會又在那兒為什麼有人說這會對輝達構成威脅?雲端客戶大量自研等於潛在替代需求:AWS 是全球最大的雲服務商之一,如果越來越多 AI 客戶選擇在 AWS 的 Trainium 實例上訓練模型,長期會壓縮對輝達 GPU(如 H100/H200)的純粹需求。價格與成本優勢:Trainium 的早期版本就主打“比通用 GPU 更低的訓練成本”;若新代繼續擴大性能/能效比優勢,企業在算力採購上會更傾向於成本更優的專用實例。“機房級整合”能力:AWS 不只是賣晶片,它能把晶片、網路、儲存、模型服務整合為一套完整產品(比如 Bedrock / Nova Forge),這對客戶吸引力極強。輝達雖然生態龐大,但云服務商的“端到端”產品也有不可替代性。但這並非單向打壓——也可能演變為合作或互補:AWS 已公開表示將在 Trainium4 中採用 NVLink Fusion,這意味著即便 AWS 自研,面對更大規模的多晶片互聯場景,它也願意使用輝達的互聯技術。兩者既競爭又存在合作空間。四、對我們產業的三點啟示雲廠商自研晶片是長期趨勢中國的阿里、華為、浪潮等也在推進自研 AI 晶片與雲端算力佈局。AWS 的動作再次證明:掌握“硬體 + 雲服務”能顯著提高平台議價能力與成本控制。對中國雲廠商與晶片廠商而言,這是追趕與競合的雙重機會。模型與算力“捆綁銷售”更普遍AWS 除了晶片,還推出 Nova 家族模型與 Nova Forge 工具,說明未來客戶更在意“效率與一體化服務”,不僅僅是買晶片。中國企業若要搶市場,需提供同樣一體化、低門檻的產品體驗。輝達的王座短期難以被一錘定音撼動輝達在硬體生態、軟體工具(CUDA)、合作夥伴與市場份額上都具備深厚優勢。單靠一款晶片難以立即替代其全盤優勢;但“雲端自研+局部互通”的策略會長期重塑需求格局。對中國本土晶片廠商而言,這既是挑戰也是進入機會窗口。五、競爭與共生並存,真正的贏家是“有整合力者”AWS 推出 Trainium3,並同時選擇在未來版本中支援 NVLink Fusion,這一組合耐人尋味:一方面 AWS 希望通過自研降低成本並掌控堆疊;另一方面又承認在互聯等技術上,與已有生態協作更有利於客戶。換言之:未來的雲端晶片戰不會是單純的“全盤替代”或“徹底孤立”,而是以“更強的整合能力、服務能力與成本優勢”為贏者。對關注 AI 基礎設施的你來說,值得持續關注的點包括:Trainium3 的真實基準與客戶案例、Trainium4 與 NVLink 的合作細節、以及中國雲/晶片廠商的應對節奏。 (思考的邊界)