前幾天Google的TPU剛因為Gemini3的碾壓式發佈,而獲得大家的廣泛關注。一時間,很多人會認為TPU興起,會佔了輝達GPU的市場,畢竟ASIC具有低成本,專用性,整體TCO低的優勢。這兩天,亞馬遜在Reinvent2025大會上,AWS發佈了Trainium3的規模、性能及展望。
又是一款Asic晶片,如果更多的大廠比較Meta,特斯拉,Google,等都自己做自研Asic了,是不是會蠶食GPU的市場呢?這裡就再結合Trainium3進行一個分析。
結論先行:在可預見的未來(3-5年),GPU 與ASIC、TPU、Trainium等很可能並存,並都有各自佔據的場景。對於GPU而言,適合各種場景,各種訓練、推理、高端、中端等, 對於邊緣、科研、混合場景疊加多工、混合任務,應對靈活性、相容性需求,什麼都能做,整體性能都很高,就是GPU最大的特點。
因此只是競爭加劇,部分替代的結果,畢竟可見的2-3年內,也只有Google,亞馬遜可能真正造出厲害的專用晶片,別的公司還需要很長時間。他們已經研發了十幾年,研發了十多代的晶片產品,才最終做出高端GPU算力。其他公司,鑑於輝達CUDA的強大生態,估計最多也就是在這個基礎上進行承接。
AWS 早在十多年前,就通過收購公司,打造自研晶片能力,包括Trainium、Inferentia 等,用以降低對第三方GPU的依賴,並控製成本和能耗。
亞馬遜是一家客戶導向,以客戶為中心的公司,他們一直通過雲服務,知道市場AI發展的真實情況。而且他們是一家非常長期主義的公司,也就是通過對Journey的追求,以終為始,會推出晶片的路線圖,並最終拿到結果。
因此,在22年GPT出來之前,他們已經在開發Trainium1代,希望將來發展成高端GPU,並且他們也是不斷加大投入實際這麼做的。
目前Trainium3代出來,達到超過TPU V5的能力,對亞馬遜而言,這不僅僅是節省成本的問題,更是“雲+ 晶片+服務+ 模型”一體化整合戰略的落地。
Trainium3是亞麻最新代自研 AI 晶片,採用3nm工藝製造。根據 AWS 公佈,單顆 Trainium3 在 FP8 模式下能實現約 2.52 petaflops 的算力。相比上一代Trainium2,3的整體系統包括計算速度、記憶體容量、頻寬、能效等均有大幅提升。新系統綜合性能是前代的 4.4倍,記憶體、頻寬提升、能效改善約 40%~50%。
硬體部署形態也升級:AWS 推出的 “UltraServer” 伺服器,每台可容納 144 顆 Trainium3 晶片。
AWS 所謂“雲規模”:公司表示,通過互聯這些 UltraServers,可支援“多達百萬顆 Trainium3 晶片”的大規模叢集部署 — 顯著提高了可擴展性與系統吞吐。
AWS 管理層透露,自研晶片+雲服務業務已經成長為“數十億美元級”規模,並且截至最近一個季度,該業務環比增長達 150%。
我們可以看以下的對比圖:
可以看出,相比B200和TPU V7的Ironwood,還是有一定差距。但相比前幾代還是有明顯的提升。而且相對的性價比其實很高。
已有多家 AI服務或企業客戶被 AWS 指定為首批使用 Trainium3 的對象,包括Anthropic、Ricoh等。AWS 表示這些客戶通過3的使用降低訓練、推理成本、提升效率。
AWS 自己在其 AI 雲服務(如 Amazon Bedrock)中也將 Trainium3 作為底層基礎架構,用於模型訓練 + 推理,為企業客戶提供整套託管服務。其實AWS自己也有模型的。包括以下的模型組合:
GPU,比如達子的H100、Hopper 架構,是通用平行計算平台,相容廣泛,適合包括訓練、推理、圖形、多模態、非標準工作負載、科研、實驗、混合任務等。 AWS 自己也仍然為部分EC2實例保留 GPU比如H100等,而且AWS也是使用B200以上高端卡最多的公司之一,用以支援這類通用場景。
而Trainium或TPU的專用ASIC,傾向“專用+高度最佳化+高性價比”,針對的是大規模訓練、推理、大模型、標準workload。相比GPU,它們不必為了通用性付出過多資源,更偏“規模、成本與效率優先”。
對於大多數大規模 LLM訓練、推理、部署場景,尤其是運行在雲環境下、追求成本、能效、叢集規模、吞吐的公司、服務、平台,Trainium、TPU 具備極高競爭力。
那到底能節省多少呢?
有公開對比資料:某些 GPT‑class 模型訓練任務,使用 Trainium 的吞吐 與 A100 GPU 叢集相當,但成本可低約 50%。換言之,“每訓練 1 billion tokens” 的成本更低。
Trainium3 單晶片 FP8 算力達 2.52 PFLOPs (FP8),且記憶體/頻寬、能效都有顯著提升。
相比 GPU 系統成本高、功耗大、價格昂貴、單位算力、單位成本效率相對較低,Trainium、TPU 架構優勢非常明顯,適合“雲 + 批次訓練、推理、規模化部署 + 成本敏感”場景。
再說生態、相容性、靈活性和軟體支援
GPU 的主要優勢依舊是“通用、生態、靈活性”:研究人員可以用 GPU 做幾乎任何類型的計算任務(訓練、推理、圖形等),而且已有成熟工具鏈 (CUDA 、cuDNN、各種深度學習庫) 支援。
Trainium、TPU 的缺點是相容性、靈活性相對弱一些,它們適合標準大模型的大規模訓練 ,但對非常定製化,混合、實驗性、特殊算子的適配和支援,還不如 GPU 通用。
所以在一些 “前沿研究、非常定製、實驗、多模態、圖形、渲染、模擬” 的場景裡,GPU 仍幾乎不可替代。
尤其是未來有很多這樣的任務,比如圖形、空間智能、機器人等。
Trainium3 由 TSMC(台積電)代工 — 3nm 工藝。
設計方:台灣晶片設計公司 Alchip,專為AWS開發AI加速器。架構特徵:支援 FP32/BF16/MXFP8/MXFP4 資料類型,針對生成式AI訓練最佳化。定位:面向大模型訓練與推理,配合EC2實例組成UltraServer。
從更長遠看,如果Trainium3 、ASIC 架構 + 雲規模 + AI 基礎設施趨勢持續,這可能改變 AI 伺服器硬體供應鏈格局,從過去主要依賴 GPU 的 “GPU 供應鏈 + GPU 伺服器廠商” 到 “多元化:ASIC + GPU +混合 + 各類加速器”。這將帶動整個產業鏈重構。
短期到中期 (1–2 年內):Trainium3 的推出 + AWS 的規模 + 其成本 /性價比 /效率優勢,極可能吸引一些對成本、能效、規模敏感的企業、AI 公司遷移到 AWS和Trainium,對 NVIDIA GPU 的邊緣市場、中低端、傳統批次訓練任務構成較大蠶食。但對高端市場沒有影響。而且Trainium和TPU的產能也沒有那麼大,供應上也不可能一下子有太多。
中長期 (3–5 年):GPU 不會全面被淘汰,但其增長可能放緩、利潤率可能受到壓力。NVIDIA 若希望保持領先,需要在通用性、工具鏈、生態、混合架構上持續創新。 (老王說事)