#AI訓練推理
4倍性能、50%成本降幅!亞馬遜強勢推出Trainium3晶片,AI訓練推理增添新選項!
當地時間 12 月 2 日,亞馬遜雲端運算服務(AWS)在美國拉斯維加斯舉辦的年度雲端運算盛會“AWS re:Invent 2025”上發佈了全新的自研 Trainium3 晶片,以及採用 Trainium3 晶片的 Trainium3 UltraServer 伺服器。根據首席執行官 Matt Garman 的介紹,新款 Trainium3 晶片的性能是前代產品的 4 倍,並採用台積電 3 奈米工藝製造。每個晶片都配備了 144 GB 的 HBM3E 記憶體,記憶體頻寬為 4.9 TB/s,提供 2.52 FP8 PFLOPs 的算力。(來源:社交媒體 X)Trainium3 UltraServer 單機最多整合 144 顆 Trainium3 晶片,總共配備 20.7 TB HBM3E、706 TB/s 記憶體頻寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓練超大模型,並大規模支撐推理服務。其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,記憶體頻寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時,Trainium3 UltraServer 的單晶片吞吐量可提升 3 倍,推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求,顯著最佳化使用者體驗,同時降低每次推理請求的成本。AWS 以垂直整合方式打造 Trainium3 UltraServer,從晶片架構到軟體棧全鏈路協同。核心之一是新一代網路基礎設施,用於消除傳統分佈式 AI 計算的通訊瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內部頻寬;增強型 Neuron Fabric 將晶片間通訊延遲降低至 10 微秒以內。這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載,例如:訓練大規模AI模型,可以將複雜模型的訓練時間從數月縮短至數周;處理高並行的 AI 推理請求,以低延遲即時處理數百萬使用者的請求,例如智能對話、視訊生成等;運行特定複雜任務,如智能體系統、專家混合模型和大規模強化學習等。包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經借助 Trainium 將訓練和推理成本降低最多 50%。其中,Decart 在即時生成式視訊方面實現了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。(來源:社交媒體 X)對於需要更大規模的客戶,EC2 UltraCluster 3.0 可連線千台 UltraServer,構成擁有多達 100 萬顆 Trainium 晶片的叢集——是上一代的 10 倍。這使得此前完全不可能的任務成為現實:從在兆級 token 資料集上訓練多模態模型,到為數百萬並行使用者提供即時推理服務。自研晶片是亞馬遜的重要戰略項目之一,目標是避免過度依賴昂貴的輝達硬體。而對於 Trainium3 來說,一個關鍵問題在於:有多少大型外部客戶會願意採用這套硬體。尤其是在Google旗下的 TPU 持續搶佔 AI 晶片市場的背景下。另一個重要變數是 AI 初創公司 Anthropic 的晶片採購分配。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。此外,AWS 也預告了下一代 AI 訓練晶片 Trainium4的研發進展。其在各方面都將實現大幅性能躍升,包括處理性能(FP4)至少提升 6 倍、FP8 性能提升 3 倍、記憶體頻寬提升 4 倍。結合持續的軟硬體最佳化,其實際性能提升將遠超基準數值。其中,FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍,推理吞吐量也至少提升 3 倍,並且隨著軟體最佳化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。為進一步提升單機擴展性能,Trainium4 將支援 NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter(EFA)能在統一 MGX 機架內協同工作,為客戶提供支援 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。這一整合將建構一個靈活、高性能的平台,最佳化應對未來對訓練與推理都極其苛刻的 AI 工作負載。 (問芯)
外媒:全球自然資源面臨AI發展的巨大挑戰
去年9月OpenAI   CEO   Sam Altman在一份內部備忘錄中提出一項計畫:在 2033 年前打造高達 250GW 的計算能力。這一用電規模已逼近一個國家的總用電,約等同於支撐整個印度 15 億人口的電力消耗。AI訓練與推理需要大量電力外媒一則報導據此指出:支撐 250GW 運算能力所需的 GPU 數量將達到 6,000 萬顆,以現行兩年一換代的經濟壽命推算,OpenAI 必須每年採購 3,000 萬顆 GPU 才能維持運作。極高的電力密度和運轉負載,已使 AI 訓練與推理成為全球成長最快的能源消耗來源之一。資料中心也是耗電大王同時,龐大用電與龐大的晶片需求已不再只是 OpenAI 的課題。全球大型雲服務商,包括 Microsoft Azure、Amazon AWS 與 Google Cloud,也正投入比以往任何時期更大規模的資料中心擴建。業界普遍預期,這些資料中心在未來十年將與鋼鐵、水泥與煉油產業並列全球主要耗電者,特別是 AI 伺服器全年無休,以推論與訓練為核心的運算模式,使資料中心用電急速增長。在這波 AI 電力競賽下,冷卻需求成為另一個被放大的環節。資料中心規模暴增,使得大量冷卻用水與裝置能耗拉高城市負荷,也造成局部電網品質下降與電價波動。多個國家已警告,資料中心集中區域可能面臨電力緊縮,部分地區甚至提前限制用電或推遲新資料中心建設,以避免影響一般家庭與企業的用電需求。GPU晶片生產能耗極大報導進一步指出,AI 晶片需求的爆炸式成長,使全球半導體供應鏈在啟動許多廠房,其中包括台積電與三星的多項先進製程基地。以台積電為例,Fab 25 單廠的用電量即需至少 1GW,可支撐約 75 萬戶台灣家庭;每日用水量約 10 萬公噸,相當於近 20 萬名台中市民的日常用水。台積電向外投資設廠除地緣政治之因素外,台灣的水電供給能否持續當是一個隱秘的考量。而今,隨著美國、中國、歐洲與東南亞等市場相繼投入 AI 基礎建設,科技競爭也逐漸演變成能源與資源競賽。AI 擴張與全球能源需求報導指出,AI 用電增長速度可能在未來十年內超過再生能源新增速度,電力供需缺口、區域性停電風險與電網負載問題將成為新常態。除了用電增長外,GPU 製造所需的稀土、金屬、超純水與能源,都對地球提出更高的負荷。因而,這篇報導最後強調,當人們不斷追求更大的模型、更高的算力與更密集的 GPU 部署時,除了思考「AI 還需要多少電」,更必須面對關於地球資源的問題——「自然資源究竟還能支撐多少人工智慧的擴張」? (芯聞眼)
華為昇騰萬卡叢集揭秘:如何馴服AI算力「巨獸」?
萬卡叢集可用度達到98%,叢集秒級快恢(訓練+推理)。01 引言你是否注意到,現在的AI 越來越 "聰明" 了?能寫小說、做翻譯、甚至幫醫生看 CT 片,這些能力背後離不開一個默默工作的 "超級大腦工廠"——AI 算力叢集。隨著人工智慧從簡單規則判斷進化到能處理兆參數的大模型,單台電腦的算力就像小舢板面對汪洋大海,而算力叢集則是把上萬台甚至幾十萬台電腦像搭積木一樣連接起來,形成一艘能承載巨量計算任務的 "算力航空母艦"。當我們把上萬台電腦整合成一個有機整體時,需要解決一系列世界級難題:如何讓它們像精密鐘錶一樣協同工作?如何在部分裝置故障時依然保持高效運行?如何快速修復大規模訓練中的中斷問題?接下來我們將逐一揭秘這些支撐AI 算力叢集的關鍵特性,看看華為團隊如何用工程智慧馴服這頭算力巨獸。02 超節點高可用:24小時不停工的智能工廠就像醫院的急診系統必須時刻線上,AI 訓練和推理也不能輕易中斷。算力叢集裡每台電腦都有 "備用替身",當某台機器出現故障(比如突然斷電或硬體損壞),系統會立刻啟動備用機接管任務,就像接力賽中接力棒無縫傳遞,確保自動駕駛訓練、語音識別等任務持續運行,不會因為個別裝置故障而全盤停止。針對CloudMatrix 384超節點,華為團隊提出面向整個超節點的故障容錯方案,分為“系統層容錯”、“業務層容錯”,以及後續“維運層容錯”,核心思想就是 將故障問題轉為亞健康問題,通過維運手段優雅消除:(1) 系統層容錯:通過超時代答欺騙OS+網路路由切換,防系統藍色畫面,同時避免整個超節點級故障。(2) 業務層容錯:租戶無感知下,通過重試容忍網路閃斷,將系統故障轉為亞健康,(3) 維運層容錯:主要構築亞健康感知和優雅恢復技術,通過主動方式將消減亞健康事件影響。03 叢集線性度:人多力量大的完美協作理想情況下,100 台電腦的算力應該是 1 台的 100 倍,1000 台就是 1000 倍,這就是 "線性度"。算力叢集通過精密的任務分配演算法,讓每台電腦都像 orchestra(交響樂團)的樂手一樣各司其職,避免出現 "三台和尚沒水喝" 的混亂。比如訓練一個需要兆次計算的模型時,萬台電腦能像整齊劃一地划槳的龍舟隊,讓算力隨規模增長而幾乎同步提升。華為團隊提出華為團隊提出拓撲感知的協同編排技術TACO、網路級網存算融合技術NSF、拓撲感知的層次化集合通訊技術NB、無侵入通訊跨層測量與診斷技術AICT等四項關鍵技術,實現盤古模型訓練線性度提升。實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2叢集相比256卡基線,線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡A2叢集相比512卡基線,線性度95.05%;4K卡CloudMatrix 叢集相比256卡基線,線性度96.48%。04 萬卡叢集訓練快速恢復:帶"存檔功能" 的訓練師當用上萬個計算單元(俗稱"萬卡")訓練超大規模模型時,偶爾有幾台機器 "罷工" 是難免的。這時系統會像遊戲存檔一樣,自動記錄最近的訓練進度。一旦檢測到故障,能快速定位出問題的計算單元,跳過故障部分,從最新的存檔點繼續訓練,避免從頭再來的巨大浪費。比如訓練一個需要 30 天的模型,即使中間有裝置故障,也能在幾分鐘內恢復進度,就像影片播放可以隨時續播。為了使萬卡叢集訓練可以達到分鐘級快恢,華為團隊提出了以下多個創新:(1) 處理程序級重調度恢復:正常節點通過參數面網路將臨終CKPT傳遞到備用節點上,完成參數狀態恢復後繼續訓練,能夠有效縮短訓練恢復時間到3min以內(2) 處理程序級線上恢復:針對硬體UCE故障,通過業務面昇騰CANN軟體、框架軟體、MindCluster軟體配合實現故障地址線上修復,進一步縮短訓練恢復時間到30s以內。(3) 算子級線上恢復:針對CloudMatrix 384產品HCCS網路、ROCE參數面網路提供HCCL算子重試能力,容忍更長時間的網路異常,實現網路故障影響的通訊算子秒級重執行,訓練任務不中斷。05 超大規模MoE模型推理分鐘級恢復:各路英豪來幫忙隨著千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進為大EP組網架構,將多且小的專家部署在多個伺服器節點上緩解視訊記憶體頻寬壓力,目前在大EP組網架構下主要面臨部署規模擴大導致的故障機率數量增大、故障爆炸半徑變大的可靠性問題,任意硬體故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。針對當前超大規模MoE模型帶來的大EP推理架構的可靠性難題,我們提出三級容錯方案,實例間切換、實例內重啟恢復、實例內無損恢復,從硬體驅動層、框架層、平台層相互協作,構築端到端可靠性體系。在不同的故障場景下,採用不同的容錯恢復手段,可以最小化使用者損失。(1)實例內快速重啟恢復技術:根據實際環境測試驗證,該技術將實例恢復時間從20min降低5min。(2)TOKEN級重試:基於DeepSeekV3在CloudMatrix 384超節點場景下,驗證30~60s實現實例恢復。(3)減卡彈性恢復技術:作為當前進行工作,解決硬體故障下業務中斷問題,通過專家遷移,實現故障時推理處理程序不退出,以減卡為容錯手段,動態調整推理實例規模,在使用者無感知情況下秒級恢復。06 故障管理與感知診斷:24小時線上的裝置醫生算力叢集裡有一套即時監控系統,就像給每台電腦安裝了"健康手環",持續監測溫度、算力利用率、資料傳輸速度等指標。一旦發現某台裝置運行異常(比如散熱不良導致速度變慢),系統會立即發出警報,並像醫生一樣分析故障原因 —— 是硬體老化?網路擁堵?還是軟體 bug?快速定位問題並啟動修復機制,防止小故障演變成大停機。針對面向算力叢集的硬體故障管理,華為團隊提供了一套完整的解決方案:基於CloudMatrix 384超節點的裝置物理形態和組網方案的昇騰AI硬體災備高可靠架構設計、涵蓋基礎檢錯糾錯能力、故障隔離能力、故障容錯能力以及深度巡檢與故障預測能力的昇騰RAS統一故障管理容錯框架、進一步提升光鏈路的可靠性的網路自診斷可靠性管理、以及綠色低碳、穩定可靠和安全可信的雲資料中心管理體系。針對面向算力叢集的故障感知能力,華為團隊建構了大規模叢集線上故障感知(全端可觀測)和故障診斷(全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷)技術:(1) 全端可觀測能力:建構了大規模叢集的故障感知能力,主要由叢集運行檢視、告警檢視、網路鏈路監控、告警接入和配置、網路流可觀測能力組成(2) 故障診斷能力:包括全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷;07 建模模擬:算力底座的“數位化風洞”在正式開展複雜AI模型的訓推之前,算力叢集可以先在虛擬環境的“數位化風洞”中 "綵排"。比如研發一個新藥篩選模型時,先通過模擬不同的演算法參數、資料輸入和計算資源分配方案,預測模型在真實場景中的表現,就像電影導演用動畫預演複雜鏡頭。這種 "先模擬後實戰" 的方式,能提前發現計算系統的瓶頸點和邏輯漏洞,並提出相應最佳化手段,節省大量真實訓推的時間和資源。華為團隊創新性提出系統化、可擴展的馬爾科夫建模模擬平台,圍繞對訓練、推理、高可用三大核心領域實現多維度系統性建模分析與性能預測調優,實現叢集資源高效配置與動態最佳化,達成算力極致利用與系統長期穩定可靠運行。(1)Sim2Train訓練建模模擬:馬爾科夫訓練叢集建模模擬平台,AdaptPack編排最佳化長序列PP空泡,吞吐提升4.5%-8.24%。通訊與計算協同場景,引入AdaptS/R技術,通訊暴露時間降89.84%,單步總時長縮短3.25%;MoE通過AdaptExpert提升端到端性能7.5%。(2)Sim2Infer推理建模模擬:面向昇騰複雜推理系統的馬爾科夫建模模擬平台,實現了從高層算子描述到底層硬體指令的自動化對應與模擬,平均誤差低至6.6%。(3)Sim2Availability高可用建模模擬:馬爾科夫高可用建模模擬框架,通過離散時間步長模擬,建模單步時長內的故障性能劣化影響與恢復耗時,模擬複雜系統訓練任務中的故障場景及維運響應,實現對訓練過程性能表現與故障恢復狀態的全周期監控模擬。08 框架遷移:給模型跑車換更酷炫輪胎自從2020年3月全面開源以來,華為推出的全場景AI框架昇思MindSpore一路高歌猛進,開發者生態迅速成長。除了為基於昇騰+昇思的自主創新外,昇思MindSpore也提供了擁抱主流生態的相容方案,適應大模型時代的挑戰和需求。(1)訓練階段,MindSpore建構了MSAdapter生態適配工具,覆蓋90%以上PyTorch介面,實現第三方框架的無縫遷移,並針對動態圖執行效率的問題,通過多級流水線技術與即時編譯(JIT)最佳化顯著提升執行效率。(2)推理階段,MindSpore基於主流生態的HuggingFace權重配置,無需修改即可實現一鍵部署,通過vllm-MindSpore外掛對接vLLM框架,支援大模型推理服務化能力。實現盤古72B模型快速部署,實現推理性能提升。09 總結與展望綜上所述,華為團隊針對昇騰算力叢集基礎設施,提出了針對超節點高可用、叢集線性度、萬卡叢集訓練快速恢復、兆MoE模型推理容錯、叢集故障感知及感知診斷、叢集模擬建模、框架遷移等方面的全維度的創新方案。隨著新型應用快速變化,硬體系統持續創新,系統架構不斷演進,工程能力走向智能化,未來算力基礎設施的演進將走上演算法-算力-工程協同進化的道路,有可能形成形成“應用需求→硬體創新→工程反哺”的閉環,演算法層驅動算力專用化(如復合AI需異構加速),算力層通過架構革新(如光電混合)釋放性能潛力,工程層以智能化手段(如AI維運)彌合複雜度鴻溝,最終實現高效、彈性、自癒的下一代算力基礎設施。 (雷峰網)