6月初,AWS宣佈EC2中搭載輝達顯示卡的P4(P4d和P4de)和 P5(P5和P5en)大降價,最高能達到45%。
這次降價將適用於所有提供這些實例的Region,包括按需定價和Savings Plans定價方式。按需實例的降價自6月1日起生效,Savings Plans自6月4日後生效。
按需實例當中,降價幅度最大的是基於H100的P5實例,降價最少的是基於H200的P5en實例,只有25%。想要獲得最大幅度降價的話,也得用基於H100的P5實例,但需要3年期承諾的Savings Plans。
從上圖可見,基於A100的主機的降價幅度都完全一樣,可能因為用的硬體架構一樣。降價一方面來自AWS自己的各種軟硬體最佳化,另一方面可能與輝達方面的供貨情況有關係。
AWS的Savings Plans是一種靈活的定價模式,使用者只要承諾在1年或3年內保持一定的使用量(比如至少用多少個小時),就能獲得較低的價格。
Savings Plans有兩類:
一個叫EC2實例省錢計畫(Instance Savings Plans),只要承諾在指定區域、指定實例族(如美國弗吉尼亞地區的P5實例)上使用,確定性更多的話,就能拿到最低的價格。
另一個叫計算省錢計畫(Compute Savings Plans),不限定實例族的類型、大小和所在的區域,這個靈活性更高一點。
為了讓更多使用者享受到降價的快樂,也可以用按需實例的方式使用,AWS 在以下區域提供大規模按需實例:
P4d 實例:亞太(首爾)、亞太(雪梨)、加拿大(中部)、歐洲(倫敦)
P4de 實例:美國東部(弗吉尼亞北部)
P5 實例:亞太(孟買)、亞太(東京)、亞太(雅加達)、南美(聖保羅)
P5en 實例:亞太(孟買)、亞太(東京)、亞太(雅加達)
此外,AWS現在通過Savings Plans提供Amazon EC2 P6-B200實例,以支援大規模部署。
P6-B200實例採用了8張輝達Blackwell 200顯示卡,1440GBHBM視訊記憶體、第5代英特爾至強、2T系統記憶體以及30 TB本地儲存。
這些搭載BlackwellGPU的實例與P5en實例相比,GPU的TFLOP性能提升高達 125%,GPU記憶體容量增加27%,GPU記憶體頻寬增加60%。特別特別適合大規模分佈式AI訓練和推理場景。
3月份的時候,The Information報導稱,AWS計畫以折扣價提供由基於Trainium晶片的雲主機。與AWS上基於H100的實例相比,其價格僅為其25%,而算力性能則是在同一水平。
目前,包括亞馬遜、微軟以及Google在內的雲巨頭們都在自研AI加速晶片,AWS等多家雲平台上也提供來自英特爾、AMD等多家廠商的晶片方案,看著競爭激烈,選擇多多。
但是,由於輝達的方案無論是算力本身,配套的CUDA生態,還是會吸引更多使用者,很多使用者寧願等也不換晶片架構。
輝達從2006年開始做CUDA,近20年的AI相關技術生態都建構在CUDA之上,想要遷移需要考慮很多現實的問題:
比如,模型和底層庫的相容性的問題。許多AI模型和訓練框架在輝達體繫上有最成熟、最完備的支援。遷移到後可能要替換底層庫、甚至重新編譯程式碼,帶來大量工作量。
雖然有些晶片號稱算力能跟N卡相媲美,但在實際任務、特定算子或稀疏矩陣運算等場景下,可能性能並不完全匹配,導致推理/訓練速度變慢,可能需要重新做很多調整。
而且,不同硬體架構可能在浮點數精度、隨機數生成器、甚至張量劃分策略上存在差異,導致模型訓練過程中精度收斂曲線與之前不同,需要做很多額外驗證工作。
最要命的是,如果現在切換到了新的架構,這個架構不那麼主流,還需要考慮這家能否長期提供穩定支援、硬體維護、補丁升級。如果產品線砍了,重新遷移的成本會更大。
目前最穩妥的還是選擇輝達的方案,對使用者來說,如果能提高供給,或者降低成本,是再好不過的事情了。 (雲體驗師)