憑藉其自主研發的 Graviton 4 Arm 伺服器處理器,亞馬遜網路服務已將一款可與 AMD X86 CPU、Ampere Computing 和 Nvidia Arm CPU 等所有頂級產品相媲美的 CPU 投入到該領域,並且它正在推動價格/性能的提升,從而推動亞馬遜各個業務部門及其 AWS 上的 IT 基礎設施租賃客戶對其的採用。
現在,Graviton 4 處理器的記憶體得到了提升,這反過來又使它們能夠承擔更多受記憶體容量和記憶體頻寬限制的任務。
Graviton 4 處理器於 2023 年 11 月推出,基於Arm Ltd 的“Demeter” Neoverse V2 核心。關於 Graviton 4 處理器,我們還有很多不瞭解的地方,如本文頂部的特色圖片所示,我們試圖將已知的資訊拼湊起來,填補空白,以更全面地瞭解這款 Arm CPU 與其前代產品以及資料中心中競爭對手 X86 和 Arm 晶片相比如何。看一看:
如您所見,AWS 的 Annapurna Labs 部門創造了“Nitro”DPU 以及 Graviton CPU、“Trainium”AI 訓練 XPU 和“Inferentia”AI 推理 XPU,在推動設計達到最先進水平與降低這些晶片價格並使 AWS 仍能盈利的平衡方面已經取得了長足的進步。
註:上表中以紅色斜體粗體標記的項目是The Next Platform的估計值。
與上一代 Graviton 3 相比,Graviton 4 晶片擁有更快的核心、更好的核心和更多的核心,而且 AWS 首次建立了雙插槽 NUMA 記憶體叢集,以使 192 個以 2.8 GHz 運行的核心承擔工作負載。最初的 Graviton 4 晶片配備了 1.5 TB 的 DDR5 主記憶體,運行頻率為 5.6 GHz,而 Graviton 3 使用 4.8 GHz DDR5 記憶體,只有 8 個記憶體通道,而 Graviton 4 有 12 個,後者晶片從這些額外的通道中獲得了 50% 的容量和頻寬提升,並從更快的 DDR5 記憶體中獲得了 16.7 的額外提升。加起來,每個 Graviton 4 插槽可獲得 537.6 GB/秒的頻寬,這與任何其他 X86 或 Arm CPU 所能提供的一樣好,對於許多卡在 CPU 上、無法輕鬆移植到 GPU 的 HPC 工作負載來說已經足夠了。
Graviton 4 R8g 實例於 7 月初正式上市,當時我們對其進行了詳細介紹。它們涵蓋 1 到 96 個 vCPU,每個 Graviton 4 插槽從 8 GB 到 768 GB;每個實例的網路頻寬最高可達 40 Gb/秒,彈性塊儲存 (EBS) 也最高可擴展至每個插槽 30 Gb/秒。
正如我們在 7 月份所說的那樣,我們認為雙插槽 Graviton 4 實例是一個特殊情況,因為雙插槽機器的網路頻寬只有 50 Gb/秒,EBS 頻寬只有 40 Gb/秒。此外,沒有實例大小介於 96 到 192 個核心之間,如果亞馬遜基於 Graviton 4 建構的所有物理機器都使用雙插槽主機板,那麼你就會期望有這樣的實例。或者,也許它只是想在客戶跨越 NUMA 障礙後銷售滿載的機器。
以下是今天推出的全新 X8g 記憶體增強型實例與 7 月份推出的現有 R8g 實例的對比情況:
AWS 尚未公佈記憶體增強型 Graviton 4 實例的定價,您知道,我們對這類事情很不耐煩。因此,我們研究了具有不同記憶體容量的 Graviton 3 實例(精準地說是基本 R7g 和 M7g Graviton 3s 的雙倍增強記憶體),並計算了記憶體差異和價格差異。結果表明,以 4.8 GHz 運行的增量記憶體每小時每 8 GB 的成本為 0.0031875 美元。因此,我們取這個數字,將其提升了用於 Graviton 4 實例的記憶體速度的增加(在 5.6 GHz 時性能提高了 16.7%),然後在上表中計算了 X8g 實例的按需租賃成本。您可以想像,額外的記憶體容量並不是免費的,但我們認為這是估計 AWS 可能對 X8g 實例收取的費用的合理方法。如果您使用這樣的記憶體定價將 R8g 實例上的記憶體擴展到 X8g 實例的大小(這些機器的所有其他功能都是相同的),那麼您會發現租用 X8g 實例的價格比租用 R8g 實例的價格高出 50.5%。
如果我們是 AWS,我們就會這樣做。
自 2018 年 11 月 Graviton 1 首次亮相以來,Graviton 處理器的各種頂級組態如下:
早在 7 月份,我們就估算了節點中帶有本地快閃記憶體的常規 Graviton 4 實例的年度按需租賃成本,該成本以粗體紅色斜體顯示。我們並不是想暗示客戶會以這種方式購買這些實例,但我們確實想表明這些每小時費用“肯定會增加”,正如演員查理·辛 (Charlie Sheen) 曾在庭審中尷尬地作證時打趣說的那樣。
在粗體藍色斜體中,我們顯示了我們為新的頂級 X8g 實例估算的年度按需租賃成本。這個想法是,大記憶體不是免費的,您必須有使用 X8g 實例的需求。而且,根據 AWS 的說法,我們認為許多使用之前的 Graviton 2 和 Graviton 3 實例的客戶將認真考慮記憶體增強型 Graviton 4 實例。無法在 Graviton 2 和 Graviton 3 處理器上運行的應用程式(某些記憶體密集型 HPC 應用程式和記憶體分析和資料庫)將無法在 Graviton 4 實例上運行。
大記憶體 Graviton 4 處理器的一個有趣用例是 – 您猜對了 – 由 Annapurna Labs 設計未來的 Graviton CPU。為了好玩,AWS 首席布道師(一種公關經理)Jeff Barr在宣佈記憶體增強型 Graviton 4 晶片的部落格文章中發佈了此圖表:
該圖表顯示了在 AWS 為 Graviton 4 軟體包設計 I/O 晶片和計算晶片時啟動的 Graviton 實例數量。初始基線略低於 2,000 個實例,並且運行正常,每日和每周的峰值最高可達此基線計算水平的 2 倍。隨著 I/O 晶片和計算晶片的設計逐漸走向流片,虛擬測試和設計驗證變得越來越激烈,基線接近 4,000 個實例同時運行,峰值最高可達 8,000 個,有時甚至高達 11,000 個並行實例(如果您仔細查看此圖表)。
如您所見,Graviton 4 I/O 晶片於 2022 年第四季度流片,計算晶片於 2023 年第一季度流片,這是 AWS 透露的一個有趣的資訊。
然而,AWS 並未透露 X8g 的額外記憶體將如何提升 EDA 性能或減少正在運行的實例數量。
據我們所知,EDA 實際上是一種單核、單任務的令人尷尬的平行工作負載,因此您在一項任務中投入的核心數量類似於您可以在可能的設計空間中測試的場景和組態數量。例如,上面的峰值“代表數十萬個核心同時運行”,Barr 說。此外,據我們所知,EDA 軟體是按核心授權的,因此擁有更快的核心(Graviton 4 核心肯定得益於 Demeter V2 設計)意味著您可以更快地完成任務,而每個插槽擁有更多核心意味著您可以在每個實例中完成更多工。這就是您在 EDA 工作上有錢有時間的原因。
看看 Graviton 4 實例如何加速 Graviton 6 處理器的設計將會很有趣。。。也許 AWS 應該就此提供一個案例研究。我們很樂意研究並撰寫它。
對於許多使用 Graviton 2 X2gd 實例的 HPC 客戶來說,Graviton 4 每個核心的 L2 快取是原來的兩倍(2 MB 對比 1 MB),記憶體頻寬是原來的 2.6 倍,每個核心的計算性能提高了 60%。X8g 實例的記憶體容量和核心數量也是原來的 3 倍,EBS 頻寬和乙太網路頻寬也是原來的 2 倍。所有這些都將幫助晶片設計師更快地完成更多的 EDA 工作,並且每個工作單位的成本可能會更低。 (半導體行業觀察)