在過去十年中,AMD 重新涉足資料中心領域,福雷斯特·諾羅德 (Forrest Norrod) 擔任資料中心業務總經理,對 AMD 來說是一筆無價的財富。諾羅德曾在 Cyrix 從事 X86 處理器工作,並在惠普擔任開發工程師,之後在戴爾負責定製伺服器業務多年。
在有關即將於 2024 年台北國際電腦展上推出的“Turin” Epyc 伺服器 CPU 和 Instinct GPU 路線圖的消息曝光之後,我們與 Norrod 就當今資料中心的 CPU 和 GPU 市場進行了一次有趣的交談。
我們討論了 Arm 伺服器 CPU 的競爭威脅,並開玩笑說如果 AMD 決定克隆 Nvidia GPU,以便能夠運行整個 Nvidia 軟體堆疊,從而消除採用 AMD GPU 的主要障礙,那麼將引發訴訟。但這並不是談話的真正嚴肅部分。
真正嚴肅的是討論資料中心對非常強大的 CPU 和 GPU 的需求,以及為什麼對計算引擎容量的需求如此強烈,而且隨著時間的推移,需求甚至越來越大。以及如何購買強大的 CPU 可以為基於 GPU 的 AI 系統在資料中心騰出空間和電力。
Timothy Prickett Morgan:兩周前,英特爾發佈了首款“Sierra Forest”至強 6 CPU,而您透露了未來“Turin”系列 Epyc CPU。在我看來,除非英特爾在工藝和封裝方面與台灣半導體製造公司相差無幾,否則他們無法在 CPU 上趕上您。在 2025 年或 2026 年之前,情況真的這麼簡單嗎?
Forrest Norrod:我不想限制英特爾在工藝方面的能力。Pat Gelsinger 有一個非常積極的計畫,我們總是認為他們會說到做到。因此,我們所能做的就是儘可能快地利用台積電的設計和工藝。
我真的很喜歡我們與台積電合作的機會。我認為他們是一個了不起的合作夥伴,也是一台了不起的執行機器,我們將繼續使用他們每一代最先進的工藝。我喜歡我們有機會保持工藝的前沿。
同樣,在設計方面,我們一點兒也沒有放慢腳步。我們正儘可能地加快速度。您將繼續看到我們在所有產品線上的設計創新、封裝和組裝創新。我無法控制英特爾會做什麼。我只能假設他們明天醒來時會穿上硬漢靴子,拿著斬首劍戰鬥。我必須假設英特爾從今天起將始終盡其所能。
TPM:去年我們在 The Next Platform 上討論的主題之一是,隨著超大規模計算和雲建構者開發自己的 ARM 處理器,他們將建立第二個成本更低的計算帶。正如我們在大型機之後看到的專有小型電腦,然後是 Unix 機器,然後是 X86 伺服器。當然,仍有數千萬客戶將長期使用 X86 機器,就像有成千上萬的客戶使用大型、昂貴、笨重的大型機一樣。
我們的觀察是,這些價格區間是分開的,它們彼此之間保持相對相同的距離,並從切入點開始遵循摩爾定律曲線。這意味著在 2020 年代中期,X86 將成為下一個傳統平台,而 Arm 將成為新的後起之秀,也許有一天 RISC-V 將成為新的後起之秀,而 Arm 將成為下一個傳統平台。
您認為這對已經發生和正在發生的事情的描述精準嗎?
Forrest Norrod:這是可能的一種結果。歸根結底,即使是內部性能,問題也是:Arm 能否在性價比和每瓦性能方面足夠接近並保持足夠接近,正如大型資料中心及其最終客戶所看到的那樣,從而證明繼續投資自己的晶片是合理的?因為唯一有意義的原因是,如果你能達到並保持這一點。
我之前曾向你提出過這樣的觀察,即 CPU 的價格是伺服器價格的 25% 到 30%。如果 CPU 比替代方案慢 25%,那麼即使它是免費的也沒關係,因為你在系統層面上損失了 TCO。順便說一句,這接近我們談論的障礙。Arm 或替代方案的性能必須比替代方案高出 20% 到 25%,或者成本要低得多,否則就沒有足夠的空間來實現真正的 TCO。
現在,您可能仍會出於其他原因這樣做 — — 您可能仍會因為害怕錯過、為了有替代方案、為了保持英特爾和 AMD 的誠實而這樣做。
TPM:我想向您提出另一個觀察結果。長期以來,大多數伺服器買家都購買中檔部件,而遠離高端部件,甚至遠離高端部件的低端和中檔部件的上端。
如果我的資料中心面臨空間和電力限制,並且我擁有大量基於 X86 的通用基礎設施伺服器,我會購買 N-2 或 N-3 個部件,有時甚至購買 N-1 個部件,並嘗試節省每個核心的電力,並將節省的電力用於 AI 項目。我還會讓機器在現場使用五、六或七年,這也需要購買更高等級的 CPU。
Forrest Norrod:我完全同意你剛才所說的一切。如果你看看企業方面,就會發現這種情況已經開始發生。順便說一句,這正是雲端長期以來一直在發生的事情。例如,在 AMD,我們向雲端傳輸量最大的部分是我們最高端的部分。多年來一直如此。
另一個原因被低估了,那就是小晶片完全顛覆了管理堆疊成本的舊假設。這些小晶片的良率非常高。我們的 96 核“熱Genoa”——我們甚至不談論“Bergamo”,讓我們保持簡單——與 64 核和 32 核相比,絕大部分成本只是幾個 CCD 不同。就是這樣。其他一切都一樣。
TPM: 嗯,不是給客戶的價格。。。[笑聲]
Forrest Norrod:現在,當英特爾使用單片晶片時,情況完全不是這樣。生產 64 核“Emerald Rapids”或 60 核“Sapphire Rapids”或 40 核“Ice Lake”就像找到母雞的牙齒一樣困難。因此,英特爾的容量箱向下移動了好幾步。但對我們來說,長期以來,我們的絕大部分容量(當然是在雲端)都是頂部箱部分。
在企業方面,我們確實看到人們開始朝這個方向發展,特別是迫切需要為人工智慧釋放空間和電力,我們確實看到人們對整合更加關注。
發生的另一件事是 VMware 的新定價策略,市場對此反應不一。VMware 定價現已完全轉向按核心許可證定價,因此不再有購買低端部件的動機。公司過去必須購買一個最多 32 個核心的許可證,然後如果從 33 個核心增加到 64 個核心,則需要購買另一個許可證,依此類推。如果 VMware 只是按核心收費,那麼在一台伺服器上購買更多核心比在多台伺服器上分配相同數量的核心更便宜。
TPM: 讓我們轉而討論 UALink 以及企業對規模適中、性能適中的 AI 叢集的需求。
當我想到為企業(而非超大規模企業和雲建構者)建構的 AI 系統以及它們可能在生產中部署的模型大小時,超大規模企業和雲在幾年前建構的用於處理數百億個參數的叢集聚合性能將足夠好,因為它們將使用預訓練模型並對其進行重新訓練或增強。與 AI 巨頭在推動通用人工智慧時嘗試做的相比,企業的資料集相當小,參數需求也更適中。
這是對企業未來發展的一個合理預測嗎?
Forrest Norrod:你知道,老實說,我不確定。我會告訴你,我認識的一些人和我非常尊重的人完全同意你的觀點。我知道我非常尊重的其他人則認為——不可能。他們說,隨著模型越來越大,模型的能力會不斷增強。它體現在更細緻入微的推理和處理情況的能力上。
這就是雙方的觀點。打個比方:如今並非所有工作都需要高學歷,人工智慧也是如此。許多工作可以在低得多的水平上得到增強或自動化。
TPM: 您認為世界是否可以製造足夠的 GPU 來應對第二種情況,即每個人都想要具有大量參數的大型模型?
Forrest Norrod:我認為是這樣。因為,坦率地說,即使對於你談論的最大的模型,我也很難看到比幾個機架更大的推理模型。最壞的情況。而且我認為,因為有這樣的激勵,絕大多數甚至最大的模型都將適合一個節點進行推理。
但正在考慮的一些訓練叢集確實令人難以置信……
TPM:有人認真考慮過的最大的 AI 訓練叢集是什麼——你不必說出名字。有人來找你並說有了 MI500,我需要 120 萬個 GPU 或什麼的嗎?
Forrest Norrod:是在這個範圍內嗎?是的。
TPM: 你不能只是說“它在這個範圍內”。最大的實際數字是多少?
Forrest Norrod:我非常認真,它就在那個範圍內。
TPM: 適用於一台機器。
Forrest Norrod:是的,我說的是一台機器。
TPM: 這有點讓人難以置信,你知道嗎?
Forrest Norrod:我明白。他們所考慮的事情規模令人震驚。現在,所有這些都會實現嗎?我不知道。但有公開報導稱,非常清醒的人正在考慮花費數百億美元甚至一千億美元用於培訓叢集。
TPM: 讓我在這裡稍微控制一下。AMD 在資料中心的 CPU 出貨量中所佔份額已超過 30%,並且還在增長。AMD 什麼時候才能達到 30% 的 GPU 份額?GPU 份額的增長會更快嗎?我認為可能會。MI300 是你們歷史上增長最快的產品,因此這就引出了一個問題:你們是否能在獲得 CPU 份額所需時間的一半內實現 GPU 份額的增長。或者現在追趕 Nvidia 實在是太難了,因為他們擁有比其他任何人都多的 CoWoS 封裝和 HBM 記憶體。
您可以對 Nvidia GPU 進行一個與錯誤相容的克隆。...
Forrest Norrod:聽著,我們會儘可能快地開展我們的工作。我們的工作重點是儘量減少採用過程中的摩擦,看看視訊,這是默認的在位者。所以這是人們到目前為止進行的任何對話中的默認做法。所以我們必須儘量減少採用我們技術的摩擦。我們不能完全按照你的建議去做。
TPM:這將是一場精彩的訴訟,Forrest 。我們都會玩得很開心……
Forrest Norrod:我不確定我們對樂趣、TPM 的定義是否相同。
TPM:樂趣是以一種令人恐懼的方式令人興奮。
Forrest Norrod:但說真的,我們將繼續在軟體方面取得進展。我們渴望繼續在硬體方面取得進展。我對硬體非常滿意,對軟體路線圖也非常滿意——特別是因為我們有許多非常大的客戶在幫助我們。顯然,推廣替代方案並為自己獲得差異化產品符合他們的最佳利益。因此,我們將儘可能地利用開放生態系統的力量,並儘可能快地發展它。 (半導體行業觀察)