AMD的AI晶片戰略

如果說AMD 的故事就像過山車一樣,那是輕描淡寫了。因為2014 年的AMD 和2024 年的AMD 之間存在著巨大的反差。十年前的AMD 舉步維艱,而今天的AMD 正在復甦,關鍵的是,他們已經成為了許多市場的參與者。

與該領域的許多其他參與者一樣,人工智慧是主要關注點,該公司在內部建立了專門的人工智慧團隊,以涵蓋快速發展的人工智慧市場的完整端到端策略。

最近幾週,AMD 執行長蘇姿豐(Lisa Su) 和計算與圖形部門高級副總裁/總經理Jack Huynh 均回答了行業分析師提出的有關AMD 人工智慧硬體策略的性質以及如何看待其產品組合的問題,我們來將其綜合以下。

圖:shutterstock


AMD 的AI 硬體策略分為三個面向:

第一個是AMD 的Instinct 系列資料中心GPU,以MI300 系列的形式零售。

MI300X 有兩種變體,專注於AI - 它已成功獲得Microsoft 和Azure 等大型雲廠商以及TensorWave 等一些較小的以AI 為中心的雲的採用。

在最新的財報電話會議上,Lisa Su 評論稱,對這些晶片的需求不斷擴大,到2024 年底,營收將從20 億美元增加到35 億美元。在發布會上,AMD 將自己與NVIDIA 的H100 進行了比較,標誌著八晶片系統在ML 訓練中相同,但在ML 推理中更好。

該系列的另一個變體是MI300A,提供類似的規格,但CPU/GPU 組合,面向高效能運算。它已被採用到計劃中的最大的全球超級電腦El Captian 中,該電腦將使用機器學習模型來協助保護美國核子儲備。

在談到MI300 的採用時,Lisa 表示:

「我們感到驚喜,很高興看到MI300 的發展勢頭,以及這種勢頭的來源。大型雲[客戶]通常移動速度最快——從工作負載[到工作負載]。LLM 非常適合MI300 - 我們的內存容量和記憶體頻寬[處於市場領先]。人工智慧是最主要的工作負載。[我們]擁有相當廣泛的客戶群,他們有不同的需求- 有些是訓練,有些是微調,有些是混合的。當我們從客戶開始時,[但是]從模式中失去了信心。[我們在軟體環境方面也花費了]大量工作。新客戶[發現]更容易達到他們的性能期望,因為ROCm(AMD 的軟體堆疊)正在變得成熟。[我們] [MI300] 最大的工作負載是大型語言模型。”

還應該指出的是,AMD 最近宣布正在將其晶片間通訊協定(稱為Infinity Fabric)擴展到Arista、Broadcom 和Cisco 等特定網路合作夥伴。我們希望這些公司能夠建構Infinity Fabric 交換機,使MI300 能夠在單一系統之外實現晶片間通訊。

AMD 策略的第二個面向是他們的客戶端GPU 系列。

這包括AMD 的Radeon 獨立顯示卡(GPU) 及其APU,後者由整合到客戶端CPU 上的GPU 組成,主要用於筆記型電腦。 AMD 人工智慧策略的第一個和第二個面向都依賴他們的運算堆疊,稱為ROCm,它是AMD 與NVIDIA CUDA 堆疊的競爭對手。

關於ROCm(即使是最新版本)的長期抱怨是企業和消費性硬體之間的支援不一致- 只有AMD 的Instinct GPU 能夠正確支援ROCm 及其相關庫並選擇獨立GPU,而CUDA 幾乎可以在所有NVIDIA 硬體上運行。

然而,傑克在我們的問答中說:

「我們[目前]在我們的7900 旗艦機上啟用ROCm,以便您可以執行一些人工智慧應用程式。我們將更廣泛地擴展ROCm。」「有些學校、大學和新創公司可能買不起非常高端的GPU,但他們想要進行修補。我們希望使該社區成為開發者工具。”

我們希望這意味著ROCm 對當前一代硬體以及所有未來版本的支援更廣泛- 不僅僅是他們的旗艦RX7900 系列。

Lisa 也對AMD 的軟體堆疊發表了評論:

“最近的大問題是軟體。我們在軟體方面取得了巨大進步。ROCm 6 軟體堆疊是一個重大進步。在軟體方面還有很多工作要做……我們希望抓住巨大的機會。”

AMD 的第三個面向是他們的XDNA AI 引擎。

雖然該技術來自Xilinx,但該IP 在收購之前已授權給AMD。這些人工智慧引擎正在整合到筆記型電腦處理器中,並將作為微軟AIPC 計劃的NPU 呈現,以與英特爾和高通的產品競爭。這些AI 引擎專為低功耗推理而設計,而不是高功耗GPU 能夠進行的高吞吐量推理或訓練。

在評論NPU 與GPU 的地位時,Lisa 說:

“人工智慧引擎在某些地方會更加流行,例如個人電腦和筆記型電腦。如果您正在尋找大規模、更多的工作站筆記型電腦,[他們]可能會在該框架中使用GPU。”

AMD 看到了多種人工智慧工作負載和引擎的未來:CPU、GPU 和NPU。值得注意的是,空間中的其他人都發出同樣的聲音。

Jack評論說:

「[對於] NPU,微軟由於功效而大力推動[它]。NPU 仍然可以驅動體驗,但不會損害電池[壽命]。我們將賭注押在NPU 上。我們將在AI 上實現2 倍和3 倍……NPU 的關鍵在於電池壽命- 在台式機中,您往往不用擔心電池,而且還可以將[NPU 支持的]自定義數據格式帶入台式機。”

這種三管齊下的方法使AMD 能夠在各個方面解決人工智慧領域的問題,這表明並非所有雞蛋都必須放在同一個籃子裡。 AMD 使用這種方法已經取得了一些成功——在資料中心領域,AMD 被認為是NVIDIA 最接近的競爭對手。 MI300 的記憶體容量和頻寬使其能夠與NVIDIA 的H100 硬體(我們仍在等待B100 基準測試)進行良好的競爭。 NPU 領域仍然太新且不穩定,無法真正確定AMD 的策略是否獲得回報;不過,微軟很可能會將NPU 用於本地機器學習模型,例如助手或「'co-pilot」模型。

從我們的角度來看,AMD 策略的弱點在於桌面GPU 方面,因為整個AMD 硬體堆疊缺乏近乎普遍的ROCm 支援。這是一個需要時間才能解決的問題——戰線分裂的缺點之一是資源的劃分。 AMD 將要求嚴格的管理,以確保整個公司的工作不會重複。不過,也有正面的一面,AMD 不斷提高2024 年資料中心收入的預測,聲稱限制只是需求,而不是供應。(半導體產業觀察)

原文連結:https://morethanmoore.substack.com/p/quick-bytes-amds-ai-hardware-strategy