英特爾將推出兩款中國獨家型號的Gaudi 3 AI 加速器,但為了適應美國的製裁,它們將受到嚴重削弱。
英特爾的Gaudi 3 白皮書詳細介紹了兩種獲准在中國銷售的型號。這兩款專為中國製造的處理器分別為HL-328 和HL-388,分別採用OAM 和PCIe 外形規格,前者於6 月推出,後者於9 月推出,與其他PCIe 外形規格的Gaudi 3 一起推出。
整體而言,HL-328 和HL-388 看起來或多或少與其他產品相同,具有相同的128GB HBM2e VRAM,頻寬為3.7TB/s、96MB 快取、PCIe 5.0 x16 介面和解碼標準。
唯一的區別在於熱設計功耗,OAM 和PCIe 卡型號均為450 瓦。這與其他型號相比大幅減少。非中國PCIe HL-338 的TDP 為600 瓦,OAM 外型規格HL-325L 和HL-335 的TDP 為900 瓦。 China Gaudi 3 型號的TDP 相對較低,這可能是沒有液冷版本的原因。
儘管白皮書中沒有明確說明,但幾乎可以肯定的是,為了遵守美國政府對處理器的出口管制,做出這些改變是必要的,該管制禁止美國公司根據性能向中國出口晶片。
我們無法真正知道英特爾對Gaudi 3 做了什麼來使其兼容,以及這些批准用於中國的晶片在這些變化中的執行速度有多快,但有一些線索。與其他Gaudi 3 變體一樣,HL-328 和HL-388 仍然使用兩個晶片,因為記憶體和快取配置未更改。使用兩個晶片而不是一個晶片有助於降低性能密度,從而使晶片能夠達到4,800 總處理能力(TPP) 的更高出口限制。
4,800 TPP 限制意味著沒有晶片可以擁有150 TFLOPS 或更多的16 位元性能,並且由於Gaudi 3 在BF16 下可以達到1,835 TFLOPS,因此英特爾需要大幅降低性能。這必須透過真正大規模削減核心數量和時脈速度或其他一些性能限制方法來實現。
我們已要求英特爾對中國獨家的Gaudi 3 型號進行澄清,但尚未收到回應。如果英特爾披露任何信息,我們將進行更新。
我們可以預期HL-328 和HL-388 的表現與Nvidia 的H20類似,H20 是矽巨頭最快的GPU,已獲准在中國銷售。它具有148 TFLOPS 的FB16 和FP16 性能,略低於150 TFLOPS 限制。
由於H20和Gaudi 3的中國型號之間的原始核心性能或多或少相同,因此主要區別將歸結為內存(英特爾的容量更大但頻寬略少)和軟體(這一直是一個賣點)適用於Nvidia晶片. (半導體產業觀察 )