輝達產品路線圖曝光，事關Blackwell和Rubin

2024/08/25

•

Nvidia 展示了正在進行的 Blackwell 伺服器安裝——人工智慧和資料中心路線圖顯示 Blackwell Ultra 將於明年推出，並於 2026 年配備 Vera CPU 和 Rubin GPU。

Nvidia 還強調，它將 Blackwell 和 Rubin 視為平台而不僅僅是 GPU。

在 Hot Chips 2024 展會開始之前，Nvidia 展示了其 Blackwell 平台的更多元素，包括正在安裝和組態的伺服器。這是一種不太含蓄的說法，表明 Blackwell 仍在發展中——別介意延遲。它還談到了現有的 Hopper H200 解決方案，展示了使用其新 Quasar 量化系統進行的 FP4 LLM 最佳化，討論了資料中心的溫水液體冷卻，並談到了使用 AI 來幫助建構更好的 AI 晶片。它重申，Blackwell 不僅僅是一個 GPU，它是一個完整的平台和生態系統。Nvidia

在 Hot Chips 2024 上展示的大部分內容已經為人所知，例如資料中心和 AI 路線圖顯示 Blackwell Ultra 將於明年推出，Vera CPU 和 Rubin GPU 將於 2026 年推出，隨後是 2027 年的 Vera Ultra。Nvidia 早在 6 月份就在Computex上首次確認了這些細節。但 AI 仍然是一個大話題，Nvidia 非常樂意繼續推動 AI 的發展。

據報導，Blackwell 的發佈推遲了三個月，但Nvidia 既沒有證實也沒有否認這一資訊，而是選擇展示正在安裝的 Blackwell 系統的圖像，以及展示 Blackwell GB200 機架和 NVLink 交換機中更多內部硬體的照片和渲染圖。除了該硬體看起來可以消耗大量電量並且具有相當強大的冷卻功能之外，沒有太多可說的。它看起來也很昂貴。Nvidia

還展示了其現有 H200 的一些性能結果，執行階段使用和不使用 NVSwitch。它表示，與運行點對點設計相比，推理工作負載的性能可以提高 1.5 倍——這是使用 Llama 3.1 70B 參數模型。Blackwell 將 NVLink 頻寬翻倍以提供進一步的改進，NVLink Switch Tray 提供總計 14.4 TB/s 的總頻寬。

由於資料中心的功率需求不斷增加，Nvidia 也在與合作夥伴合作以提高性能和效率。其中一個更有希望的結果是使用溫水冷卻，其中加熱的水可以再循環用於加熱以進一步降低成本。Nvidia 聲稱，使用該技術可以使資料中心的用電量減少 28%，其中很大一部分來自移除低於環境溫度的冷卻硬體。

上面是 Nvidia 簡報的完整幻燈片。還有一些其他值得注意的有趣內容。

為了準備 Blackwell，現在增加了原生 FP4 支援，可以進一步提高性能，Nvidia 一直致力於確保其最新軟體從新硬體功能中受益，而不會犧牲精準性。在使用其 Quasar 量化系統調整工作負載結果後，Nvidia 能夠提供與 FP16 基本相同的質量，同時使用四分之一的頻寬。生成的兩個兔子圖像可能在細微方面有所不同，但這對於 Stable Diffusion 等文字到圖像工具來說非常典型。Nvidia

還談到了使用 AI 工具來設計更好的晶片——AI 建構 AI，一路向下都是烏龜。Nvidia 建立了一個內部使用的 LLM，有助於加快設計、偵錯、分析和最佳化。它與用於描述電路的 Verilog 語言一起工作，是建立 2080 億個電晶體 Blackwell B200 GPU 的關鍵因素。然後，這將用於建立更好的模型，使 Nvidia 能夠在下一代 Rubin GPU 及以後的產品上工作。[此時，您可以隨意插入您自己的 Skynet 笑話。]

總結一下，我們對 Nvidia 未來幾年的 AI 路線圖有了更高品質的瞭解，該路線圖再次將“Rubin 平台”與交換機和互連定義為一個整體包。Nvidia 將在下周的 Hot Chips 會議上介紹有關 Blackwell 架構、使用生成 AI 進行電腦輔助工程和液體冷卻的更多細節。 (半導體行業觀察)