輝達Blackwell新動態

2025/04/04

•

據路透社4月2日報導，人工智慧組織MLCommons推出了兩項新基準測試，旨在幫助評估頂級硬體和軟體運行AI應用的速度。

自從OpenAI的ChatGPT兩年多前推出以來，晶片公司已開始將重點轉向開發能夠高效運行代碼的硬體，使數百萬人能夠使用AI工具。由於底層模型必須響應更多查詢以支援聊天機器人和搜尋引擎等AI應用，MLCommons開發了兩個新版本的MLPerf基準測試來衡量運行速度。

其中一項新基準測試基於Meta的Llama 3.1 4050億參數AI模型，測試內容包括通用問答、數學和代碼產生能力。這種新格式測試系統處理大型查詢並從多個來源合成資料的能力。第二項基準測試同樣基於Meta建構的開源AI模型，旨在更貼近模擬ChatGPT等消費級AI應用的效能期望。此測試的目標是縮短回應時間，使其接近即時回應。

輝達提交了多款晶片參與此項基準測試，在最新的MLPerf Inference V5.0基準測試中，輝達Blackwell平台創下了多項紀錄。這也是輝達首次使用GB200 NVL72系統參與MLPerf提交，該系統是專為AI推理設計的機架級解決方案。輝達一直在努力提升其伺服器內部晶片間的連接速度，這對於需要多個晶片同時運行的聊天機器人等AI工作負載至關重要。

輝達在周二的簡報會上表示，對於新測試，其最新一代名為Grace Blackwell的人工智慧服務器（內含72個輝達GPU）比上一代速度快2.8至3.4倍，即使在較新服務器中僅使用8個GPU與舊型號進行直接比較也是如此。

據輝達稱，新的Llama 2 70B Interactive基準測試相對於原始Llama 2 70B基準測試具有更嚴格的延遲要求，更好地反映了生產部署中提供最佳用戶體驗的約束條件。在這項測試中，使用8個Blackwell GPU的NVIDIA DGX B200系統的效能是使用8個H200 GPU的三倍。

輝達介紹，與傳統資料中心不同，AI工廠不僅儲存和處理資料，還透過將原始資料轉化為即時洞察來大規模生產智慧。 AI工廠的目標很簡單：以最低成本快速向盡可能多的用戶提供精確的查詢答案。

生產推理部署通常對兩個關鍵指標有延遲限制：第一個是首個token時間(TTFT)，即使用者開始看到對大型語言模型查詢的回應所需的時間；第二個是每個輸出token時間(TPOT)，即向使用者傳遞token的速度。

據輝達稱，新的Llama 2 70B Interactive基準測試的TPOT縮短了5倍，TTFT降低了4.4倍，模擬了更具響應性的用戶體驗。

2022年推出的NVIDIA Hopper架構目前驅動許多AI推理工廠，並繼續支援模型訓練。通過持續的軟件優化，NVIDIA提高了基於Hopper的AI工廠的吞吐量，從而帶來更大價值。據輝達稱，在一年前MLPerf Inference v4.0中首次引入的Llama 2 70B基準測試上，H100 GPU吞吐量增加了1.5倍。基於相同Hopper GPU架構但具有更大更快GPU記憶體的H200 GPU將這一增幅擴大到1.6倍。

值得一提的是，在這輪MLPerf測試中，包括華碩、思科、CoreWeave、戴爾科技、富士通、Google雲、惠普企業、Lambda、聯想、甲骨文雲基礎設施和超微等15家合作夥伴使用NVIDIA平台提交了優異的結果。（數字開物）