據路透社4月2日報導,人工智慧組織MLCommons推出了兩項新基準測試,旨在幫助評估頂級硬體和軟體運行AI應用的速度。
自從OpenAI的ChatGPT兩年多前推出以來,晶片公司已開始將重點轉向開發能夠高效運行代碼的硬體,使數百萬人能夠使用AI工具。由於底層模型必須響應更多查詢以支援聊天機器人和搜尋引擎等AI應用,MLCommons開發了兩個新版本的MLPerf基準測試來衡量運行速度。
其中一項新基準測試基於Meta的Llama 3.1 4050億參數AI模型,測試內容包括通用問答、數學和代碼產生能力。這種新格式測試系統處理大型查詢並從多個來源合成資料的能力。第二項基準測試同樣基於Meta建構的開源AI模型,旨在更貼近模擬ChatGPT等消費級AI應用的效能期望。此測試的目標是縮短回應時間,使其接近即時回應。
輝達提交了多款晶片參與此項基準測試,在最新的MLPerf Inference V5.0基準測試中,輝達Blackwell平台創下了多項紀錄。這也是輝達首次使用GB200 NVL72系統參與MLPerf提交,該系統是專為AI推理設計的機架級解決方案。輝達一直在努力提升其伺服器內部晶片間的連接速度,這對於需要多個晶片同時運行的聊天機器人等AI工作負載至關重要。
輝達在周二的簡報會上表示,對於新測試,其最新一代名為Grace Blackwell的人工智慧服務器(內含72個輝達GPU)比上一代速度快2.8至3.4倍,即使在較新服務器中僅使用8個GPU與舊型號進行直接比較也是如此。
據輝達稱,新的Llama 2 70B Interactive基準測試相對於原始Llama 2 70B基準測試具有更嚴格的延遲要求,更好地反映了生產部署中提供最佳用戶體驗的約束條件。在這項測試中,使用8個Blackwell GPU的NVIDIA DGX B200系統的效能是使用8個H200 GPU的三倍。
輝達介紹,與傳統資料中心不同,AI工廠不僅儲存和處理資料,還透過將原始資料轉化為即時洞察來大規模生產智慧。 AI工廠的目標很簡單:以最低成本快速向盡可能多的用戶提供精確的查詢答案。
生產推理部署通常對兩個關鍵指標有延遲限制:第一個是首個token時間(TTFT),即使用者開始看到對大型語言模型查詢的回應所需的時間;第二個是每個輸出token時間(TPOT),即向使用者傳遞token的速度。
據輝達稱,新的Llama 2 70B Interactive基準測試的TPOT縮短了5倍,TTFT降低了4.4倍,模擬了更具響應性的用戶體驗。
2022年推出的NVIDIA Hopper架構目前驅動許多AI推理工廠,並繼續支援模型訓練。通過持續的軟件優化,NVIDIA提高了基於Hopper的AI工廠的吞吐量,從而帶來更大價值。據輝達稱,在一年前MLPerf Inference v4.0中首次引入的Llama 2 70B基準測試上,H100 GPU吞吐量增加了1.5倍。基於相同Hopper GPU架構但具有更大更快GPU記憶體的H200 GPU將這一增幅擴大到1.6倍。
值得一提的是,在這輪MLPerf測試中,包括華碩、思科、CoreWeave、戴爾科技、富士通、Google雲、惠普企業、Lambda、聯想、甲骨文雲基礎設施和超微等15家合作夥伴使用NVIDIA平台提交了優異的結果。 (數字開物)