輝達Blackwell新動態


據路透社4月2日報導,人工智慧組織MLCommons推出了兩項新基準測試,旨在幫助評估頂級硬體和軟體運行AI應用的速度。

自從OpenAI的ChatGPT兩年多前推出以來,晶片公司已開始將重點轉向開發能夠高效運行代碼的硬體,使數百萬人能夠使用AI工具。由於底層模型必須響應更多查詢以支援聊天機器人和搜尋引擎等AI應用,MLCommons開發了兩個新版本的MLPerf基準測試來衡量運行速度。

其中一項新基準測試基於Meta的Llama 3.1 4050億參數AI模型,測試內容包括通用問答、數學和代碼產生能力。這種新格式測試系統處理大型查詢並從多個來源合成資料的能力。第二項基準測試同樣基於Meta建構的開源AI模型,旨在更貼近模擬ChatGPT等消費級AI應用的效能期望。此測試的目標是縮短回應時間,使其接近即時回應。

輝達提交了多款晶片參與此項基準測試,在最新的MLPerf Inference V5.0基準測試中,輝達Blackwell平台創下了多項紀錄。這也是輝達首次使用GB200 NVL72系統參與MLPerf提交,該系統是專為AI推理設計的機架級解決方案。輝達一直在努力提升其伺服器內部晶片間的連接速度,這對於需要多個晶片同時運行的聊天機器人等AI工作負載至關重要。

輝達在周二的簡報會上表示,對於新測試,其最新一代名為Grace Blackwell的人工智慧服務器(內含72個輝達GPU)比上一代速度快2.8至3.4倍,即使在較新服務器中僅使用8個GPU與舊型號進行直接比較也是如此。

據輝達稱,新的Llama 2 70B Interactive基準測試相對於原始Llama 2 70B基準測試具有更嚴格的延遲要求,更好地反映了生產部署中提供最佳用戶體驗的約束條件。在這項測試中,使用8個Blackwell GPU的NVIDIA DGX B200系統的效能是使用8個H200 GPU的三倍。

輝達介紹,與傳統資料中心不同,AI工廠不僅儲存和處理資料,還透過將原始資料轉化為即時洞察來大規模生產智慧。 AI工廠的目標很簡單:以最低成本快速向盡可能多的用戶提供精確的查詢答案。

生產推理部署通常對兩個關鍵指標有延遲限制:第一個是首個token時間(TTFT),即使用者開始看到對大型語言模型查詢的回應所需的時間;第二個是每個輸出token時間(TPOT),即向使用者傳遞token的速度。

據輝達稱,新的Llama 2 70B Interactive基準測試的TPOT縮短了5倍,TTFT降低了4.4倍,模擬了更具響應性的用戶體驗。

2022年推出的NVIDIA Hopper架構目前驅動許多AI推理工廠,並繼續支援模型訓練。通過持續的軟件優化,NVIDIA提高了基於Hopper的AI工廠的吞吐量,從而帶來更大價值。據輝達稱,在一年前MLPerf Inference v4.0中首次引入的Llama 2 70B基準測試上,H100 GPU吞吐量增加了1.5倍。基於相同Hopper GPU架構但具有更大更快GPU記憶體的H200 GPU將這一增幅擴大到1.6倍。

值得一提的是,在這輪MLPerf測試中,包括華碩、思科、CoreWeave、戴爾科技、富士通、Google雲、惠普企業、Lambda、聯想、甲骨文雲基礎設施和超微等15家合作夥伴使用NVIDIA平台提交了優異的結果。 (數字開物)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題