•
輝達官方在官網發佈博文,詳細介紹正在開發的可視化 GPU 叢集監控方案,可幫助雲服務合作夥伴計算 GPU 的正常執行階段間。
該方案由使用者自願選擇、客戶自行安裝,可用於監控 GPU 的使用情況、配置以及錯誤資訊,內含開放原始碼的客戶端軟體代理,旨在幫助客戶充分發揮 GPU 系統的價值。
通過軟體,客戶可追蹤功耗峰值,在控制能耗預算的同時最大化每瓦性能,監控整個 GPU 叢集的利用率、記憶體頻寬以及互聯狀況等多項安全功能。
官方表示,這套軟體可幫助企業和雲服務提供商直觀瞭解其 GPU 叢集運行狀況,解決系統瓶頸,最佳化生產力,整套服務通過即時監控實現,每個 GPU 系統會與外部雲服務通訊並共享 GPU 指標。
同時輝達強調,他們的 GPU 不包含任何硬體追蹤技術、遠端終止開關或後門。
此外,輝達計畫將客戶端軟體代理開源,提供更高的透明度和可審計性,整套軟體可提供企業 GPU 資產的可視化資訊,無法修改 GPU 配置或底層運作方式,只能夠提供唯讀的遙測資料,交由客戶自行管理並可按需定製。 (AMP實驗室)