Meta：在LLama 3訓練期間，輝達H100和HBM3記憶體故障佔據了一半

2024/07/29

•

7月28日消息，Meta近期發佈了目前全球最強的開源大模型LLAMA 3.1 405B，引發了業界的關注。近日，Meta發佈了關於LLAMA 3.1 405B的研究文章，詳細介紹了其在 16,384 個輝達（NVIDIA）H100 80GB GPU 的叢集上訓練Llama 3.1 405B 模型所遇到的問題。

據介紹，LLAMA 3.1 405B在16,384 個 H100 80GB GPU 的叢集上持續訓練了54天，在此期間遇到了 419 個意外的元件故障，平均每三個小時就發生一次故障。其中一半的故障，都是由於GPU 或其板載 HBM3 記憶體問題。

超級電腦是極其複雜的裝置，使用數以萬計的處理器、數十萬個其他晶片和數百英里的電纜連接在一起。在一台複雜的超級電腦中，每隔幾個小時就會發生故障，這是正常的，開發人員的主要技巧是儘量確保系統保持正常運行，無論這種局部故障如何。

比如高達16,384個H100 GPU 訓練的規模和同步性質使其容易失敗。如果故障未得到正確緩解，單個 GPU 故障可能會中斷整個訓練作業，從而需要重啟。然而，LLAMA 3 團隊保持了超過90%的有效訓練時間。

總結來說，在為期 54 天的訓練中，有 466 次工作中斷，其中 47 次是計畫性的，419 次是意外的。計畫內中斷是由於自動化維護造成的，而意外的中斷主要源於硬體問題。其中，GPU 問題是最大的一類，佔意外中斷的 58.7%。只有三起中斷事件需要大量的人工干預，其餘的則由自動化管理。

在 419 次意外中斷中，148 次（30.1%）是由各種 GPU 故障（包括 NVLink 故障）引起的，而 72 次（17.2%）是由 HBM3 記憶體故障引起的，這並不奇怪，因為 Nvidia 的 H100 GPU 消耗約 700W 並承受大量熱應力。有趣的是，在 54 天內只有兩個 CPU 出現故障。

雖然 GPU 是最重要的元件，但恰好也很脆弱，但 41.3% 的意外中斷是由多種因素引起的，包括軟體錯誤、網路電纜和網路介面卡。

為了提高效率，Meta 的團隊減少了作業啟動和檢查點時間，並開發了專有的診斷工具。PyTorch 的 NCCL 飛行記錄器被廣泛用於快速診斷和解決掛起和性能問題，尤其是與 NCCLX 相關的問題。該工具可捕獲集體中繼資料和堆疊跟蹤，有助於快速解決問題。 (芯智訊)

最近長文

關於鉅亨號

「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台，從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事；對創作者而言更是一個直接能與1,000萬用戶互動的舞台。

最好用的投資平台，幫你找到最適合自己的標的

看真實的投資分享文章，跟隨達人腳步取得最佳利益

多元投資社群平台，掌握最新市場動態熱門議題