最近,輝達團隊推出了全新的模型Nemotron-4,150億參數,在8T token上完成了訓練。
值得一提的是,Nemotron-4在英語、多語言和編碼任務方面令人印象深刻。
論文網址:https://arxiv.org/abs/2402.16819
在7個評估基準上,與同等參數規模的模型相比,Nemotron-4 15B表現優異。
甚至,其性能超過了4倍大的模型,以及專用於多語言任務的模型。
如今LLM已經非常多了,輝達新發布的語言模型,有何不同?
打造最強通用LLM,單一A100/H100可跑
而過去,研究主要針對模型大小進行縮放。
研究表明,給定兩個數據分佈類似的IsoFLOP GPT模型,一個是在1.4萬億token上的65億參數模型,另一個是3000億token上的2800億參數模型。
顯然,65B的模型在下游任務上的準確性更高。
從推理的角度來看,將計算分配給更多資料的訓練,而不是增加模型大小特別有吸引力,可以減少延遲和服務模型所需的計算量。
因此,語言建模訓練工作的主要焦點已轉向從CommonCrawl等公共資源中,收集高品質的數萬億token資料集。
對此,輝達研究人員提出了Nemotron-4 15B,來延續這一趨勢。
具體來說,Nemotron-4 15B是在8兆個token,包括英語、多語種、編碼文本的基礎上進行訓練。
輝達稱,Nemotron-4 15B的開發目的:
成為能在單一輝達A100或H100 GPU上運作的最佳「通用大模型」。
架構介紹
核心的超參數,如表1所示。
Nemotron-4有32億個嵌入參數和125億個非嵌入參數。
研究人員使用旋轉位置編碼(RoPE)、SentencePiece分詞器、MLP層的平方ReLU活化、無偏置項(bias terms)、零遺失率,以及無限的輸入輸出嵌入。
透過分組查詢關注(GQA),可實現更快的推理和更低的記憶體佔用。
數據
研究人員在包含8兆個token的預訓練資料集上訓練Nemotron-4 15B。
分為三種不同類型的資料:英語自然語言資料(70%)、多語言自然語言資料(15%)和原始碼資料(15%)。
英語語料庫由來自各種來源和領域的精選文件組成,包括網頁文檔、新聞文章、科學論文、書籍等。
程式碼和多語言資料包括一組多樣化的自然語言和程式語言。
研究人員發現,從這些語言中適當地採樣token是在這些領域中獲得高準確度的關鍵。
此外,研究人員分別在圖3和圖4中共享預訓練資料集中用於代碼和多語言標記的分佈。
預訓練
Nemotron-4使用384個DGX H100節點進行訓練。每個節點包含8個基於輝達Hopper架構的H100 80GB SXM5 GPU。
在執行無稀疏性的16位元浮點(bfloat16)算術時,每個H100 GPU的峰值吞吐量為989 teraFLOP/s。
每個節點內,GPU透過NVLink和NVSwitch(nvl)連接;GPU到GPU的頻寬為900 GB/s(每個方向450 GB/s)。
每個節點都有8個NVIDIA Mellanox 400 Gbps HDR InfiniBand主機通道適配器(HCA),用於節點間通訊。
研究人員使用8路張量並行和資料並行的組合來訓練模型,也使用了分散式優化器,將優化器狀態分片到資料並行副本上。隨著批次大小的增加,資料並行度從96增加到384。
表2總結了批次大小提升的3個階段,包括每次迭代時間和模型FLOP/s利用率(MFU)。MFU量化了GPU在模型訓練中的利用效率。訓練大約在13天內完成。
再訓練
與最近的研究類似,研究人員發現在模型訓練結束時,切換資料分佈和學習率衰減時間表,可以大大提高模型品質。
具體來說,在對整個8T預訓練資料集進行訓練之後,使用相同的損失目標,並對與預訓練token相比的較少的token進行持續訓練。
在這額外的繼續訓練階段,利用兩種不同的資料分佈。
第一個分佈是,從持續訓練期間大部分token採樣。它利用在預訓練期間已經引入的token,但其分佈將更大的採樣權重放在更高品質來源上。
第二個分佈,引入了少量基準式對齊範例,以更好地讓模型在下游評估中回答此類問題,同時也增加來自模型效能較低區域的資料來源的權重。
實驗結果
常識推理
作者使用LM-Evaluation Harness在所有上述任務中評估Nemotron-4 15B。
表3顯示了Nemotron-4 15B在這組不同的任務中實現了最強的平均表現。
熱門的綜合基準
從表4可以看出,Nemotron-4 15B在現有模型中獲得了BBH的最佳分數,增加了近7%。
此外,Nemotron-4在BBH基準測試中明顯優於LLaMA-2 70B模型,其中LLaMA-2 70B的得分為51.2,Nemotron-4的得分為58.7。
Nemotron-4 15B另外還獲得了極具競爭力的MMLU分數。
數學和程式碼
表5重點介紹了Nemotron-4 15B在數學和程式碼任務上的表現。
具體來說,在數學推理上,Nemotron-4 15B表現強勁,得分與Gemma 7B相似,但落後於Baichuan-2和QWEN等模型。
在程式碼任務中,Nemotron-4的效能與QWEN 14B相當,但略落後於Gemma 7B。
在這兩種類型的任務中,Nemotron-4 15B的效能均優於Mistral 7B和LlaMA-213B/34B。
幾乎所有類似規模的開放模型都只根據Python相關任務的表現來確定其程式碼能力,而忽略了對其他程式語言能力的評估。
在表6中,展示了Nemotron-4 15B在Multiple-E基準上的結果,涉及11種不同的程式語言。
結果發現,Nemotron-4 15B在各種程式語言中都有很強的編碼性能,平均性能優於Starcoder和Mistral 7B。
研究人員特別強調了Nemotron-4 15B在Scala、Julia和R等低資源程式語言上的卓越表現。
多語言
分類
在表7中,可以清楚地看到Nemotron-4在所有模型中實現了最佳性能,在4次設定中實現了近12%的改進。
產生
表8顯示Nemotron-4 15B實現了最佳性能。
令人印象深刻的是,Nemotron-4 15B能夠顯著改善下一個最佳模型PaLM 62B-cont。
表9顯示了MGSM上的效能,進一步證明了Nemotron-4 15B令人印象深刻的多語言能力。
在這項評估數學和多語言能力交集的挑戰性任務中,Nemotron-4 15B在比較模型中實現了最佳性能,並且比最接近的分數提高了近30%。
機器翻譯
如表10所示,Nemotron-4 15B的性能遠優於LLaMA-2 13B和Baichuan-2 13B,性能分別提高了90.2%和44.1%。
Nemotron-4 15B不僅在中文翻譯成英文方面表現出色,而且在中文直接翻譯成其他語言方面也能取得令人印象深刻的效果。
這種能力凸顯了Nemotron-4 15B對廣泛的自然語言的深刻理解。
參考資料:
https://arxiv.org/abs/2402.16819
~新智元