10秒生成4分鐘音樂，8GB視訊記憶體就能跑！已登Hugging Face趨勢榜一

2025/03/12

•

DiffRhythm是一款新型AI音樂生成模型，能在10秒內生成長達4分45秒的完整歌曲，包含人聲和伴奏。它採用簡單高效的全diffusion架構，僅需歌詞和風格提示即可創作，還支援本地部署，最低只需8G視訊記憶體。

音樂創作，尤其是完整歌曲的生成，一直是人工智慧領域的一大挑戰。

Suno、Udio等商用音樂生成大模型展現出驚人的音樂生成能力。但現有開放原始碼的音樂生成模型要麼只能生成人聲或伴奏，要麼依賴複雜的多階段架構，難以擴展到長音訊生成。

而現在，AI音樂破局時刻到了！

近日，西北工業大學音訊語音與語言處理實驗室（ASLP@NPU）和香港中文大學（深圳）的研究團隊提出了一種名為DiffRhythm（中文名：諦韻）的新型音樂生成AI模型，全diffusion架構，它能夠在短短10秒內生成長達4分45秒的不同風格完整雙軌高保真歌曲，包含人聲和伴奏！

最低僅需8G視訊記憶體，可本地部署到消費級顯示卡！

這一成果不僅刷新了音樂生成的速度，還大大簡化了生成流程，讓音樂創作變得更加高效和便捷。模型完全採用華為昇騰910B訓練，同時支援N卡。

目前模型和推理程式碼全部開源。開源短短幾天位列Hugging Face Space趨勢榜第一和總榜第五，受到眾多網友和音樂愛好者廣泛好評。

DiffRhythm：簡單、快速、高品質

DiffRhythm 的核心優勢在於它的簡潔性和高效性。在模型方面它摒棄了複雜的多階段架構，採用了一個簡單的基於LLaMA的DiT，只需要歌詞和風格提示即可生成歌曲。

這種非自回歸結構確保了快速的推理速度，相比現有的語言模型方法，DiffRhythm的速度提升顯著，更適合即時應用和使用者互動。在資料方面，僅需音訊與對應歌詞，無需複雜資料處理標註流程，易於scale up到巨量資料。

DiffRhythm以歌詞和風格提示輸入，生成44.1kHz採樣率全長立體聲音樂作品（最長4分45秒）。

DiffRhythm由兩個順序訓練的模型組成：1) 變分自編碼器 (VAE)，學習音訊波形的緊湊潛在表示，使得分鐘級長音訊建模成為可能；2) DiT 建模 VAE 的潛在空間，通過迭代去噪生成歌曲。

在歌曲生成中，歌詞與歌聲的對齊是一個極具挑戰性的問題，可以概括為以下兩個方面：

為瞭解決這些問題，DiffRhythm 提出了一種句子級對齊機制。具體來說，該機制僅依賴於句子起始時間的標註，通過以下步驟實現歌詞與歌聲的對齊：

句子分割與音素轉換：首先，將歌詞按照句子分割，並通過 Grapheme-to-Phoneme (G2P) 轉換將每個句子轉換為音素序列。
初始化潛在序列：建立一個與潛在表示長度相同的序列，並用填充符號（<pad>）初始化。
對齊音素與潛在表示：根據歌詞句子的起始時間戳，將音素序列對應到潛在表示的對應位置。例如，如果一個句子的起始時間是 10 秒，那麼對應的音素序列將被放置在潛在表示的第 10 秒位置。

通過這種方式，DiffRhythm 只需要句子起始時間的標註，即可實現歌詞與歌聲的對齊。

考慮到大量歌曲資料都以壓縮後的MP3格式存在，而高頻細節在壓縮過程中會受到損害，我們採用資料增強來賦予VAE修復功能。

具體來說，VAE以無損FLAC格式資料進行訓練，其中輸入經過MP3壓縮，而重建目標仍然是原始無損資料。通過這種有損到無損的重建過程，VAE學會將從失真壓縮資料中得出的潛在表示解碼回無損音訊訊號。

DiffRhythm的表現令人印象深刻。在音訊重建方面，它在無損和失真壓縮條件下都優於現有的基線模型。

在可視化分析中，可以看到DiffRhythm VAE可以有效修復MP3壓縮損失

在歌曲生成方面，DiffRhythm的生成歌曲在音質、音樂性和歌詞可理解性上都表現出色，與現有的SongLM模型相比，DiffRhythm的歌詞清晰度更高，推理速度更快。

儘管DiffRhythm已經可以快速生成整首歌曲，但仍有進一步最佳化的空間。例如，未來可能會通過在訓練中引入隨機掩碼來支援對生成歌曲的特定片段進行編輯。

此外，DiffRhythm 未來可能會引入自然語言條件機制，以實現更精細的風格控制，從而無需依賴音訊參考。

參考資料：

https://arxiv.org/abs/2503.01183 (新智元)