#音樂模型 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#音樂模型

中國首個！純中文AI音樂模型殺瘋了，全面接入10億人的抖音

受夠了Suno的「洋腔洋調」？十億級國產AI音樂大模型殺出重圍！單卡10秒直出正宗華語歌，一口氣打穿抖音、剪映等7大平台。AI寫歌賺錢，終於閉環了。國人專屬的AI音樂引擎，全面上線了！自Suno掀起AI音樂的「ChatGPT時刻」以來，這條賽道就沒安靜過。海內外玩家一擁而上，模型一代比一代能打，生成的歌越來越長、音質越來越好。

中國AI音樂，悄悄把全球第一拿走了

中國AI音樂，悄悄把全球第一拿走了——崑崙萬維Mureka V8，最新登頂Artificial Analysis音樂模型榜，一舉超越Suno V4.5、Udio v1.5 Allegro等國際主流模型。而且還是人聲（vocal）、器樂（instrument）雙料第一那種。那麼問題來了，這個新鮮出爐的“雙料第一”到底有多能打？咱直接實測說話。人聲、器樂雙實測先看最直觀的人聲。這塊兒我們先給出了一個極簡提示詞，不加複雜的結構和參數，就看Mureka V8最原始的理解和生成能力：晚風民謠，溫柔女聲，黃昏鄉間的慢時光。怎麼說？AI唱歌是不是太有真人感了！！吐字清晰咱就不提了，關鍵在細節。第四句開頭能聽到一個明顯的換氣聲，再往後，幾處歌詞結尾也明顯能聽出氣息的上揚or下落處理。這種呼吸起伏恰到好處地在曲子裡穿插銜接，非常自然，而不是那種生硬堆砌。還有溫柔這個標籤，不只是貼在聲音上，在段落的推進上也貫穿始終。主歌更克制、更貼耳、氣息更輕；副歌才稍微把聲帶打開，情緒抬起來，不過這種情緒依然是收著的，沒有用力過猛。木吉他帶入，人聲一出，田間、黃昏、晚風……這愜意感簡直撲面而來。聽完民謠，我們又甩給Mureka V8一個極其刁鑽的指令。“曲風要Pop Rock和R&B混著來，節奏要卡死在72BPM的慢板，人聲還得在幾個段落裡來回切換：第一段氣聲唱法是那種沙沙的、帶點破碎感的聲音；副歌直接切搖滾嗓，帶嘶吼的那種；間奏再來一段R&B轉音，最後用假聲慢慢收尾。”沒想到這反覆橫跳的刁鑽需求，還真被Mureka V8給跑出來了，聽上去完成得不錯（doge）。幾種狀態截然不同的絲滑轉聲，中間切換還不斷檔、不卡頓。好吧我承認V8你的唱商在我之上……再讓AI試試玩樂器。一提到樂器，英式搖滾樂隊The Kinks的《You Really Got Me》簡直不要太出名——這首歌的前奏，是一段1960年代最具標誌性的失真吉他riff。所謂riff就是一段簡短、重複、極具辨識度的樂器樂句，通常是吉他或貝斯演奏，構成整首歌的記憶點。而Mureka V8在學到這種技巧後，為我們生成了一首純器樂演奏曲《Got Me Going》：就問有誰不想邊聽邊搖頭抖腿呢（笑.jpg）。開頭的riff味道非常正，一下子就把記憶點拉滿，然後整個器樂編排也十分有畫面感——一聽就知道人已經坐在酒館或Livehouse台下了，而此時台上正有一支帥氣逼人的樂隊在演奏，還是邊演邊跳舞那種。u1s1，AI生成的器樂演奏如今能到這個水平，確實給了人很大驚喜。聽完之後，你會很明顯感受到它對不同樂器特性、歌曲意境的理解等，都往前邁出了一大步。而當這種器樂演奏能力和人聲能力相結合之後，Mureka V8曾被反覆提及的一點，也愈發清晰——它所生成的，已經不再是一段“AI音訊片段”，而是一首結構完整、情感連貫、製作精良的“歌”。換句話說，它知道什麼時候該唱、情緒怎麼推進、用什麼樂器以及該怎麼用。這種近乎專業音樂人的創作能力，讓它真正跨越了一條從“可生成”到“可直接發佈”的線。因為懂音樂，所以可以直接生成“歌”。而能夠生成一首完整的“歌”，則意味著普通人無需專業訓練也能擁有屬於自己的作品——人人都能參與創作發表的時代，真的來了。至此，靠著“雙料第一”實力打底的Mureka V8，也把AI音樂直接捲到了新的高度。三個月一更，崑崙萬維太捲了不過實測一圈下來，我就想知道：它這股子暴力進化感是咋做到的？答案大概藏在那條密密麻麻的時間線裡——崑崙萬維這家公司在AI音樂的賽道上簡直捲瘋了。2024年2月SkyMusic 1.0內測起步，到了2026年1月，Mureka V8正式發佈，滿打滿算不到兩年時間，硬生生迭代了8個大版本。什麼概念？平均三個月一更？！能這麼玩，到底是在燒錢還是真憋著一口氣要把這事兒幹成？從結果來看，崑崙萬維應該是後者。回看Mureka這不到兩年的進化史，其實就是一個把“AI音樂好聽”從玄學變成可量化、可復現的工業化生產能力的迭代過程。第一階段是從不能用到能用。SkyMusic 1.0當時還只是個能跑通的內測版本，那時候團隊就盯著一件事，先把端到端“能用”這件事做出來，跑通訓練到評測的基礎閉環。緊接著兩個月後，2.0版本就直接把中英文版本上線到天工，這時候的AI音樂勉強算是邁過了“能出聲、不鬼畜”的門檻。第二階段是從能用到好用。到了2024年8月，產品迎來3.0到4.0大版本躍遷，解決了規模化的問題。崑崙萬維這次不僅落地了Mureka首個超大規範本本，建構起穩定的規模化基模能力，還在聽感和音質方面還實現了“肉耳可聽”的級數躍遷。獨立產品也借此殺出重圍，正式切入市場。到了5.0/5.5版本，多語種工程化能力補齊，Mureka開始在全球市場刷臉。進入2025年，隨著MusiCoT和更系統化的強化學習跑成閉環，模型開始具備主動思考的能力。這時候的Mureka就不是盲目撞大運了，擁有了先規劃音樂框架、敲定配器細節和情緒，再按邏輯推進創作的主動能力。第三階段是從好用到直接生產可發佈內容。到了V8，量變終於引起了質變。人聲的呼吸感、樂器的空間感、混音的專業度讓它在AA榜單雙料登頂，直接干翻了Suno和Udio。這一步跨了兩年，但崑崙萬維是真跨過去了。所以那套看似“超速”的迭代節奏，好像也沒那麼“瘋”了——不這麼卷，怎麼在兩年內把一個從零開始的模型做到全球第一？說它卷它還真沒完！！V8發佈剛剛過去兩個月，基於MusiCoT進一步深化的Mureka V9就要來了……Mureka V8解決了AI音樂“能寫出來”這件事，至於V9捲成了什麼樣嘛——咱只能說，它琢磨的是“能按你想的方式寫出來”。不懂？3月27日看發佈會估計你就懂了。AI音樂，這下得看北京了當然了，即使不談Mureka V9，僅從V8的兩次登頂，我們也已經能看到一個更清晰的變化：“東昇西落”正在AI音樂這個垂類賽道上演。之所以這樣說，是因為過去很長一段時間，AI音樂基本是太平洋那頭的主場，出名的模型也就那幾家。包括這次提到的Suno、Udio等，基本有一個算一個。但是現在，以崑崙萬維Mureka V8為代表的國產模型，卻悄然間拿回了主動權。說到這裡有人或許就好奇了，為什麼會出現這種反轉？答案，其實早就已經浮出水面了。一旦把這件事放在一個更大的背景下來看，你會發現，“東昇西落”幾乎已經成了各個AI賽道必然會出現的一幕景象。從引爆這輪AI革命的大語言模型，到最近掀起熱潮的“龍蝦”，劇本基本都一樣——前期由海外公司完成技術引爆，後期則由國產團隊實現追趕，甚至反超。到現在，國產開源已經成了比肩閉源的重要力量、國產模型被海外公司“友好借鑑”拿去玩“龍蝦”……人們總是後知後覺發現，很多原本以為的“追趕”，其實早就變了。而這一切背後的邏輯，其實大家也都心知肚明。放在製造業領域，大家會說這是因為有“中國製造”；而放在網際網路科技、放在AI領域，答案則是“中國速度”“中國規模”“中國場景”。一方面，國內這批AI玩家基本都經歷過網際網路從誕生到發展的完整時期，所以他們很熟悉那套“小步快跑、不斷根據使用者反饋進行迭代”的打法。可以說，相比從0到1，我們尤為擅長從1到100。另一方面，在內容、場景和使用者規模上，國內也擁有得天獨厚的“練兵場”——無論是龐大的網際網路使用者群體、豐富多元的應用場景，還是足夠複雜的內容生態，都給國產模型提供了快速試錯、持續最佳化的土壤。相應地，國產AI也能更快形成“飛輪效應”。而這些，也同樣正在支撐著AI音樂賽道的發展。所以，此時國產玩家裡有人能“站出來、站起來”，也就不足為奇了。至於為什麼會是崑崙萬維，上一部分也已經說了很多了——圍繞把“好聽”變成可復現的系統能力這個目標，他們對AI音樂這個垂類賽道進行了長期持續投入。俗話說，水滴石穿、繩鋸木斷。所以如今能有這個結果，也算是水到渠成的事情。再加上崑崙萬維還是北京市人工智慧產業的科技創新代表，所以登頂這件事本身也多了另一層象徵意義：AI音樂，往後高地就是北京了。據說，崑崙萬維還會在3.27（本周五）舉辦的中關村論壇開專場發佈會。屆時Mureka V9，應該會有更多詳情和介紹。 (量子位)

Google發佈Lyria 3 AI音樂模型，Gemini一鍵生成30秒高保真歌曲

Google旗下DeepMind發佈了最新AI音樂生成模型Lyria 3，該模型已率先整合至Gemini桌面端應用，未來幾日將逐步登陸移動端，面向全球18歲及以上使用者免費開放。據悉，作為Lyria系列模型的重大升級版本，Lyria 3支援通過文字、圖片、視訊等多模態輸入生成原創音樂，進一步降低了音樂創作的專業門檻，同時聯動YouTube生態，為內容創作者提供全新工具。根據官方介紹，Lyria 3相較於前代模型實現了三大核心升級。首先，該模型支援自動生成歌詞，使用者無需自行撰寫，只需通過提示詞描述音樂的主題、風格或情緒，模型便可自動創作匹配的歌詞與旋律。其次，使用者可實現更精細的創作控制，通過提示詞精準指定曲風、人聲類型、節奏速度等音樂元素。此外，Lyria 3生成的音軌在樂器層次、人聲真實感和音樂結構上均有顯著提升，音質更接近專業製作水準，打破了前代模型輸出內容相對單薄的侷限。在使用場景與操作便捷性上，使用者只需打開Gemini應用，在“工具”下拉菜單中找到帶有音符圖示的“音樂”選項，即可啟動創作功能，Google同步發佈的Lyria 3提示詞指南，可幫助使用者快速上手。此外，Lyria 3不僅整合於Gemini應用，還同步接入了YouTube的Dream Track功能，助力短影片創作者為Shorts生成定製化背景音樂，該功能此前僅面向美國使用者，此次隨Lyria 3的發佈向全球擴展。此外，開發者可通過Google Cloud上的Vertex AI API使用Lyria模型（當前API版本為lyria-002），以程式設計方式生成音樂，適配視訊配樂、廣告創作、遊戲音效製作等商業場景。使用權限方面，Lyria 3目前支援英語、德語、西班牙語、法語、印地語、日語、韓語和葡萄牙語8種語言，後續將逐步增加更多語言支援。所有18歲及以上的Gemini使用者均可免費使用該功能，而訂閱Google AI Plus、AI Ultra等付費服務的使用者，將享有更高的音樂生成額度，具體額度Google暫未明確披露。 (TechWeb)

Google Lyria 3（AI音樂生成模型）發佈 + AI 音樂模型對比

Google DeepMind 推出的 Lyria 3 （2.19發佈）是其目前最先進的 AI 音樂生成模型，已正式整合進 Gemini 應用程式中。與之前的版本相比，它不再僅僅是實驗性質，而是成為了一個功能齊全的創意工具，字、圖片、視訊都能秒變音樂。Lyria 3 的功能細節非常豐富，它不僅是一個“文字轉音樂”的工具，更是一個深度整合的多模態創作引擎。以下是根據最新技術文件整理的具體功能細節：1. 多模態輸入（Multimodal Inputs）Lyria 3 最強大的地方在於它能“看圖/視訊說話”：圖像轉音樂：你可以上傳一張日落、聚會或寵物的照片，Lyria 3 會分析照片的色彩、氛圍和主體，生成一段情緒契合的背景音樂。視訊轉音樂：支援上傳視訊短片，模型會捕捉視訊的節奏感（如剪輯點或動作頻率）來合成配樂。跨媒介觸發：你甚至可以把一封“入職歡迎郵件”或一段“冷笑話”作為提示，它會將其轉化為一段充滿幽默感或職業感的音樂短片。2. 音樂控制與生成參數對於有進階需求的使用者，Lyria 3 提供了更專業的調節維度：時長與格式：生成音軌的標準長度為 30 秒（在 Vertex AI 專業版中可精確到 32.8 秒），輸出格式為高品質的 48kHz WAV 檔案。負向提示詞 (Negative Prompting)：你可以明確要求“不要人聲”、“不要電子合成器”或“避開憂鬱的情緒”，以精準排除不需要的元素。種子值 (Seed)：支援設定 Seed 值，這意味著如果你對某次生成的旋律很滿意，可以固定 Seed 並微調提示詞，從而實現可重複、可迭代的創作。自動歌詞與演唱：相比 Lyria 2 隻能生成純音樂，Lyria 3 可以根據主題自動編寫歌詞，並以極其自然的人聲（支援多種語言）演唱出來。3. 全自動化配套功能視覺包裝：每次生成音樂時，系統會呼叫 Nano Banana 圖像模型，同步生成一張風格統一的自訂專輯封面圖。即時“即興” (Lyria RealTime)：通過 API，Lyria 3 具備低延遲的“即興演奏”能力，能像樂隊樂手一樣根據你不斷輸入的指令即時改變正在播放的音樂（如改變 BPM 或增加樂器密度）。4. 內容安全與識別SynthID 數字水印：這是 Google 的核心技術，在音訊頻譜中嵌入人耳聽不到、但演算法可識別的水印。即使經過壓縮、剪輯，仍能追溯其為 AI 生成。版權過濾：內建了嚴格的過濾器。如果你要求“創作一段像周杰倫風格的歌”，它會生成具有“華語流行/鋼琴”特徵的原創樂曲，而不會直接挪用其受版權保護的旋律或音色。相比於目前市面上主流的 AI 音樂模型（如 Suno 和 Udio），Google 的 Lyria 3（及其背後的 Lyria 系列架構）走的是一條完全不同的道路。如果說 Suno 和 Udio 是“AI 唱片公司”，那麼 Lyria 3 更像是“AI 創意副駕駛”。以下是 Lyria 3 的核心優勢對比：1. 真正的“多模態”理解力Suno/Udio：主要依賴文字（Text-to-Audio）。雖然現在也支援音訊上傳（Audio Upload），但大多是作為旋律參考。Lyria 3 的優勢：它深度整合了 Google 的視覺能力。你可以直接上傳照片或視訊，它能自動“讀懂”畫面裡的情緒、節奏和場景，並生成匹配的 BGM。這種“視覺到音樂”的直覺化創作是其他模型目前難以比擬的。2. 創作的“可互動性”與“精準度”Suno/Udio：傾向於“抽卡式”生成。你輸入一段話，它給你 2-4 分鐘的完整歌曲。如果你不喜歡某一部分，修改起來相對死板（儘管 Udio 的 Inpainting 局部重繪功能正在改善這一點）。Lyria 3 的優勢：強調即時性與細粒度控制。它可以根據你的指令即時調整樂器密度或節奏 (BPM)。它可以處理複雜的指令，比如“在 15 秒處加入一段激昂的鼓點，同時保持人聲的輕柔”，這在專業音訊製作中更具實用價值。3. 版權與合規性的“國家隊”標準Suno/Udio：目前正面臨大型唱片公司的侵權訴訟（如索尼、環球等），因為它們的訓練資料被質疑包含大量版權音源，且有時會生成與知名歌手極度相似的聲音。Lyria 3 的優勢： * 合法授權： Google 與 YouTube 旗下的眾多藝術家（如 Charlie Puth、T-Pain 等）達成了直接合作，通過 Dream Track 功能合法使用他們的聲線特徵。強制水印：內建 SynthID。這讓 Lyria 3 生成的內容在專業分發管道（如廣播、商業廣告）中更具安全性，因為它的身份是可追溯、可審計的。4. 生態系統的整合Suno/Udio：獨立平台。生成的音樂需要你手動下載，再匯入剪輯軟體。Lyria 3 的優勢：它是 Gemini 全家桶的一部分。你可以先讓 Gemini 寫詩，然後一鍵轉為歌詞，再由 Lyria 生成音樂，最後由 Nano Banana 生成封面。它與 YouTube Shorts 無縫銜接，創作者可以直接在視訊編輯流中生成專屬配樂。出路在那裡？大部分使用者不關心大模型，使用者只關好用不好用。圖形圖像裡面的例子，美圖秀秀，或者剪映等產品，使用者並不會關心底層的大模型到底是不是自研發或者套殼其他家，只需要好用就行。做好應用層，滿足不同類型使用者的需求。給專業的使用者，做生產力工具，基於這個工具能賺到錢。給大眾使用者，做玩具，和AI修圖一樣的可以簡單做出來一些好玩，可以拿出來炫耀的東西。 (出海流量玄學研究)