中國AI音樂,悄悄把全球第一拿走了

中國AI音樂,悄悄把全球第一拿走了——

崑崙萬維Mureka V8,最新登頂Artificial Analysis音樂模型榜,一舉超越Suno V4.5、Udio v1.5 Allegro等國際主流模型。

而且還是人聲(vocal)、器樂(instrument)雙料第一那種。

那麼問題來了,這個新鮮出爐的“雙料第一”到底有多能打?

咱直接實測說話。

人聲、器樂雙實測

先看最直觀的人聲

這塊兒我們先給出了一個極簡提示詞,不加複雜的結構和參數,就看Mureka V8最原始的理解和生成能力:

晚風民謠,溫柔女聲,黃昏鄉間的慢時光。

怎麼說?AI唱歌是不是太有真人感了!!

吐字清晰咱就不提了,關鍵在細節。

第四句開頭能聽到一個明顯的換氣聲,再往後,幾處歌詞結尾也明顯能聽出氣息的上揚or下落處理。

這種呼吸起伏恰到好處地在曲子裡穿插銜接,非常自然,而不是那種生硬堆砌。

還有溫柔這個標籤,不只是貼在聲音上,在段落的推進上也貫穿始終。

主歌更克制、更貼耳、氣息更輕;副歌才稍微把聲帶打開,情緒抬起來,不過這種情緒依然是收著的,沒有用力過猛。

木吉他帶入,人聲一出,田間、黃昏、晚風……這愜意感簡直撲面而來。

聽完民謠,我們又甩給Mureka V8一個極其刁鑽的指令。

“曲風要Pop Rock和R&B混著來,節奏要卡死在72BPM的慢板,人聲還得在幾個段落裡來回切換:

第一段氣聲唱法是那種沙沙的、帶點破碎感的聲音;

副歌直接切搖滾嗓,帶嘶吼的那種;

間奏再來一段R&B轉音,最後用假聲慢慢收尾。”

沒想到這反覆橫跳的刁鑽需求,還真被Mureka V8給跑出來了,聽上去完成得不錯(doge)。

幾種狀態截然不同的絲滑轉聲,中間切換還不斷檔、不卡頓。

好吧我承認V8你的唱商在我之上……

再讓AI試試玩樂器

一提到樂器,英式搖滾樂隊The Kinks的《You Really Got Me》簡直不要太出名——

這首歌的前奏,是一段1960年代最具標誌性的失真吉他riff。

所謂riff就是一段簡短、重複、極具辨識度的樂器樂句,通常是吉他或貝斯演奏,構成整首歌的記憶點。

而Mureka V8在學到這種技巧後,為我們生成了一首純器樂演奏曲《Got Me Going》:

就問有誰不想邊聽邊搖頭抖腿呢(笑.jpg)。

開頭的riff味道非常正,一下子就把記憶點拉滿,然後整個器樂編排也十分有畫面感——

一聽就知道人已經坐在酒館或Livehouse台下了,而此時台上正有一支帥氣逼人的樂隊在演奏,還是邊演邊跳舞那種。

u1s1,AI生成的器樂演奏如今能到這個水平,確實給了人很大驚喜。

聽完之後,你會很明顯感受到它對不同樂器特性、歌曲意境的理解等,都往前邁出了一大步。

而當這種器樂演奏能力和人聲能力相結合之後,Mureka V8曾被反覆提及的一點,也愈發清晰——

它所生成的,已經不再是一段“AI音訊片段”,而是一首結構完整、情感連貫、製作精良的“歌”

換句話說,它知道什麼時候該唱、情緒怎麼推進、用什麼樂器以及該怎麼用。

這種近乎專業音樂人的創作能力,讓它真正跨越了一條從“可生成”到“可直接發佈”的線。

因為懂音樂,所以可以直接生成“歌”。

而能夠生成一首完整的“歌”,則意味著普通人無需專業訓練也能擁有屬於自己的作品——

人人都能參與創作發表的時代,真的來了。

至此,靠著“雙料第一”實力打底的Mureka V8,也把AI音樂直接捲到了新的高度。

三個月一更,崑崙萬維太捲了

不過實測一圈下來,我就想知道:它這股子暴力進化感是咋做到的?

答案大概藏在那條密密麻麻的時間線裡——

崑崙萬維這家公司在AI音樂的賽道上簡直捲瘋了。

2024年2月SkyMusic 1.0內測起步,到了2026年1月,Mureka V8正式發佈,滿打滿算不到兩年時間,硬生生迭代了8個大版本。

什麼概念?平均三個月一更?!

能這麼玩,到底是在燒錢還是真憋著一口氣要把這事兒幹成?

從結果來看,崑崙萬維應該是後者。

回看Mureka這不到兩年的進化史,其實就是一個把“AI音樂好聽”從玄學變成可量化、可復現的工業化生產能力的迭代過程。

第一階段是從不能用到能用

SkyMusic 1.0當時還只是個能跑通的內測版本,那時候團隊就盯著一件事,先把端到端“能用”這件事做出來,跑通訓練到評測的基礎閉環。

緊接著兩個月後,2.0版本就直接把中英文版本上線到天工,這時候的AI音樂勉強算是邁過了“能出聲、不鬼畜”的門檻。

第二階段是從能用到好用

到了2024年8月,產品迎來3.0到4.0大版本躍遷,解決了規模化的問題。

崑崙萬維這次不僅落地了Mureka首個超大規範本本,建構起穩定的規模化基模能力,還在聽感和音質方面還實現了“肉耳可聽”的級數躍遷。

獨立產品也借此殺出重圍,正式切入市場。

到了5.0/5.5版本,多語種工程化能力補齊,Mureka開始在全球市場刷臉。

進入2025年,隨著MusiCoT和更系統化的強化學習跑成閉環,模型開始具備主動思考的能力

這時候的Mureka就不是盲目撞大運了,擁有了先規劃音樂框架、敲定配器細節和情緒,再按邏輯推進創作的主動能力。

第三階段是從好用到直接生產可發佈內容

到了V8,量變終於引起了質變。

人聲的呼吸感、樂器的空間感、混音的專業度讓它在AA榜單雙料登頂,直接干翻了Suno和Udio。

這一步跨了兩年,但崑崙萬維是真跨過去了。

所以那套看似“超速”的迭代節奏,好像也沒那麼“瘋”了——

不這麼卷,怎麼在兩年內把一個從零開始的模型做到全球第一?

說它卷它還真沒完!!

V8發佈剛剛過去兩個月,基於MusiCoT進一步深化的Mureka V9就要來了……

Mureka V8解決了AI音樂“能寫出來”這件事,至於V9捲成了什麼樣嘛——

咱只能說,它琢磨的是“能按你想的方式寫出來”

不懂?3月27日看發佈會估計你就懂了。

AI音樂,這下得看北京了

當然了,即使不談Mureka V9,僅從V8的兩次登頂,我們也已經能看到一個更清晰的變化:

“東昇西落”正在AI音樂這個垂類賽道上演

之所以這樣說,是因為過去很長一段時間,AI音樂基本是太平洋那頭的主場,出名的模型也就那幾家。

包括這次提到的Suno、Udio等,基本有一個算一個。

但是現在,以崑崙萬維Mureka V8為代表的國產模型,卻悄然間拿回了主動權。

說到這裡有人或許就好奇了,為什麼會出現這種反轉?

答案,其實早就已經浮出水面了。

一旦把這件事放在一個更大的背景下來看,你會發現,“東昇西落”幾乎已經成了各個AI賽道必然會出現的一幕景象。

從引爆這輪AI革命的大語言模型,到最近掀起熱潮的“龍蝦”,劇本基本都一樣——

前期由海外公司完成技術引爆,後期則由國產團隊實現追趕,甚至反超

到現在,國產開源已經成了比肩閉源的重要力量、國產模型被海外公司“友好借鑑”拿去玩“龍蝦”……人們總是後知後覺發現,很多原本以為的“追趕”,其實早就變了。

而這一切背後的邏輯,其實大家也都心知肚明。

放在製造業領域,大家會說這是因為有“中國製造”;而放在網際網路科技、放在AI領域,答案則是“中國速度”“中國規模”“中國場景”。

一方面,國內這批AI玩家基本都經歷過網際網路從誕生到發展的完整時期,所以他們很熟悉那套“小步快跑、不斷根據使用者反饋進行迭代”的打法。

可以說,相比從0到1,我們尤為擅長從1到100。

另一方面,在內容、場景和使用者規模上,國內也擁有得天獨厚的“練兵場”——

無論是龐大的網際網路使用者群體、豐富多元的應用場景,還是足夠複雜的內容生態,都給國產模型提供了快速試錯、持續最佳化的土壤。相應地,國產AI也能更快形成“飛輪效應”。

而這些,也同樣正在支撐著AI音樂賽道的發展。

所以,此時國產玩家裡有人能“站出來、站起來”,也就不足為奇了。

至於為什麼會是崑崙萬維,上一部分也已經說了很多了——

圍繞把“好聽”變成可復現的系統能力這個目標,他們對AI音樂這個垂類賽道進行了長期持續投入

俗話說,水滴石穿、繩鋸木斷。所以如今能有這個結果,也算是水到渠成的事情。

再加上崑崙萬維還是北京市人工智慧產業的科技創新代表,所以登頂這件事本身也多了另一層象徵意義:

AI音樂,往後高地就是北京了。

據說,崑崙萬維還會在3.27(本周五)舉辦的中關村論壇開專場發佈會

屆時Mureka V9,應該會有更多詳情和介紹。 (量子位)