為什麼在海外率先推出AI串流媒體音樂平台Melodio的是崑崙萬維?

有時候掌握核心技術,就可以步步領先。



目前國際人工智慧領域,文生視訊技術上卻產生了一股中美倒掛的潮流。

2024年年初,OpenAI推出史上最像人類剪輯的大模型Sora,讓文生視訊的效果似乎跨越了好幾個時代。

問題是,後續偃旗息鼓的表現,卻讓越來越多的人思考,OpenAI是不是為了商業化和融資又放了一個看不見的衛星。然而所有人都意想不到,進入2024年年中,4款來自於中國的文生視訊應用,卻迅速在國際人工智慧界引發了追捧的潮流。

尤其是快手推出的可靈AI,100萬人排隊申請試用,已經成為當下最火熱的文生視訊模型。

這固然有 OpenAI一直跳票,讓所有的使用者都等不及的原因,當然也跟當下國際人工智慧界對於中美之間在技術領域的競爭有新的認知有關。

現在,世界開始越來越習慣在大模型領域,很多基於商業化的真正創新,最終都是由中國企業落地實現並對外營運。

最新消息顯示,不光是文生視訊,就是文生音樂領域,中國模型開發方,也有了世界首屈一指的突破。

8月14日,崑崙萬維面向海外使用者發佈全球首款AI串流媒體音樂平台Melodio和AI音樂商用創作平台Mureka。跟生成視訊的不同,這是一個由AI大模型生成音樂的串流媒體平台和商用平台。兩款產品均搭載崑崙萬維新款自研DiT(Diffusion Transformer)架構音樂大模型Skymusic 2.0,這是業內首個能夠持續穩定生成特定風格歌曲的AI音樂大模型。相較於上一代模型,Skymusic 2.0支援500字以上的歌詞輸入,生成長達6分鐘雙聲道立體聲歌曲,在伴奏質量與配器豐富度等領域有著大幅提升,成為AIGC音樂大模型領域最新SOTA(State-of-the-art,業內最領先)。

有意思的是,測試階段這兩個AI音樂平台居然引發國外使用者的強烈關注,甚至有很多開發者傳送郵件留言,希望能第一時間接入相關系統。



在人們印象裡,本來在多模態方面,美國的幾個網際網路大廠走在最前列,按理說AI音樂也應該如此。但為什麼音樂上面相關的真正可商用的串流媒體和平台,居然是由中國公司崑崙萬維推出的?而且為什麼一經推出就受到全球使用者的追捧?


全球首款AI串流媒體音樂APP


在8月14日這個特別的日子裡,崑崙萬維向廣大使用者隆重推出了AI音樂串流媒體平台——Melodio和特別好用的AI音樂商用創作平台Mureka。

其中,Melodio在APP和網頁版均可使用,致力於為使用者提供個性化的AI音樂體驗,它能夠根據使用者當前的場景或心情,通過輸入特定的提示詞(Prompt)並附上參考音訊,來生成符合使用者需求的定製化音樂,一直生成一直聽。

劃個重點:Melodio生成的是無限流式音樂。這意味著只要使用者不選擇停止,系統就會一直針對使用者輸入的提示詞,不間斷生成音樂並持續播放。這個功能不拘泥於單個歌曲的樣式和結構,為滿足使用者需求,可以跨越曲風曲調,長時間提供使用者符合心情的音樂。

例如,如果你正處於長途駕駛的途中,需要一些能夠提振精神的音樂,只需簡單地輸入“長途駕駛時需要振奮精神”,Melodio便會立即開始創作並持續播放適合這一場景的音樂,讓使用者在享受音樂的同時,體驗到音樂創作的全過程。



這款AI音樂串流媒體平台的核心技術是基於崑崙萬維自主研發的大模型音樂音訊生成技術,採用了類似於Sora模型的音樂音訊領域架構。這一技術路線實現了從樂器、人聲、旋律、音量到音符的一體化端到端音樂生成,支援流式生成,並且能夠對文字提示進行精準的控制。這意味著使用者可以即時地參與到音樂創作的過程中,享受到獨一無二的音樂體驗。

與以往的AI輔助音樂創作軟體相比,Melodio的一大亮點在於它能夠創作出完整的音樂流,而不僅僅是零散的音樂片段。針對使用者很多時候聽音樂時間沒有找尋音樂時間長的痛點,在DIT架構下建立的崑崙萬維自有模型,可以自己驅動,利用分散式原理對於使用者需求長時間保持關注,並可以轉換曲風、曲調,不間斷輸出符合使用者需求的音樂,形成串流媒體音樂的表現。

同時,得益於崑崙萬維自研的大模型支援,Melodio能夠深入分析使用者的需求,感受使用者所提出的相關需求的語境和情緒,並精準地把握這些情緒,輸出真正符合使用者心理需求的音樂流,而且邊創作邊生成。

這一點正是Melodio這款音樂AI串流媒體軟體比較吸引人的地方。


(使用者輸入的此時此刻需要的定製化音樂文案,可以同時新增音樂作為生成效果的參考,Melodio會一直生成與該輸入相符的音樂,在聆聽過程中使用者可以隨時修改輸入,生成新的音樂)


實際上,越來越多的普通人希望能夠借助AI的輔助,創作出一些准專業化的音樂作品。他們這樣做的目的,並非一定要創作出什麼驚世駭俗的作品,而是想要在某個特定的時刻,抒發自己的情感和情緒。

比如早晨喝咖啡感受到小鳥的歡愉,一時心有同感,需要音樂記錄下來;再比如臨近朋友生日聚會,需要一個體現心情的禮物;亦或者是在工作完成後想抒發的心情等等。這些對於城市裡的人,某個時間點突發的心情變化,大家都想用音樂來記錄。而且希望能持續時間長一些。

在這種情況下,具備強大感知和分析能力,能夠精準把握使用者情緒的AI音樂串流媒體Melodio,自然會受到使用者的青睞,成為他們音樂生活中的得力助手。


出乎意料的AI音樂商務創作平台


音樂創作並非僅僅侷限於作品的誕生,其深遠價值往往需要依託商務環境的支撐,方能實現廣泛傳播與充分展現。

崑崙萬維公司基於這一深刻洞察,隆重推出了AI音樂商用創作平台——Mureka,旨在開啟音樂創作的新紀元。

現在,市場上已經存在類似的產品,崑崙萬維為什麼還要下功夫去做呢?答案就在於現在市場上存在的類似平台,音樂創作者的需求其實沒有被完全滿足。

某種意義上,現在的AI輔助創作音樂平台,號稱是針對各個層級的創作者,功能完善。但實際上對於沒有軟體開發能力的創作者或者業餘愛好者來說,其實一點都不友好。

因為各個平台最終想生成能復合使用者提出需求的音樂,就必須讓模型的反饋到位,最大限度降低幻覺。為了達到這一點,各家平台不得不將創作過程做的非常繁瑣,需要使用者在輸入歌詞後,要針對音樂的細節輸入很多變數才行。



例如市場上傳播很廣的Suno,這個平台在使用指南部分,針對每個特定需求都提供這樣的提示詞程式碼對照表,如果不按這個來,最終生成歌曲的模型幻覺可能比較嚴重,跟使用者需求差的就比較大。

所以,在音樂AI輔助平台領域,真正缺少的,其實是如何用簡單、快捷方式實現專業化或者准專業化的音樂生成,而且結果要跟使用者需求匹配精準。

崑崙萬維此次推出的Mureka平台,為音樂愛好者及專業藝術家提供了一個前所未有的個性化AI音樂創作舞台。

針對不同水平的音樂創作者,Mureka平台均展現出了極高的友好度與實用性。無論是初涉音樂創作的愛好者,還是資深的音樂人,都能輕鬆上手,通過簡單的歌詞輸入,即可在平台的輔助下創作出高品質的音樂作品。此外,平台還提供了豐富的風格選項供使用者選擇,確保每位創作者都能找到符合自己喜好的音樂風格。

關鍵,整體創作過程很簡單,所有的難題都交給崑崙萬維研發的自有模型解決,使用者只需要上傳歌詞選擇風格即可。



現在看,這個平台生成的音樂與使用者提交歌詞的匹配程度非常高,不需要使用者傷腦筋研究複雜的提示詞系統,原因就在於其實以前那些AI輔助音樂創作平台,沒有自研模型能力,都是在通用模型基礎上增加功能。

這就需要對於提示詞的精準控制。

而Mureka平台不同,其依託崑崙萬維自主研發的Sora音樂音訊領域模型架構,實現了自然清晰的人聲、易於記憶的旋律、韻律和諧的歌詞、協調豐富的編曲以及高保真的音樂品質。

這個自研模型還通過 DiT 讓 Music Patches 被還原成高品質音訊,使得能夠支援生成 6分鐘 44100Hz 採樣率雙聲道立體聲歌曲。這套架構可以很好的處理視訊、音訊和音樂。

根據規劃,崑崙萬維會在後續逐步迭代和新增新的能力,讓模型具備多模態的情感表達和理解。

值得一提的是,Mureka平台在人聲表現方面更是達到了行業頂尖水平,音質、自然度與發音清晰度均令人讚嘆。同時,在動機質量、伴奏質感、配器豐富度、音樂結構與混音質量等細化指標上,也實現了顯著提升,為使用者帶來了更加豐富的聽覺體驗。

更可貴的是,該平台不僅允許使用者創作獨具風格的AI音樂作品,還通過其內建的歌曲商店功能,實現了作品的全面展示、銷售、收聽、收藏、分享與下載,並為創作者提供官方認證,確保了作品的權威性與合法性。



因此,Mureka平台憑藉其獨特的AI創作與商務平台優勢,不僅為音樂創作者提供了一個實現夢想的舞台,更為音樂產業的繁榮發展注入了新的活力。通過精準洞察消費者需求與市場趨勢,Mureka平台正逐步建構起其獨特的競爭優勢。


一切基於DIT


兩款產品均搭載崑崙萬維新款自研DiT架構AI音樂大模型Mureka,通過大模型技術實現樂器、人聲、旋律、音量、音符的一體化端到端音樂生成,支援流式生成和對文字Prompt的精準控制。

實際上從年初OpenAI的sora提出DIT的模型可以有利於多模態樣式的技術發展,將其作為transformer架構的擴散模式,應用於多模態領域就成為各家研發的焦點。

這是 OpenAI Sora 和 Stable Diffusion 3 的同款架構和關鍵技術,是一種基於 Transformer 架構的擴散模型。過去,視覺生成擴散模型主要基於 U-Net 架構,但隨著參數量增加,基於 Transformer 架構的擴散模型展現了更好的擴展性,有助於進一步提升模型生成質量及效率。

這種架構其實是從醫學中核磁等切片分散製圖的檢查過程中借鑑而來。一般能力非常強的醫生,可以在頭腦中對於核磁等分散的成像片子進行重構,形成對於患者身體的認知。

DIT架構就是在模擬這個過程,通過多個模組的共同運算,期望以最小化切分,找到使用者真正需求,並通過分散化的結果輸出,最終利用校對和合併,形成最貼近使用者需求的樣本。

實際上,DiT又能像Transformer一樣,捕捉長距離關係,進而生成高品質的內容。又能像擴散模型一樣,減少了直接在高辨識度空間訓練的計算負擔,還促進了對圖像、視訊、音訊等特徵的更高效學習和生成過程的控制。

這次,崑崙萬維就是通過自主研發和訓練,成功打造了一個DIT架構(Deep Intelligence Transformer)的先進模型。

在這個模型中,一個名為Large-scale Transformer的元件專門負責音樂創作,它通過學習Music Patches中的上下文依賴關係,來譜寫出美妙的旋律,並完成整首歌曲的創作和控制工作。與此同時,另一個名為Diffusion Transformer的元件則專注於演唱部分,並利用DIT架構特點,將Music Patches轉化為高保真度的音訊,讓音樂作品呈現出更加豐富和真實的效果。



然而,這種創新模式面臨的最大挑戰是如何能夠通過多輪的精細調整,精準地捕捉並分析使用者提出的需求。只有當使用者的需求被精準分析和理解之後,後續的多模態展開和實現過程才能以最小的代價,創造出最符合使用者期望的音樂作品。

在某種程度上,崑崙萬維公司自主研發的這個大型模型,實際上是在深度調教和演算法最佳化的基礎上,進行了大量的工作。

尤其是在長文字和細粒度表達效果方面,崑崙萬維這兩個AI音樂平台可以支援輸入更多字節,以描述得更加精細,能更好地把內容生成出來。為了讓表達變得更細粒度,崑崙萬維還會把一段資料做成正負樣本,讓模型知道那個是正確的、那個是錯誤的。



而正是這些不懈的努力和持續的最佳化,才使得崑崙萬維最終能夠推出令人矚目的AI音樂串流媒體軟體和商務平台,為使用者提供前所未有的音樂體驗。


為何是崑崙萬維?


“美國負責PPT,中國負責落地”,已經是這個領域的一個共識。某種意義上,這種現狀的出現,其實是跟中美在大模型領域採用了越來越不一樣的研發思路有關。

與財大氣粗不受限制,隨便購買最新算力晶片的美國大廠不同,中國的AI企業需要在算力進展受限的情況下,想方設法將大模型推動到極致,實現真正的商業和技術目標。

根據清華大學教授、中科院張鈸院士在第12屆網際網路安全論壇上的講話可以看出,現在中國AI研發理論界已經形成共識,我們的企業基本上是從知識、資料、演算法、算力四個層次推動自己的研發。而美國的幾個大廠,卻不重視知識框架和演算法更新,主要以大力堆砌算力資源為主。

而據張鈸院士的介紹,我們的大模型企業因為不得不進行的極為精細操作,其實對於大模型真正的原理有著一些探索,並在用這些探索的成果指導企業的研發。這也造成我們在很多美國企業提出大模型進化的方向上,有了真正意義上技術和商業的突破。

崑崙萬維也是如此。

這是一家中國典型的大模型企業,他們全面佈局AI,以“All in AGI與AIGC”為策略,推進大模型技術研發與應用。

自2023年4月發佈「天工大模型」以來,崑崙萬維不斷迭代,至2024年4月推出擁有4000億參數的「天工3.0」,是全球領先的開源MoE模型之一。基於此,公司推出中國首款大語言模型搜尋引擎「天工AI搜尋」。

「天工3.0」在邏輯推理、語義理解、內容創作等方面表現優異,評測指標領先全球。同時,「天工AI搜尋」在排行榜上表現不俗,訪問量持續增長。

而在AI細分領域,崑崙萬維的優勢更加明顯.

首先,崑崙萬維在AIGC技術領域進行廣泛研發,包括ChatGPT、圖像、視訊等,並開源了中文類GPT-3大模型、對話式聊天機器人、Skymusic、SkyText等項目。特別是在社交領域,通過StarMaker佈局音訊社交,StarMaker在多國音樂、音訊類下載榜前列,全球註冊使用者達3.1億。

其次,崑崙萬維的AI音樂技術在全球範圍內處於頭部梯隊,其資料集包含2000萬首音樂,占人類歷史4000萬首音樂的50%,在某些指標上超越了美國的同類產品Suno。

第三,崑崙萬維研發了基於AI的UGC社交遊戲Club Koala,允許使用者通過AI創造並分享新的遊戲產品,目前該產品已在海外進入測試階段。

這些舉措展示了崑崙萬維在AI領域的技術實力、海外營運經驗和商業化能力,正不斷拓寬AI應用場景。

當下,崑崙萬維依託戰略前瞻性,不斷尋找第二增長曲線,業務涵蓋AGI與AIGC、資訊分發與元宇宙、投資等三大板塊,2023年度公司營收49.2億元,海外營收佔比86%,全球月活使用者近4億。

也正因此,崑崙萬維本身在海外擁有龐大的AI搜尋音樂軟體視訊等平台的使用者,具備強大的語料語境訓練資源和多模態訓練資源。

再結合作為一家中型大模型開發方,他們特別重視最新相關理論的落實,整體依靠演算法、知識架構和資料的優勢,就可以讓產品在低成本短時間內達到很高的應用水準。

這也是為什麼這一次他們成為世界首個AI音樂串流媒體APP和商業創作平台推出方的重要原因。而相關的軟體在前期使用者使用期間都得到了一致的好評和喜愛。

實際上,崑崙萬維在AI音樂串流媒體平台和AI音樂商業平台上的成功,恰恰說明任何一個人工智慧技術的落地,其實都需要精耕細作。

只有掌握技術,並想辦法站在使用者角度將技術的可能性發揮到極致,才可能最終取得真正的成功。

畢竟,不符合使用者期待的,其實都是偽需求;而不從使用者需求引出的項目開發,都不可能有意義。 (36氪Pro)