隨著中國加速研發AI 大模型技術,追趕美國,如今已迎來新的節點。
北京時間4月18日,Meta推出了新版開源大模型Llama 3,並推出了8B和70B的預訓練和指令微調版本,在眾多性能上都大幅超越了Llama 2。 Meta官方也表示,公司後續也將推出模型參數超過400B(4000億)的更大版本Llama 3。
然而,就在4月17日,中國AI公司崑崙萬維就已正式推出了4000億參數的「天工3.0」基座開源大模型,成為全球最大的開源MoE(混合專家)大模型。
相較於上一代,天工3.0的模型技術知識能力提升超過20%,數學、推理、程式碼、文創能力提升超過30%,多模態表現超越GPT-4V。
同樣在4月17日,崑崙萬維也宣布,中國首個音樂SOTA(領域最佳水準)模型「天工SkyMusic」音樂大模型也正式開啟公測,綜合體驗遠超於風靡美國的AI 音樂生成平台Suno V3。
中國AI 大模型賽道正迎來的「ChatGPT時刻」。
4月16日溝通會上,崑崙萬維董事長兼CEO方漢對鈦媒體App編輯表示,「天工3.0」開源模型是針對C端產品提供支撐的底座大模型,擁有非常強的技術動力,且開源模型是有一定商業模式的。另外,在B端,崑崙萬維會提供垂類大模型商業服務。
「對於天工SkyMusic,我們應該會一直保持免費對於C端提供服務,這個是沒有任何問題的。當然如果有專業人士需要專業定制,我們也可以提供服務。」方漢說。
從一年前的追趕、學習OpenAI,到如今在AI 音樂生成領域全面創新和超越,崑崙萬維技術和市場雙管齊下,「All in AGI 與AIGC」的策略正在產生巨大效果,推動AI 科技與互聯網的跨越式發展。
至此,一個完整的AI大模型技術與應用生態正在成形。
早在1956年夏天,電腦科學家約翰·麥卡錫(John McCarthy)等人在具有傳奇色彩的「達特茅斯會議」上創造「人工智慧」這個術語,被認為標誌著AI 技術的正式誕生。
之後半個世紀當中,電腦科技快速進步,AI 也影響了全球經濟和社會發展。
直至今日,全球共經歷了三次AI 浪潮。前兩次AI 浪潮中,所有人期盼的十年「AI 效應」都如泡沫般破滅。不管是因為晶片「摩爾定律「速度跟不上AI 的算力要求,還是因為數據量不夠、演算法不強、商業化不如預期,均讓我們對AI發展都保持長期質疑的態度。
當下,我們終於迎來第三次AI 浪潮。這次,AI 演算法、算力、數據「三駕馬車」同步突破。
這次AI 浪潮爆發的標誌性事件有三:一是1997年,IBM 「深藍」擊敗西洋棋大師卡斯帕羅夫;二是2016年,GoogleDeepMind的「阿爾法狗」(AlphaGo)擊敗了韓國圍棋世界冠軍李世乭,標誌著AI 技術的爆發轉折點;三是2022年,AI 聊天機器人ChatGPT的推出,引發全球新一輪AI 熱潮。
演化經濟學家卡洛塔·佩雷斯(Carlota Parez)在《科技革命與金融資本》書中曾提出:從第一次工業革命以來,每兩次重大科技革命的間隔基本上都在五十年左右。隨著舊技術革命紅利的耗盡,繼續延續使用其成果的收益就會大幅下降。
相較之下,引進全新技術的效益則會上升,而新的科技革命正驅動全球經濟成長。距離2022年佩雷斯在書中提到的上一次科技革命-1971年英特爾推出全球第一款微處理器,已經剛好過了五十多年,世界正處於新舊科技革命的臨界點。
目前,全球各國都紛紛將更多資源投注到了下一個科技革命關鍵點—— AI,尤其是生成式AI。甚至說,AI 已經成為「國力」的象徵。
崑崙萬維成立於2008年,經歷了互聯網、行動互聯網發展時代,曾是出海平台領域的龍頭,如今全面加註通用人工智慧(AGI)賽道。
方漢表示,早在2020年,崑崙萬維集團就開始進入文本大模型的預訓練工作,並於2022年12月發布了中國首個13B(130億)參數級開源文本大模型,是在ChatGPT爆發後最快推出中國大模型產品的企業。
到了2023年,大模型軍備競賽開啟,崑崙萬維「天工」也全面「狂飆」:
如今,在「天工」大模型發布一週年之際,崑崙萬維終於帶來了全新的最強模型天工3.0系列。
方漢坦言,2024年是底座大模型之年。「大家知道AI 底座大模型是AIGC 堅實的基礎,尤其是文本大模型。文生圖、文生音樂和文生視頻(這些AIGC 模型)的能力基礎都是文本大模型。如果文本模型能力不夠強,AIGC 能力就會受到很大限制。會做得更好。所以我們做底座大模型是有非常強的動力的。
天工3.0的核心主要有兩點:中國首個音樂AIGC的SOTA模型;4000億參數、全球最大規模的開源MOE大模型。
首先談音頻模型。
根據美國創投機構a16z上月發布的生成式AI產品Top 100報告,ChatGPT、Gemini等通用內容生產應用仍佔消費級AI應用大頭。與6個月前的排名相比,有兩個新類別首次進入排行:音樂和生產力。
就內容形態來說,音訊內容是相比文字和圖片更能理解人類情感的方式。在眾多落地場景之中,音樂創作也成為普羅大眾最容易上手、感受到趣味性的AIGC場景。另外,對於崑崙萬維這類AI公司而言,這是一個將自己推向C端市場、獲得大眾認知的有利且重要機會。
目前,AI 音樂生成有兩大技術路徑,包括符號音樂生成路線、大模型音樂音訊生成路線。天工SkyMusic採用後者,透過直接學習並產生音訊波形,而不是採用符號音樂生成路線來產生樂譜。這種方式能夠實現樂器、人聲、旋律、音量、音符等元素的一體化端對端生成,為使用者帶來更為直覺且便利的音樂創作體驗。
然而,這種方式不僅艱難、成功經驗稀缺,還需要高昂的算力和資金,因此業內做的人非常少。而且過去許多AI音樂研究都集中在無人聲的BGM領域,業界幾乎沒有針對人聲Song賽道的有效解決方案。
而天工SkyMusic,就是在這兩個業界盡快空白的領域取得了極大突破,大幅提高了AI音樂生成大模型的表現,開創了中國音樂音頻生成大模型的成功案例。
具體來說,天工SkyMusic採用類似Sora的模型架構,包含三大核心模組-Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer負責譜曲,學習Music Patches的上下文依賴關係,同時完成音樂可控性;DiT負責演唱,透過LDM(Latent Diffusion Model)讓Music Patches被還原成高品質音訊。
在SOTA模式排行中,與海外頂尖的AI音樂大模型Suno V3進行橫向測評,天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,並以6.65分的綜合分數超越Suno V3,成為全球AI音樂SOTA模型。
值得注意的是,天工SkyMusic是音樂AIGC領域罕見公開科技路徑的產品。其由「Encoder-DiT-Decoder」三大核心模組組成的技術路線圖,成為業界對「音訊路線+人聲Song路線」的重要技術參考。
天工SkyMusic發布後,鈦媒體App編輯第一時間參與體驗。
體驗中發現,相較於業界的同類產品,天工SkyMusic基於天工3.0四千億級MOE基礎大模型,擁有更多產品優勢。首先它支援範例音源生成音樂,使用者可以選擇「天工SkyMusic」資料庫中現有的參考音樂,也可以上傳自有音樂,不僅可以生成風格、唱腔類似的歌曲,還能給予用戶揮灑創意的空間,讓使用者創作出更豐富多彩的音樂作品。
這是鈦媒體App編輯透過天工SkyMusic創作的歌曲,點開就是濃濃的搖滾風格。它也支持創作饒舌、民謠、放克、古風、電子等多種音樂風格,強化音樂創作生成的多樣性。
另外,由於全球最大2000萬首歌曲資料集的深度學習訓練,天工SkyMusic成功擺脫了傳統音樂AIGC產品常見的「AI味」。它產生的中文人聲發音純正,沒有雜音幹擾。不僅如此,它還擁方言歌曲生成能力,能夠演繹包括粵語、四川成都方言、北京方言、上海方言在內的多種中文方言歌曲,並靈活運用顫音、歌劇唱腔等各種演唱技法,極大豐富了音樂創作的表現力。
而鈦媒體App編輯編輯產生的這首《Hi Baby》歌曲,透過幾句歌詞,就能輕鬆演繹一首95秒的英文歌曲,大幅降低音樂創作的門檻,讓每個用戶都能夠更容易創作屬於自己的旋律和歌曲,從而凸顯出天工SkyMusic強大的技術能力。
雖然尚處於起步階段,但天工SkyMusic已經讓許多使用者感受到了音樂創作的樂趣。同時,崑崙萬維選擇將寶貴的技術架構公開,也體現了對開源社群生態、產業共同發展的重視。預計天工SkyMusic將成為業界最重要的全民音樂創作工具之一,有望推動建立屬於中國的AI 音樂創作者生態。
然而,天工SkyMusic只是崑崙萬維在邁進AGI時代的第一站。
自天工3.0發布以來,這款全球最大規模的開源MoE(多專家混合)大模型便引發業界廣泛關注,其不僅擁有超越Grok模型的4000億參數規模,並且在四大關鍵能力上實現了全面躍升。
具體來說,首先,天工3.0基座大模型在邏輯推理能力、語意理解能力、應對複雜需求能力和內容創作能力4個方面大幅提升,並且在MMBench等多項權威多模態測評結果中超越GPT-4V。同時,基於模型能力的提升,天工3.0整合了AI搜尋、AI寫作、AI長文本閱讀、AI圖片生成、AI音樂生成等功能,以及新增了多輪搜尋及綜合工具呼叫、AI搜尋研究模式、AI搜尋增強模式等功能,可有效率地完成產業分析、產品比較等各類複雜需求。
在示範中,研究模式下,天工3.0能夠圍繞簡單指令進行相關問題的延伸,自動產生研究大綱、圖譜、實踐總結、心智圖等,例如,鈦媒體App編輯讓天工3.0研究「OpenAI發展歷程」。全網搜尋後,它能以分段提煉等形式呈現搜尋結果,並自動總結大綱、繪製心智圖。
而在增強模式中,「天工3.0」能夠針對用戶的複雜Query進行拆解、細化,透過追問、資訊理解與補全,使其在自然語義理解方面性能更強,更好地面對不確定性知識;同時,在影像生成方面,「天工3.0」的改圖擴圖能力取得突破,可以讓它繪製一張風景圖,並逐步在圖中增加新的物品或元素。
如今,對使用者而言,「天工3.0」不僅適用於產業分析、市場研究、產品比較、知識管理等工作場景,也適用於內容創作、教育訓練、智慧搜尋、語音合成、影像和音樂生成等娛樂場景。學生黨、打工人可以利用天工3.0的研究模式和增強模式,透過簡單的查詢獲得全面而精煉的資料,文獻蒐集、資料匯總等所需的時間大幅縮短,提升工作學習效率。
簡單來說,「天工3.0」現已成長為人類工作與生活的好「夥伴」。
根據目前的進展,方漢相信,所有AIGC技術將在兩三年後達到一個足夠可用的高度。
方漢向鈦媒體App編輯表示,未來,大模型的發展將呈現B端碎片化,C端免費化,而C端+免費可能成為大模型落地的主要路徑。在網路時代,Google、微軟、百度、阿里等都是靠這個邏輯成為網路巨頭,同樣的道理也將延伸到大模型時代。
「由於大模型對產業數據的需求,加之數據已經被分割在B端的不同碎片,很難有一家企業能夠拿到全部行業的數據,導致B端碎片化;同時,中國用戶的免費習慣是非常明顯的,所以為C端用戶提供服務的企業必然是以免費模式為主。是一個好的商業模式。
方漢強調,行動網路時代「免費+to C」的模式依然適用於AI時代。只有「免費+to C」才會產生AI時代的巨頭。這是目前最適合的商業模式,也最容易損益平衡。
根據崑崙萬維2023年第三季報告,去年前9個月公司研發費用達6.2億元,年增28.18%。同時,公司十分重視開源生態,天工大模型在開發過程中也得到了開源社群上百位AI科學家的助力。
「目前我們分成三大業務板塊,其中最重要的板塊就是AGI與AIGC業務。作為一家海外互聯網平台型企業,我們為什麼會介入大模型或者AGI和AIGC技術方向?我們是以網遊題材上市的,上市之後我們進行了轉型,在海外大力做平台型業務,經我們從頭孵化的大概千萬級別DAU的互聯網平台有4—5家左右,全部都與內容和社交賽道相關。領域的革新非常關注。
2023年4月,崑崙萬維提出「All in AGI和AIGC」策略,不限於單一的產品或技術,而是建構一個完整的AI生態系統,逐步了形成AI大模型、AI搜尋、AI音樂、 AI社交、AI遊戲、AI影片六大業務矩陣。
其中,AI大模型和AI搜尋作為底座,是所有AIGC能力的基礎,音樂、影片、社交、遊戲等方向則是崑崙萬維在AGI道路上的探索,體現了其AI UGC平台商業模式。
2024年1月,崑崙萬維集團正式發布面向未來的全新使命、願景和價值觀:「實現通用人工智慧,讓每個人更好地塑造和表達自我」。
崑崙萬維在願景中稱,「我們深信,到2035年左右,通用人工智慧(AGI)終將實現,人工智慧將擁有,並超越人類的理解、學習、應用、甚至工作的能力,這將極大地推動社會的繁榮。
事實上,為了做好大模型,崑崙萬維做了許多準備。
在算力層面,崑崙萬維有近萬卡的訓練資源,足以支撐訓練下一代基於多模態的MoE大模型以及影片生成大模型。在技術上,為了與業界最先進的技術保持同步。
方漢向鈦媒體App編輯坦言,他每週要閱讀3~4篇技術論文,2023年一共閱讀了200多篇論文;還會在一線寫程式碼,寫prompt,他寫prompt的能力可能超過公司90 %的同事;公司所有的演算法博士,幾乎都是方漢親自面試的。
在應用層,崑崙萬維的產品矩陣目的就是要打造一個綜合AI UGC平台。
針對開源商業模式,方漢認為,在軟體產業,開源一直是個很有爭議的話題,「收取服務費」是軟體產業發展早期的方式,早期開源玩家如MongoDB等透過SSPL產品授權協議開創了新的商業模式,同時開源也成為了ToB企業的市場推廣手段之一。 “開源模型與閉源模型是一個生態的組成部分,不是誰取代誰,而是一個互補關係,都會有自己的生存空間。”
對於模型效能,方漢認為,開源模型與閉源模型的差距已經從落後2年以上,追到僅落後4—6個月了,這證明了兩者的差距是在縮小而非加大。另外,開源模型其實是生態建構器,更有利於滿足於使用者的長尾需求。
如今,崑崙萬維已經打開了AGI這個“未來之門”,以技術促進增長,做長期有價值、難而正確的事,且以開源、開放的生態迎接即將到來的AGI 時代。
「公司成立15年來,我們一直在創業,每一天都是創業的狀態。今天的我們,迎來了15年來最激動人心的創業狀態,因為我們走在科技創業的最激動人心的道路上,但創業精神我們一直從未改變;我們要堅決打掉凍土層,做難而正確的事。
週亞輝坦言,我們目前處在充滿不確定、不確定、複雜和模糊的時代。隨著AGI加速發展,以及我們認知的不斷迭代,我們對未來的展望也不斷改變。未來三十年,人類要從感知線,變成表達線,整個人類社會在自我表達上要增加1000倍。創作和自我表達在過去很困難,因為工具門檻高,而未來30年是自我表達的30年,崑崙萬維要用AI 把人類創作的門檻降的足夠低,讓人們更充分地實現自我表達。
「我們不追求成為一家『大而全』的公司,而是希望成為一家『小而大美』的公司,依靠強大的產品力,打動用戶,為世界帶來美好的改變。」崑崙萬維的目標是,實現通用人工智慧,讓每個人更好地塑造和表達自我。(鈦媒體AGI)