4000億參數，中國產大模型硬剛Llama 3？

2024/04/19

•

隨著中國加速研發AI 大模型技術，追趕美國，如今已迎來新的節點。

北京時間4月18日，Meta推出了新版開源大模型Llama 3，並推出了8B和70B的預訓練和指令微調版本，在眾多性能上都大幅超越了Llama 2。 Meta官方也表示，公司後續也將推出模型參數超過400B（4000億）的更大版本Llama 3。

然而，就在4月17日，中國AI公司崑崙萬維就已正式推出了4000億參數的「天工3.0」基座開源大模型，成為全球最大的開源MoE（混合專家）大模型。

相較於上一代，天工3.0的模型技術知識能力提升超過20%，數學、推理、程式碼、文創能力提升超過30%，多模態表現超越GPT-4V。

同樣在4月17日，崑崙萬維也宣布，中國首個音樂SOTA（領域最佳水準）模型「天工SkyMusic」音樂大模型也正式開啟公測，綜合體驗遠超於風靡美國的AI 音樂生成平台Suno V3。

中國AI 大模型賽道正迎來的「ChatGPT時刻」。

4月16日溝通會上，崑崙萬維董事長兼CEO方漢對鈦媒體App編輯表示，「天工3.0」開源模型是針對C端產品提供支撐的底座大模型，擁有非常強的技術動力，且開源模型是有一定商業模式的。另外，在B端，崑崙萬維會提供垂類大模型商業服務。

「對於天工SkyMusic，我們應該會一直保持免費對於C端提供服務，這個是沒有任何問題的。當然如果有專業人士需要專業定制，我們也可以提供服務。」方漢說。

從一年前的追趕、學習OpenAI，到如今在AI 音樂生成領域全面創新和超越，崑崙萬維技術和市場雙管齊下，「All in AGI 與AIGC」的策略正在產生巨大效果，推動AI 科技與互聯網的跨越式發展。

至此，一個完整的AI大模型技術與應用生態正在成形。

三輪AI 熱潮下，2024年迎來基礎大模型的關鍵年

早在1956年夏天，電腦科學家約翰·麥卡錫（John McCarthy）等人在具有傳奇色彩的「達特茅斯會議」上創造「人工智慧」這個術語，被認為標誌著AI 技術的正式誕生。

之後半個世紀當中，電腦科技快速進步，AI 也影響了全球經濟和社會發展。

直至今日，全球共經歷了三次AI 浪潮。前兩次AI 浪潮中，所有人期盼的十年「AI 效應」都如泡沫般破滅。不管是因為晶片「摩爾定律「速度跟不上AI 的算力要求，還是因為數據量不夠、演算法不強、商業化不如預期，均讓我們對AI發展都保持長期質疑的態度。

當下，我們終於迎來第三次AI 浪潮。這次，AI 演算法、算力、數據「三駕馬車」同步突破。

這次AI 浪潮爆發的標誌性事件有三：一是1997年，IBM 「深藍」擊敗西洋棋大師卡斯帕羅夫；二是2016年，GoogleDeepMind的「阿爾法狗」（AlphaGo）擊敗了韓國圍棋世界冠軍李世乭，標誌著AI 技術的爆發轉折點；三是2022年，AI 聊天機器人ChatGPT的推出，引發全球新一輪AI 熱潮。

演化經濟學家卡洛塔·佩雷斯（Carlota Parez）在《科技革命與金融資本》書中曾提出：從第一次工業革命以來，每兩次重大科技革命的間隔基本上都在五十年左右。隨著舊技術革命紅利的耗盡，繼續延續使用其成果的收益就會大幅下降。

相較之下，引進全新技術的效益則會上升，而新的科技革命正驅動全球經濟成長。距離2022年佩雷斯在書中提到的上一次科技革命－1971年英特爾推出全球第一款微處理器，已經剛好過了五十多年，世界正處於新舊科技革命的臨界點。

目前，全球各國都紛紛將更多資源投注到了下一個科技革命關鍵點—— AI，尤其是生成式AI。甚至說，AI 已經成為「國力」的象徵。

崑崙萬維成立於2008年，經歷了互聯網、行動互聯網發展時代，曾是出海平台領域的龍頭，如今全面加註通用人工智慧（AGI）賽道。

方漢表示，早在2020年，崑崙萬維集團就開始進入文本大模型的預訓練工作，並於2022年12月發布了中國首個13B（130億）參數級開源文本大模型，是在ChatGPT爆發後最快推出中國大模型產品的企業。

到了2023年，大模型軍備競賽開啟，崑崙萬維「天工」也全面「狂飆」：

4月17日，天工1.0發布，是中國首個對標ChatGPT雙千億級大模型；
8月23日，崑崙萬維公佈中國首個AI搜尋產品－天工AI搜尋；
今年2月6日，中國首個線上提供服務的MOE大模型「天工2.0」發布。

如今，在「天工」大模型發布一週年之際，崑崙萬維終於帶來了全新的最強模型天工3.0系列。

方漢坦言，2024年是底座大模型之年。「大家知道AI 底座大模型是AIGC 堅實的基礎，尤其是文本大模型。文生圖、文生音樂和文生視頻（這些AIGC 模型）的能力基礎都是文本大模型。如果文本模型能力不夠強，AIGC 能力就會受到很大限制。會做得更好。所以我們做底座大模型是有非常強的動力的。

中國表現最強音樂AIGC模型誕生，秒級生成80秒歌曲

天工3.0的核心主要有兩點：中國首個音樂AIGC的SOTA模型；4000億參數、全球最大規模的開源MOE大模型。

首先談音頻模型。

根據美國創投機構a16z上月發布的生成式AI產品Top 100報告，ChatGPT、Gemini等通用內容生產應用仍佔消費級AI應用大頭。與6個月前的排名相比，有兩個新類別首次進入排行：音樂和生產力。

就內容形態來說，音訊內容是相比文字和圖片更能理解人類情感的方式。在眾多落地場景之中，音樂創作也成為普羅大眾最容易上手、感受到趣味性的AIGC場景。另外，對於崑崙萬維這類AI公司而言，這是一個將自己推向C端市場、獲得大眾認知的有利且重要機會。

目前，AI 音樂生成有兩大技術路徑，包括符號音樂生成路線、大模型音樂音訊生成路線。天工SkyMusic採用後者，透過直接學習並產生音訊波形，而不是採用符號音樂生成路線來產生樂譜。這種方式能夠實現樂器、人聲、旋律、音量、音符等元素的一體化端對端生成，為使用者帶來更為直覺且便利的音樂創作體驗。

然而，這種方式不僅艱難、成功經驗稀缺，還需要高昂的算力和資金，因此業內做的人非常少。而且過去許多AI音樂研究都集中在無人聲的BGM領域，業界幾乎沒有針對人聲Song賽道的有效解決方案。

而天工SkyMusic，就是在這兩個業界盡快空白的領域取得了極大突破，大幅提高了AI音樂生成大模型的表現，開創了中國音樂音頻生成大模型的成功案例。

具體來說，天工SkyMusic採用類似Sora的模型架構，包含三大核心模組－Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer負責譜曲，學習Music Patches的上下文依賴關係，同時完成音樂可控性；DiT負責演唱，透過LDM（Latent Diffusion Model）讓Music Patches被還原成高品質音訊。

在SOTA模式排行中，與海外頂尖的AI音樂大模型Suno V3進行橫向測評，天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手，並以6.65分的綜合分數超越Suno V3，成為全球AI音樂SOTA模型。

值得注意的是，天工SkyMusic是音樂AIGC領域罕見公開科技路徑的產品。其由「Encoder-DiT-Decoder」三大核心模組組成的技術路線圖，成為業界對「音訊路線+人聲Song路線」的重要技術參考。

天工SkyMusic發布後，鈦媒體App編輯第一時間參與體驗。

體驗中發現，相較於業界的同類產品，天工SkyMusic基於天工3.0四千億級MOE基礎大模型，擁有更多產品優勢。首先它支援範例音源生成音樂，使用者可以選擇「天工SkyMusic」資料庫中現有的參考音樂，也可以上傳自有音樂，不僅可以生成風格、唱腔類似的歌曲，還能給予用戶揮灑創意的空間，讓使用者創作出更豐富多彩的音樂作品。

這是鈦媒體App編輯透過天工SkyMusic創作的歌曲，點開就是濃濃的搖滾風格。它也支持創作饒舌、民謠、放克、古風、電子等多種音樂風格，強化音樂創作生成的多樣性。

另外，由於全球最大2000萬首歌曲資料集的深度學習訓練，天工SkyMusic成功擺脫了傳統音樂AIGC產品常見的「AI味」。它產生的中文人聲發音純正，沒有雜音幹擾。不僅如此，它還擁方言歌曲生成能力，能夠演繹包括粵語、四川成都方言、北京方言、上海方言在內的多種中文方言歌曲，並靈活運用顫音、歌劇唱腔等各種演唱技法，極大豐富了音樂創作的表現力。

而鈦媒體App編輯編輯產生的這首《Hi Baby》歌曲，透過幾句歌詞，就能輕鬆演繹一首95秒的英文歌曲，大幅降低音樂創作的門檻，讓每個用戶都能夠更容易創作屬於自己的旋律和歌曲，從而凸顯出天工SkyMusic強大的技術能力。

雖然尚處於起步階段，但天工SkyMusic已經讓許多使用者感受到了音樂創作的樂趣。同時，崑崙萬維選擇將寶貴的技術架構公開，也體現了對開源社群生態、產業共同發展的重視。預計天工SkyMusic將成為業界最重要的全民音樂創作工具之一，有望推動建立屬於中國的AI 音樂創作者生態。

然而，天工SkyMusic只是崑崙萬維在邁進AGI時代的第一站。

自天工3.0發布以來，這款全球最大規模的開源MoE（多專家混合）大模型便引發業界廣泛關注，其不僅擁有超越Grok模型的4000億參數規模，並且在四大關鍵能力上實現了全面躍升。

具體來說，首先，天工3.0基座大模型在邏輯推理能力、語意理解能力、應對複雜需求能力和內容創作能力4個方面大幅提升，並且在MMBench等多項權威多模態測評結果中超越GPT-4V。同時，基於模型能力的提升，天工3.0整合了AI搜尋、AI寫作、AI長文本閱讀、AI圖片生成、AI音樂生成等功能，以及新增了多輪搜尋及綜合工具呼叫、AI搜尋研究模式、AI搜尋增強模式等功能，可有效率地完成產業分析、產品比較等各類複雜需求。

在示範中，研究模式下，天工3.0能夠圍繞簡單指令進行相關問題的延伸，自動產生研究大綱、圖譜、實踐總結、心智圖等，例如，鈦媒體App編輯讓天工3.0研究「OpenAI發展歷程」。全網搜尋後，它能以分段提煉等形式呈現搜尋結果，並自動總結大綱、繪製心智圖。

而在增強模式中，「天工3.0」能夠針對用戶的複雜Query進行拆解、細化，透過追問、資訊理解與補全，使其在自然語義理解方面性能更強，更好地面對不確定性知識；同時，在影像生成方面，「天工3.0」的改圖擴圖能力取得突破，可以讓它繪製一張風景圖，並逐步在圖中增加新的物品或元素。

如今，對使用者而言，「天工3.0」不僅適用於產業分析、市場研究、產品比較、知識管理等工作場景，也適用於內容創作、教育訓練、智慧搜尋、語音合成、影像和音樂生成等娛樂場景。學生黨、打工人可以利用天工3.0的研究模式和增強模式，透過簡單的查詢獲得全面而精煉的資料，文獻蒐集、資料匯總等所需的時間大幅縮短，提升工作學習效率。

簡單來說，「天工3.0」現已成長為人類工作與生活的好「夥伴」。

根據目前的進展，方漢相信，所有AIGC技術將在兩三年後達到一個足夠可用的高度。

方漢向鈦媒體App編輯表示，未來，大模型的發展將呈現B端碎片化，C端免費化，而C端+免費可能成為大模型落地的主要路徑。在網路時代，Google、微軟、百度、阿里等都是靠這個邏輯成為網路巨頭，同樣的道理也將延伸到大模型時代。

「由於大模型對產業數據的需求，加之數據已經被分割在B端的不同碎片，很難有一家企業能夠拿到全部行業的數據，導致B端碎片化；同時，中國用戶的免費習慣是非常明顯的，所以為C端用戶提供服務的企業必然是以免費模式為主。是一個好的商業模式。

方漢強調，行動網路時代「免費+to C」的模式依然適用於AI時代。只有「免費+to C」才會產生AI時代的巨頭。這是目前最適合的商業模式，也最容易損益平衡。

“到2035年，AGI 終將實現”

崑崙萬維從2020年開始佈置AIGC和大模型領域，至今已累積近四年的相關工程研發經驗，研發投入龐大。

根據崑崙萬維2023年第三季報告，去年前9個月公司研發費用達6.2億元，年增28.18%。同時，公司十分重視開源生態，天工大模型在開發過程中也得到了開源社群上百位AI科學家的助力。

「目前我們分成三大業務板塊，其中最重要的板塊就是AGI與AIGC業務。作為一家海外互聯網平台型企業，我們為什麼會介入大模型或者AGI和AIGC技術方向？我們是以網遊題材上市的，上市之後我們進行了轉型，在海外大力做平台型業務，經我們從頭孵化的大概千萬級別DAU的互聯網平台有4—5家左右，全部都與內容和社交賽道相關。領域的革新非常關注。

2023年4月，崑崙萬維提出「All in AGI和AIGC」策略，不限於單一的產品或技術，而是建構一個完整的AI生態系統，逐步了形成AI大模型、AI搜尋、AI音樂、 AI社交、AI遊戲、AI影片六大業務矩陣。

其中，AI大模型和AI搜尋作為底座，是所有AIGC能力的基礎，音樂、影片、社交、遊戲等方向則是崑崙萬維在AGI道路上的探索，體現了其AI UGC平台商業模式。

2024年1月，崑崙萬維集團正式發布面向未來的全新使命、願景和價值觀：「實現通用人工智慧，讓每個人更好地塑造和表達自我」。

崑崙萬維在願景中稱，「我們深信，到2035年左右，通用人工智慧（AGI）終將實現，人工智慧將擁有，並超越人類的理解、學習、應用、甚至工作的能力，這將極大地推動社會的繁榮。

事實上，為了做好大模型，崑崙萬維做了許多準備。

在算力層面，崑崙萬維有近萬卡的訓練資源，足以支撐訓練下一代基於多模態的MoE大模型以及影片生成大模型。在技術上，為了與業界最先進的技術保持同步。

方漢向鈦媒體App編輯坦言，他每週要閱讀3~4篇技術論文，2023年一共閱讀了200多篇論文；還會在一線寫程式碼，寫prompt，他寫prompt的能力可能超過公司90 %的同事；公司所有的演算法博士，幾乎都是方漢親自面試的。

在應用層，崑崙萬維的產品矩陣目的就是要打造一個綜合AI UGC平台。

針對開源商業模式，方漢認為，在軟體產業，開源一直是個很有爭議的話題，「收取服務費」是軟體產業發展早期的方式，早期開源玩家如MongoDB等透過SSPL產品授權協議開創了新的商業模式，同時開源也成為了ToB企業的市場推廣手段之一。 “開源模型與閉源模型是一個生態的組成部分，不是誰取代誰，而是一個互補關係，都會有自己的生存空間。”

對於模型效能，方漢認為，開源模型與閉源模型的差距已經從落後2年以上，追到僅落後4—6個月了，這證明了兩者的差距是在縮小而非加大。另外，開源模型其實是生態建構器，更有利於滿足於使用者的長尾需求。

如今，崑崙萬維已經打開了AGI這個“未來之門”，以技術促進增長，做長期有價值、難而正確的事，且以開源、開放的生態迎接即將到來的AGI 時代。

「公司成立15年來，我們一直在創業，每一天都是創業的狀態。今天的我們，迎來了15年來最激動人心的創業狀態，因為我們走在科技創業的最激動人心的道路上，但創業精神我們一直從未改變；我們要堅決打掉凍土層，做難而正確的事。

週亞輝坦言，我們目前處在充滿不確定、不確定、複雜和模糊的時代。隨著AGI加速發展，以及我們認知的不斷迭代，我們對未來的展望也不斷改變。未來三十年，人類要從感知線，變成表達線，整個人類社會在自我表達上要增加1000倍。創作和自我表達在過去很困難，因為工具門檻高，而未來30年是自我表達的30年，崑崙萬維要用AI 把人類創作的門檻降的足夠低，讓人們更充分地實現自我表達。

「我們不追求成為一家『大而全』的公司，而是希望成為一家『小而大美』的公司，依靠強大的產品力，打動用戶，為世界帶來美好的改變。」崑崙萬維的目標是，實現通用人工智慧，讓每個人更好地塑造和表達自我。(鈦媒體AGI)