Sora再次引爆AIGC產業,AGl時代加速到來。
2024年2月,OpenAI發布其首款視頻生成模型Sora,用戶僅需輸入一段文字即可生成長達一分鐘場景切換流暢、細節呈現清晰、情感表達準確的高清視頻,與一年前的AI生成影片相比,在各維度均實現了質的提升。這項突破再次將AIGC推向大眾視野。 AIGC即透過大量資料訓練而成的人工智慧系統,可根據使用者的個人化指令產生文字、音訊、圖像、程式碼等內容。自2022年頻頻出圈的ChatGPT推出以來,生成式AI在遊戲、影視、出版、金融、數位人等多個應用場景中展現出巨大潛力與價值。根據不完全統計,2023年全球AIGC產業融資超1,900億元,幾乎每個月都有該賽道公司獲得融資。例如,2023年6月,Runway獲得Google、英偉達、Salesforce等投資者的新一輪1.41億美元的融資;Runway的強勁對手Pika則用短短半年時間,連續完成三輪融資,總融資額達5,500萬美元。
本文將基於AIGC產業生態現況與技術發展路徑,深入分析AIGC商業化應用的方向與產業發展趨勢。
產業生態圖譜:以資料板塊代表的基礎層有待突破,模型層佔核心地位,應用層遍地開花
整體而言,目前AIGC產業生態可分為三個部分:上游基礎設施層、中游模式層和下游的應用層。其中,基礎設施層包括資料、算力和模型開發訓練平台/運算平台等演算法基礎平台;模型層包括底層通用大模型、中間層模型和開源社群;應用層則在文字、音訊、圖像、視訊四在類模態的基礎上,發展出了策略生成和跨模態生成,並在金融、數據分析、設計等多個行業實現了商業應用。
基礎設施層:資料服務板塊成產業新增量,算力與演算法產業生態格局較為確定
AIGC對訓練資料的體積、所屬產業領域、對應垂直業務和顆粒度都有極高的要求。對於預訓練大模型而言,多模態的資料集至關重要。此外,為了讓訓練問答和產出達到預期效果,資料提供者需要保障資料的即時性和有效性。目前,全球規模最大的開源跨模態資料庫是LAION-5B,全球首個億級中文多模態資料集「悟空」則是由華為諾亞方舟實驗室開源。
自從各類大模型進入大眾視野以來,其tokens的大小限制一直困擾著諸多開發者和使用者,以GPT為例,當使用者向其發送命令時,程式會自動將最近幾次對話記錄(基於對話的字數限制在4096 tokens內)透過prompt組合成最終的問題,並發送給ChatGPT。一旦使用者的對話記憶超過了4096 tokens,那麼它就難以將先前的對話內容納入到邏輯思考範圍,這就導致目前GPT在面對比較複雜任務時容易出現AI幻覺。
在此背景下,開發者不斷尋求新的解決方案,向量資料庫就是熱門解決方案之一。向量資料庫的核心概念是將資料轉換成向量儲存在資料庫中;在使用者輸入問題時,也將問題轉換成向量,然後在資料庫中搜尋最相似的向量和上下文,最後將文字傳回給使用者。這樣不僅可以大幅減少GPT的計算量,從而提高響應速度,更重要的是降低成本、支援多模態數據,並繞過了GPT的tokens限制。隨著Weaviate MongoDB等海外向量資料庫成為資本關注的對象,國內騰訊、京東等大廠也紛紛在此領域著手佈局。
相較於資料板塊,國內算力和演算法基礎領域供給端仍以頭部企業為主,新創型企業機會相對較少。但以人工智慧運算架構為基礎,為應用層提供所需算力服務、資料服務和演算法服務的智算中心已成為新型公共算力基礎架構之一。
如AIDC OS,是九章雲極DataCanvas自主研發的智算專屬AI作業系統。同時面向智算中心大規模算力和大中型企業內部智算集群,輸出智算資源的納管、統一調度,智算業務的業務運營支撐,以及AI模型的構建、訓練和推理等核心能力。 AIDC OS將算力運營方的運維能力從裸算力設備運維提升至AI大模型運維能力,加之對各類異構算力和AI應用的開放兼容,AIDC OS成功實現了算力資產附加價值的有效提升。
模型層:國內市場業者多集中在底層通用大模型,中間層業者較少
AIGC底層通用大模型可分為開源和閉源兩類。閉源模型一般透過付費的API或有限的試用介面來訪問,國外閉源模型包括OpenAI的GPT模型、Google的PaLM-E模型等。國內閉源模型廠商起步較晚,但在多模態互動能力和與智慧硬體結合的能力提升迅速。如近期李未可科技研發的WAKE-AI大模型,具有文字生成、語言理解、影像辨識及視訊生成等多模態互動能力,是李未可科技專為未來AI+終端,定向優化研發的多模態AI大模型平台。目前WAKE-AI大模型暫時針對李未可科技旗下的智慧終端機-AI眼鏡、XR眼鏡上使用。未來李未可科技將開放此AI平台,即讓更多開發者以低程式碼或無程式碼的方式,在各類終端上快速低成本的部署或客製化多模態AI。
開源模型採用公開模型的原始碼與資料集,任何人都可以查看或修改原始碼,如Stability AI開源Stable Diffusion,Meta開源Llamax,xAI開源Grok-1,中國智源開源Aquila。比較而言,閉源模型的優點在於前期投入成本低、運作穩定;開源模型則是基於私有化部署擁有較高的資料隱私安全保障,且迭代更新速度較快。目前國內多數大模型開發企業或機構致力於開發跨模態大模型,如騰訊的混元AI和百度的文心大模型,都可進行跨模態生成,但整體尚未普遍形成開源生態。
中間層模型市場玩家大致可分為垂類大模型及中間整合商兩類。其中,垂類大模型對於垂直行業的業務理解和資源積累要求較高,中間集成商負責組合多個模型接口,形成新的整體模型。以AI遊戲引擎公司RPGGO為例,對於個人使用者而言,RPGGO基於自研的遊戲引擎Zagii Engine,能夠協助個人創作者簡化開發流程,實現最大化的創意輸出;對於遊戲工作室而言,RPGGO能夠提供API連動,提升遊戲開發效率。
就策略合作或產品佈局而言,國內底層大模型廠商正發力佈局中間層及終端應用層,以此為自身的底層大模型產品提供能力出口與資料入口,如針對未來智慧終端提前佈局多模態AI平台的李未可科技等。
應用層:文字生成發展時間較長,跨模態生成潛力最高
AIGC產業應用層多是基於模型能力和對用戶需求的洞察,直接面向B端或C端客戶進行服務,可將其簡單理解為移動互聯網時代的各類工具,未來的潛力空間較大,大批初創企業可參與其中。
若依照模態劃分,應用層可分為文字生成、音訊生成、影像生成、視訊生成、跨模態生成及策略生成。由於NLP技術發展歷史較長,文字生成屬於發展時間最長、落地應用也最成熟的賽道。而在這波AIGC發展熱潮中,跨模態生成將會帶來最多的新應用場景。其中,文字生成圖像、文字生成影片和圖像/影片生成文字均已有產品問世,尤其是文字生成圖像,如Stability AI,已經在全球範圍內有了C端用戶量的證明。
根據量子位智庫對不同模態不同應用場景技術成熟度、應用成熟度和未來市場規模的估算,目前文本生成中,文本輔助生成賽道規模潛力最大;跨模態生成中,文字生成圖像/視頻賽道規模潛力最大。
圖說:AIGC產業應用層不同賽道發展預測,圓圈大小表示預估2030年,該賽道相對市場規模
資料來源:量子位智庫,36氪研究院整理
2030年,中國AIGC市場規模將達兆級
根據量子位智庫數據,2023年中國AIGC市場規模約170億元,預計2025年之前,中國AIGC市場規模成長率都將維持在25%左右,2025年市場規模將達到257億元。 2025年起,隨著底層大模型逐步對外開放,中間層及應用層將迎來爆發式成長,帶動AIGC產業市場規模快速成長,年均複合成長率將超過70%,至2027年,中國AIGC市場規模將超過600億元。 2028年起,AIGC產業生態更加成熟,並在各行各業實現商業化落地應用,2030年,市場規模將超過兆元。
資料來源:量子位智庫,36氪研究院整理
多模態發展已成產業共識,文字端技術路徑已收斂於LLM
依照處理的數據類型數量,AI模型可以分為單模態和多模態兩類:單模態只能處理一種類型數據,如文本或音頻或圖片;多模態則能夠處理兩種或兩種以上的資料類型。相較於單模態,多模態大模型在輸入輸出端的優勢明顯:不同模態的輸入資料具有互補性,多元訓練資料輸入有助於通用大模型能力的快速擴展,多模態資料輸入使用門檻更低和資料損耗更少,同時也能夠大幅提升使用者的應用體驗;多模態資料的輸出則省去了多模型的整合,更容易實現商業落地。
現階段,AIGC大模型從單模態發展到多模態發展已成為產業共識。在文字端應用ChatGPT(2022年11月面世)和圖像生成代表應用Midjourney V5(2023年3月面世)影響下,文字端和圖像生成應用在2023年呈現爆發式增長。 2024年2月16日,OpenAI發布文生視訊應用Sora,使影片生成領域成為新一輪產業熱點,預計2024年將迎來科技和資本的高度關注。
圖示:多模態大模型技術發展情形
資料來源:西南證券,公開市場資料,36氪研究院整理
目前,基於Transformer結構的預訓練模型是多模態大模型的主流訓練方式。如Google的GEMINI,就是在不同的模態上進行預訓練,利用額外的多模態資料進行微調以提升其效能。隨著文字生成大模型的發展,LLM已成為確定性技術路徑。透過擴展,LLM的表現可以在困惑度(生成文字的流暢度)等定量指標上實現大幅改進,只要在訓練期間接觸到多樣化的語言模式和結構,LLM就能以高保真度模仿和再現這些模式。
然而,多模態技術面臨資料存量即將枯竭的困境。不同類型的資料標註成本不同,視覺等模態資料收集成本通常高於文字數據,這導致多模態資料集(尤其是高品質資料集)遠少於文字資料集。 Epochai數據顯示,在AIGC大模型高速發展背景下,高品質的語言數據可能在2026年之前耗盡,而低品質的語言數據也可能在未來20年內面臨枯竭。
為了解決資料枯竭問題,AI合成資料應運而生,如結構化資料企業Mostly AI和非結構化資料企業DataGen,前者能夠產生與真實資料預測特性相當的匿名資料集,後者則能夠為電腦視覺團隊提供合成資料集的自助服務平台。 AI合成資料適應多模態模型的資料模態組合,且資料擷取速度更快,能夠有效增加資料存量。
路徑比較:擴散模型佔據主流,自迴歸模型仍有潛力
AI生成影片與AI生成圖片的底層技術框架較為相似,主要包括生成式對抗網路(GAN)、自回歸模型(Auto-regressive Model)和擴散模型(Diffusion Model)三大路徑。目前,擴散模型已成為目前AI生成影片的主流模式。
(1)生成式對抗網路(GAN)
GAN是早期的主流圖像生成模型,透過生成器和判別器進行對抗訓練來提升模型的圖像生成能力和圖像鑑別能力,使得生成式網路的數據趨近真實數據,從而圖像趨近真實圖像。相較於其他模型,GAN的模型參數量較小,所以更擅長對單一或多個物件類別進行建模。弊端是GAN的訓練過程穩定性較差,導致其產生的影像缺乏多樣性,因此逐漸被自迴歸模型和擴散模型取代。
(2)自迴歸模型(Auto-regressiveModel)
自迴歸模型採用Transformer進行自回歸影像生成。 Transformer整體框架主要分為Encoder和Decoder兩大部分,能夠模擬像素和高級屬性(紋理、語義和比例)之間的空間關係,利用多頭自註意力機制進行編碼和解碼。與GAN相比,自回歸模型具有明確的密度建模和穩定的訓練優勢,能夠透過幀與幀之間的聯繫產生更為連貫且自然的影片。由於自迴歸模型本身參數數量通常比擴散模型大,其對於計算資源需求及資料集的要求往往高於其他模型,因此受計算資源、訓練所需的資料和時間限制較大。但也因為其參數具備更大的擴展潛力,圖像生成和視頻生成的自回歸模型將有望藉鑒Transformer在文本領域LLM的經驗,透過對不同模態進行跨模態、規模化的訓練,最終實現「大力出奇蹟」。
(3)擴散模型(Diffusion Model)
直白來說,擴散模型就是透過定義一個擴散步驟的馬可夫鏈,連續向數據添加隨機噪聲,直到得到一個純高斯噪聲數據,然後再學習逆擴散過程,經過反向降噪推斷來產生圖像,透過系統擾動資料中的分佈,再恢復資料分佈,逐步最佳化的過程。以Sora為例,Sora由Visual Encoder、Diffusion Transformer和Transformer Decorder三大Transformer元件組成。在訓練過程中,給定一個原始視訊X,Visual Encoder將視訊壓縮至較低維度的潛在空間,然後在潛在空間中接受訓練,該訓練過程應用的就是基於擴散模型的Diffusion Transformer,先加噪再去噪,逐步進行最佳化,最終將生成的時間和空間上壓縮的潛在表示透過Transformer解碼器映射回像素空間,即視訊X1。由於計算效率更高、成本更低,並且能夠在處理數據(壓縮/放大)時獲得高品質影像,擴散模型已逐漸成為文生圖和文生視訊領域的主流技術路徑。
來源:公開市場資料,36氪研究院整理
隨著ChatGPT、文心一言、Sora等產品問世,AIGC覆蓋場景愈發豐富,表現效果逐漸成熟。機會與挑戰並存,AIGC為產業帶來發展機遇,創造出更多新應用場景和商業模式的同時,也伴隨著一些需要應對的挑戰。
對於ToB類企業而言,AIGC可與其現有業務進行有機結合,實現業務降本增效,為數位人、SaaS、數位設計、金融等產業帶來新機會
數字人。虛擬數位人的發展與AI、CG、虛擬實境等多個領域底層技術的突破密不可分。 AIGC與數位人的融合,賦予虛擬人更多的「敏捷力」與「生命力」的同時,實現其在更多應用場景的落地。一方面,AIGC技術可將靜態照片轉為動態視頻,並實現如人臉替換、表情轉變等視頻特效,讓虛擬人更加生動逼真;另一方面,AI技術提升虛擬人多模態交互能力,無需人工幹預,即可實現自動交互,讓虛擬人具有內在「思考」能力,加速其在更多領域的應用。此外,AI技術有望實現從創建、驅動到內容生成的「一站式」全流程自動化,降低企業開發成本。例如,趣丸科技已初步建成高自然度虛擬數位人生成技術平台,可在10秒左右,透過單張或幾張照片生成臉部相似度達到90%以上的高自然度虛擬數位人,耗費時間短、成本低、具有多模態互動能力,降低了一般使用者使用科技門檻和經濟負擔,實現在科普教育、直播零售、遊戲動漫等場景的應用。
SaaS。面對不斷發展與變化的市場環境,保持業務側數位化營運和順暢的上下游銜接成為越來越多企業的必然選擇,這意味著SaaS行業需提升智能化程度,為企業提供可快速響應、交互和決策價值分析等服務。在客戶管理場景中,AIGC的文本生成模式可作為聊天機器人,根據客戶溝通內容快速進行回饋,提供個人化互動並主動提供查詢以外的其他相關服務,使SaaS軟體更易於存取和使用。在業務流程自動化場景中,AIGC可實現透過簡單指令,綜合管理企業業務流程,提升工作效率。例如,在財務管理方面,整合分析財務數據,提供全面的財務報告與分析;在行銷方面,動態產生個人化客戶郵件及廣告;在供應鏈管理方面,自動處理上下游單據與資料輸入;在人力資源方面,實現智慧面試和薪資評估自動化。
數位設計。隨著多模態預訓練大模型等底層技術的逐漸成熟,AIGC在音圖影片生成上展現出更強的能力,應用也愈發廣泛。一方面,影像生成在工業設計、平面設計、插圖設計、遊戲動畫製作等數位設計領域快速應用,在工作前期,AIGC可輔助蒐集素材、快速生成草稿,在後期,用戶可透過文字指令實現調色、構圖調整、P圖、調整風格等功能,降低設計創作門檻的同時,減少基礎性機械勞動。另一方面,視訊生成在建築設計、工業設計、遊戲設計等行業中,可提供更直觀的演示效果,顯著縮短工作時長。
金融。面對激烈的市場競爭,傳統金融業已難以滿足消費者個人化需求。金融業具有資源密集特點,運用AIGC分析、生成能力可提升其服務效率,推動其優化業務流程,提供更便利的以客戶為中心的產品與服務。具體而言,AIGC主要被應用在風險評估、量化交易、櫃檯業務辦理等方面。在風險評估環節,AIGC可快速分析分散的、多維交易資料和行為模式,精確監測並識別潛在風險和偵測欺詐,提高風控精確度。在櫃檯服務環節,AIGC可根據客戶需求和自身畫像,為其推薦更適宜的產品和客製化金融服務,提升顧客滿意度。
對ToC類企業而言,AIGC將協助遊戲、影視、出版等產業提高內容產出效率,並提升消費者體驗
出版。對於以內容為根本的出版業而言,AIGC將引發內容生產典範轉移。一方面,AIGC替代使用者成為內容生產者,迅速提高內容產出效率;另一方面,AIGC可輔助完成編輯工作,節省編輯工作時間,釋放人力。具體而言,在內容生產環節,AIGC的文本輸出能力輔助作者完成內容創作,後續隨著科技的發展,甚至可直接創作內容,並擁有獨特的寫作風格。目前,部分小說網站推出AIGC輔助創作功能,作者輸入特殊關鍵字,即可自動產生內容,並提供作者靈感。在編輯環節,AIGC可透過抓取熱點新聞、事件,基於自動分析挑選選題的同時,基於文字辨識與深度學習模型,快速完成文章審校工作,提升編輯工作效率。
遊戲。在業界競爭愈發激烈且玩家喜好更加細分的背景下,AIGC與遊戲的融合,從內容、畫面、玩法等方面全面優化玩家遊戲體驗,並提高遊戲自身競爭力。在內容和玩法方面,一方面,AIGC提高NPC對話邏輯性、細化語調、表情和肢體動作、將環境與NPC搭建起情感聯繫,增強玩家與遊戲的交互性,為玩家提供自由度較高的沉浸式體驗;另一方面,輸入目標、場景、角色等訊息,AIGC可產生玩法文案,提供關於機制和故事情節等方面建議,平衡並豐富遊戲玩法,提升遊戲的趣味性。此外,AIGC可輔助產生更精美的畫面,工作人員透過文字表達即可產生圖片和動畫,提高繪畫效率的同時,提升玩家的體驗。
影視。影視產業工作流程普遍較長,涉及大量人力與時間成本,AIGC將賦能影視製作全流程,從策略、攝製、製作到宣發階段,大幅降低影視產業門檻,提供內容創意參考的同時,實現產業的降本增效。在規劃階段,深度學習演算法可透過快速大量閱讀已發布影片,再結合關鍵字,為編劇提供劇本創意參考的同時,在劇本完成後,也可幫助編劇進行潤飾和翻譯等工作。在攝影階段,一方面,導演可利用AIGC幫助完成分鏡繪製、鏡頭語言設計等工作;另一方面,製片人可省去日程安排、製片統籌、劇組預算等基礎工作所需時間,實現工作的簡化並節省時間成本。在後製階段,AIGC可完成如添加字幕、影片剪輯、影片調色等基礎工作,隨著技術的成熟,也逐漸可完成特效製作、動畫製作等複雜工作。以2023年奧斯卡最佳影片《瞬息全宇宙》為例,這部科幻電影的視覺效果團隊僅有五人,他們透過與Runway合作,使用其AI工具完成背景、放慢影片、製作無限延伸的圖片等工作,大幅提升了視覺特效製作效率。
儘管AIGC可大幅提高各產業的智慧化水準及營運效率,但其發展仍有一定局限性,應用端存在諸多挑戰
SaaS。 AIGC在SaaS產業的應用帶來了資料隱私和資訊安全等問題。在提供個人化服務和支援的過程中,AIGC需要輸入企業內部營運、財務、個人交易等敏感資訊資料。而AIGC模型具有潛在的記憶能力,在生成內容的過程中可能無意提取其他用戶的私人數據,由此帶來嚴重的隱私洩露風險。
數位設計。設計產業對版權要求尤為重要。 AIGC透過來自互聯網、第三方數據集等大規模數據進行訓練時,可能包含透過網路爬蟲或其他方法獲取的未經授權的數據,進而產生類似風格的衍生作品,易產生已存在內容和新創意元素的混合物,進而引發知識產權歸屬混亂的問題,產生潛在的法律風險和版權糾紛。尤其在數位設計領域,AIGC的應用可能涉及大量原始資料的使用和轉換,生成作品版權歸屬存在較大爭議。
金融。金融業大多交易需參考各方信息,對資訊準確性要求較高。然而,基於歷史和即時訊息,AIGC所做分析準確性仍有待提高且無法預測意外事件的發生。近年來,金融機構紛紛推出智慧顧問等生成式AI工具,若投資人過度依賴其提供的預測與建議,可能導致不理智的投資行為,加劇羊群效應,進而增加風險集中。此外,AIGC易產生假新聞或誤導訊息,導致投資人做出錯誤決策的同時,可能導致市場價格異常波動。
遊戲。作為一種高度強調即時人機互動的娛樂形式,AIGC的出現讓玩家在虛擬世界獲得了更好的沉浸式體驗,但不受劇情控制、無限延展的人機對話,在互動內容合規方面存在較大不確定性,若AIGC對過濾詞把控不力,玩家可能會受到冒犯或傷害。
影視。對於需引起情感共鳴的影視產業,相較於人類基於豐富情感和深厚閱歷的創作,AIGC僅能依靠已有數據和演算法生成較為生硬、冰冷的內容,擬人化的情感表達尚待提升。
出版。在文學領域,對於內容所涉及的倫理和道德問題要求較為嚴格,目前,AIGC無法確保生成內容的合規性,用於開發AIGC模型的訓練數據可能包含歧視、暴力等內容,從而生成種族歧視、性別歧視等有害內容。
整體而言,AIGC依托多模態大模型、深度學習演算法等賦能金融、遊戲、出版等千行百業,但帶來的如倫理、版權、資料安全等問題與挑戰也不容忽視。
Sora等軟體展示的跨模態生成能力意味著AGI時代將加速到來
通用人工智慧(Artificial General Intelligence,AGI)是一種可以在任何專業領域內像人類一樣思考、學習、修正並執行智力任務的人工智慧系統,要求AI系統具備人類所理解的常識、共同行動規範和價值觀,最大特點是對真實世界的規則,如物理狀態、自然規律、化學變化等因素做出回饋,是人工智慧發展的最高目標之一。 Sora、ChatGPT等應用軟體的發布意味著AI技術領域取得突破性進展,具備更強的時空建模能力和更高的運算複雜度,可模擬具有三維空間、符合物理規律的真實物理世界,為理解現實世界和模擬世界的實現打下技術基礎,也將推動多模態AI加速發展,並進一步加速AGI的發展進程。
技術創新與技術融合將推動AIGC的生成能力與應用能力不斷增強
未來,一方面,隨著深度學習、電腦視覺等技術的不斷成熟和如知識蒸餾等新技術的持續創新,AIGC的生成質量、速度和效率等方面能力將進一步提升;另一方面,多模態大模型將與如自然語言處理技術、虛擬實境、擴增實境、數位孿生等更豐富的技術融合,拓展如自動駕駛、藥品研發、安防等更多應用場景的同時,為用戶提供更豐富的解決方案,滿足越來越多用戶需求。如在自動駕駛領域,AIGC技術可創造更多合成數據,彌補真實數據不足的缺陷,加速模擬場景的搭建,提升模擬測試效率。(36氪)