AIGC奇點降臨 AI作畫神器來了

就在最近,生成式AI 又火了,9月,一個叫做「盜夢師」的微信小程序悄悄上線,卻一鳴驚人,達成日增5萬新用戶的紀錄,足以見得玩家對親手玩到AI 繪畫渴待已久。

不怪玩家們太熱情,從Midjourney 到Stable Diffusion,AI「以文生圖」一直是好幾個月來最炙手可熱的話題。「以文生圖」AI 打通了文字和圖像的隔閡,只要輸入一段文字描述,AI 就可以把用戶腦海中想像的畫面呈現出來。用戶輸入的文字越大膽,AI 生成的圖片就越突破人類想像,宛如盜來了夢中的絢爛畫卷。

盜夢師正是一個能根據輸入文本生成圖片的AI 平台,屬於AIGC(AI-Generated Content,即人工智能生成內容)的分支,由藍振忠博士帶領的西湖大學深度學習實驗室和西湖心辰科技有限公司共同推出。

在用戶發揮想像,輸入文字描述後,盜夢師便可生成1:1、9:16和16:9三種比例的圖片,還有24種繪畫風格可以選擇—除了基礎的油畫、水彩、素描等繪畫種類,還包括賽博朋克、蒸汽波、像素藝術、吉卜力和CG 渲染等特別風格。

如果用戶有明確想要生成的藝術家風格,還能在畢加索、梵高、莫奈等11位藝術家中進行選擇。

圖注:盜夢師藝術家分類示例

在9月24日,盜夢師上線了圖生圖的功能,這是在文生圖基礎上的進一步嘗試。只要上傳一張參考圖,便可以生成與該圖風格相近的圖片,也可以在原畫的基礎上添加自己的創意。

而盜夢師最為接地氣的設定,還要屬「圖片版權由生成用戶所有」。

有許多用戶接觸AIGC 的目的並不是純「玩」,他們更希望自己可以擁有生成圖片的版權,從而利用這些AI 產物玩轉社交平台、成為自己藝術創作的素材、抑或是創造更大的價值——而盜夢師正滿足了國內AIGC 用戶的這份野心。


01 我夢見了畫,AI 畫下了夢

看小說時,誰沒有腦補過幾個驚呼叫絕的場景?可跨不過的繪畫門檻,卻成了普通人表達想像力的大難題。盜夢師之所以受到極大關注,正是因為盜夢師能讓不會畫畫的人繪出自己腦海中的畫作,這才以一己之力激起驚人浪花。

而懂先生、斧頭哥和薄荷三位玩家,就是掌握了AI 繪畫語言密碼的幾位佼佼者。

我們先來看看玩家懂先生生成的夢幻人物肖像——

文本提示:美人魚公主的美術肖像、空靈美麗的模型臉、3D底紋、色調映射、光線跟踪、衍射光柵、晶體、流明反射、千兆像素、電影級、由劉丕政和格雷格·魯特科夫斯基以及阿爾豐斯·慕夏創作

盜夢師生成的圖像:

用戶薄荷則嘗試輸入的是較為「玄學」的文字內容,盜夢師也給出了驚豔的圖片:

文本提示:藍色多瑙河, 一幅噴繪皮諾·戴尼;劉丕政;Photoshop大師;堀越耕平;Behance;生成的藝術;高清;多重曝光噴繪

盜夢師生成的圖像:

lili 則是一位AIGC 新玩家,她幾乎沒有相關經驗,只靠在社區中學習到的文字描述方式,加上自己投入時間調試,製作出的人物肖像也頗為美麗,極具東方美感。

文本提示:一副美麗的人物肖像;辛烷值渲染;8k;高度細節;王凌;ArtStation的流行趨勢;美麗的年輕韓國人;韓流娜塔莉·波特曼;迷人的Instagram模特;Quweiz;Ilya Kuvshinov;劉丕政;對稱的眼睛;藝術的

盜夢師生成的圖像:

人像是AIGC 界中公認容易失調的生成對象,雖說盜夢師偶爾也會跳出五官不和諧的人像,但總的來說,只要文字「調教」得好,一幅充滿質感的人物肖像便會躍然紙上。如再經過專業人士加工,幾乎達到了直接能在遊戲中派上用場的級別。

除人像以外,盜夢師生成的風景圖無論虛擬還是寫實,都稱得上絕美,比如玩家斧頭哥生成的這些風景每張都有可圈可點之處——

文本提示:一個賽博朋克城市;中國風;霓虹燈;夜景

盜夢師生成的圖像:

文本提示:景觀;雲繚繞著房子;月亮;世界;幻想;神話;色彩斑斕;阮佳+黃光劍


盜夢師生成的圖像:

文本提示:沐浴在晨光裡;山頂上有中國式建築;壯麗的、奇妙的;約翰·豪;山水;湖泊;雲;早晨;農田;王凌;神話;光效;夢;格雷格·魯特科夫斯基,虛擬引擎;詹姆斯·格尼;ArtStation


盜夢師生成的圖像:

文本提示:一幅美麗的天堂花園畫作;九重天;ArtStation式渲染;光效;高清;辛烷值


盜夢師生成的圖像:

文本提示:一幅美麗的中國山水景觀圖


盜夢師生成的圖像:

這五幅風景畫風格各異,共同點則是都牢牢把握住了用戶輸入的風格需求,如將這一工具善加使用,小團隊也不愁做不起燒錢的炫酷場景了。


02 對話盜夢師團隊

為了更深入了解盜夢師這個「盜取藝術火種」的趣味平台,雷峰網對盜夢師團隊進行了一次專訪,並提出一系列問題,與大佬們探索生成式AI 的無限可能。

以下是雷峰網與盜夢師團隊的對話:

請問在什麼樣的場景下,貴團隊產生了想要做文本生成圖像AI 的想法?

盜夢師團隊:我們之前一直在做文生文和可控文本生成的產品,近來我們發現,文生圖走到了一個商業可用的階段。而圖片給人的衝擊力會更強,信息的傳播能力也很好,所以我們希望能夠在這個領域也做出一些能夠幫助到大家的產品。

盜夢師所用的模型是什麼?

盜夢師團隊:是在Stable Diffusion 的基礎上做改進。

我們在幾個月前已經開始研究文生圖,那時已經有很多的圖片生成技術,比如生成對抗網絡GAN、DALL·E 的自回歸模型,當時我們用自己的數據和follow instruction 方式去做過一些訓練,但是我們認為生成效果都沒有達到可商用的水平。

就在一個月前, Stable Diffusion 一經發布,我們用自己的follow instruction 方式對它重新做了訓練,發現生成的圖片效果非常驚艷,我們也被震撼了,於是花了兩週的時間,和前後端、產品同學一起把盜夢師推上線。

Follow instruction 方式是什麼?

盜夢師團隊: Follow instruction 方式是盜夢師最大的一個創新。一張生成的圖片被用戶保存下來,這表示用戶認可這張圖的效果,這就是一個訓練的信號,我們可以根據這個信號去訓練更好的圖像。我們之前在文生文這一塊也有做類似工作,就是讓模型更好地follow instruction,即更好地聽懂用戶的指令,生成用戶想要的東西。

盜夢師還有哪些創新思想?

盜夢師團隊:盜夢師還在引導用戶更好地輸入方面不斷進行改進。現在大家可以看到,在模型生成的10張圖裡,有一張用戶想要的就很不錯了,尤其是初階玩家還不太熟悉如何輸入,生成效果也會打折扣,所以模型follow human instruction 方面做得還不夠好。

舉個例子,在研究用戶保存圖片行為的時候,我們發現那些用戶沒有保存的圖,其平均輸入文字大概是14個字,而用戶保存下來的圖片,其平均輸入文字是18個字。這說明用戶的輸入與圖片質量有很大關係,我們需要在引導用戶更好地輸入這方面不斷改進。

我在玩盜夢師的時候,看到文字輸入框下有輸入提示,也在用戶手冊中讀到指導用戶輸入的內容。除此之外,盜夢師還有哪些從產品角度出發的設計?

盜夢師團隊:從整個產品用戶體驗的角度來看,我們希望盡量讓所有的用戶都能輕鬆上手玩AIGC(AI-Generated Content)。雖然現在有很多UP主和各種推文在介紹怎麼玩,甚至嘗試在自己電腦上搭起來,但仍然只有少量的技術型用戶和極客能夠玩AIGC。

而我們希望凡是對此有興趣的創作者,甚至沒有一點技術基礎的用戶,都能夠很快上手玩起來。所以盜夢師會對用戶輸入有許多提示,並且給出了畢加索、梵高、莫奈等藝術家畫風供用戶直接選擇。

同時,盜夢師還用圖片的形式表現可生成的藝術風格。

圖注:盜夢師藝術風格示例


如果沒有圖片,很多用戶可能不知道蒸汽波和未來主義是什麼樣的藝術風格,但是用圖片做示例後,用戶就可以輕鬆選擇,能獲得更多嘗試的動力。

同時我們還做了藝術展,這是一個展示區,可以看到其他用戶的作品。有的高階用戶本身是美術從業者,可以設計出非常驚豔的圖。在展示區裡,較為初階的用戶就可以學習別人怎麼去寫出好的prompt(即輸入文字描述)。

盜夢師藝術展


盜夢師算法團隊近期準備上線一個小功能,可以在輸入側幫助用戶填充文本。很多新用戶剛開始玩,不知道要輸入什麼文本,可能只會輸一個“太陽”或“月亮”等特別簡短的內容。

但深度玩家會就發現,盜夢師要玩得好,需要關鍵詞、效果詞,再加上藝術家和風格的各種搭配。針對用戶保存的、在藝術展展出的好圖,我們會把這些好圖的prompt 收集起來,在用戶輸入的時候做一個近似度的匹配,便於用戶更快學習到文本輸入的訣竅。

在盜夢師輸入“畫一個自行車並標明在地面滾動的部分”,其生成的圖片缺乏邏輯,效果不佳,這是否說明盜夢師不理解自己所畫物體的運作方式,而是和其他AI 一樣“學習大規模數據集並以新方式融合” ?

盜夢師團隊:是的,生成式AI 的現狀基本都是模仿。


請問盜夢師如何突破這個普遍現狀,達到“理解自己畫出的世界,運用知識進行推理並決策”的水平?投入什麼樣的技術有可能實現呢?

盜夢師團隊:雖然目前的圖片生成AI 能力確實到達了歷史上的峰值,但是我覺得還是需要更大的規模的數據以及更長時間的訓練。

而這個數據,不僅僅是數量更大,還需要包含更全面的信息,比如說,圖片不僅僅只是圖畫,也可以是醫院的x光片,也可以是建築設計師畫出的設計圖,囊括了生活的方方面面。

同時,我們使用follow instruction 的方式,也就是使用用戶的反饋、點贊等信號,加上專業美術生幫助我們做標註和評測。將人類的反饋信息結合到我們的模型訓練中,然後以期待生成更加遵循用戶輸入指令的圖片。

第三,根據過往做語言對話、文本生成方面工作的經驗,我們認為在文生圖這方面我們還需要用更大的語言模型來幫助盜夢師畫出它理解的世界。

由於語言中蘊含了極為豐富的知識,所以運用我們之前在語言方面預訓練過的模型,會對盜夢師圖片生成中的一些數字問題、常識問題會有很大的幫助,我們可以通過這方面的訓練,讓盜夢師逐步去達成運用知識進行推理和決策。

圖像生成AI的出現讓我們離通用人工智能(AGI)又近了一大步嗎?您認為圖像生成AI與AGI之間有什麼聯繫?

盜夢師團隊:我認為不是這樣。沒有太大聯繫,生成式AI 更多是概率模型。


有學者老師做過一個環境相機,通過融合溫度、濕度等傳感器的多模態信息,可以提升相機的成像質量。那麼圖像生成AI是不是也可以通過融合更多其他模態信息的方式,提高圖像的生成質量?

盜夢師團隊:有可能。我們已經有類似的idea,文生圖服務不一定只能通過文字生成。例如盜夢師有參考圖的設置,用戶可以上傳一張圖片,加上文字描述,從而生成更好玩的圖片。

我們還有更多的想法,比如,也許可以加上用戶的交互操作,或者用戶可以選中圖片的某些地方,甚至是用戶之間通過協作畫圖……像這些交互式的信息,將來都有可能作為訓練數據,從而實現提高生成圖片的質量、提高對圖片的可控性。


“利用盜夢師平台生成的圖片版權屬於用戶”,這個版權的設定和其他AI平台不同,請問貴團隊為何決定如此設定?

盜夢師團隊:我們做出這個設定是基於兩點:一是盜夢師建立在CCO協議的基礎上,二是因為用戶會花很多精力和時間去調試prompt,而且AIGC 的創作靈感是來源於用戶,沒有用戶的靈感就沒有新圖的誕生,所以我們覺得應該將創作版權歸還給用戶。


有人認為生成式AI的出現會使某些行業從業者的大面積失業,您對生成式AI給社會帶來的便利和衝擊有什麼看法?

盜夢師團隊:原來不能作畫的人,現在能夠享受創作帶來的愉悅;也有一些插畫師開始思考怎麼利用盜夢師才能更好、更快地完成作品。但盜夢師帶來便利、提高生產力的同時,肯定也會對一部分人有所衝擊,就像汽車的出現造成了馬車夫的大面積失業一樣。但失業的馬車夫也可以轉行去做司機。

總的來說,我們認為生成式AI 的到來鼓勵了廣大從業者與新技術進行結合,更好更快地做出作品。

B站上有一個熱評,說目前AI 生成圖片有兩大使用功效,一是出概念、找靈感,二是當成p圖素材與手工結合,我們非常認可這兩點。


但仍有一些美術從業者不願意自己的作品被AI 學習,您怎麼看?

盜夢師團隊:我覺得在新浪潮當中大家可以保持自己的觀點。例如在相機出現之後,有的畫家轉向了非寫實流派,也有一些藝術家走向了攝影藝術。

對於現在的手繪工作者來說,可以選擇調整自己的風格,也可以選擇與AI 結合,成為一個數字藝術家。我們覺得生成式AI 更多帶來的還是一種新的藝術業態。

AI生成圖片的版權爭議應該還會繼續一陣子,包括圖片被用來訓練模型的藝術家們該如何從AI生成的圖片中獲益一定也是大家探討和研究的熱門話題。相信隨著創作形態的改變,版權本身的定義和保護方式也會有更多發展。我們相信類似區塊鍊等新技術最終會帶來新形態的版權保護和收益分享機制,更好的促進創新和創作。我們大膽猜測不久的將來,有一部分藝術家會很樂意自己的圖片成為AI的訓練素材。


在充滿競爭的環境當中,盜夢師如何脫穎而出?

盜夢師團隊:除了本身算法能力強,我們還積累了豐富的產品經驗,我認為這算是一個天生的優勢。在競爭較為激烈的環境裡,我們會去嘗試更多將藝術和AI 結合的產品設計,去引領AIGC 的潮流,這個是我們非常想做的事情。


請問盜夢師的未來商業計劃是什麼樣的?

盜夢師團隊:我們從10月份起會開始低強度的收費,即是說,會以親民的方式去讓大家使用。大部分的普通用戶不需要付費,而高強度使用的專業玩家可以選擇優惠套餐,這個是To C(面向消費者)的商業計劃。

同時我們認為,To B(面向企業)也有非常多的商業場景。像遊戲場景製作、文本圖片編輯器、美術教育等方面均已有公司開始接洽。

長期來看,在To B 方向,我們會在行業裡繼續深耕,我們之前做文生文或者可控文本生成就有經驗,要做到更精深,更有護城河的話,要做到去收集和獲取行業的知識和數據,才能在這個行業裡面取得好的效果。

我們也明白,To C 還是有較大難度的,但我們依然會去探索。從產品角度來說,可能有人會說社交平台的仗已經打完了,而現在出現了內容生成的利器,成為創作者的門檻大幅度的降低了——AIGC 能讓每個人都參與到創作中,這是一個全新的浪潮。所以即便知道難度較大,我們也會去探索。


除了向客戶提供付費生成服務的“基礎模式”外,圖像生成AI 還有什麼更遠大的用途嗎?

盜夢師團隊:我們其實有挺多的idea。我們團隊一直在做心理諮詢機器人,圖像生成AI 就可以應用到心理諮詢服務中。舉個例子,有一個心理諮詢療法叫繪畫藝術療法,有的用戶很難用語言表達自己的心理狀態,諮詢師就會請他們繪畫,從畫中看出他們的心理狀態。然而不是每個用戶都有繪畫的能力,如果在心理諮詢中加入盜夢師,用戶就可以通過表述來產生簡單的畫面,經過用戶認可後,可以用作心理分析的素材。

AIGC 和元宇宙應該會有非常棒的結合,因為元宇宙相當於重新創造一個載體和環境。元宇宙的部分定義是含有多重場景,而創建場景本來會有非常高的成本,如果AIGC 的技術越來越成熟,在創造各種新場景時,成本就會變得很低。

同時,AIGC 降低了內容創作的門檻,每個人在元宇宙裡的自我角色都可以通過文字生成,所有人都能參與元宇宙環境的搭建,所以我覺得與元宇宙將會是非常有前景的結合。

我們還想過,AIGC 對於未來的內容平台形態會有很大的改變。我們在內部頭腦風暴時談過,現在網絡小說是非常受歡迎的,網絡小說可以每天更新,但受到繪畫技能門檻的影響,幾乎沒有人能夠做到每天更新幾十頁漫畫。如果說AI 生成圖片的能力能夠幫到創作者,將1000字的文章自動轉化成幾十幅圖片,或者輔助漫畫家根據自己已有底稿的風格快速生成更多的漫畫,到了那個時候,可能人們每天看的就不是網絡小說了,而是網絡漫畫——種種情況都有可能,整個生態需要大家一起來建設。(雷峰網)