Sora發布後,Pika創辦人回應:很振奮,我們將直接衝

面對Sora的來勢洶洶,Pika創始人郭文景獨家回應鈦媒體App稱,“我們覺得這是一個很振奮人心的消息,我們已經在籌備直接衝,將直接對標Sora。”

OpenAI剛推出的Sora像是一顆炸彈,再一次引爆全球。

作為AI視頻模型,Sora可以根據文本指令創建現實且富有想像力的場景,能夠生成具有多個角色、特定類型的運動,以及主體和背景的準確細節的複雜場景的高清視頻,並且時長可以達到一分鐘。

Sora對語言的理解也達到了一個新的層級,使其能夠準確地理解提示詞,並產生表達充滿活力的情感的影片。它建立在過去對DALL·E和GPT模型的綜合研究之上,提出了一個新的模型可能。它不僅可以理解使用者在提示中提出的要求,也能理解它們在物理世界中的存在方式。

重要的是,Sora是個diffusion transformer,而transformers已經在語言建模、電腦視覺和影像生成等各大領域已經展現了傑出的擴展特性。

作為一種擴散模型(diffusion models),Sora除了能夠根據文字指令生成視頻之外,還能夠獲取現有的靜態圖像並從中生成視頻,準確地動畫圖像的內容並關注小細節。Sora還可以獲得現有影片並對其進行擴展或填充缺失的畫面。


Sora從大型語言模型中獲得靈感,這些模型透過網路規模資料的訓練來獲得通用能力。(截圖來自OpenAI發布的Sora技術研究報告:Video generation models as world simulators)

OpenAI發布的技術報告認為,Sora的研究結果表明,擴展視訊生成模型是建立物理世界通用模擬器一條極具前景的途徑。它使人工智慧理解和模擬運動中的物理世界,邁向了一個新的高度。

因此,Sora也被認為是AGI實現過程中的重大里程碑事件,而不只是視頻生成。

在Sora發布之前,Runway和Pika都被認為是視頻生成賽道的佼佼者。在Sora發布之後,許多人認為,它憑一己之力已經輕鬆「吊打」且即將「幹翻」這兩家新興獨角獸公司,並對創業者的命運表示擔憂。

然而,他們自己對此似乎興奮更多於恐懼。Pika創辦人郭文景獨家回應鈦媒體App稱,“我們覺得這是一個很振奮人心的消息,我們已經在籌備直接衝,將直接對標Sora。”

此外,郭文景還透露,目前已經在招募了,具體計畫暫時還不能對外透露。

Pika Labs成立於2023年4月,同年11月發表首款產品Pika 1.0。Pika1.0能夠產生和編輯3D動畫、動畫、卡通和電影,並且普通用戶還可以對其進行加工,被視為一款零門檻「視訊生成神器」。

在與鈦媒體創辦人趙何娟的【AI新生代】系列對話中,郭文景也曾提到,目前生成式影片發展的一個重要限制是演算法的成熟度,這也是Pika的核心主攻方向。

「我覺得影片跟語言模型不太一樣,關於語言模型大家已經知道大概的方法,演算法其實已經比較成熟了。但影片現在沒有很好的演算法,它不是一個規模化的問題,不是說現在大家的GPU不夠多,很多時候其實是演算法上還沒有很好的一個想法。」郭文景說。

而這次Sora的發布,也給了業界一個非常好的演算法思路,可能反倒為Pika這樣的領先新創公司提供更成熟演算法路線可能。

事實上,面對實力強勁的OpenAI,郭文景也早已做好了準備。早在數月前,趙何娟也曾問過郭文景,在影片生成賽道上最關心的對手是誰,郭文景當時即表示,應該是OpenAI。

作為一個在東亞文化裡成長的女生,郭文景大學本科畢業於哈佛,而史丹佛博士尚未畢業就輟學創業。其創立的Pika 1.0版本的demo視頻流出之後,即一鳴驚人,它能夠生成和編輯包括3D動畫、動漫、卡通或者電影風格的視頻,並且使用起來也很容易上手。

它還允許用戶自己上傳影片片段,並使用生成式AI來編輯和重新建立場景。電影質感,動畫級特效,Pika 1.0的視覺效果十分炸裂,似乎讓一般人都能成為電影導演,即將成為一種可能。

這支最初由4個人組成pika_labs,融資超過5500萬美元,幾乎所有AI領域的知名早期投資公司都參與了此輪融資。

而就在Pika1.0發布才過去四個月不到,同賽道的Sor a的橫空出世,在AI視頻生成這條路上,又增加了很多變數和可能性。

以下是先前鈦媒體創辦人趙何娟與Pika創辦人郭文景的【AI新生代】對話實錄:


當電影夢疊加AI的“魔法”

趙何娟:Hello,Demi,很高興又見面了,很高興你能夠來到我的直播間,與我們一起來探討這一波AI浪潮下新生代崛起的話題。身為矽谷最近非常火熱的AI生成式影片計畫Pika的創辦人,外界對你們的討論也特別多。我想大家應該都會對你的創業,對你本人都會很有興趣。

我們可不可以先從你自己的經驗開始聊一聊,你是怎麼從哈佛大學讀本科,然後到史丹佛大學讀的碩博的?又怎麼選擇了文字生成影片這個方向來創業的?

郭文景:大家好,我是Demi。我從小就對創意產業比較有興趣,也因此我選擇去史丹佛大學。之前我一直在做AI,兩年前加入史丹佛大學讀博,我選的方向就是AI for content creation.,用AI做一些內容創作。

我當時跟了兩個老師。一位老師是史丹佛大學人工智慧實驗室的主任Chris Manning,另一個老師之前是用電腦做電影的,他曾經獲過兩次奧斯卡獎。史丹佛也是一直嘗試用AI做內容創作。我也在遊戲公司做過一些AI for虛擬人,AI for 3D遊戲內容,以及原畫的一些的探索。

之所以開始創立Pika,一個是對這個方向比較感興趣,另外也是我自己特別想做一些電影和視頻,但我不是專業的。我曾經跟一些朋友想做一個AI電影,過程讓我意識到,雖然現在影片製作已經非常先進,但還是有很多瓶頸。

我覺得AI一定會改變現在影片製作的方式。如果能夠用最好的AI技術,去想像未來影片製作的方式,是一件很有趣的事。我就開始做Pika這個專案。


趙何娟:你在創立Pika之前,先參加了Runway的AI影片比賽。你現在做的Pika,一個很重要的或比較大的競爭對手就是Runway。為什麼要去參加Runway的比賽,同時要做一個跟Runway完全競爭的項目?而且,Runway在這個領域目前還是領先的。

郭文景:我當時參加這個大賽的時候,沒有想要做AI影片的公司,純粹是興趣。當時我們放寒假,我發現這個比賽就蠻有趣的,我想做一個電影。我們當時還找了一個編劇去寫這個劇本,也找了一些當AI的朋友和大學同學。

這個過程,讓我們意識到現在影片製作還是非常複雜。我們有很多創意是很好的,但並不能很好地實現。我們也用了很多Runway的工具,也用了一些其他的工具,我們發現還有很多空間。


趙何娟:你發現在做影片或電影創作的時候,深入研究發現製作過程還是有很多瓶頸,主要的瓶頸是哪些?

郭文景:我當時想要把視頻的背景變成一些其他的背景,包括幾秒鐘的視頻,就要花掉我好幾個小時,電腦還會出錯。我想要把一個影片放嵌入到iPad的螢幕,過程也非常複雜。我根據一些教程學了一遍以後,第二遍我就直接忘記了,中間還有可能出錯。這應該是比較簡單的任務,沒想到還需要花這麼多時間和精力去做。

我們當時做的電影,找了演員,做的是從真人變成動漫的形式,當時可能還沒有任何模型去做,而影片到影片的功能。我們其實是用了一些新的論文,去實現的。其實AI能做,但市面上沒有很好的工具。


堅定AI信仰:比起數據,技術才是底氣

趙何娟:現在GPT大模型也不斷升級,迭代速度還蠻快的。可能在你想做那件事情的時候,還沒有工具能做,但是可能當你自己去做的時候,發現其他的工具都開始做了。所以,你們來做這件事的核心競爭力是什麼呢?

郭文景:首先,我們還是比較相信自己的技術背景的。我們創始團隊有史丹佛博士,團隊還有麻省理工等院校的博士,和一些比較非常優秀的本科生,我還是想打造一個比較頂尖的技術團隊。

相對Runway來說,我們還有幾個不同。關於產品的定位和產品的策略,Runway可能還是更偏向一些專業的使用者。它們推出的許多功能,主要是面向電影製作,或者說電影工作室,更偏於一些專業用戶。

但我們想做得更偏一般使用者能用的一些工具。不一定說是要做電影,也可以是幫你編輯一些個人的視頻,或是做一些比較有趣味的視頻。

Runway它可能做的範圍會更廣一些,比如說3D、語音、agent,各種不同的模型,方式更偏向於有一個新的演算法,有新的一些功能。但我們是從影片編輯和影片製作的角度出發。


趙何娟:還有一個很重要的問題是數據。相比Runway這樣已經跑在前面的公司,或者是相比其他的一些大的平台,比如說,像迪士尼現在也在做自己的視頻生成的相關的模型,你們會不會認為,數據是最難與之競爭的?你們怎麼解決數據的問題?

郭文景:數據的確很難與迪士尼競爭。OpenAI是現在最好的語言模型,但為什麼有很多語料庫的公司,沒有做出最好的語言模型呢?迪士尼也不代表它的數據一定會更好,因為它的數據量比較有限。其實很多語言公司最後還是看技術。

趙何娟:你剛才講到的另一個不同,你們的定位不一樣。你們更偏向一般用戶,一般消費者,而不是只針對電影製作者這類專業用戶。怎麼理解你們想要針對一般使用者這樣的一個定位?像TikTok這樣也是針對普通用戶,每個人都可以在上面做一段創作或短視頻,是不是你們也會往平台方向去拓展?

郭文景:我們現在沒有這方面的想法,我們更多是基於技術之外的一些功能性的開發。

趙何娟:那一般用戶怎麼用你們?他們用Pika,更多是用來做什麼?

郭文景:我們現在更多是希望使用者可以做一些影片的生成和影片編輯。具體的應用,目前我們還是比較開放態度,是讓使用者決定。我們現在比較多把科技瓶頸突破。

趙何娟:現在科技突破上最大的難題是什麼?

郭文景:我覺得影片跟語言模型不太一樣,關於語言模型大家已經知道大概的方法,演算法其實已經比較成熟了。但影片現在沒有很好的演算法,它不是一個規模化的問題,不是說現在大家的GPU不夠多,很多時候其實是演算法上還沒有很好的一個想法。

舉例子來說,例如現在大部分常用的視頻模型,根據設計來講,它就不可能生成很長的視頻,因為它每一幀的圖片是一起生成的。它有一些演算法上的瓶頸,無法做出我們想像的那種非常長、非常好的影片。它其實還需要一些演算法知識上的突破。


趙何娟:接下來的創業裡,對你來說,還會有哪些挑戰?

郭文景:AI是高速發展的一個產業,一定會有很多的變化,競爭對手也有很多的變化,整個產業日新月異。更多的挑戰是一些不確定的挑戰,我們也不知道未來會發生什麼事。所以,對我們來講,我們的心態是,這就是沒有什麼挑戰。

現在我們更多的是想建立一支比較好的團隊。沒有什麼挑戰是不能克服的。可能有些挑戰更難一些,你花的時間需要更多,去探索,去找到一個解決方案。


趙何娟:你之前是對AI和創作感興趣,但你與團隊在磨合的過程,或者在組建團隊的過程裡,發現就憑興趣做事,和做公司之後,感受有什麼不一樣的嗎?

郭文景:我們很幸運的一點是,我們做的公司,就是我們的興趣。我就是目標用戶。我有時候工作閒的時候,就會去用我們的產品,去做一些影片。包括我們最早的一些市場向的視頻,就是我做的。

我們比較幸運的一點,是因為我們對自己的這個方向特別感興趣。所以,我們的團隊也是相對比較有活力,都是屬於比較有自主動力的人,而且團隊還比較小。創業是最幸福的事情,在做自己最想做的事情,而且跟一群我們覺得非常優秀,同樣對這件事有興趣的人一起做這件事情。


趙何娟:你們的投資機構,光速創投的合夥人Michael,他說,Pika團隊是他見過行動力最快的團隊,我不知道你怎麼看待這個評價?

郭文景:我們團隊一直比較重視執行的效率,這可能也是小團隊的優勢。


趙何娟:我們再來聊聊趨勢。之前有看到英偉達的科學家說,2022年是影像之年,2023年是聲波之年,2024年是影片之年,你怎麼看這個演化的過程?近幾年說影片也都好多年了,為什麼說今年是影片之年?

郭文景:視頻可能現在雖然沒有那麼完美,但是今年一定會有比較大的突破,因為現在用AI一個做好的視頻,需要在prompting,提示詞上有一些技術。你可能需要在這方面比較有經驗,就能做比較好的影片。但如果你沒有很有經驗,就不能做出很好的影片。

這是因為現在視訊模型還沒有那麼成熟,但我們覺得馬上會非常成熟。

今年可能就可以做出產品,是能夠讓所有人不需要有很多的經驗,就能夠做很好的影片。


趙何娟:接下來也想聊聊你對整個AI的產業的一些判斷。你怎麼看待最新的這一波的AI革命浪潮,有沒有可能有更多的機會也是你感興趣的?除了你現在做的影片之外,你接下來還有沒有哪些想法?

郭文景:我非常相信AI浪潮。我知道很多人可能會覺得AI浪潮實在有點太火了,或是有些過度,有些泡沫。但我們還是很相信的。不管說這個熱度是否過火,但是技術真的有突破。我們也相信,未來AI一定會改變很多產業,很多的應用,包括應用的一些使用。這就是毋庸置疑的。可能包括影片製作或音樂製作,購物方式,AI都會對傳統的方式有顛覆。


「別人家的女兒」是如何長成的?

趙何娟:你做這件事的事情,家人怎麼看?

郭文景:我家人還挺支持我做任何我想做的事情的。


趙何娟:Pika創業計畫出來之後,你們公佈了融資信息,又發布demo,大家也都非常關注你的家庭背景,都說這是「別人家的女兒」。

所以,從你自己角度來說,你覺得家庭的教育,對你不管是求學,還是創業的想法,起了什麼啟發或角色?一個這麼優秀的女孩子的成長,一個很好的家庭教育還是很重要的,或者是起到了很至關重要的作用。

郭文景:我覺得我還挺幸運的,我的整個成長經歷,也挺感恩,不管是對我的老師,或是家人。因為我從小一直對創意產業比較感興趣,我小學的時候,其實是想做一個作家,想要追求一些文藝的夢想,包括我家里人,其實當時特別希望我能走一些文藝的路線。我當時堅持要做程式設計這條路線的時候,我還跟我父母大吵了一架。我有姐姐和妹妹,她們是做的偏這個藝術方面的一些工作。


趙何娟:你小時候那麼喜歡寫作,什麼時候開始又開始對程式設計有興趣的?是什麼觸發你突然對程式設計感興趣了?

郭文景:我當時特別喜歡詩。我小時候喜歡寫作,喜歡看詩、散文集。我特別喜歡一些比較抽象的詩歌,一些有隱喻的散文,結構上的設計上比較巧妙的詩歌和散文。

當時接觸到編程,也純粹覺得非常有趣。五、六年級的時候,剛好家裡有一本書講的是LOGO程式語言,是一個小烏龜畫畫的語言。當時暑假沒事幹,看了這本書,就學會了這個LOGO語言。你可以透過程式設計的方式,去做一些創作。

程式跟詩還是有一些共通之處的,是需要設計的。比如說,結構化的編程,你需要設計一下,函數怎麼搞,結構怎麼搞。但它與詩不一樣的點是,你最後的輸出的這個東西,是可以互動的。


趙何娟:你可能在小學的時候接觸程式設計是玩兒,但是,在成長的過程之中,比如說,中學之後就要開始想專業方向。你在專業方向選擇的時候,為什麼沒有選文藝那條路?比如說,去學文學或是學藝術相關的,而是完全走上了這個電腦科學這條路。

郭文景:我其實到國中、高中以後,就逐漸喜歡上了程式設計。純粹是個人興趣,沒想到程式設計會對我升學有幫助。當時每天要先好好做作業就開始去程式設計。程式設計與文學不一樣的有趣的點是,程式設計真的能做一些應用,一些實際上的大家都能用的一些應用。我覺得這件事情非常的magical。

大學也是興趣導向的。我大學本科修的是數學。但是,我同時也與一些博士生一起,上一些計算機的課。在哈佛修的是數學學位,同時拿了一個計算機的研究生學位。我在哈佛也上了很多人文學課。

前兩年,我就把計算機和數學的學位拿到了。後面兩年,其實我主要都在上人文課,關注文藝的一些事。


趙何娟:這個也蠻有意思的,不管是電腦還是文藝,都是你的興趣。然後,你現在就把這些不同的興趣,透過創業,把它結合起來了。

郭文景:這是兩個不同方向的興趣。大一時候,我就開始接觸AI。因為當時覺得AI像是一種魔法,AI這麼神奇,這麼powerful。比如說,AI當時能夠做人臉偵測之類的,我覺得非常不可思議。對AI也有興趣,對藝術和創作一直都很感興趣,我很難找到一個更讓我覺得更有意思的事。


趙何娟:你從哈佛學習,又來到了史丹佛。這兩所學校,一個在美東,一個在美西。你覺得這兩所大學對你來說,以及你在這兩所學校裡收穫的東西,有什麼不一樣呢?

郭文景:兩者不同的話,其實很難說。主要是本科經驗和博士經驗不是很一樣。大學可能會更廣一些,更注重一些探索,可能會修不同的領域的課,會認識不同領域的人,但博士可能會比較專業一些。


趙何娟:美東的文化和矽谷的文化相比,差異其實還蠻大的。在你看來,這兩所學校的教育模式、創新,或是與企業界的聯合的方式,有什麼不一樣?你會更受益於哪一種?你的創業可能會更受惠於哪一種?

郭文景:其實挺難對比的。每個學校環境不太一樣。可能在哈佛,在美東,大部分的朋友都在搞金融,但是,史丹佛會有更多同學對創業感興趣。

史丹佛有很多計算機的課,計算機與其他學科結合的課也非常多。哈佛與電腦相關的,沒有幾個課,我們當時要上一些博士level的課,可能也就二十幾個人。甚至,我當時還在MIT上了一堂課。

其實電腦相關的,在哈佛也是第二大的學位。在哈佛很多學習電腦的人,後來也沒有去做電腦相關,很多人去做股票、諮詢或產品經理之類的工作。


趙何娟:史丹佛的創意氛圍較濃,史丹佛大學也有很多輟學創業的,都還比較成功。你的前輩們在矽谷各領風騷好幾年。過幾年,又會有一波新興的創業新秀起來。這也與矽谷和史丹佛獨特的文化有很大的關係。

當時怎麼就下定決心,決定輟學去創業的?尤其你從小成績就很好,是家裡的掌上明珠,為什麼有輟學這個跟你之前的人生可能很不一樣的決定?


郭文景:比起讀博來講,我個人對創業會比較感興趣。我其實在哈佛從中間也休學了一年,再回去讀的。我當時大二的時候,在Facebook就是現在Meta全職工作了一年,在AI研究實驗室,主要是感興趣。對創業比較有興趣,是因為我覺得還能做一些應用。

我比較喜歡追求自己熱愛的事。在美國,一些本科生輟學還是挺正常的一件事情。我的幸運的點是我的導師。包括我的博士的導師,都特別支持我。他們在學術上都非常資深,一個是史丹佛人工智慧實驗室主任,一個是獲得了兩個奧斯卡獎。我博士的導師,現在是我創業的導師和顧問。現在我還是會定期去見他們。


趙何娟:他們怎麼看待你現在這個創業計畫的?

郭文景:他們非常支持。我當時跟我一個導師說了這個事情,他馬上在電話上直接說支持我。他說,聰明的人就應該去做自己想做的事。我覺得非常幸運,我也非常感恩我的導師,他在一些技術上的知識都會支持。現在,他還是會跟我們進行一週一次的技術上的指導。我的導師也會覺得,快樂最重要。


趙何娟:特別感謝Demi,Demi是個很真實、率真,可愛的女孩。也有很多年輕一代的人,看到AI這個大浪潮來了。能不能請你給你的同儕一些方向性的建議,如何把握到這個機會?

郭文景:也不能說給什麼建議,可以分享一下我個人的想法。我覺得其實很多時候,還是要追求自己的內心想做什麼,還是要追求自己的個人的興趣。大家的人生只有一次,要做自己熱愛的事情,只有做自己熱愛的事情,才能做得到最好。(鈦媒體)