就像滾熱的油鍋中,撒進了一大把海鹽-Sora來了。
當地時間2月15日, 人工智慧研究公司OpenAI,發布了首個影片生成模型Sora ——「世界模擬器」。當Sora影片亮相時,「世界」被「模擬」後的震撼撲面而來:僅依靠幾句文字提示語,Sora自動生成了雪地裡撒歡的大狗、咖啡裡破浪的帆船、街景裡雪舞的櫻花,惟妙惟肖、纖毫畢露、幾可亂真。
Sora帶來的震撼,讓許多人驚愕不已。
人工智慧(AI)發展至今,本質上是機器透過模仿、學習人類的智能,接近、達到(甚至超過)人類的智能,以幫助減輕人類的勞動、提升人類的能力。它是人類主導、模擬人類智慧的科學,人們透過設計學習路徑——建模,讓機器反覆學習以具備特定能力。
這種運作方式,近乎於手作工作坊。想要生產什麼樣的產品,就提供什麼樣的學習圖紙,然後機器對應重複學習,由此具備設定的能力。Sora的意義在於,只需要提供一些提示性的文字語言,它就會自動產生人類想要的場景。這就意味著,Sora會理解人類的思想!
Sora亮相的那天,大家最初都驚訝於文(字)生視頻的逼真性和清晰度。這當然不容易。例如那條雪地上撒歡的大狗,毛髮絲絲閃亮發光,十分清晰逼真。如果跟現在的類似競技pika、 Runway、 Stable Video等對比,幾乎是資訊時代與石器時代的差別。
類似效果,以前需要人工一筆筆畫出毛髮,然後建模渲染,以形成活生生的形象,成品也不如Sora。科幻大片《阿凡達》中人物飄逸的長髮、大海裡洶湧的海浪,就是一大批人一筆筆畫了好幾個月後,在電腦幫助下製作出來的。Sora能自動即時產生如此生動的視訊影像,當然不容易。
Sora 更震撼的,是影片產生、生成的過程。它依據給出的文字提示,能理解其中蘊含的信息,準確地轉換(想像)成匹配的圖像場景,最終形成符合人類意圖可長達一分鐘的視頻。Sora具備的理解能力、從文字到圖像的想像力,已接近人類特有的複雜想像判斷能力,這是最關鍵、最有意義的。
例如人類對海浪的認知,並不需要透過一幀影像建模來實現,只要見過大海的人,馬上就會想像生成圖景。Sora,就具備了某些這樣的從文字想像到圖像的能力。它反映了對物理世界的理解,已經從文字進到圖像,從圖像轉到對這個世界3D環境的理解。相較於一年多前同樣由OpenAI發布的chatGPT,已經從文字理解、文字解讀的一維層面,躍升到文字直接生成視頻的二維和三維層面。這是質的巨大飛躍。
Sora是怎麼得到這種能力的呢?
根據技術團隊透露的訊息,Sora的誕生,有著許多與眾不同、與以往不同的方式。
第一是解構影片。將極大數量的各類視訊(可視資料)碎片化,轉換為可統一標識的特定編碼,以便在輸入資訊時認知。第二,影片與文字的巨大不同在於有複雜的格式差異,Sora著重細化了不同解析度、持續時間和縱橫比的影片和影像的解析和標識,方便應用時可組合成不同需求的影片。第三,將可視資料轉換成資料包。這是非常重要的一步,碎片化、精細化的數據,只有透過一定組合的資料包,才能被有效、可擴展的運用。第四,建立高度描述性的轉譯者模型。它具有兩方面作用,一方面大量訓練學習帶有文本解讀的視頻,理解每一幀畫麵包含的文本意義;另一方面,接受文本傳遞的信息,學習訓練得到相應的畫面和圖像。
Sora還充分利用了一年多前誕生的GPT技術,將用戶提供的簡短文字提示,先由GPT轉換為更長的詳細描述,再發送給視頻模型,這大大提高了按照用戶提示生成高質量視頻的精準度。從這個意義上來說,GPT其實是Sora得以誕生的關鍵一步。
Sora的出現,是人工智慧領域一次重要的進步。它自動解析文字描述,以真實物理定律孿生虛擬數位世界,重建真實世界與虛擬空間互動。它能夠將人們的想像轉化為生動的動態畫面,將文字的魔力轉化為視覺的饗宴。它也預示著一個全新視覺敘事時代的到來,將為傳媒、影視、教育等諸多產業,帶來印象深刻的改變。
“以前不相信是真的,現在不相信是假的。”(新民週刊)