新民一週| SORA的震撼

2024/02/22

•

就像滾熱的油鍋中，撒進了一大把海鹽－Sora來了。

當地時間2月15日，人工智慧研究公司OpenAI，發布了首個影片生成模型Sora ——「世界模擬器」。當Sora影片亮相時，「世界」被「模擬」後的震撼撲面而來：僅依靠幾句文字提示語，Sora自動生成了雪地裡撒歡的大狗、咖啡裡破浪的帆船、街景裡雪舞的櫻花，惟妙惟肖、纖毫畢露、幾可亂真。

Sora帶來的震撼，讓許多人驚愕不已。

人工智慧（AI）發展至今，本質上是機器透過模仿、學習人類的智能，接近、達到（甚至超過）人類的智能，以幫助減輕人類的勞動、提升人類的能力。它是人類主導、模擬人類智慧的科學，人們透過設計學習路徑——建模，讓機器反覆學習以具備特定能力。

這種運作方式，近乎於手作工作坊。想要生產什麼樣的產品，就提供什麼樣的學習圖紙，然後機器對應重複學習，由此具備設定的能力。Sora的意義在於，只需要提供一些提示性的文字語言，它就會自動產生人類想要的場景。這就意味著，Sora會理解人類的思想！

Sora亮相的那天，大家最初都驚訝於文（字）生視頻的逼真性和清晰度。這當然不容易。例如那條雪地上撒歡的大狗，毛髮絲絲閃亮發光，十分清晰逼真。如果跟現在的類似競技pika、 Runway、 Stable Video等對比，幾乎是資訊時代與石器時代的差別。

類似效果，以前需要人工一筆筆畫出毛髮，然後建模渲染，以形成活生生的形象，成品也不如Sora。科幻大片《阿凡達》中人物飄逸的長髮、大海裡洶湧的海浪，就是一大批人一筆筆畫了好幾個月後，在電腦幫助下製作出來的。Sora能自動即時產生如此生動的視訊影像，當然不容易。

Sora 更震撼的，是影片產生、生成的過程。它依據給出的文字提示，能理解其中蘊含的信息，準確地轉換（想像）成匹配的圖像場景，最終形成符合人類意圖可長達一分鐘的視頻。Sora具備的理解能力、從文字到圖像的想像力，已接近人類特有的複雜想像判斷能力，這是最關鍵、最有意義的。

例如人類對海浪的認知，並不需要透過一幀影像建模來實現，只要見過大海的人，馬上就會想像生成圖景。Sora，就具備了某些這樣的從文字想像到圖像的能力。它反映了對物理世界的理解，已經從文字進到圖像，從圖像轉到對這個世界3D環境的理解。相較於一年多前同樣由OpenAI發布的chatGPT，已經從文字理解、文字解讀的一維層面，躍升到文字直接生成視頻的二維和三維層面。這是質的巨大飛躍。

Sora是怎麼得到這種能力的呢？

根據技術團隊透露的訊息，Sora的誕生，有著許多與眾不同、與以往不同的方式。

第一是解構影片。將極大數量的各類視訊（可視資料）碎片化，轉換為可統一標識的特定編碼，以便在輸入資訊時認知。第二，影片與文字的巨大不同在於有複雜的格式差異，Sora著重細化了不同解析度、持續時間和縱橫比的影片和影像的解析和標識，方便應用時可組合成不同需求的影片。第三，將可視資料轉換成資料包。這是非常重要的一步，碎片化、精細化的數據，只有透過一定組合的資料包，才能被有效、可擴展的運用。第四，建立高度描述性的轉譯者模型。它具有兩方面作用，一方面大量訓練學習帶有文本解讀的視頻，理解每一幀畫麵包含的文本意義；另一方面，接受文本傳遞的信息，學習訓練得到相應的畫面和圖像。

Sora還充分利用了一年多前誕生的GPT技術，將用戶提供的簡短文字提示，先由GPT轉換為更長的詳細描述，再發送給視頻模型，這大大提高了按照用戶提示生成高質量視頻的精準度。從這個意義上來說，GPT其實是Sora得以誕生的關鍵一步。

Sora的出現，是人工智慧領域一次重要的進步。它自動解析文字描述，以真實物理定律孿生虛擬數位世界，重建真實世界與虛擬空間互動。它能夠將人們的想像轉化為生動的動態畫面，將文字的魔力轉化為視覺的饗宴。它也預示著一個全新視覺敘事時代的到來，將為傳媒、影視、教育等諸多產業，帶來印象深刻的改變。

“以前不相信是真的，現在不相信是假的。”（新民週刊）