視訊生成,或正成為一個讓人細思極恐的轉折點。
剛剛,Andrej Karpathy 發文對Google的Veo 3視訊生成模型發表了深刻見解,稱這不僅僅只是技術進步,更是對整個內容創作生態即將發生巨變的預警。
Karpathy指出,視訊生成技術的進步帶來了四個關鍵轉變,其中最後一個尤其值得警惕。
這不僅體現在娛樂內容上,更重要的是在工作和學習場景中——想想那些讓複雜概念瞬間清晰的圖表、動畫和演示。
視訊是最簡單/有趣的,普通人不喜歡閱讀/寫作,這非常費力。
任何人都可以(並且想要)與視訊互動,相比之下,閱讀和寫作對大多數人來說都是高度耗費精力的活動。
以前製作一個高品質視訊需要專業團隊、昂貴裝置和大量時間,現在只需要一個提示詞。
建立視訊的障礙是 -> 0
但Karpathy 認為,真正革命性的是第四點:
Karpathy解釋道,傳統的視訊平台如TikTok,本質上是在一個有限的視訊庫中進行索引、排序和推薦。
創作者製作內容,演算法學習如何將合適的視訊推送給合適的使用者。
這個「人類創作者學習使用者喜好+演算法學習推薦策略」的系統,雖然已經讓人們對TikTok上癮,但在Karpathy看來,這只是冰山一角。
Veo 3這類模型輸出的視訊是神經網路的直接產物,這是一個可微分的過程。
這意味著我們可以設定任意目標,然後用梯度下降來最佳化。無論是使用者參與度、瞳孔擴張程度,還是廣告點選轉化率,都可以成為直接最佳化的目標。
「為什麼要索引有限的視訊庫,當你可以無限生成並直接最佳化它們?」
Karpathy問道。
他認為視訊將成為AI與人類交流的絕佳介面。
一個精心設計的圖表或動畫比一堵文字牆更容易讓人理解。但當這個高頻寬的媒介變得可以直接最佳化時,我們可能不會喜歡「最優」的樣子。
chrissy(@chrissyykat)分享了劉慈欣的科幻短篇,暗示我們正在接近那個反烏托邦的未來:
隨著Veo 3的發佈,我無法停止思考這個。感覺我們每天都在越來越接近
Eric Watson jr(@Ironman_E)認為這將徹底改變視覺創意領域:
我同意。在視覺創意方面,這改變了一切。這是激動人心的時刻。讓我們看看現在限制都消失了,我們能有多有創意。希望主要是好的方面。
Shardul(@isharduld)提出了一個關鍵問題:
當視訊參與度變成梯度下降問題時,我們需要什麼保障措施?
Emmanuel O(@emmanuelomn)描繪了一個令人不安的場景:
這是個可怕的想法。把人類從等式中移除。我已經能看到了。一個所有視訊都由公司生成的社交媒體網站🙃
教育領域的應用前景則更讓人期待。
Hitarth Sharma(@iamhitarth)設想:
我很好奇這在教育科技領域會如何發展。想像一下為在TikTok上長大的一代人將物理、化學或數學TikTok化,並最佳化理解而不僅僅是打勾完成任務——那將是了不起的。
Alon Aizescu(@AlonAizescu)發出了更嚴肅的警告:
在不久的將來,消費線上內容可能比毒品更容易上癮。所有被AI取代的工人將沉迷於消費內容。誰能在戒毒領域開發出突破性產品將大大受益。
Simon Lermen(@SimonLermenAI)總結到:
噩夢燃料
Vishvanand(@vishvanands1)提出了一個有趣的對比:
為什麼同樣的事情沒有發生在生成文字的LLM上?例如訓練LLM編寫能產生最大點選/轉化的文案
Mr R(@slantsalot)提出了反對意見:
我不完全同意這個觀點。例如,惡作劇視訊、事故視訊、打架視訊或尷尬視訊只有在真實人類的背景下才有價值。AI視訊無法沿著這些獎勵向量進行最佳化以增加價值
Tom Löwe(@awaken_tom)用圖片展示了GUI介面現在與5年後的對比,暗示著互動方式的徹底改變。
Jeffrey Emanuel(@doodlestein)的評論引人深思:
基本上我們的孩子註定會成為上癮的白痴,因為沒有其他東西能與這種未來最佳化的自動垃圾生成競爭。這有點令人沮喪,不是嗎?而且很可能是不可避免的。唯一的解決方案是永遠不要嘗試一次,就像海洛因或可卡因一樣。
Nike_Zoldyck(@Nitin_wysiwyg)則幽默總結:
Veo3發佈5分鐘後……兄弟,世界只是某人寫的一個提示詞😅
最後,Gabriel Baker(@gabrieljbaker)的觀察讓人警醒:
這是個大問題。許多青少年顯然不喜歡面對面的人際接觸。他們活在Character AI和TikTok上。
當視訊可以被直接最佳化來抓住我們的注意力,當AI可以無限生成最「吸引人」的內容,我們是否準備好了面對這個新世界?
對未來的興奮和憧憬之外,讓我有一絲不安的是——
無論這是潘多拉的魔盒,亦或是阿拉丁的神燈,一路向前的我們,似乎已經別無選擇。 (AGI Hunt)