對話 Roto:不做 “AI 剪映”,他們想把Netflix沒做好的互動劇用AI重做一遍

AI 視訊界的“剪映”太多了,而Roto 想做 AI 時代的 Netflix。

作為母公司 FansAI 發佈的全球首個開放世界互動視訊平台,Roto 背後的團隊均來自矽谷大廠與國內頂尖科技公司,試圖建構一個介於遊戲與影視之間的新物種。

對於創作者來說,Roto提供了一個節點式的創作工具,你可以設定劇情節點鋪陳故事,設定生成節點呼叫 AI 即時產出畫面,設定互動節點讓觀眾輸入文字或語音,或者通過分支節點決定故事走向不同的結局;發佈之後,對於觀眾來說,他們就不再是被動的接收者,而是可以把自己的名字、形像甚至決策即時融入劇情,讓每一次觀看都成為獨一無二的個性化體驗。產品體驗:https://rotopus.art/

我們和 FansAI聯合創始人、Roto創始人 David Xu 聊了聊,他此前是 TikTok、Snapchat 的 AI 產品經理,著手了 AI 綠幕、AI 相機等功能的落地,另一方面,他也是一個在話劇團表演、在 Livehouse 組樂隊的“非典型藝術生”。Roto 某種程度上正是這兩個自我合二為一的載體——他希望用技術去拓展藝術表達的邊界,而不是僅僅做一個冷冰冰的工具。

“我不否認市面上全鏈路視訊創作工具的價值,但如果只做工具,為了讓更多人付費,必須不斷降低門檻,很容易陷入製造‘電子垃圾’的死循環。”

在他看來,用 AI 生成視訊再發到抖音,本質上仍然是舊的內容消費邏輯;但每一代新技術的誕生,必然會催生一種全新的內容樣式,而Roto代表的互動式視訊,會是一種可能。

以下是對話實錄:

當一個矽谷產品經理,決定做“藝術生”的夢

矽星人:可以先給大家介紹一下你們的產品?

David: 我們分成兩部分:一部分是創作端,創作者可以用我們的平台去完成他們自己的 AI 互動劇並行布;另一部分是播放端,使用者作為觀眾觀看這些劇集,通過輸入、語音等互動動作,改變劇情。我們比較篤定的是未來的內容是由觀眾共同創作的,每一次觀看都可以成為獨特的、高沉浸度的體驗。

在創作流程上,現階段使用者按照“節點式”的邏輯建構劇情。節點主要有四種類型:

劇情模組(Story Module):創作者上傳自己已有的、設定好基調的視訊內容。

  1. 互動模組(Viewer Interactive):創作者設定問題或觸發點,讓觀眾輸入(文字或語音),這些輸入會被存下來影響後續發展。
  2. 分支模組(Branching):根據使用者輸入的意圖或行為,判定劇情走向不同的結局。
  3. 生成模組(Generation Module):創作者選擇各類視訊模型(如 Veo, Seedance 等),在使用者互動後即時生成畫面。

矽星人:相當於我可以用你們的平台做一個《完蛋了!我被美女包圍了》,並行布在你們平台上讓其他使用者玩?

David: 可以的。我們已經上線了十部互動短片,比如我們有一個教學短片叫《Roto 大戰 Bug》。


矽星人:挺可愛的,你們做了多久?

David: 一個人斷斷續續做了一周吧,這個是用Seedance 2.0 做的。如果你想做一個簡單的互動,可能 1 個小時就弄完,但如果你想做一個稍微看起來還不錯的片子,其實是需要很多構思的。

矽星人:這種互動形式其實並不完全算“新物種”,Netflix 之前也嘗試過《黑鏡:潘達斯奈基》,遊戲行業也有類似的 AVG。但現階段 AI 模型的能力還不足,生成速度慢、效果不穩定。為什麼你選擇在這個時間點切入?畢竟現在連基礎的 AI 視訊工具都還在解決“可用性”問題,你們還要在此基礎上加一層複雜的互動。

David: 根本還是在於我們相信AI會帶來下一代內容形式。AI 帶來的核心變革是“相對即時”和“個性化”:

  • 相對即時:雖然現在生成還要幾秒甚至更久,但相比傳統影視製作的“非同步”(拍完剪完才能看),AI 正在向“同步”演進。
  • 個性化:過去的內容,創作者和觀眾邊界分明。但在 AI 時代,觀眾可以把自己的名字、形像甚至決策融入劇情。

我們不必像 Netflix 那樣把所有分支的可能性都拍出來(那成本太高了),而是在框架內,讓 AI 根據觀眾的輸入去即時生成。這是一條此前從未有過的路徑。

矽星人:所以你不想等技術完全成熟了再做?

David: 對。技術的發展是階梯式的,現在的模型可能還不夠快,但我們判斷未來一定會達到秒級甚至毫秒級。在這個技術成熟的一兩年過渡期裡,內容側的思考是不能停滯的。

就像短影片剛出來時,大家花了很長時間才探索出“豎屏、15秒、全身拍攝、快節奏剪輯”這套範式。AI 互動內容也需要時間去探索它的鏡頭語言和敘事邏輯。對於小公司來說,如果等大廠把技術都做完美了再進場,我們就沒有任何機會了。我們必須在技術還不成熟的時候,先把“新一代內容平台”的範式立住。

矽星人:你對“內容”本身有執念嗎?在此次創業之前,你的經歷是怎樣的?

David:我本科畢業後在矽谷呆了 10 年,先後在 Pinterest、TikTok 和 Snapchat 做產品經理。在 TikTok 時,我們做了 AI 綠幕;在 Snapchat,我負責將攝影機下的功能全 AI 化(AI 配文、修復、生圖),接觸了非常多的模型,但更多還是基於技術,去找成熟場景下的最佳化可能。但我始終覺得每一代新技術的誕生,都會催生一種全新的內容樣式。

就像照相機帶來了攝影,電腦帶來了 CG 和遊戲。現在的 AI 視訊技術,如果不去創造新樣式,只是用來做傳統的視訊,那就是在走老路。

另外,我也算是一個藝術創作者。我在清華讀書的時候是話劇團、街舞團的成員,後來組過樂隊當主唱,在海外的十年裡,我也會去 Livehouse 演出,參加一些跳舞的活動和比賽。

矽星人:多才多藝型創業者,所以你讀書的時候成績怎麼樣?

David:那肯定是一般<笑>。但我會覺得清華很好的一點是,你在裡面可以活成各種樣子。如果你是很想學習,你是可以在學術上鑽研。但如果你想探索其他東西,學校也提供這些資源,比如會請中戲的老師來教課。對藝術創作的愛好,我畢業十多年了,一直都沒有斷過。

在過去,技術圈和藝術圈是有 Gap 的。做技術的人容易輕視內容,覺得那是“軟”的東西;做內容的人又不懂技術邊界。Roto 對我來說,就是把這兩個自我合二為一的載體。我希望用技術去拓展藝術表達的邊界,而不是僅僅做一個冷冰冰的工具。

不做新“剪映”,做下一代“AI愛優騰”

矽星人:現在市面上有很多 AI 視訊創作工具,大多致力於解決從劇本到生成的全鏈路問題。而 Roto 目前似乎更側重於互動架構,創作過程中存在“斷層”,使用者可能需要在其他平台生成好素材再上傳。你們為什麼不把“劇本生成”或“一鍵抽卡”這部分功能做進去?你們和這些工具的本質區別究竟在那裡?

David:首先,我不否認目前市面上那些“全鏈路工具”的路線,但我認為這個賽道已經捲得太同質化了。

大家現在的通用邏輯都很像:從劇本拆解到關鍵幀,再到生成片段、拼接。但這套鏈路大家都在做,如果我們現在也衝進去,很容易就變成單純的“搶市場”和“做推廣”,跟別人其實拉不開差距。

我們要先做別人做不了的事——也就是這個節點式的創作架構、互動邏輯的搭建,以及配套的播放器。這是我們的核心差異化。

而且說實話,現階段 AI 寫劇本的能力也就“60 分水平”。讓 AI 自動寫劇本、拆分鏡,已經被證明效果還不夠好,很難產出真正高品質的內容。創作者可以帶著好的劇本進來,或者在其他工具裡生成好素材,然後利用我們的平台把這些素材“搭”成一棵複雜的劇情樹。

更重要的是,如果只做工具,很容易陷入一個製造“電子垃圾”的死循環。因為做工具的商業模式通常是收訂閱費(ARR),為了讓更多人付費,你必須不斷降低門檻,搞各種“一鍵生成”的範本,追求自動化。這就導致使用者生產出大量低品質、同質化的內容。這些內容除了滿足使用者那一瞬間的“生成快感”,其實沒有任何消費價值——發到朋友圈沒人看,發到抖音沒流量。沒人看,使用者就不願意持續付費,整個生態就轉不起來。

我們選擇做平台,做 AI 時代的 Netflix。我相信一定是 PGC(專業生產內容)帶動 UGC(使用者生產內容)。所以現階段我們不追求讓所有人都能一鍵生成,而是通過邀請制,聯合國內最頭部的 AI 創作者(比如海辛、野菩薩)和傳統的影視/短劇公司,用我們的工具去真正打磨出高品質的精品內容。

矽星人:做平台的難度在於,使用者為什麼要到你的網站來看?如果我把生成的視訊直接發到抖音上呢?

David: 傳統的視訊平台(愛奇藝、抖音)播不了我們的內容。因為 Roto 的內容是非線性的、即時生成的。你在抖音上看到的是一個錄製好的死視訊,但在 Roto 上,你輸入一句“拿著光劍戰鬥”,主角真的會拿出光劍;你選擇“拯救”或“逃跑”,劇情真的會走向不同的結局。這種“可互動的動態體驗”,必須依賴我們自研的播放器才能實現。這就是我們獨立存在的價值。

當然,我們支援使用者將體驗過程匯出為視訊切片發到社媒,但這只是為了傳播,完整的互動體驗只能在 Roto 發生。

矽星人:冷啟動的死循環怎麼解決?沒有創作者就沒有內容,沒有內容就沒有使用者。在產品早期,你們如何解決創作者的“吃飯”問題?

David: 這個問題非常關鍵。我們現階段的商業化策略很明確:通過 B 端的品牌資源,來養 C 端的生態。

我們現在不會去向創作者收訂閱費,反而鼓勵他們多做。通過我們積累的商業資源,我們正在推一種全新的“品牌互動廣告”。

品牌方其實非常願意為“新形式”買單。比如一個球鞋廣告,用H5頁面的方式,通過 Roto 的技術,使用者可以輸入指令:“我想看王一博穿這雙鞋”或者“我想看迪麗熱巴穿”,廣告裡的人和鞋就會即時改變。這種高互動率的廣告樣式是傳統視訊做不到的。

矽星人:這是一個資源生意。

David: 是的。目前無論是用 H5 還是其他方式,都是為了把生態打起來。

在“抽卡”與“控制”之間,尋找工程化解法

矽星人:要實現你說的這種體驗,光靠現在的視訊生成模型似乎不夠。具體到工程層面,比如我在體驗時發現,生成的內容需要和上下文強關聯。如果使用者輸入的內容太離譜,模型“崩”了怎麼辦?

David: 這是一個非常關鍵的工程問題。我們並沒有把生成的權利 100% 交給使用者,而是採用了一種“完形填空”的機制。

在我們的生成節點裡,創作者其實已經預設了一個 Prompt 的“底座”(大概佔 60%),比如規定了“中景、夜晚、賽博朋克風格、主角拿著某物”。觀眾的輸入(比如“拿著一把鹹魚”)會被轉化為一個“標籤”,嵌入到這個 Prompt 中(佔 30%)。

系統不會直接把這個 Prompt組合扔給視訊模型,而是在後台先跑一遍語言模型(LLM)。LLM 會根據劇情背景(Context),將使用者的簡單輸入改寫為一段更符合視訊模型理解的、情節飽滿的 Video Prompt。比如你只輸入了“一把劍”,後台可能會將其擴充為“在昏暗的燭光下,主角緊緊握住一把寒光閃閃的古劍,眼神堅毅”。這樣既保證了使用者的參與感,又確保了生成內容在創作者設定的審美和邏輯框架內,避免了“抽卡”式的不可控。

矽星人:還有那些環節用到了AI,你們是如何去搭建的?

David: 這是一個多模態的協作流程。首先是意圖識別:當使用者輸入文字或語音時,LLM 會判斷這個意圖是傾向於“正向拯救”還是“悲觀逃跑”,從而決定劇情走向那個分支。

其次是生成執行:我們會呼叫視訊模型生成畫面,呼叫語音模型生成角色的對白。我們目前對模型持開放態度,比如最近火爆的 Seedance 2.0,它的控制力度和表現力都有階梯式的提升,我們就可以接入。我們相信隨著推理加速技術的發展,視訊生成終將達到“即時”等級。Roto 現在做的,就是為那個“即時時刻”搭建好所有的基礎設施和內容範式。

技術+藝術+商業的組合,做全球市場

矽星人:你的MBTI是什麼?

David: 我是 ENFP,快樂小狗。

矽星人:ENFP,創業者裡面很少誒。

David:對,我其實還是一個蠻在乎過程是否快樂開心的人。創業是一個生活方式,在這個過程中,整個體驗,然後對世界或者一件事兒的理解,包括你結交的這些小夥伴,這個對我來說最重要。

矽星人:但是ENFP其實容易情緒化,再加上創業的過程中波折也很多。

David:我不是個情緒化的人,但創業的過程中,有時候你就覺得這個事情怎麼就做不出來,對吧?短時間內有很多事情放在一起。

我給自己的忠告是:既然你選擇了創業,掌握了控制權,就要接受這種不穩定。其實沒有那一天是“World Ending Day”(世界末日)。你不會因為一個決定,公司就立刻死掉。凡事都是有餘地的,關鍵還是看整體節奏,創始人心態也會傳導給團隊,對吧。

矽星人:你和你的團隊是怎麼認識的?

David:我和我的合夥人是大概去年上半年的時候認識的。在組隊之前,我一直在思考:到底什麼樣的人適合一起創業?我身邊很多清華或者矽谷的朋友,他們的創業團隊通常是“全技術班底”,大家程式碼能力都很強。但我這次想嘗試一種不同的建隊思路——“技術+藝術+商業”三位一體。

我自己負責技術和藝術願景,而我的合夥人則是一位在商業化上非常有經驗的連續創業者,他有豐富的廣告行業背景和品牌資源。這種互補的組合,讓我很好奇能不能在商業落地上跑出一些不一樣的嘗試,畢竟只靠技術很容易陷入“不知道怎麼賺錢”的困境。

矽星人:創業差不多半年,你感覺國內外的氛圍有什麼區別?

David: 可能因為我在海外待了很久。我的感受是,國外是下限很高但上限不夠高的環境,大家可以過得很安穩,做長期主義的 Research;而國內是下限很低但上限很高的環境,生存壓力大,市場急躁,但如果你有想法,這裡的產業鏈速度、人力成本和政策支援能讓你極快地把東西落地。

我選擇回國創業,也是希望能結合兩邊的優勢:用矽谷的長期主義思考產品,用中國的速度去實現它。

矽星人:那 Roto 最終的市場定位是怎樣的?側重國內還是國外?

David: 我們的目標一定是全球化,甚至更側重海外市場。

國內的內容產業已經高度平台化了,像愛優騰抖這樣的巨頭把持著流量,新的使用者和創作者規模化確實比較難,但小公司也有很多值得做的事兒。

相比之下,海外市場是“內容至上”,而非單純的“流量至上” 。在海外,像 A24 這樣的小型 Studio 或者一些獨立的內容製作公司,只要內容夠好,是有生存空間的,不會輕易被大平台卷死。我覺得海外的競爭環境對極致創新的小企業更友好 。

所以我們在產品形態上,我們一定會做獨立的 App,做全球的推廣,在 Twitter、YouTube 上花精力,不拘泥於國內的敘事邏輯,去賺全球市場的錢。 (矽星人Pro)