馬斯克深夜點贊!內容的下一站是:玩!

昨天深夜,馬斯克在 X 上給一條推文轉發並評論了個: 😂。

被回覆的推文來自使用者 @Rothmus,內容是一段用 Loopit 製作的互動 meme。 [圖片] 畫面中央是馬斯克本人的卡通形象,上面寫著「Which is the best LLM in the world?」,底下兩個選項:Grok 和 Others

使用者瘋狂點選螢幕,馬斯克的臉被越戳越大、越來越扭曲,配合節奏感極強的電子樂,整個畫面逐漸鬼畜化。

這條推文發出不到一天,超過 58 萬次瀏覽1400+ 點贊。馬斯克本人的 😂 回覆也收穫了 1200 多個贊。

這個讓馬斯克都忍不住回覆的東西,是用一個叫 Loopit 的 App 做出來的。

而看這個製作水平和工作量,大機率就是某個普通使用者隨手一做。

你可能會和我一樣好奇:這 Loopit 到底是個什麼呢?

在聊這個產品之前,先說一個我最近一直在想的話題。

軟體即內容?

最近有一個被反覆提及的說法:在 AI 時代,「軟體即內容」。

每個人都可以用 AI 寫一個小應用,軟體本身就變成了一種新的內容形式。

這話乍聽有道理,但仔細想想,有個關鍵問題被忽略了。

絕大多數人是內容的消費者,他們沒有創作欲,更沒有開發需求。

說「軟體即內容」的,往往本身就有技術嗅覺和動手能力。但對於每天刷著短影片的幾億使用者來說,他們想要的是「打開一個好玩的東西」,可沒人想去「做一個 App」。

而且在 AI 時代,「軟體」這個概念本身已經被大幅弱化和泛化了。一個 vibe coding 寫出來的小程序,一段 AI 自動生成的前端頁面,它到底算軟體,還是算內容?

邊界,正在變得模糊。

所以真正值得關注的問題是:短影片之後,下一個讓大眾興奮的內容消費形態是什麼?

文字、圖片、短影片。

每一次內容載體的變化,都徹底重塑了人們消費資訊的方式。而在 AI 時代,我最近看到的下一個方向可能是:互動內容

而昨晚引來馬斯克回覆的那個 Loopit,做的就是這件事。

在 Loopit 中,使用者的體驗從「」升級成了「」。

你可以瘋狂點選螢幕看角色不斷冒出來,對著麥克風吹氣讓氣球膨脹爆炸,甚至還能晃動手機、拖曳元素觸發各種物理反應。內容從單向的線性輸出,變成了雙向的即時互動。

這件事以前很難規模化。製作一個互動內容的門檻基本等同於開發一個小遊戲,得有策劃、有美術、有程序。

但 AI 的成熟,讓這件事第一次變得「一句話就能做」

我做了兩個互動內容

看完馬斯克那個 meme,我也想試試這東西到底有多簡單。

坦白說,剛聽到「互動內容平台」這個詞的時候,我腦子裡浮現的是那種華而不實的 H5 行銷頁面。

但實際上手之後,跟我想的完全不一樣。

我先試著輸入了一段話:

做一個雙人對戰的點選遊戲,兩邊分別是湯圓和元宵主題,點選螢幕會出現可愛的角色,看誰點得快

Loopit 直接生成了一個完整的互動體驗:

螢幕一分為二,左邊是清新的青綠色湯圓世界,右邊是喜慶的紅色元宵場景。瘋狂點選螢幕,可愛的小雪人就會從底部冒出來,越點越多,螢幕逐漸被萌萌的角色填滿。(洗腦的傳播效果)頂部即時顯示雙方的點選次數,「20 HIT!」「24 HIT!」這種即時反饋讓人根本停不下來。

這是真的可以上手互動和把玩,而非做了個視訊看看就好。

使用者看到的,並不是一段視訊錄屏,它是一個完整的互動體驗,你能真的瘋狂戳螢幕,看著小雪人一個接一個蹦出來,那種「再點一下就能超過對手」的緊張感完全拿捏住了。

整個過程我就輸入了一句話,基本一遍就生成出來了

而且有一個讓我頗為意外的細節:在預覽時如果存在 bug,Loopit 會自動檢測並觸發修復

預覽頁下方彈出一個 fix 按鈕,點一下,模型自動分析問題並修補,不需要我寫一行程式碼,甚至不需要我描述問題是什麼。如果對效果不滿意,還可以繼續對話,多輪迭代打磨。

然後我又試了第二個:吹氣爆氣球

對著麥克風吹氣,螢幕中央的紅色氣球會逐漸膨脹變大。

目標很簡單粗暴:對著手機吹氣,看著氣球一點點鼓起來,最後「嘭」一聲炸開,爆炸動畫瞬間鋪滿螢幕。同事看我在那兒呼哧呼哧吹手機,跟傻了一樣。

但就是停不下來。

從技術角度看,這兩個案例背後有意思的地方在於:無論是觸摸事件的捕獲,還是麥克風音量的檢測,再到即時渲染,這些都得在本地毫秒級即時處理。如果執行階段還在雲端調 API,延遲絕對撐不住。

所以 Loopit 的套路應該是:創作階段 AI 生成完整的互動程式碼和物理規則,使用者玩的時候完全是本地 Runtime 驅動,沒有任何 AI 在執行階段介入。

程式碼負責邏輯,瀏覽器負責渲染。這才是為什麼響應速度能做到毫秒級。

對標之前講的 AI Coding × 多模態生成的融合方案,這些互動小遊戲就是這個思路的很好體現。

兩個 case 做下來,Loopit 展示出的互動維度也是非常豐富:麥克風吹氣控制螢幕觸摸點選,這還只是我用到的。它的文件裡還列著前置/後置攝影機(AR 和手勢識別)、拖曳操控等等。

手機上能用的感測器,它幾乎都接進去了。

唯一讓我有一點小吐槽的是:目前創作只能手動打字輸入描述。對於一個主打「許願就能實現」的平台來說,如果我能直接對著手機說話就完成創作,那才是真正 AI Native 的體驗。

希望後續能加上。

回頭想想,這其實才是真正的「軟體即內容」。

只不過使用者完全不需要關心「軟體」這個概念。程式碼、模型、渲染引擎,這些技術細節全被藏在了一次「吹氣」、一下「點選」的背後。

使用者只需要沉浸在可以互動的內容裡,玩就完了

技術水面之下

我有個毛病:看到一個產品覺得好玩,下一秒就開始琢磨它底層是怎麼實現的。

而用 Loopit 做完這兩個互動內容之後,我腦子裡一直在轉一個問題:這東西底層到底怎麼做到的?

互動內容看似簡單,吹口氣氣球就大了,點一下角色就冒出來了。但從技術角度看,這其實並不是個簡單的工程問題。

目前做 AI 生成互動內容,業界有兩條路線,各有各的致命短板。

第一條:純 AI Coding

用大模型直接生成程式碼來建構互動邏輯。好處是互動性強、玩法靈活,問題是視覺效果往往很粗糙。靠這條路線批次生產出來的東西,說直接點就是「AI 時代的 4399」。

第二條:純多模態生成

用 Diffusion Model、視訊生成模型來產出精美的視覺內容。好處是畫面驚豔,但互動能力極弱,本質上還停留在「看」的階段。

下圖對比了兩條路線的優劣:AI Coding 在數量和速度上佔優,但視覺質量低;多模態生成視覺好但產量低、互動弱。Loopit 選擇的技術路線是第三條把兩者融合

AI Coding × 多模態生成,讓程式碼負責互動和邏輯,讓多模態模型負責視覺、動效和音效。

這個方向在表格里對應的定位是「互動式抖音」。高產量、高速度、高品質,市場空間最大。

方向好說,難的是怎麼落地。

Runtime:從生成到運行

互動內容和生成一張圖、一段視訊有本質區別。生成一張圖是一次性的靜態輸出,做完就結束了。互動內容則是一個需要在使用者持續干預下穩定運行的即時系統

使用者在不停地操作:點選、吹氣、晃動、拖曳。世界狀態隨時在變。系統必須在每一次輸入後都給出即時、一致、不崩潰的反饋。

為此,Loopit 建構了一個 AI Native 的互動 Runtime

這條管線的核心邏輯是一個即時循環

使用者輸入(點選/吹氣/晃動)→ AI 理解 & 約束(AI Coding)→ 世界狀態更新(規則/狀態機)→ 多模態生成調度(視覺/動作/音效)→ 即時反饋給使用者 → 回到起點

看起來簡單清晰,但每一個環節拆開來,其實也都不容易。

延遲控制生死線

互動內容對響應速度的要求是毫秒級的。我吹一口氣,氣球必須立刻膨脹,我點一下螢幕,角色必須瞬間冒出來,不能等 AI「想」500 毫秒再動。

但 AI 生成,無論程式碼生成還是多模態生成,天然就是「慢」的。一次 LLM 推理少說也要幾百毫秒到幾秒。

也就是說,Loopit 必須做一件關鍵的事:把「創作時生成」和「執行階段互動」徹底解耦。

在創作階段,AI 完成所有的重活:生成互動程式碼、生成視覺素材(圖片/GIF/視訊)、生成音效和音樂、定義物理規則和狀態邏輯。

這些都可以耗時幾秒甚至幾十秒,沒關係。

到了使用者「玩」的階段,已經沒有大規模的 AI 推理在即時發生了。互動響應完全由預先生成好的程式碼和 Runtime 來驅動。使用者輸入 → 程式碼計算新狀態 → 渲染引擎更新畫面,這條路徑是純計算的,可以做到毫秒級響應。

換句話說,AI 在幕後完成了「創作」,Runtime 在前台承擔了「運行」。創作可以慢,運行必須快

這個解耦設計是讓互動內容「絲滑」的關鍵。

狀態一致性

在 Loopit 的系統裡,有兩套「世界」在平行運轉。

一套是程式碼維護的邏輯世界:氣球膨脹到什麼程度、點選次數累積了多少、聲音的音量是大還是小,這些都是精確的數值。

另一套是多模態生成渲染出的視覺世界:使用者看到的畫面、聽到的聲音、感受到的反饋。

這兩個世界必須嚴格同步

不能出現「畫面裡氣球已經爆了,但邏輯上還在繼續膨脹」的撕裂,也不能出現「程式碼說已經點選了,但畫面裡角色還沒冒出來」的錯位。

Loopit 提出的「約束條件下的多模態生成調度」,核心就在於此。多模態生成必須在程式碼定義的狀態邊界內完成,不能自由發揮,要確保每一幀視覺輸出都和當前邏輯狀態精確對齊。

這比無約束的開放式生成要難得多。自由生成只要「好看」就行,約束生成還得「對得上」。

端側工程

這一整套系統,Runtime 引擎、互動邏輯、多模態素材渲染、多路感測器接入,最終都要在一部手機上流暢運行

要知道,手機的算力和記憶體是有限的。這裡需要同時做好這些事情:

  • 運行 JavaScript/TypeScript Runtime 處理互動邏輯
  • GPU 加速渲染視覺素材(Canvas/WebGL)
  • 接管麥克風做即時音訊分析(吹氣檢測)
  • 捕獲觸摸事件並即時計算命中判定(點選檢測)
  • 可能還要呼叫攝影機做手勢/人臉識別(AR 互動)

這背後,需要的是相當紮實的端側工程最佳化能力

生成階段的模型推理大機率跑在雲端,但素材一旦下發到裝置,所有的即時互動都必須在本地完成。渲染管線要做極致精簡,素材載入需要智能快取和預取,感測器資料需要低延遲採集和高效處理。

這是那種看不見但極其考驗功力的「髒活累活」。

使用者感受到的只是「吹一口氣氣球就大了」「點一下角色就冒出來了」,但讓這些動作在千元Android機上都跑得絲滑,還是得有點真正的技術壁壘的。

做這件事的人

能做到這種技術深度的團隊,自然也不簡單。

Loopit 的創始人是陳煒鵬,搜狗搜尋出身,後來成為百川智能(Baichuan AI)的聯合創始人。2025 年 3 月從百川離職創業,同年 6 月在北京註冊了湧躍智能科技。

一個做過底層基座大模型的人,轉身做了一個讓使用者「一句話生成互動內容」的消費級 App。這乍一看有些「降維」和太親民,但仔細想想,反而只有這種背景的人才敢走這條路。

經歷過 2023-2024 年百模大戰的人應該都有一個共識:基座模型正在快速商品化

開源模型 Qwen、DeepSeek、GLM 的能力已經足夠強,純靠模型能力建構的壁壘越來越薄了。

那技術壁壘去那了?

轉移到了「如何把模型能力以最低摩擦力交付給使用者」這件事上。

恰恰因為陳煒鵬懂模型,他才清楚模型的能力邊界在那。那些互動可以做到即時,那些視覺效果可以生成到什麼程度,端側推理的瓶頸怎麼繞。只做應用的人往往不清楚模型能力的邊界,只做模型的人又容易忽略使用者真正的需求。

兩邊都深度理解的人,才會選這條看似輕巧實則極重的路線。

想像空間

Loopit 目前還處於非常早期的階段,但在我看來重要的是,它搭好了一個基礎設施

一個人人可用的互動內容創作和消費平台。

創作門檻低到一句話,消費門檻低到打開就能玩,還內建了 Remix(魔改) 機制。任何人都能在別人的作品基礎上一鍵二創,改玩法、換素材、加新點子。

昨晚馬斯克回覆的那個互動 meme,就是一個活生生的例子。某個使用者用 Loopit 隨手做了個惡搞馬斯克的點選互動,結果引來馬斯克本人 😂 回覆,58 萬人圍觀。

這種傳播力,放在傳統的內容形態裡很難想像。

這套東西搭好之後,接下來會長出什麼,取決於用它的人

想想短影片剛出來的時候,抖音的創始團隊大概也不會想到,這個平台上會長出美食教學、知識科普、搞笑段子、帶貨直播這麼多超出預期的內容形態。

創作者的想像力永遠超出平台設計者的預期。

互動內容也是一樣。現在我們看到的還只是點選對戰、吹氣爆氣球、互動 meme 這些相對簡單的形態。但想像一下:

小學生用它做一個整蠱同學的小互動,在班群裡病毒式傳播;短影片博主把自己的內容從「看」升級成「玩」,粉絲參與度直接翻倍;獨立藝術家做出用手勢操控的沉浸式視覺作品;品牌方把廣告變成一個讓人忍不住反覆體驗的互動內容;教育場景裡,老師做一個學生可以互動操作的物理實驗演示。

這些場景的爆發力,我現在很難精確預測,但完全可以想像

工具已經就位了,AI 把創作門檻拉到了地面,剩下的,就是看各個群體的創造力如何被這個平台釋放出來。

這件事的引爆點什麼時候到來,我說不好。

但當數以百萬計的普通使用者都能「一句話做一個可以玩的東西」的時候,相信會有人玩出我們現在根本無法想像的花樣出來

Loopit 目前正在招募深度體驗官,感興趣的可以下載親手試試,做一個比看本文介紹直觀真實。

下載 Loopit:

  • iOS:App Store 搜尋「Loopit」
  • Android:各大應用程式商店搜尋,或點此安裝:Loopit

相關連結:

  • 官網:https://www.loopit.me/
  • X:@LoopitAi
  • 馬斯克推文:https://x.com/i/status/2020740534290329649 (AGI Hunt)