馬斯克深夜點贊！內容的下一站是：玩！

2026/02/11

•

昨天深夜，馬斯克在 X 上給一條推文轉發並評論了個： 😂。

被回覆的推文來自使用者 @Rothmus，內容是一段用 Loopit 製作的互動 meme。 [圖片] 畫面中央是馬斯克本人的卡通形象，上面寫著「Which is the best LLM in the world?」，底下兩個選項：Grok 和 Others。

使用者瘋狂點選螢幕，馬斯克的臉被越戳越大、越來越扭曲，配合節奏感極強的電子樂，整個畫面逐漸鬼畜化。

這條推文發出不到一天，超過 58 萬次瀏覽，1400+ 點贊。馬斯克本人的 😂 回覆也收穫了 1200 多個贊。

這個讓馬斯克都忍不住回覆的東西，是用一個叫 Loopit 的 App 做出來的。

而看這個製作水平和工作量，大機率就是某個普通使用者隨手一做。

你可能會和我一樣好奇：這 Loopit 到底是個什麼呢？

在聊這個產品之前，先說一個我最近一直在想的話題。

軟體即內容？

最近有一個被反覆提及的說法：在 AI 時代，「軟體即內容」。

每個人都可以用 AI 寫一個小應用，軟體本身就變成了一種新的內容形式。

這話乍聽有道理，但仔細想想，有個關鍵問題被忽略了。

絕大多數人是內容的消費者，他們沒有創作欲，更沒有開發需求。

說「軟體即內容」的，往往本身就有技術嗅覺和動手能力。但對於每天刷著短影片的幾億使用者來說，他們想要的是「打開一個好玩的東西」，可沒人想去「做一個 App」。

而且在 AI 時代，「軟體」這個概念本身已經被大幅弱化和泛化了。一個 vibe coding 寫出來的小程序，一段 AI 自動生成的前端頁面，它到底算軟體，還是算內容？

邊界，正在變得模糊。

所以真正值得關注的問題是：短影片之後，下一個讓大眾興奮的內容消費形態是什麼？

文字、圖片、短影片。

每一次內容載體的變化，都徹底重塑了人們消費資訊的方式。而在 AI 時代，我最近看到的下一個方向可能是：互動內容。

而昨晚引來馬斯克回覆的那個 Loopit，做的就是這件事。

在 Loopit 中，使用者的體驗從「看」升級成了「玩」。

你可以瘋狂點選螢幕看角色不斷冒出來，對著麥克風吹氣讓氣球膨脹爆炸，甚至還能晃動手機、拖曳元素觸發各種物理反應。內容從單向的線性輸出，變成了雙向的即時互動。

這件事以前很難規模化。製作一個互動內容的門檻基本等同於開發一個小遊戲，得有策劃、有美術、有程序。

但 AI 的成熟，讓這件事第一次變得「一句話就能做」。

我做了兩個互動內容

看完馬斯克那個 meme，我也想試試這東西到底有多簡單。

坦白說，剛聽到「互動內容平台」這個詞的時候，我腦子裡浮現的是那種華而不實的 H5 行銷頁面。

但實際上手之後，跟我想的完全不一樣。

我先試著輸入了一段話：

做一個雙人對戰的點選遊戲，兩邊分別是湯圓和元宵主題，點選螢幕會出現可愛的角色，看誰點得快

Loopit 直接生成了一個完整的互動體驗：

螢幕一分為二，左邊是清新的青綠色湯圓世界，右邊是喜慶的紅色元宵場景。瘋狂點選螢幕，可愛的小雪人就會從底部冒出來，越點越多，螢幕逐漸被萌萌的角色填滿。（洗腦的傳播效果）頂部即時顯示雙方的點選次數，「20 HIT!」「24 HIT!」這種即時反饋讓人根本停不下來。

這是真的可以上手互動和把玩，而非做了個視訊看看就好。

使用者看到的，並不是一段視訊錄屏，它是一個完整的互動體驗，你能真的瘋狂戳螢幕，看著小雪人一個接一個蹦出來，那種「再點一下就能超過對手」的緊張感完全拿捏住了。

整個過程我就輸入了一句話，基本一遍就生成出來了。

而且有一個讓我頗為意外的細節：在預覽時如果存在 bug，Loopit 會自動檢測並觸發修復。

預覽頁下方彈出一個 fix 按鈕，點一下，模型自動分析問題並修補，不需要我寫一行程式碼，甚至不需要我描述問題是什麼。如果對效果不滿意，還可以繼續對話，多輪迭代打磨。

然後我又試了第二個：吹氣爆氣球

對著麥克風吹氣，螢幕中央的紅色氣球會逐漸膨脹變大。

目標很簡單粗暴：對著手機吹氣，看著氣球一點點鼓起來，最後「嘭」一聲炸開，爆炸動畫瞬間鋪滿螢幕。同事看我在那兒呼哧呼哧吹手機，跟傻了一樣。

但就是停不下來。

從技術角度看，這兩個案例背後有意思的地方在於：無論是觸摸事件的捕獲，還是麥克風音量的檢測，再到即時渲染，這些都得在本地毫秒級即時處理。如果執行階段還在雲端調 API，延遲絕對撐不住。

所以 Loopit 的套路應該是：創作階段 AI 生成完整的互動程式碼和物理規則，使用者玩的時候完全是本地 Runtime 驅動，沒有任何 AI 在執行階段介入。

程式碼負責邏輯，瀏覽器負責渲染。這才是為什麼響應速度能做到毫秒級。

對標之前講的 AI Coding × 多模態生成的融合方案，這些互動小遊戲就是這個思路的很好體現。

兩個 case 做下來，Loopit 展示出的互動維度也是非常豐富：麥克風吹氣控制、螢幕觸摸點選，這還只是我用到的。它的文件裡還列著前置/後置攝影機（AR 和手勢識別）、拖曳操控等等。

手機上能用的感測器，它幾乎都接進去了。

唯一讓我有一點小吐槽的是：目前創作只能手動打字輸入描述。對於一個主打「許願就能實現」的平台來說，如果我能直接對著手機說話就完成創作，那才是真正 AI Native 的體驗。

希望後續能加上。

回頭想想，這其實才是真正的「軟體即內容」。

只不過使用者完全不需要關心「軟體」這個概念。程式碼、模型、渲染引擎，這些技術細節全被藏在了一次「吹氣」、一下「點選」的背後。

使用者只需要沉浸在可以互動的內容裡，玩就完了。

技術水面之下

我有個毛病：看到一個產品覺得好玩，下一秒就開始琢磨它底層是怎麼實現的。

而用 Loopit 做完這兩個互動內容之後，我腦子裡一直在轉一個問題：這東西底層到底怎麼做到的？

互動內容看似簡單，吹口氣氣球就大了，點一下角色就冒出來了。但從技術角度看，這其實並不是個簡單的工程問題。

目前做 AI 生成互動內容，業界有兩條路線，各有各的致命短板。

第一條：純 AI Coding。

用大模型直接生成程式碼來建構互動邏輯。好處是互動性強、玩法靈活，問題是視覺效果往往很粗糙。靠這條路線批次生產出來的東西，說直接點就是「AI 時代的 4399」。

第二條：純多模態生成。

用 Diffusion Model、視訊生成模型來產出精美的視覺內容。好處是畫面驚豔，但互動能力極弱，本質上還停留在「看」的階段。

下圖對比了兩條路線的優劣：AI Coding 在數量和速度上佔優，但視覺質量低；多模態生成視覺好但產量低、互動弱。Loopit 選擇的技術路線是第三條：把兩者融合。

AI Coding × 多模態生成，讓程式碼負責互動和邏輯，讓多模態模型負責視覺、動效和音效。

這個方向在表格里對應的定位是「互動式抖音」。高產量、高速度、高品質，市場空間最大。

方向好說，難的是怎麼落地。

Runtime：從生成到運行

互動內容和生成一張圖、一段視訊有本質區別。生成一張圖是一次性的靜態輸出，做完就結束了。互動內容則是一個需要在使用者持續干預下穩定運行的即時系統。

使用者在不停地操作：點選、吹氣、晃動、拖曳。世界狀態隨時在變。系統必須在每一次輸入後都給出即時、一致、不崩潰的反饋。

為此，Loopit 建構了一個 AI Native 的互動 Runtime：

這條管線的核心邏輯是一個即時循環：

使用者輸入（點選/吹氣/晃動）→ AI 理解 & 約束（AI Coding）→ 世界狀態更新（規則/狀態機）→ 多模態生成調度（視覺/動作/音效）→ 即時反饋給使用者 → 回到起點

看起來簡單清晰，但每一個環節拆開來，其實也都不容易。

延遲控制生死線

互動內容對響應速度的要求是毫秒級的。我吹一口氣，氣球必須立刻膨脹，我點一下螢幕，角色必須瞬間冒出來，不能等 AI「想」500 毫秒再動。

但 AI 生成，無論程式碼生成還是多模態生成，天然就是「慢」的。一次 LLM 推理少說也要幾百毫秒到幾秒。

也就是說，Loopit 必須做一件關鍵的事：把「創作時生成」和「執行階段互動」徹底解耦。

在創作階段，AI 完成所有的重活：生成互動程式碼、生成視覺素材（圖片/GIF/視訊）、生成音效和音樂、定義物理規則和狀態邏輯。

這些都可以耗時幾秒甚至幾十秒，沒關係。

到了使用者「玩」的階段，已經沒有大規模的 AI 推理在即時發生了。互動響應完全由預先生成好的程式碼和 Runtime 來驅動。使用者輸入 → 程式碼計算新狀態 → 渲染引擎更新畫面，這條路徑是純計算的，可以做到毫秒級響應。

換句話說，AI 在幕後完成了「創作」，Runtime 在前台承擔了「運行」。創作可以慢，運行必須快。

這個解耦設計是讓互動內容「絲滑」的關鍵。

狀態一致性

在 Loopit 的系統裡，有兩套「世界」在平行運轉。

一套是程式碼維護的邏輯世界：氣球膨脹到什麼程度、點選次數累積了多少、聲音的音量是大還是小，這些都是精確的數值。

另一套是多模態生成渲染出的視覺世界：使用者看到的畫面、聽到的聲音、感受到的反饋。

這兩個世界必須嚴格同步。

不能出現「畫面裡氣球已經爆了，但邏輯上還在繼續膨脹」的撕裂，也不能出現「程式碼說已經點選了，但畫面裡角色還沒冒出來」的錯位。

Loopit 提出的「約束條件下的多模態生成調度」，核心就在於此。多模態生成必須在程式碼定義的狀態邊界內完成，不能自由發揮，要確保每一幀視覺輸出都和當前邏輯狀態精確對齊。

這比無約束的開放式生成要難得多。自由生成只要「好看」就行，約束生成還得「對得上」。

端側工程

這一整套系統，Runtime 引擎、互動邏輯、多模態素材渲染、多路感測器接入，最終都要在一部手機上流暢運行。

要知道，手機的算力和記憶體是有限的。這裡需要同時做好這些事情：

運行 JavaScript/TypeScript Runtime 處理互動邏輯
GPU 加速渲染視覺素材（Canvas/WebGL）
接管麥克風做即時音訊分析（吹氣檢測）
捕獲觸摸事件並即時計算命中判定（點選檢測）
可能還要呼叫攝影機做手勢/人臉識別（AR 互動）

這背後，需要的是相當紮實的端側工程最佳化能力。

生成階段的模型推理大機率跑在雲端，但素材一旦下發到裝置，所有的即時互動都必須在本地完成。渲染管線要做極致精簡，素材載入需要智能快取和預取，感測器資料需要低延遲採集和高效處理。

這是那種看不見但極其考驗功力的「髒活累活」。

使用者感受到的只是「吹一口氣氣球就大了」「點一下角色就冒出來了」，但讓這些動作在千元Android機上都跑得絲滑，還是得有點真正的技術壁壘的。

做這件事的人

能做到這種技術深度的團隊，自然也不簡單。

Loopit 的創始人是陳煒鵬，搜狗搜尋出身，後來成為百川智能（Baichuan AI）的聯合創始人。2025 年 3 月從百川離職創業，同年 6 月在北京註冊了湧躍智能科技。

一個做過底層基座大模型的人，轉身做了一個讓使用者「一句話生成互動內容」的消費級 App。這乍一看有些「降維」和太親民，但仔細想想，反而只有這種背景的人才敢走這條路。

經歷過 2023-2024 年百模大戰的人應該都有一個共識：基座模型正在快速商品化。

開源模型 Qwen、DeepSeek、GLM 的能力已經足夠強，純靠模型能力建構的壁壘越來越薄了。

那技術壁壘去那了？

轉移到了「如何把模型能力以最低摩擦力交付給使用者」這件事上。

恰恰因為陳煒鵬懂模型，他才清楚模型的能力邊界在那。那些互動可以做到即時，那些視覺效果可以生成到什麼程度，端側推理的瓶頸怎麼繞。只做應用的人往往不清楚模型能力的邊界，只做模型的人又容易忽略使用者真正的需求。

兩邊都深度理解的人，才會選這條看似輕巧實則極重的路線。

想像空間

Loopit 目前還處於非常早期的階段，但在我看來重要的是，它搭好了一個基礎設施。

一個人人可用的互動內容創作和消費平台。

創作門檻低到一句話，消費門檻低到打開就能玩，還內建了 Remix（魔改）機制。任何人都能在別人的作品基礎上一鍵二創，改玩法、換素材、加新點子。

昨晚馬斯克回覆的那個互動 meme，就是一個活生生的例子。某個使用者用 Loopit 隨手做了個惡搞馬斯克的點選互動，結果引來馬斯克本人 😂 回覆，58 萬人圍觀。

這種傳播力，放在傳統的內容形態裡很難想像。

這套東西搭好之後，接下來會長出什麼，取決於用它的人。

想想短影片剛出來的時候，抖音的創始團隊大概也不會想到，這個平台上會長出美食教學、知識科普、搞笑段子、帶貨直播這麼多超出預期的內容形態。

創作者的想像力永遠超出平台設計者的預期。

互動內容也是一樣。現在我們看到的還只是點選對戰、吹氣爆氣球、互動 meme 這些相對簡單的形態。但想像一下：

小學生用它做一個整蠱同學的小互動，在班群裡病毒式傳播；短影片博主把自己的內容從「看」升級成「玩」，粉絲參與度直接翻倍；獨立藝術家做出用手勢操控的沉浸式視覺作品；品牌方把廣告變成一個讓人忍不住反覆體驗的互動內容；教育場景裡，老師做一個學生可以互動操作的物理實驗演示。

這些場景的爆發力，我現在很難精確預測，但完全可以想像。

工具已經就位了，AI 把創作門檻拉到了地面，剩下的，就是看各個群體的創造力如何被這個平台釋放出來。

這件事的引爆點什麼時候到來，我說不好。

但當數以百萬計的普通使用者都能「一句話做一個可以玩的東西」的時候，相信會有人玩出我們現在根本無法想像的花樣出來。

Loopit 目前正在招募深度體驗官，感興趣的可以下載親手試試，做一個比看本文介紹直觀真實。

下載 Loopit：

iOS：App Store 搜尋「Loopit」
Android：各大應用程式商店搜尋，或點此安裝：Loopit

相關連結：

官網：https://www.loopit.me/
X：@LoopitAi
馬斯克推文：https://x.com/i/status/2020740534290329649 (AGI Hunt)