昨天深夜,馬斯克在 X 上給一條推文轉發並評論了個: 😂。
被回覆的推文來自使用者 @Rothmus,內容是一段用 Loopit 製作的互動 meme。 [圖片] 畫面中央是馬斯克本人的卡通形象,上面寫著「Which is the best LLM in the world?」,底下兩個選項:Grok 和 Others。
使用者瘋狂點選螢幕,馬斯克的臉被越戳越大、越來越扭曲,配合節奏感極強的電子樂,整個畫面逐漸鬼畜化。
這條推文發出不到一天,超過 58 萬次瀏覽,1400+ 點贊。馬斯克本人的 😂 回覆也收穫了 1200 多個贊。
這個讓馬斯克都忍不住回覆的東西,是用一個叫 Loopit 的 App 做出來的。
而看這個製作水平和工作量,大機率就是某個普通使用者隨手一做。
你可能會和我一樣好奇:這 Loopit 到底是個什麼呢?
在聊這個產品之前,先說一個我最近一直在想的話題。
最近有一個被反覆提及的說法:在 AI 時代,「軟體即內容」。
每個人都可以用 AI 寫一個小應用,軟體本身就變成了一種新的內容形式。
這話乍聽有道理,但仔細想想,有個關鍵問題被忽略了。
絕大多數人是內容的消費者,他們沒有創作欲,更沒有開發需求。
說「軟體即內容」的,往往本身就有技術嗅覺和動手能力。但對於每天刷著短影片的幾億使用者來說,他們想要的是「打開一個好玩的東西」,可沒人想去「做一個 App」。
而且在 AI 時代,「軟體」這個概念本身已經被大幅弱化和泛化了。一個 vibe coding 寫出來的小程序,一段 AI 自動生成的前端頁面,它到底算軟體,還是算內容?
邊界,正在變得模糊。
所以真正值得關注的問題是:短影片之後,下一個讓大眾興奮的內容消費形態是什麼?
文字、圖片、短影片。
每一次內容載體的變化,都徹底重塑了人們消費資訊的方式。而在 AI 時代,我最近看到的下一個方向可能是:互動內容。
而昨晚引來馬斯克回覆的那個 Loopit,做的就是這件事。
在 Loopit 中,使用者的體驗從「看」升級成了「玩」。
你可以瘋狂點選螢幕看角色不斷冒出來,對著麥克風吹氣讓氣球膨脹爆炸,甚至還能晃動手機、拖曳元素觸發各種物理反應。內容從單向的線性輸出,變成了雙向的即時互動。
這件事以前很難規模化。製作一個互動內容的門檻基本等同於開發一個小遊戲,得有策劃、有美術、有程序。
但 AI 的成熟,讓這件事第一次變得「一句話就能做」。
看完馬斯克那個 meme,我也想試試這東西到底有多簡單。
坦白說,剛聽到「互動內容平台」這個詞的時候,我腦子裡浮現的是那種華而不實的 H5 行銷頁面。
但實際上手之後,跟我想的完全不一樣。
我先試著輸入了一段話:
做一個雙人對戰的點選遊戲,兩邊分別是湯圓和元宵主題,點選螢幕會出現可愛的角色,看誰點得快
Loopit 直接生成了一個完整的互動體驗:
螢幕一分為二,左邊是清新的青綠色湯圓世界,右邊是喜慶的紅色元宵場景。瘋狂點選螢幕,可愛的小雪人就會從底部冒出來,越點越多,螢幕逐漸被萌萌的角色填滿。(洗腦的傳播效果)頂部即時顯示雙方的點選次數,「20 HIT!」「24 HIT!」這種即時反饋讓人根本停不下來。
這是真的可以上手互動和把玩,而非做了個視訊看看就好。
使用者看到的,並不是一段視訊錄屏,它是一個完整的互動體驗,你能真的瘋狂戳螢幕,看著小雪人一個接一個蹦出來,那種「再點一下就能超過對手」的緊張感完全拿捏住了。
整個過程我就輸入了一句話,基本一遍就生成出來了。
而且有一個讓我頗為意外的細節:在預覽時如果存在 bug,Loopit 會自動檢測並觸發修復。
預覽頁下方彈出一個 fix 按鈕,點一下,模型自動分析問題並修補,不需要我寫一行程式碼,甚至不需要我描述問題是什麼。如果對效果不滿意,還可以繼續對話,多輪迭代打磨。
然後我又試了第二個:吹氣爆氣球
對著麥克風吹氣,螢幕中央的紅色氣球會逐漸膨脹變大。
目標很簡單粗暴:對著手機吹氣,看著氣球一點點鼓起來,最後「嘭」一聲炸開,爆炸動畫瞬間鋪滿螢幕。同事看我在那兒呼哧呼哧吹手機,跟傻了一樣。
但就是停不下來。
從技術角度看,這兩個案例背後有意思的地方在於:無論是觸摸事件的捕獲,還是麥克風音量的檢測,再到即時渲染,這些都得在本地毫秒級即時處理。如果執行階段還在雲端調 API,延遲絕對撐不住。
所以 Loopit 的套路應該是:創作階段 AI 生成完整的互動程式碼和物理規則,使用者玩的時候完全是本地 Runtime 驅動,沒有任何 AI 在執行階段介入。
程式碼負責邏輯,瀏覽器負責渲染。這才是為什麼響應速度能做到毫秒級。
對標之前講的 AI Coding × 多模態生成的融合方案,這些互動小遊戲就是這個思路的很好體現。
兩個 case 做下來,Loopit 展示出的互動維度也是非常豐富:麥克風吹氣控制、螢幕觸摸點選,這還只是我用到的。它的文件裡還列著前置/後置攝影機(AR 和手勢識別)、拖曳操控等等。
手機上能用的感測器,它幾乎都接進去了。
唯一讓我有一點小吐槽的是:目前創作只能手動打字輸入描述。對於一個主打「許願就能實現」的平台來說,如果我能直接對著手機說話就完成創作,那才是真正 AI Native 的體驗。
希望後續能加上。
回頭想想,這其實才是真正的「軟體即內容」。
只不過使用者完全不需要關心「軟體」這個概念。程式碼、模型、渲染引擎,這些技術細節全被藏在了一次「吹氣」、一下「點選」的背後。
使用者只需要沉浸在可以互動的內容裡,玩就完了。
我有個毛病:看到一個產品覺得好玩,下一秒就開始琢磨它底層是怎麼實現的。
而用 Loopit 做完這兩個互動內容之後,我腦子裡一直在轉一個問題:這東西底層到底怎麼做到的?
互動內容看似簡單,吹口氣氣球就大了,點一下角色就冒出來了。但從技術角度看,這其實並不是個簡單的工程問題。
目前做 AI 生成互動內容,業界有兩條路線,各有各的致命短板。
第一條:純 AI Coding。
用大模型直接生成程式碼來建構互動邏輯。好處是互動性強、玩法靈活,問題是視覺效果往往很粗糙。靠這條路線批次生產出來的東西,說直接點就是「AI 時代的 4399」。
第二條:純多模態生成。
用 Diffusion Model、視訊生成模型來產出精美的視覺內容。好處是畫面驚豔,但互動能力極弱,本質上還停留在「看」的階段。
下圖對比了兩條路線的優劣:AI Coding 在數量和速度上佔優,但視覺質量低;多模態生成視覺好但產量低、互動弱。Loopit 選擇的技術路線是第三條:把兩者融合。
AI Coding × 多模態生成,讓程式碼負責互動和邏輯,讓多模態模型負責視覺、動效和音效。
這個方向在表格里對應的定位是「互動式抖音」。高產量、高速度、高品質,市場空間最大。
方向好說,難的是怎麼落地。
互動內容和生成一張圖、一段視訊有本質區別。生成一張圖是一次性的靜態輸出,做完就結束了。互動內容則是一個需要在使用者持續干預下穩定運行的即時系統。
使用者在不停地操作:點選、吹氣、晃動、拖曳。世界狀態隨時在變。系統必須在每一次輸入後都給出即時、一致、不崩潰的反饋。
為此,Loopit 建構了一個 AI Native 的互動 Runtime:
這條管線的核心邏輯是一個即時循環:
使用者輸入(點選/吹氣/晃動)→ AI 理解 & 約束(AI Coding)→ 世界狀態更新(規則/狀態機)→ 多模態生成調度(視覺/動作/音效)→ 即時反饋給使用者 → 回到起點
看起來簡單清晰,但每一個環節拆開來,其實也都不容易。
互動內容對響應速度的要求是毫秒級的。我吹一口氣,氣球必須立刻膨脹,我點一下螢幕,角色必須瞬間冒出來,不能等 AI「想」500 毫秒再動。
但 AI 生成,無論程式碼生成還是多模態生成,天然就是「慢」的。一次 LLM 推理少說也要幾百毫秒到幾秒。
也就是說,Loopit 必須做一件關鍵的事:把「創作時生成」和「執行階段互動」徹底解耦。
在創作階段,AI 完成所有的重活:生成互動程式碼、生成視覺素材(圖片/GIF/視訊)、生成音效和音樂、定義物理規則和狀態邏輯。
這些都可以耗時幾秒甚至幾十秒,沒關係。
到了使用者「玩」的階段,已經沒有大規模的 AI 推理在即時發生了。互動響應完全由預先生成好的程式碼和 Runtime 來驅動。使用者輸入 → 程式碼計算新狀態 → 渲染引擎更新畫面,這條路徑是純計算的,可以做到毫秒級響應。
換句話說,AI 在幕後完成了「創作」,Runtime 在前台承擔了「運行」。創作可以慢,運行必須快。
這個解耦設計是讓互動內容「絲滑」的關鍵。
在 Loopit 的系統裡,有兩套「世界」在平行運轉。
一套是程式碼維護的邏輯世界:氣球膨脹到什麼程度、點選次數累積了多少、聲音的音量是大還是小,這些都是精確的數值。
另一套是多模態生成渲染出的視覺世界:使用者看到的畫面、聽到的聲音、感受到的反饋。
這兩個世界必須嚴格同步。
不能出現「畫面裡氣球已經爆了,但邏輯上還在繼續膨脹」的撕裂,也不能出現「程式碼說已經點選了,但畫面裡角色還沒冒出來」的錯位。
Loopit 提出的「約束條件下的多模態生成調度」,核心就在於此。多模態生成必須在程式碼定義的狀態邊界內完成,不能自由發揮,要確保每一幀視覺輸出都和當前邏輯狀態精確對齊。
這比無約束的開放式生成要難得多。自由生成只要「好看」就行,約束生成還得「對得上」。
這一整套系統,Runtime 引擎、互動邏輯、多模態素材渲染、多路感測器接入,最終都要在一部手機上流暢運行。
要知道,手機的算力和記憶體是有限的。這裡需要同時做好這些事情:
這背後,需要的是相當紮實的端側工程最佳化能力。
生成階段的模型推理大機率跑在雲端,但素材一旦下發到裝置,所有的即時互動都必須在本地完成。渲染管線要做極致精簡,素材載入需要智能快取和預取,感測器資料需要低延遲採集和高效處理。
這是那種看不見但極其考驗功力的「髒活累活」。
使用者感受到的只是「吹一口氣氣球就大了」「點一下角色就冒出來了」,但讓這些動作在千元Android機上都跑得絲滑,還是得有點真正的技術壁壘的。
能做到這種技術深度的團隊,自然也不簡單。
Loopit 的創始人是陳煒鵬,搜狗搜尋出身,後來成為百川智能(Baichuan AI)的聯合創始人。2025 年 3 月從百川離職創業,同年 6 月在北京註冊了湧躍智能科技。
一個做過底層基座大模型的人,轉身做了一個讓使用者「一句話生成互動內容」的消費級 App。這乍一看有些「降維」和太親民,但仔細想想,反而只有這種背景的人才敢走這條路。
經歷過 2023-2024 年百模大戰的人應該都有一個共識:基座模型正在快速商品化。
開源模型 Qwen、DeepSeek、GLM 的能力已經足夠強,純靠模型能力建構的壁壘越來越薄了。
那技術壁壘去那了?
轉移到了「如何把模型能力以最低摩擦力交付給使用者」這件事上。
恰恰因為陳煒鵬懂模型,他才清楚模型的能力邊界在那。那些互動可以做到即時,那些視覺效果可以生成到什麼程度,端側推理的瓶頸怎麼繞。只做應用的人往往不清楚模型能力的邊界,只做模型的人又容易忽略使用者真正的需求。
兩邊都深度理解的人,才會選這條看似輕巧實則極重的路線。
Loopit 目前還處於非常早期的階段,但在我看來重要的是,它搭好了一個基礎設施。
一個人人可用的互動內容創作和消費平台。
創作門檻低到一句話,消費門檻低到打開就能玩,還內建了 Remix(魔改) 機制。任何人都能在別人的作品基礎上一鍵二創,改玩法、換素材、加新點子。
昨晚馬斯克回覆的那個互動 meme,就是一個活生生的例子。某個使用者用 Loopit 隨手做了個惡搞馬斯克的點選互動,結果引來馬斯克本人 😂 回覆,58 萬人圍觀。
這種傳播力,放在傳統的內容形態裡很難想像。
這套東西搭好之後,接下來會長出什麼,取決於用它的人。
想想短影片剛出來的時候,抖音的創始團隊大概也不會想到,這個平台上會長出美食教學、知識科普、搞笑段子、帶貨直播這麼多超出預期的內容形態。
創作者的想像力永遠超出平台設計者的預期。
互動內容也是一樣。現在我們看到的還只是點選對戰、吹氣爆氣球、互動 meme 這些相對簡單的形態。但想像一下:
小學生用它做一個整蠱同學的小互動,在班群裡病毒式傳播;短影片博主把自己的內容從「看」升級成「玩」,粉絲參與度直接翻倍;獨立藝術家做出用手勢操控的沉浸式視覺作品;品牌方把廣告變成一個讓人忍不住反覆體驗的互動內容;教育場景裡,老師做一個學生可以互動操作的物理實驗演示。
這些場景的爆發力,我現在很難精確預測,但完全可以想像。
工具已經就位了,AI 把創作門檻拉到了地面,剩下的,就是看各個群體的創造力如何被這個平台釋放出來。
這件事的引爆點什麼時候到來,我說不好。
但當數以百萬計的普通使用者都能「一句話做一個可以玩的東西」的時候,相信會有人玩出我們現在根本無法想像的花樣出來。
Loopit 目前正在招募深度體驗官,感興趣的可以下載親手試試,做一個比看本文介紹直觀真實。
下載 Loopit:
相關連結: