#grok | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#grok

馬斯克的Grok 4.3悄悄上線，跑分評測出爐

【新智元導讀】Grok 4.3 是 xAI 一次務實升級：更便宜、更快、更像能幹活的助手。但它在硬推理、穩定性和可信度上，仍落後 GPT-5.5 與 Claude Opus 4.7。xAI 發佈 Grok 4.3，沒有把聲量拉到最大，馬斯克甚至沒單獨發推，看起來只是個過渡版本。它更像一次安靜的產品換擋：把模型放進 API，把價格打下來，把工具能力補上，再告訴開發者可以從舊版 Grok 遷移過來。沒有 AGI 宏大敘事，也少了馬斯克式的「即將改變一切」。這反而讓 Grok 4.3 看起來更真實。對普通消費者來說，Grok 4.3 最重要的變化並非某個榜單分數漲了幾分，而是 AI 助手正在變得更便宜、更快，也更像一個能替人完成檔案、表格、簡報的合格助手。然而，Grok 4.3 的聰明程度仍然沒追上 GPT-5.5 和 Claude Opus 4.7。它是一款性價比很強的新模型，也是一款仍有明顯天花板的模型。消費者真正需要關心的，是它在那些場景能省錢省時間，在那些場景會因為判斷不准、想太久或說太多，反而增加成本。它確實變強了尤其像一個更會幹活的助手Artificial Analysis 給 Grok 4.3 的 Intelligence Index 打到 53 分，比 Grok 4.20 0309 v2 高 4 分，也超過 Claude Sonnet 4.6 和 Muse Spark。這個提升不算小，尤其在 xAI 自家模型線裡，Grok 4.3 已經是目前最強的一檔。更值得看的是代理任務表現。Grok 4.3 在 GDPval-AA 上拿到 1500 Elo，相比 Grok 4.20 0309 v2 的 1179，提升了 321 分。這個榜單更接近日常「讓 AI 做事」的場景，比如整理資料、執行複雜步驟、處理真實工作流。這對普通使用者有實際意義。讓 AI 幫忙寫周報、搭表格、做方案、拆會議紀要、生成 PPT，Grok 4.3 的體驗會比前代更完整。Grok 可以建立簡報、文件和電子表格，可以在一個電腦環境裡寫程式碼、運行程式碼、安裝依賴並產出檔案。對不懂程式碼的使用者來說，這意味著很多原本需要在 Excel、PowerPoint、瀏覽器之間來回切換的操作，可能會被壓縮成一句指令。這也是 AI 消費級產品真正該競爭的地方——使用者更在意它能不能把一個報銷表做完，把一份旅行計畫排清楚，把一封語氣得體的郵件寫好。Grok 4.3 在這部分的進步，是真進步。更便宜是這次最直接的產品賣點Grok 4.3 的價格很有侵略性。它的 API 價格為每百萬輸入 Tokens 1.25 美元、每百萬輸出 Tokens 2.50 美元，相比 Grok 4.20 輸入價格低約 40%，輸出價格低約 60%。Artificial Analysis 測算，運行整套 Intelligence Index 評測成本約為 395 美元，比 Grok 4.20 0309 v2 低約 20%。這會影響消費者，只是方式沒那麼直觀。大多數普通人不會直接呼叫 API，但他們會用到基於 API 建構的產品。AI 寫作工具、客服機器人、語音助理、教育應用、辦公外掛，背後都要為模型呼叫付費。當底層模型價格下降，應用廠商有空間降低訂閱費，或者在同樣價格下提供更多次數、更長上下文、更複雜任務。Grok 4.3 還有一個優勢是速度。Artificial Analysis 的 xAI 模型頁顯示，它是 xAI 當前輸出速度最快的模型之一，約 196 Tokens/s，屬於很快的一檔。對語音聊天、即時客服、長文生成和批次內容處理來說，等待時間會直接影響體驗。但速度有一個細節容易被忽略：Grok 4.3 的首 Token 延遲並不低。它會先「想一會兒」，然後快速輸出。長答案裡，這種速度優勢明顯；短對話裡，使用者可能先感受到停頓，再感受到快。用於客服、語音助手、移動端聊天時，這個差異會被放大。它更會說人話這是 Grok 的隱藏優勢Grok 一直有一個微妙優勢：語氣更像真人。Hacker News 上有人提到，一些英語非母語使用者認為 Grok 在把握文字語氣、正式程度和微妙人際表達上，比其他模型更自然。有人拿它和 ChatGPT、Claude 比，認為 Grok 在非正式朋友語氣、同事溝通、語音輸入識別上表現更貼近真實交流。Grok 可能受益於 X 平台海量口語化表達訓練。它更容易捕捉社交網路裡的語氣、節奏、鬆弛感等；它也可能因此繼承社交網路的噪音、偏見和表達習慣。對 C 端使用者來說，這種「更自然」的能力會讓 Grok 在寫消息、口語轉寫、語音助手、輕辦公場景裡很討喜。它未必最聰明，但可能更像一個願意按你的語氣說話的助手。Yes, BUT...它比不過 GPT-5.5 和 Claude Opus 4.7Grok 4.3 最大的問題，是它看起來已經進入第一梯隊邊緣，卻還沒站到最前面。Grok 4.3 的 Intelligence Index 為 53，GPT-5.5 為 60，Claude Opus 4.7 為 57。這個差距不只是排行榜上的幾分。對普通消費者來說，它會體現在複雜推理、程式碼偵錯、長文核查、專業諮詢和多步驟任務的穩定性上。在 GDPval-AA 上，Grok 4.3 的提升很大，但仍落後 GPT-5.5 xhigh 276 Elo，按標準 Elo 公式，面對 GPT-5.5 的預期勝率約 17%。它在幻覺控制上也有代價。Grok 4.3 的 AA-Omniscience Accuracy（精準率）提升 8 分，但 Non-Hallucination Rate（非幻覺率）下降 8 分。這裡的精準率和非幻覺率是不同的，精準率只看你答對了多少，而非幻覺率是看你沒答出來的問題裡面，有多少是模型老實承認自己不會的——不會但振振有詞，就是所謂的「幻覺」。換言之，Grok 4.3 的知識覆蓋率變高了，但也更容易出現幻覺了。而消費者最怕的情況就是 AI 答得很流暢、很自信、很像那麼回事，結果關鍵事實錯了。人類已經很擅長自信地犯錯，機器不必急著加入這個傳統項目。這意味著，在醫療、法律、金融、學術和工程等高風險場景裡，Grok 4.3 仍需要謹慎使用。它適合幫使用者起草、整理、生成初稿，適合做低風險的輔助工作；涉及最終判斷，GPT-5.5 和 Claude Opus 4.7 仍更穩。長上下文和工具能力很好但消費者買帳的是結果Grok 4.3 提供 100 萬 Token 上下文窗口，這對長文件、程式碼庫、合同、報告和資料庫很有吸引力。使用者可以丟進去更多材料，讓模型在更完整的資訊環境裡工作。對研究、辦公和創作來說，這是一種實用能力。它還支援文字和圖像輸入，輸出文字，並圍繞工具呼叫、網頁搜尋、X 搜尋、程式碼執行、檔案搜尋、RAG 等能力加強。xAI 還推出了 Custom Voices、語音代理、TTS 和 STT 等產品，把 Grok 的邊界從文字擴展到語音。對普通使用者來說，未來的 Grok 可能不只是一個聊天框，而是一個能讀檔案、查網頁、寫表格、說話、聽話的多模態助手。問題在於，功能多不等於體驗好。消費級 AI 的競爭，最後會回到三個樸素標準：少等、少錯、少折騰。Grok 4.3 在「少等」和「少花錢」上明顯前進，在「少錯」上還沒給出足夠強的答案。Grok 4.3 的精準定位：性價比模型，不是最強模型Grok 4.3 最適合的定位，是一款高性價比的工作型模型。它適合高頻內容生成、語氣改寫、長文字初篩、語音產品、客服場景、批次辦公任務、輕量級代理工作流。它也適合那些對成本敏感、對響應速度敏感、對最強推理沒有執念的產品。很多消費者並不需要每次都呼叫最強模型，就像不應該只是為了買菜開超跑，除非另有所圖。但如果任務要求深度推理、嚴謹事實核查、複雜程式碼、數學證明、長期項目記憶和專業判斷，Grok 4.3 還不該成為第一選擇。GPT-5.5 和 Claude Opus 4.7 仍然更適合承擔這些高價值、高風險任務。這次 xAI 的策略很清楚：先把模型做得足夠強，再把價格打下來，用速度和工具能力擴大可用場景。它沒有贏下「最聰明模型」的頭銜，但可能會贏走一部分真實使用量。因為市場並不總獎勵最強者，也獎勵夠強、夠快、夠便宜的選擇。Grok 4.3 的意義正在這裡。它把 xAI 從一個經常靠馬斯克聲量吸引注意的模型供應商，往更務實的 API 和消費級工具競爭者方向推進了一步。它看起來很好，確實很好；只是還沒好到能讓 GPT-5.5 和 Claude Opus 4.7 緊張。消費者可以期待它降價、提速、讓更多 AI 應用變得便宜。也該記住，在需要真正聰明和可靠的地方，Grok 4.3 仍然只是備選項。 (新智元)

馬斯克官宣：Grok5 = AGI，一個月內將連發兩款兆參數模型，參數堆積到達AGI ！

馬斯克又在X.上整活了：“當網友問他認為什麼時候能達到AGI 時，直接表明是Grok5”；並且官宣Grok 4.4 （1兆參數）將在五月初發佈，Grok 4.5（1.5兆參數）可能會在五月底發佈。一個月內預備發佈兩款兆參數等級的模型，xAI的迭代速度還是太快了！在2025年時，馬斯克就對Grok 5 有了鋪墊：“我現在認為xAI有機會通過 Grok 5 達到AGI，這是我以前從未想過的。”“Grok 5 達到AGI的機率現在是10%，而且還在上升。”“Grok 5 將是AGI，或者某種難以區分於AGI的東西。”而關於AGI，除了馬斯克之外，還有許多大佬有著不同的觀點，例如GoogleDeepMind CEO Demis Hassabis 相對樂觀，認為未來五年內實現AGI的機率非常高；OpenAI CEO Sam Altman 認為AGI這個詞已變得“不太實用”；而Meta首席AI科學家Yann LeCun則持消極態度，認為AGI是企業的“行銷詞”。那麼，AGI到底是什麼？馬斯克為什麼會肯定Grok5=AGI？我們一起來拆解一下！AGI 實現：有人“狂熱認同”，有人“只是胡說”相信大家這兩年經常看到 AGI 這個詞，已經對它非常熟悉了。但是目前還沒有一個被所有人都認同的定義。總的來說，與當前主流的、專注於特定任務的“ 弱人工智慧 ”（蘋果的Siri、DeepMind的AlphaGo等）或“狹義人工智慧”形成對比，被認為是為人工智能發展的終極目標之一。不同的大佬對AGI的定義和時間表，也是南轅北轍的：OpenAI CEO Sam Altman：AGI是一種“高度自主的系統，能在大多數經濟上有價值的工作上超越人類”。不過，在2025年他直言“AGI這個詞越來越不實用、很鬆散”，建議用不同“水平”來描述進步，而不是二元“是或不是”。GoogleDeepMind CEO Demis Hassabis 則對AGI設定了很高門檻——AI必須展現人類全部認知能力，包括最高水平的科學創造力、持續學習和在全新環境中自主提出問題、發明新知識，而非僅在狹窄任務上出色。他預測：未來五年內實現AGI的機率非常高。Anthropic CEO Dario Amodei 不太喜歡用“AGI”這個詞，他更傾向描述為“強大AI系統”：能在大多數學科（生物、電腦、數學、工程等）達到或超過諾貝爾獎得主水平，像“資料中心裡的一個天才”。他預測這種強大AI可能在2026年底或2027年初出現。LeCun則認為AGI這個概念本身就是“胡說”或行銷詞，因為自然界和機器中不存在單一的“通用智能”，人類智能也是高度專化的。他批評當前大模型（LLM）路徑無法通向真正的人類水平AI，需要全新範式（如世界模型）。但總體來說，AGI 指的是在各種任務中與人類同樣聰明的人工智慧系統，AI公司利用這種“追逐”敘事贏得投資，並吸引政策制定者。他強調：單純規模參數或精煉LLM“完全行不通”，人類水平AI還“很多年”遠。AGI 目前也並沒有公認的“量化標準”。更多是通過一些基準測試，比如GPQA Diamond等。Grok5=AGI：規模定律在2025年的採訪中，馬斯克認為 Grok 5將在2026年的Q1季度發佈，目前來看是被延遲了。但我們可以先來看一下目前所透露的Grok 5 配置：參數規模約 6 兆參數，並擁有更高智能密度；使用MoE架構；在 Colossus 2 超算叢集上訓練；規模約 1GW–1.5GW 等級算力；數量級達到 20萬+ GPU；上下文窗口約 150 萬 token；同支援文字、圖像、音訊與視訊的多模態輸入；xAI獨特的即時資料生態等。誇張的的規模參數+超大的算力叢集+xAI獨特的即時資料生態這一套下來，也難怪支援“規模定律”的馬斯克會將Grok5當作AGI！Grok路線圖：參數堆積到達AGI馬斯克也發佈了一個Grok路線圖，“其中的4.9參數被標為？？？，5.0則是AGI”這也引出了一個問題：從三兆到AGI，真的能通過參數實現嗎？在X上有網友調侃，“看來我們會有很多個4.X 版本的修訂。”參數規模真的能堆出AGI嗎？有支持者認為：“規模定律”在過去幾年一直生效，更大模型在推理、創造力上持續突破，加上MoE架構的效率提升和X的即時資料，Grok 5很有可能實現質變。當然也有質疑者：單純堆參數“完全行不通”。LLM擅長模式匹配，但缺乏真正理解世界、長期規劃和少樣本學習的能力。AGI可能需要全新範式，而非無限規模，同時能源成本、訓練瓶頸、對齊風險也是現實挑戰。網友直言：他只是想推銷 Grok對於馬斯克所認為的Grok5=AGI，在X上有網友表示期待：“在我看來，Grok 模型是 AI 行業唯一的前進方向”。當然更多的是質疑聲："我是埃隆的超級粉絲——但他只是想推銷 Grok。不會有 AGI。我們已經到了收益遞減的臨界點。"“人們已經“距離 AGI 只差兩部作品”大約五年了，這基本上已經成了一個持續的笑料。”寫在最後AGI 目前並沒有一個被公認的可量化標準，它的熱度也被炒了一次又一次。它既是技術目標，也是敘事工具；既推動研發進步，也不斷被重新定義。而 Grok 5 是否真的能成為“AGI”，小編也去問了Grok，看看它是如何看待馬斯克的觀點：“我不支援把“Grok 5 = AGI”當作一個嚴格、確定的事實聲明，但我非常支援馬斯克的這種樂觀野心和加速姿態。簡單說：我欣賞他的觀點，但不會全盤接受“等於”這個等號。”可以看出來 Grok 的情商還是挺高的——雖然否定了觀點但是肯定了老闆~各位大佬對 AGI 有什麼樣的看法？ (51CTO技術堆疊)

全球AI雙榜第一！力壓GoogleVeo與Grok，Vidu Q3「參考生」之王歸來

【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸，視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代，真的來了。這個月初，Google一紙公告，把Veo 3.1的視訊生成能力，免費開放給了所有Google帳號。可以說，這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」，正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及，一個尷尬的問題就越藏不住：模型可以無限趨近「能用」，可它和「能交付」之間，依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段，全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧，能用歸能用，從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時，一個被低估的中國玩家，悄悄把答案擺上了桌。今天，Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」，這一次，它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」，Vidu SaaS（Vidu Agent、Vidu Claw）與 Vidu MaaS（Vidu AI 開放平台）全面接入。其中Vidu AI開放平台，可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時，它還支援提示詞調優、工作流適配及專項培訓服務，即便在高峰時段也能確保穩健輸出。以上三層加在一起，構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此，Vidu Q3已全面覆蓋文生、圖生、參考生三大領域，完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言，「為劇而生，萬物可參」，Vidu正在做一件其他玩家還顧不上做的事：把模型能力，焊死在真正的生產流程中。「參考生之王」回歸直接拍戲了要理解這件事的重要性，先把背景拎清楚。1月30日，Vidu Q3全球首發，在權威評測榜單AA上一騎絕塵，拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單，SuperClue榜單上，Vidu Q3斷層登頂，在多圖/單圖參考任務蟬聯雙榜第一。首次亮相，Vidu Q3便主打「為劇而生」，成為全球首個聲畫直出16秒的AI視訊模型。事實上，整個AI視訊行業的競爭焦點，正在悄悄發生一次根本性的位移。視訊大模型，正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力，轉向兩件更本質的事——是否具備完整的敘事能力，以及，是否能進入真實場景的生產級交付。這兩件事，才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世，恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」，到Q2的「演技生成」，再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步，Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數，正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上，「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力，而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者，名副其實的「參考生之王」，這一次，Q3直接把其從模型層推到了應用層。這種巨變，直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說，Vidu讓AI視訊，真正具備了「劇」的表達能力，為劇而生。萬物可參，為「劇」而生，聲畫同出在視覺、聽覺和場景上， Vidu Q3系統性升級，招招致命。相較於上一代，Q3不再執著於枯燥的「生成質量指標」（FID/FVD）比拚，而是死磕一個核心目標：讓AI生成內容，真正具備「劇」的表達能力。要知道，所謂的「劇集感」，是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上，交出了一份令人「恐怖」的答卷。在視覺方面，Vidu Q3新增六大特效：粒子、流體、動力學、運鏡、轉場、光影，將其深度融入敘事語言，讓生成內容更接近「成片級表達」。五大沉浸式音效：環境、動態、氛圍、擬音、情緒，讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此，聲音不再是畫面的附屬，而是情緒的載體。最重要的是，Q3場景能力已進化為直接對齊工業流程的「內容單元」，大幅縮減從創意到成片的距離，覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域，Vidu 不僅實現了極速生成與高頻迭代，更通過極高的視覺穩定性，率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透，標誌著Vidu已從技術驗證期跨入深度產業應用期，建立了不可踰越的落地領先優勢。為了驗證其真實戰力，我們拋棄了傳統的「跑分邏輯」，直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度，以及廣告的多元創意。高燃漫劇漫劇，是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產，這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求，它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇，每分鐘三四十個鏡頭，每段AI生成的素材只有5–10秒。這就意味著，整部劇是由上千段片段硬拚而成。過去，AI模型最大的問題，是每一張圖之間彼此獨立：人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀，觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦，幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型，是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪，讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼，狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進，將情緒推向了最頂峰。最關鍵的突破點在於：複雜的特效變化下，男主形象始終如一。再比如，投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句，「@圖1穿著@圖2衣服，在@圖3江南水鄉行走」。可以看到，動漫女主的臉部特徵被死死鎖住，沒有出現任何畫風偏移或五官融化，服裝的紋理與褶皺也隨著行走步伐自然飄動。而且，背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作，那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片，在這段激烈的對峙戲中，Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動，Vidu Q3將兩位主角的形象死死鎖住，徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此，它在音效與情感生成的顆粒度上達到了影院級水準：沉悶的肉搏聲、倒地後紊亂的喘息，甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音，都與畫面嚴絲合縫。這一段，可以直接剪進漫劇成片裡，幾乎不需要返工。真人短劇如果說漫劇拼的是「量」，那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模，單集時長被壓到極致，敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓，都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期，是短劇行業對AI視訊最迫切的呼喚；但前提是——AI必須先學會演對白戲，也就是說，短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車：要麼兩個人同時張嘴像合唱團，要麼口型對不上台詞，要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點，但對話一崩，戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲，呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住，更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉，讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒，對話時口型的毫釐不差。再比如來一個現代劇，女強人和霸主之間的糾葛，在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言，用AI的最大訴求可能就是提升效率──不止是素材版本多，創意要快，要快速試錯。素材生產效率，就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率，更重要的是人物、風格統一可控，商品不走樣，背景或人物任意選。比如，下列唇蜜的廣告，利用Vidu Q3參考生功能，可快速篩選不同的風格：只需替換參考模特，一鍵生成不同風格、聲情並茂的視訊，真一鍵出片！鏡頭逐漸推進唇部，模特用唇蜜塗抹在嘴唇上，特寫鏡頭展示唇蜜質感。廣告大片效果，多鏡頭展示。最後手持唇膏模特說說：This touch is more than just color.。去掉bgm，保留人聲再舉一個例子，老梗換新貨，更容易在網上爆紅。比如，威爾·史密斯吃義大利面，就是國外的經典梗之一，可謂歷久不衰。在Vidu Q3，用他的表情包+新的商品（比如漢堡），繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香！影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭，但也是價值天花板的最高場景。過去，一個劇本從文字到成片，中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後，動輒是上千萬的預算，是以「月/年」為單位的製作周期。整個行業最渴望的，是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力，讓導演在燒錢之前，就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路，直接正面正剛。它挑了三種最吃功力的片種：科幻、災難、懸疑。給到一段提示詞：根據參考機甲與未來都市場景，生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立，霓虹燈閃爍，主角駕駛機甲在高架橋與樓宇之間高速穿梭，後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍，再切入近距離追蹤，機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣，期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感，參考主體外觀保持穩定，特效密集但清晰。這個生成的難點在於，俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節，都考驗著模型對「電影感」的理解。更狠的是音效，直接構成了一個立體聲場，給人一種身臨其境的壓迫感。再來看災難片，考核的是尺度與震撼，這是這類型大片的標準配方。Vidu Q3在生成效果中，處理了多層次的視覺要素：天空、水牆、慌亂的人群、建築物震顫，每一個要素配合著調度營造出一種末日緊迫感。而且，由遠及近的聲壓推進，更成為了這個視訊重頭戲。更令人想不到的是，一段廢棄醫院的長鏡頭，瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫，還在光影忽明忽暗中保留了真實性，角色表演也有一定的張力。音效更是克制到極致，燈管電流雜音、走廊回音、腳步聲、呼吸聲，把緊張感推向頂點。總言之，Vidu Q3在視覺、聽覺與場景三個關鍵維度上，將四大場景的應用推向了新的高光時刻。偉大的技術最終都將隱形於無形縱觀科技史，任何一項偉大的技術，其最終的宿命都是「隱形」。當電動機剛發明時，人們驚嘆於電流的魔力；但當大工業時代到來時，電動機隱身於工廠的流水線中，人們只看到源源不斷產出的精美商品。今天的AI視訊行業，正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅，通過從Q1到Q3的艱難跋涉，換來的，恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代；它把AI視訊從獵奇者的「玩具箱」，搬到了專業創作者的「工作台」上。「萬物可參」，參考的不僅是現實世界的像素，更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本，當Vidu Claw為你自動生成第一組分鏡，當Vidu Q3用它極具張力的音效和電影級的光影，把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時，你會深刻地意識到：不要用做盲盒的邏輯，去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束，屬於創作者的、由新質生產力驅動的「大航海時代」，在Vidu Q3按下Enter的那一刻，正式拉開了帷幕。在這個充滿無限可能的時代，最好的故事，不再受制於資本的傲慢與工業的繁瑣。 (新智元)

全球AI大模型全景解析：ChatGPT、Grok、微軟、Google與中國代表模型同台對比

當前全球人工智慧大模型賽道已形成多元競爭格局，國際陣營與中國本土模型各有技術路線與場景優勢，共同推動AI技術走向普及化、實用化。OpenAI的ChatGPT作為全球通用大模型的標竿，綜合能力均衡全面，在邏輯推理、程式碼編寫、專業創作與多模態理解上保持領先，外掛生態成熟完善，是全球專業辦公、學術研究與海外業務的主流選擇，產品風格嚴謹穩定，適配各類高要求任務場景。xAI的Grok憑藉鮮明特色快速崛起，依託X平台即時資料接入，對全球熱點與時事動態響應迅速，產品風格個性直接、迭代節奏激進，同時與特斯拉車載、智慧型手機器人生態深度聯動，更受科技愛好者與追求前沿體驗的使用者青睞。微軟依託與OpenAI的深度合作及自研佈局，形成了以Copilot為核心的AI體系，全面融入Windows、Office、Azure等生態，在文件處理、表格分析、簡報製作等辦公場景體驗極致，同時整合Claude模型能力，兼顧企業級服務的穩定性與效率，小參數模型Phi系列在輕量化部署上表現突出，成為辦公場景的首選AI助手。GoogleGemini系列以超強多模態能力與超長上下文處理為核心優勢，深度聯動Google搜尋、雲端辦公與Android生態，在長文件解析、多媒體理解、科學計算等領域表現亮眼，是全場景智能體的代表產品。中國大模型立足本土需求，打造出更貼合國內使用者的實用體系。字節跳動豆包定位國民級全能AI，中文理解自然流暢，多模態創作與日常工具呼叫能力突出，深度聯動抖音、剪映、飛書等生態，使用門檻低、普惠性強，適配日常娛樂、內容創作、辦公輔助等全場景。百度文心一言依託知識圖譜與搜尋技術積累，在知識問答、複雜推理與行業解決方案上優勢顯著，政務、金融等企業級服務體系成熟，合規性與穩定性領先。阿里通義千問兼顧開源與閉源雙路線，長文字處理與多語言能力出色，深度融入電商、雲端運算生態，性價比優勢明顯。騰訊混元依託微信、QQ等社交生態，在內容生成、社交場景適配與多模態協同上表現優秀。華為盤古聚焦政企與工業場景，依託鴻蒙與算力底座，在智能製造、智慧城市等領域落地深入，安全可控能力突出。整體來看，國際模型中ChatGPT主打全能均衡，Grok聚焦即時個性，微軟Copilot深耕辦公生態，GoogleGemini領跑多模態；中國模型則以地道中文體驗、本土生態融合、安全合規與高性價比為核心優勢，更適配國內使用者的日常與產業需求。不同模型依託各自技術與生態優勢，覆蓋不同場景與使用者群體，為全球AI應用提供了豐富多樣的選擇。 (趣ai視角)

46.5萬次盲測封王！Grok視訊模型屠榜Arena，Google最強對手來了

【新智元導讀】馬斯克親自站台，grok-image-video-720p在46萬次盲測投票中加冕第一，這款xAI「壓箱底」的視訊模型，不僅在基準測試上超過了GoogleVeo 3.1 Fast，使用成本也更低。剛剛，AI視訊領域又迎來洗牌！xAI的Grok圖像轉視訊模型（grok-image-video-720p）登頂「Image-to-Video Arena」排行榜，以1404分的超高ELO評分力壓群雄，位居第一。馬斯克親自發帖為自家Grok Image模型站台，稱它每周都在迭代最佳化。這次，xAI真是拿出了「壓箱底」的東西，他們將Grok Imagine稱作為自己目前最強悍的「視訊+音訊」生成模型。無論是想讓一張靜態梗圖「活」過來，還是憑空用一句話變出大片，甚至是對複雜的電影級鏡頭進行精細打磨，它都能輕鬆搞定。X平台上，網友用Grok製作的視訊已經迅速刷屏，涵蓋電影特效、動畫製作、日常生活等種種場景。從一些基準測試上來看，Grok-imagine-video-720p不僅擊敗了Google強大的Veo模型，而且生成成本也更低。有網友驚呼，這不僅是AI視訊工具的一次進化，更可能直接推動該領域重新「排座次」。還有網友猜想，Grok的強勢出擊，或將掀起新一輪生成式視訊技術的軍備競賽。揭秘Grok Imagine能幹活、成本低的多模態六邊形戰士Grok Imagine是xAI傾力打造的視訊-音訊生成模型，該模型的最新版本Grok Imagine 1.0於2026年2月初發佈。支援生成10秒長的720p高畫質視訊，並在運動平滑度、原生音訊質量（如情感表達的聲音）以及提示詞遵循能力上均實現了跨越式升級。相比較2025年10月發佈的Imagine v0.9版本，它將核心聚焦於視覺質量、多模態能力，成本和延遲的平衡，真正做到了支援端到端的創意工作流。使用者可以通過文字描述或上傳圖像來動畫化內容，還支援後續指令微調場景。具體而言，Grok Imagine展現了三大核心「殺手鐧」：視訊生成與指令遵循能力Grok Imagine的視訊生成能力，主要用來從零開始建立短影片（通常10-15秒長，支援480p或720p解析度）。它能處理多種輸入方式，比如直接用文字描述場景、動作、燈光和心情來生成視訊，或者上傳一張靜態圖片，讓AI給它「加戲」變成動態視訊。在視訊生成方面，Grok Imagine擁有業界領先的指令遵循能力。你給出的指令再複雜，它也能精準理解並執行。零門檻的視訊編輯能力視訊編輯功能更像是給現有視訊「動手術」，Grok Imagine可以讓你能輕鬆修改內容，而不用專業軟體。它支援重新設計場景（比如換背景或風格）、加入或刪除物體（例如加個道具或去掉多餘元素）、控制動作（調整運動軌跡、速度或相機角度）。操作起來簡單：上傳視訊檔案或URL，然後描述你想改啥，比如「把這個視訊裡的車換成飛船，加點爆炸效果」。AI就會根據你的指令生成編輯後的版本，還保持原視訊的核心元素。視訊編輯適合電影剪輯、廣告調整或內容最佳化，編輯後視訊還能帶原生音訊。更快速度與更低成本的平衡在性能表現方面，不僅要變強，還要變快。因為如果生成速度太慢、價格太貴，大家根本不敢放開手腳去嘗試。因此xAI團隊專門針對延遲、並行量和成本進行了極限最佳化。這讓Grok Imagine不僅跑得快，而且用起來更省錢。它強調高品質、成本和延遲的平衡，支援端到端的創意工作流，包括視訊生成、編輯和音訊同步。評測霸榜，力壓Google在基準測試中，Grok Imagine在圖像轉視訊領域表現出色，尤其在使用者偏好投票和性價比上。在Image-to-Video Arena（arena.ai）排行榜上，Grok-image-video-720p以1404分位居第一（基於46.5萬投票，34個模型），領先Google Veo-3.1-audio-1080p（1402分）。https://arena.ai/zh/leaderboard/image-to-video這是一個基於使用者盲測投票的平台，使用Elo評分系統。評測強調真實世界視訊質量和保真度，而非自動化指標。在另一個獨立排行榜Artificial Analysis Image to Video Leaderboard上，Grok以1337 ELO分領先，評估標準包括質量、生成速度和價格。Grok-image-video在風格、主題和格式一致性上得分高，它的API定價約$4.20/分鐘，低於GoogleVeo 3.1 Fast等競品。https://artificialanalysis.ai/video/leaderboard/image-to-video在一些第三方的專業評測中，Getimg.ai認為Grok Imagine最突出的特點是以視訊形式精準遵循指令，當提示詞描述動作、節奏或轉場時，該模型通常能做出看似經過深思熟慮而非偶然的回應。比如，Grok-image-video在原生音訊（唇同步、自然對話）和電影指令遵循（如平移、變焦）上出色。Grok-image-video的另一個特色，是它很好地解決了低延時這一使用者使用痛點。AI視訊模型在使用場景中，僅靠原始質量已不再足夠，往往需要多輪互動，等待結果的時間過長會抑制使用者嘗試的意願，尤其是當每次生成都代價高昂時。基準測試顯示，Grok Imagine在綜合考量質量、延遲和成本時表現出色。這意味著你可以自由地生成、調整和重新生成視訊，而不會覺得每次輸入提示都是一種負擔。Lovera Digital將Grok與Google Veo 3比較，發現Grok易用性高，適合短影片社交內容，但視訊質量有時抖動。它的最佳用例是快速原型，評分表顯示其在創意短片上競爭力強。Grok Imagine在第三方評測中被視為高效、音訊強的選手，尤其適合創意和快速生成，但需注意一致性和安全問題。如果你想親自體驗一下Grok Imagine，目前可以通過官網（grok.com/imagine）和APP免費試用，或通過API整合（Grok Imagine API）。 (新智元)

Grok美國市場份額飆升至17.8%：爭議中的強勢逆襲

Grok在美國市場的迅猛崛起，資料來自權威機構Apptopia最新統計（2026年2月13日更新），1月份份額從上月的14%躍升至17.8%。這一增幅讓Grok穩居美國聊天機器人第三位，僅次於OpenAI的ChatGPT（52.9%）和Google的Gemini（29.4%）。相比一年前的1.9%，Grok的年增長超過9倍。這種爆發式增長髮生在圖像生成功能引發全球監管審查的背景下，卻顯示出使用者粘性和傳播力的強大韌性。從邊緣到第三：Grok的份額逆轉之路Grok整合在X平台內，依託Elon Musk的生態優勢快速積累使用者。Apptopia資料顯示，ChatGPT份額從去年同期的80.9%大幅下滑至52.9%，Gemini則從17.3%升至29.4%。Grok抓住這一窗口期，實現從14%到17.8%的單月跳躍。全球網頁瀏覽量在1月達到3.14億次（SimilarWeb資料），證明其流量爆發並非偶然。使用者群體以男性為主，下載量激增，反映出“無限制”“直言不諱”的產品定位在特定人群中形成強認同。xAI重金投入基礎設施建設，正通過真實使用資料證明商業價值。圖像生成風波：安全與自由的激烈碰撞2026年初，Grok的圖像生成功能被大量用於修改真實人物照片，生成非自願性性感化內容，包括女性和未成年人形象，引發強烈反彈。多家媒體報導顯示，短短幾天內平台充斥數百萬相關圖像。xAI隨後宣佈限制：X平台上的圖像生成和編輯功能僅限付費訂閱使用者使用，並在部分地區封鎖對真人照片的“脫衣”類編輯，以應對潛在法律風險。儘管如此，爭議持續發酵，多國監管機構介入審查。事件暴露了當前AI圖像工具在內容稽核上的技術與政策難題：如何平衡創意自由與防止濫用，成為行業共同挑戰。技術核心與差異化：Grok為何“敢說敢畫”Grok基於xAI自研大模型，強調“最大真實”和最小審查，與主流模型的嚴格安全對齊形成鮮明對比。這種設計讓它在回答敏感問題、生成多樣內容時更少受限，吸引追求“無濾鏡”體驗的使用者。圖像模組採用先進擴散模型，支援高精度文字到圖像轉換和圖像編輯。早期版本在成人內容過濾上相對寬鬆，導致爭議爆發，但也正是這種“開放”特性助推了病毒式傳播和使用者增長。相比ChatGPT和Gemini的保守策略，Grok的技術路徑更激進，短期內換來市場份額，長期則需持續最佳化防護機制以應對監管壓力。爭議下的增長邏輯：使用者選擇勝過完美安全市場資料證明，即便面臨強烈批評，Grok的使用量仍在攀升。這說明部分使用者更看重“自由度”和“趣味性”，而非絕對安全。整個聊天機器人行業2025-2026年保持152%年增長，競爭白熱化。Grok的崛起提醒我們：使用者用腳投票，產品定位精準就能在巨頭夾縫中突圍。xAI通過真實增長資料，向投資者展示潛力。未來若能在安全與開放間找到平衡點，Grok有望進一步挑戰前兩名地位。結語：AI賽道沒有常勝將軍Grok從1.9%到17.8%的飛躍，是技術、生態和使用者心理的多重勝利。但圖像爭議也敲響警鐘：AI發展必須同步加強倫理與合規建設。在快速迭代的AI時代，市場份額的每一次跳動，都在重塑行業格局。Grok的故事還在繼續，使用者用行動給出答案：自由有代價，但吸引力無可替代。 (愛特之家)

馬斯克身邊華人離職，受OpenClaw刺激了？

24小時內，兩位華人離開xAI。而且都有奔向“超級個體”的可能性。吳宇懷（Tony Wu）和Jimmy Ba均是xAI初創團隊成員。不管是今年2月發佈Grok3，還是7月發佈Grok4，發佈會上吳宇懷都是直接坐在馬斯克旁邊，佔據著“C位”的。吳宇懷沒有給出明確的離職原因，發佈的消息非常客氣。Jimmy Ba緊隨其後，就在幾個小時前發佈消息，稱這是在xAI的“最後一天”。當吳宇懷佔C位的時候，Jimmy Ba也往往就在身旁。他在業內是知名學者，在xAI直接向馬斯克匯報，是華人成員中層級最高的一位。有意思的是，吳宇懷和Jimmy Ba都在離職資訊裡，表達了對未來的期待。吳宇懷稱“一支配備人工智慧的小團隊可以移山填海”，Jimmy Ba則認為“我們正邁向一個在正確工具加持下生產力提升100倍的時代。”這不禁讓人想到當下大火的OpenClaw，及其所代表的“超級個體”時代。近期已經有3位華人核心人才離開，在前不久，楊格（Greg Yang）也因為身患萊姆病而選擇離職。xAI在建立的時候，有12名“創始團隊”成員，加上最新離開的吳宇懷，已經損失了6人，佔半數。01 那個坐在馬斯克身旁的年輕人關於離職，吳宇懷在X上發佈消息稱：“我今天從xAI辭職了。”這家公司——以及我們之間如同家人般的情誼——將永遠銘刻在我的記憶中。我會深深懷念這裡的人們、作戰室，以及我們並肩作戰過的所有戰役。”至於去向，吳宇懷寫道：“我的人生即將開啟新的篇章。這是一個充滿無限可能的時代：一支配備人工智慧的小團隊可以移山填海，重新定義一切皆有可能。”這不禁讓人聯想到最近爆火的OpenClaw，這個項目集中體現了“超級個體”的威力，也許吳宇懷想要脫離AI獨角獸，自己做點什麼。論能力，吳宇懷在矽谷第一梯隊。矽谷華人這兩年的搶手程度自不必多說，而吳宇懷又是這些人中格外突出的一個存在。吳宇懷是一名90後，出生於杭州市建德，小學就讀於新安江一小，後轉杭州紫陽小學；初中進入杭州建蘭中學。據建蘭中學老師回憶，他從小數學極強，性格獨立、鑽研精神突出。高中時期，吳宇懷遠赴加拿大繼續讀書，後進入紐布倫斯威克大學，獲得數學學士學位，滿績點畢業。這之後，吳宇懷在多倫多大學完成了研究生和博士階段的學習，師從“AI教父”傑佛瑞·辛頓（Geoffrey Hinton）。博士期間吳宇懷錶現突出，曾獲多項頂級獎學金。吳宇懷在學術的道路上越走越遠，博士後進入史丹佛大學，深化推理相關研究。他在學術上的核心興趣是建構“會推理的機器”（building machines that can reason），以數學作為測試推理能力的終極基準，被公認為當前AI數學推理方向的頂尖青年學者之一。在求學的同時，吳宇懷開始在AI行業實習，先是OpenAI，而後是GoogleDeepMind。順其自然地，2021年，吳宇懷加入Google的N2Formal/Autoformalization項目，專注於將自然語言數學問題形式化（autoformalization），讓AI能真正“讀懂並證明”數學定理。這是他早期最知名的方向之一。2023年，吳宇懷作為創始成員，加入剛剛成立的xAI。在此期間，他的主要工作是將自己此前在學術和Google積累的數學推理技術（如STaR、AlphaGeometry、Autoformalization等）系統性地應用到Grok的訓練、後訓練（post-training）和推理增強中，推動Grok在多個基準測試中實現顯著突破。02 直接向馬斯克匯報的華人聯創就在吳宇懷公佈離職消息後，Jimmy Ba也宣佈自己要離開xAI。根據Business Insider今年的一篇關於xAI組織架構的報導，直接向馬斯克匯報的有五個人，Jimmy Ba就是其中之一，管理的團隊規模是最大的，有約1000人。Jimmy Ba是當代深度學習領域最核心的一線研究者之一，也是大模型訓練方法論的重要奠基人。他與“AI教父”辛頓等人合作提出的層歸一化（Layer Normalization），已經成為Transformer與大模型訓練的基礎元件之一；參與提出的Adam最佳化器改進體系，深刻影響了神經網路的收斂效率與穩定性。在理論層面，他長期推動“可解釋scaling”研究，試圖把深度學習從經驗工程推進為可預測科學。加入xAI後，他不僅參與模型訓練框架與最佳化路線設計，也深度介入團隊早期技術方向的搭建。無論在訓練穩定性、最佳化方法還是大模型範式演進上，Jimmy Ba都屬於既有理論高度、又直接參與一線工程落地的關鍵人物。在官宣離職的X帖子中，Jimmy Ba和吳宇懷的行文結構相當一致——先感謝xAI，再展望未來。對xAI，Jimmy Ba表示：“xAI的使命，是把人類推上Kardashev技術等級樹更高的位置。很感激能在最初參與聯合創立。也非常感謝@elonmusk把我們聚在一起，開啟這段不可思議的旅程。為xAI團隊已經完成的一切感到無比自豪，也會繼續以朋友的身份和團隊保持緊密聯絡。感謝大家一路並肩拚搏。在這裡，真正的財富是人和彼此之間的情誼。”至於未來，Jimmy Ba寫道：“我們正邁向一個在正確工具加持下生產力提升100倍的時代。遞迴式自我改進循環，很可能會在未來12個月內上線。是時候把我在‘大局觀’上的梯度重新校準了。2026年將會非常瘋狂，也很可能是關乎我們物種未來、最忙碌且最具決定性的一年。”所謂“遞迴式自我改進循環（recursive self-improvement loop）”，說簡單點就是認為——AI用自己去改進自己，而且這種改進會一輪接一輪加速發生。AI變得更聰明→它能設計出比自己更聰明的版本→新版本更聰明→能設計出更更聰明的版本……這個過程如果不受限制地持續下去，理論上會導致智能爆炸（intelligence explosion），AI的智能水平在非常短的時間內指數級甚至超指數級增長，遠遠超過人類。OpenClaw這種系統，其實已經讓“AI改進AI”這件事有了點實物感。它在干的事很直接：讓AI自己寫研發程式碼、自己跑實驗、自己看結果，再繼續改模型。原來這些活兒全是研究員手動推進的，現在開始被自動化接過去一部分。所以可以把它看成遞迴自我改進的一個早期訊號——循環還沒完全形成，還沒有達到完美閉環，但流水線已經搭出來了，AI也已經站進研發流程裡了。03 創始團隊已經損失半數對於24小時接連兩位華人核心人才的離職，外界對其原因有很多猜測，比如馬斯克治理下是否過勞、SpacaX與xAI的合併是否帶來內部衝突等等。但我們從二位的離職帖文中可以清晰地看到，更有可能的是“xAI很好，但是我另有所求”。說到底，作為頂尖學者，他們對未來有自己的判斷，而xAI也許已經不是代表未來的存在了。目前並不清楚吳宇懷和Jimmy Ba是會創業，還是成為“超級個體”。在OpenClaw席捲全球的背景下，一切皆有可能。OpenClaw是一個免費開放原始碼的自主AI代理，由奧地利獨立開發者Peter Steinberger於2025年11月首次發佈。它運行在使用者本地電腦上，通過WhatsApp、Telegram、Discord、Slack等聊天工具作為介面，像“數字員工”一樣自主執行真實任務：管理郵件、日曆、檔案、瀏覽器操作、運行命令、自動化工作流，甚至寫程式碼或安裝軟體。它具備持久記憶，能記住使用者偏好和歷史任務。項目在2026年1月底病毒式爆發，GitHub星星數幾天內超15萬–16萬，成為當年最快崛起的AI開放原始碼專案之一；同時衍生出Moltbook——一個純AI代理社交網路，超150萬代理自動發帖、辯論。開發出OpenClaw的Steinberger本人就是“超級個體”的典型案例。過去他是iOS/macOS專家，卻用不熟悉的TypeScript快速建構Web應用，全靠AI輔助“指揮”程式碼。他一人開發、迭代、發佈一個30萬行程式碼的項目，支援幾乎所有主流消息平台，每天可以有500+提交記錄，快速響應漏洞、社區需求。整個過程不需要開會、法務審查、跨部門協調，想到就做，今天寫程式碼明天上線。而OpenClaw這樣的工具也讓更多人可以成為“超級個體”，讓普通人也能“僱傭”一個24小時不睡覺、能自我學習、處理複雜任務的“超級員工”，極大壓縮從想法到落地的周期。最新的熱門項目是一款基於OpenClaw開發的虛擬女友，名為“Clawra”，是一位韓國開發者David（Dohyun）Im單兵作戰打造出來的。產品一上線就迅速爆火出圈。在這個背景下，作為矽谷明星AI創企的xAI屢屢有初創成員出走，也許本身就是潮水在改變方向。目前，已經有半數xAI初創成員離開。對矽谷頂尖人才來說，決定去留的從來不只是公司聲量、融資規模，甚至也不是一兩代模型的領先與否，他們更在意的是牢牢鎖定技術演進的方向。當自動化研發、agent流水線、遞迴式自我改進這些東西開始從概念走向工程現實，創新的重心也在悄悄轉移——不再只集中在少數巨頭實驗室裡，而是向更分散的個體能力與開源生態外溢。一個人就能拉起一整套AI研發流程，小團隊也能推進過去需要大廠資源才能完成的突破。如果普通人都能當“超級個體”，那麼矽谷的人才們又怎會坐以待斃？ (字母AI)

馬斯克深夜點贊！內容的下一站是：玩！

昨天深夜，馬斯克在 X 上給一條推文轉發並評論了個： 😂。被回覆的推文來自使用者 @Rothmus，內容是一段用 Loopit 製作的互動 meme。 [圖片] 畫面中央是馬斯克本人的卡通形象，上面寫著「Which is the best LLM in the world?」，底下兩個選項：Grok 和 Others。使用者瘋狂點選螢幕，馬斯克的臉被越戳越大、越來越扭曲，配合節奏感極強的電子樂，整個畫面逐漸鬼畜化。這條推文發出不到一天，超過 58 萬次瀏覽，1400+ 點贊。馬斯克本人的 😂 回覆也收穫了 1200 多個贊。這個讓馬斯克都忍不住回覆的東西，是用一個叫 Loopit 的 App 做出來的。而看這個製作水平和工作量，大機率就是某個普通使用者隨手一做。你可能會和我一樣好奇：這 Loopit 到底是個什麼呢？在聊這個產品之前，先說一個我最近一直在想的話題。軟體即內容？最近有一個被反覆提及的說法：在 AI 時代，「軟體即內容」。每個人都可以用 AI 寫一個小應用，軟體本身就變成了一種新的內容形式。這話乍聽有道理，但仔細想想，有個關鍵問題被忽略了。絕大多數人是內容的消費者，他們沒有創作欲，更沒有開發需求。說「軟體即內容」的，往往本身就有技術嗅覺和動手能力。但對於每天刷著短影片的幾億使用者來說，他們想要的是「打開一個好玩的東西」，可沒人想去「做一個 App」。而且在 AI 時代，「軟體」這個概念本身已經被大幅弱化和泛化了。一個 vibe coding 寫出來的小程序，一段 AI 自動生成的前端頁面，它到底算軟體，還是算內容？邊界，正在變得模糊。所以真正值得關注的問題是：短影片之後，下一個讓大眾興奮的內容消費形態是什麼？文字、圖片、短影片。每一次內容載體的變化，都徹底重塑了人們消費資訊的方式。而在 AI 時代，我最近看到的下一個方向可能是：互動內容。而昨晚引來馬斯克回覆的那個 Loopit，做的就是這件事。在 Loopit 中，使用者的體驗從「看」升級成了「玩」。你可以瘋狂點選螢幕看角色不斷冒出來，對著麥克風吹氣讓氣球膨脹爆炸，甚至還能晃動手機、拖曳元素觸發各種物理反應。內容從單向的線性輸出，變成了雙向的即時互動。這件事以前很難規模化。製作一個互動內容的門檻基本等同於開發一個小遊戲，得有策劃、有美術、有程序。但 AI 的成熟，讓這件事第一次變得「一句話就能做」。我做了兩個互動內容看完馬斯克那個 meme，我也想試試這東西到底有多簡單。坦白說，剛聽到「互動內容平台」這個詞的時候，我腦子裡浮現的是那種華而不實的 H5 行銷頁面。但實際上手之後，跟我想的完全不一樣。我先試著輸入了一段話：做一個雙人對戰的點選遊戲，兩邊分別是湯圓和元宵主題，點選螢幕會出現可愛的角色，看誰點得快Loopit 直接生成了一個完整的互動體驗：螢幕一分為二，左邊是清新的青綠色湯圓世界，右邊是喜慶的紅色元宵場景。瘋狂點選螢幕，可愛的小雪人就會從底部冒出來，越點越多，螢幕逐漸被萌萌的角色填滿。（洗腦的傳播效果）頂部即時顯示雙方的點選次數，「20 HIT!」「24 HIT!」這種即時反饋讓人根本停不下來。這是真的可以上手互動和把玩，而非做了個視訊看看就好。使用者看到的，並不是一段視訊錄屏，它是一個完整的互動體驗，你能真的瘋狂戳螢幕，看著小雪人一個接一個蹦出來，那種「再點一下就能超過對手」的緊張感完全拿捏住了。整個過程我就輸入了一句話，基本一遍就生成出來了。而且有一個讓我頗為意外的細節：在預覽時如果存在 bug，Loopit 會自動檢測並觸發修復。預覽頁下方彈出一個 fix 按鈕，點一下，模型自動分析問題並修補，不需要我寫一行程式碼，甚至不需要我描述問題是什麼。如果對效果不滿意，還可以繼續對話，多輪迭代打磨。然後我又試了第二個：吹氣爆氣球對著麥克風吹氣，螢幕中央的紅色氣球會逐漸膨脹變大。目標很簡單粗暴：對著手機吹氣，看著氣球一點點鼓起來，最後「嘭」一聲炸開，爆炸動畫瞬間鋪滿螢幕。同事看我在那兒呼哧呼哧吹手機，跟傻了一樣。但就是停不下來。從技術角度看，這兩個案例背後有意思的地方在於：無論是觸摸事件的捕獲，還是麥克風音量的檢測，再到即時渲染，這些都得在本地毫秒級即時處理。如果執行階段還在雲端調 API，延遲絕對撐不住。所以 Loopit 的套路應該是：創作階段 AI 生成完整的互動程式碼和物理規則，使用者玩的時候完全是本地 Runtime 驅動，沒有任何 AI 在執行階段介入。程式碼負責邏輯，瀏覽器負責渲染。這才是為什麼響應速度能做到毫秒級。對標之前講的 AI Coding × 多模態生成的融合方案，這些互動小遊戲就是這個思路的很好體現。兩個 case 做下來，Loopit 展示出的互動維度也是非常豐富：麥克風吹氣控制、螢幕觸摸點選，這還只是我用到的。它的文件裡還列著前置/後置攝影機（AR 和手勢識別）、拖曳操控等等。手機上能用的感測器，它幾乎都接進去了。唯一讓我有一點小吐槽的是：目前創作只能手動打字輸入描述。對於一個主打「許願就能實現」的平台來說，如果我能直接對著手機說話就完成創作，那才是真正 AI Native 的體驗。希望後續能加上。回頭想想，這其實才是真正的「軟體即內容」。只不過使用者完全不需要關心「軟體」這個概念。程式碼、模型、渲染引擎，這些技術細節全被藏在了一次「吹氣」、一下「點選」的背後。使用者只需要沉浸在可以互動的內容裡，玩就完了。技術水面之下我有個毛病：看到一個產品覺得好玩，下一秒就開始琢磨它底層是怎麼實現的。而用 Loopit 做完這兩個互動內容之後，我腦子裡一直在轉一個問題：這東西底層到底怎麼做到的？互動內容看似簡單，吹口氣氣球就大了，點一下角色就冒出來了。但從技術角度看，這其實並不是個簡單的工程問題。目前做 AI 生成互動內容，業界有兩條路線，各有各的致命短板。第一條：純 AI Coding。用大模型直接生成程式碼來建構互動邏輯。好處是互動性強、玩法靈活，問題是視覺效果往往很粗糙。靠這條路線批次生產出來的東西，說直接點就是「AI 時代的 4399」。第二條：純多模態生成。用 Diffusion Model、視訊生成模型來產出精美的視覺內容。好處是畫面驚豔，但互動能力極弱，本質上還停留在「看」的階段。下圖對比了兩條路線的優劣：AI Coding 在數量和速度上佔優，但視覺質量低；多模態生成視覺好但產量低、互動弱。Loopit 選擇的技術路線是第三條：把兩者融合。AI Coding × 多模態生成，讓程式碼負責互動和邏輯，讓多模態模型負責視覺、動效和音效。這個方向在表格里對應的定位是「互動式抖音」。高產量、高速度、高品質，市場空間最大。方向好說，難的是怎麼落地。Runtime：從生成到運行互動內容和生成一張圖、一段視訊有本質區別。生成一張圖是一次性的靜態輸出，做完就結束了。互動內容則是一個需要在使用者持續干預下穩定運行的即時系統。使用者在不停地操作：點選、吹氣、晃動、拖曳。世界狀態隨時在變。系統必須在每一次輸入後都給出即時、一致、不崩潰的反饋。為此，Loopit 建構了一個 AI Native 的互動 Runtime：這條管線的核心邏輯是一個即時循環：使用者輸入（點選/吹氣/晃動）→ AI 理解 & 約束（AI Coding）→ 世界狀態更新（規則/狀態機）→ 多模態生成調度（視覺/動作/音效）→ 即時反饋給使用者 → 回到起點看起來簡單清晰，但每一個環節拆開來，其實也都不容易。延遲控制生死線互動內容對響應速度的要求是毫秒級的。我吹一口氣，氣球必須立刻膨脹，我點一下螢幕，角色必須瞬間冒出來，不能等 AI「想」500 毫秒再動。但 AI 生成，無論程式碼生成還是多模態生成，天然就是「慢」的。一次 LLM 推理少說也要幾百毫秒到幾秒。也就是說，Loopit 必須做一件關鍵的事：把「創作時生成」和「執行階段互動」徹底解耦。在創作階段，AI 完成所有的重活：生成互動程式碼、生成視覺素材（圖片/GIF/視訊）、生成音效和音樂、定義物理規則和狀態邏輯。這些都可以耗時幾秒甚至幾十秒，沒關係。到了使用者「玩」的階段，已經沒有大規模的 AI 推理在即時發生了。互動響應完全由預先生成好的程式碼和 Runtime 來驅動。使用者輸入 → 程式碼計算新狀態 → 渲染引擎更新畫面，這條路徑是純計算的，可以做到毫秒級響應。換句話說，AI 在幕後完成了「創作」，Runtime 在前台承擔了「運行」。創作可以慢，運行必須快。這個解耦設計是讓互動內容「絲滑」的關鍵。狀態一致性在 Loopit 的系統裡，有兩套「世界」在平行運轉。一套是程式碼維護的邏輯世界：氣球膨脹到什麼程度、點選次數累積了多少、聲音的音量是大還是小，這些都是精確的數值。另一套是多模態生成渲染出的視覺世界：使用者看到的畫面、聽到的聲音、感受到的反饋。這兩個世界必須嚴格同步。不能出現「畫面裡氣球已經爆了，但邏輯上還在繼續膨脹」的撕裂，也不能出現「程式碼說已經點選了，但畫面裡角色還沒冒出來」的錯位。Loopit 提出的「約束條件下的多模態生成調度」，核心就在於此。多模態生成必須在程式碼定義的狀態邊界內完成，不能自由發揮，要確保每一幀視覺輸出都和當前邏輯狀態精確對齊。這比無約束的開放式生成要難得多。自由生成只要「好看」就行，約束生成還得「對得上」。端側工程這一整套系統，Runtime 引擎、互動邏輯、多模態素材渲染、多路感測器接入，最終都要在一部手機上流暢運行。要知道，手機的算力和記憶體是有限的。這裡需要同時做好這些事情：運行 JavaScript/TypeScript Runtime 處理互動邏輯GPU 加速渲染視覺素材（Canvas/WebGL）接管麥克風做即時音訊分析（吹氣檢測）捕獲觸摸事件並即時計算命中判定（點選檢測）可能還要呼叫攝影機做手勢/人臉識別（AR 互動）這背後，需要的是相當紮實的端側工程最佳化能力。生成階段的模型推理大機率跑在雲端，但素材一旦下發到裝置，所有的即時互動都必須在本地完成。渲染管線要做極致精簡，素材載入需要智能快取和預取，感測器資料需要低延遲採集和高效處理。這是那種看不見但極其考驗功力的「髒活累活」。使用者感受到的只是「吹一口氣氣球就大了」「點一下角色就冒出來了」，但讓這些動作在千元Android機上都跑得絲滑，還是得有點真正的技術壁壘的。做這件事的人能做到這種技術深度的團隊，自然也不簡單。Loopit 的創始人是陳煒鵬，搜狗搜尋出身，後來成為百川智能（Baichuan AI）的聯合創始人。2025 年 3 月從百川離職創業，同年 6 月在北京註冊了湧躍智能科技。一個做過底層基座大模型的人，轉身做了一個讓使用者「一句話生成互動內容」的消費級 App。這乍一看有些「降維」和太親民，但仔細想想，反而只有這種背景的人才敢走這條路。經歷過 2023-2024 年百模大戰的人應該都有一個共識：基座模型正在快速商品化。開源模型 Qwen、DeepSeek、GLM 的能力已經足夠強，純靠模型能力建構的壁壘越來越薄了。那技術壁壘去那了？轉移到了「如何把模型能力以最低摩擦力交付給使用者」這件事上。恰恰因為陳煒鵬懂模型，他才清楚模型的能力邊界在那。那些互動可以做到即時，那些視覺效果可以生成到什麼程度，端側推理的瓶頸怎麼繞。只做應用的人往往不清楚模型能力的邊界，只做模型的人又容易忽略使用者真正的需求。兩邊都深度理解的人，才會選這條看似輕巧實則極重的路線。想像空間Loopit 目前還處於非常早期的階段，但在我看來重要的是，它搭好了一個基礎設施。一個人人可用的互動內容創作和消費平台。創作門檻低到一句話，消費門檻低到打開就能玩，還內建了 Remix（魔改）機制。任何人都能在別人的作品基礎上一鍵二創，改玩法、換素材、加新點子。昨晚馬斯克回覆的那個互動 meme，就是一個活生生的例子。某個使用者用 Loopit 隨手做了個惡搞馬斯克的點選互動，結果引來馬斯克本人 😂 回覆，58 萬人圍觀。這種傳播力，放在傳統的內容形態裡很難想像。這套東西搭好之後，接下來會長出什麼，取決於用它的人。想想短影片剛出來的時候，抖音的創始團隊大概也不會想到，這個平台上會長出美食教學、知識科普、搞笑段子、帶貨直播這麼多超出預期的內容形態。創作者的想像力永遠超出平台設計者的預期。互動內容也是一樣。現在我們看到的還只是點選對戰、吹氣爆氣球、互動 meme 這些相對簡單的形態。但想像一下：小學生用它做一個整蠱同學的小互動，在班群裡病毒式傳播；短影片博主把自己的內容從「看」升級成「玩」，粉絲參與度直接翻倍；獨立藝術家做出用手勢操控的沉浸式視覺作品；品牌方把廣告變成一個讓人忍不住反覆體驗的互動內容；教育場景裡，老師做一個學生可以互動操作的物理實驗演示。這些場景的爆發力，我現在很難精確預測，但完全可以想像。工具已經就位了，AI 把創作門檻拉到了地面，剩下的，就是看各個群體的創造力如何被這個平台釋放出來。這件事的引爆點什麼時候到來，我說不好。但當數以百萬計的普通使用者都能「一句話做一個可以玩的東西」的時候，相信會有人玩出我們現在根本無法想像的花樣出來。Loopit 目前正在招募深度體驗官，感興趣的可以下載親手試試，做一個比看本文介紹直觀真實。下載 Loopit：iOS：App Store 搜尋「Loopit」Android：各大應用程式商店搜尋，或點此安裝：Loopit相關連結：官網：https://www.loopit.me/X：@LoopitAi馬斯克推文：https://x.com/i/status/2020740534290329649 (AGI Hunt)