#grok
馬斯克的Grok 4.3悄悄上線,跑分評測出爐
【新智元導讀】Grok 4.3 是 xAI 一次務實升級:更便宜、更快、更像能幹活的助手。但它在硬推理、穩定性和可信度上,仍落後 GPT-5.5 與 Claude Opus 4.7。xAI 發佈 Grok 4.3,沒有把聲量拉到最大,馬斯克甚至沒單獨發推,看起來只是個過渡版本。它更像一次安靜的產品換擋:把模型放進 API,把價格打下來,把工具能力補上,再告訴開發者可以從舊版 Grok 遷移過來。沒有 AGI 宏大敘事,也少了馬斯克式的「即將改變一切」。這反而讓 Grok 4.3 看起來更真實。對普通消費者來說,Grok 4.3 最重要的變化並非某個榜單分數漲了幾分,而是 AI 助手正在變得更便宜、更快,也更像一個能替人完成檔案、表格、簡報的合格助手。然而,Grok 4.3 的聰明程度仍然沒追上 GPT-5.5 和 Claude Opus 4.7。它是一款性價比很強的新模型,也是一款仍有明顯天花板的模型。消費者真正需要關心的,是它在那些場景能省錢省時間,在那些場景會因為判斷不准、想太久或說太多,反而增加成本。它確實變強了尤其像一個更會幹活的助手Artificial Analysis 給 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超過 Claude Sonnet 4.6 和 Muse Spark。這個提升不算小,尤其在 xAI 自家模型線裡,Grok 4.3 已經是目前最強的一檔。更值得看的是代理任務表現。Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。這個榜單更接近日常「讓 AI 做事」的場景,比如整理資料、執行複雜步驟、處理真實工作流。這對普通使用者有實際意義。讓 AI 幫忙寫周報、搭表格、做方案、拆會議紀要、生成 PPT,Grok 4.3 的體驗會比前代更完整。Grok 可以建立簡報、文件和電子表格,可以在一個電腦環境裡寫程式碼、運行程式碼、安裝依賴並產出檔案。對不懂程式碼的使用者來說,這意味著很多原本需要在 Excel、PowerPoint、瀏覽器之間來回切換的操作,可能會被壓縮成一句指令。這也是 AI 消費級產品真正該競爭的地方——使用者更在意它能不能把一個報銷表做完,把一份旅行計畫排清楚,把一封語氣得體的郵件寫好。Grok 4.3 在這部分的進步,是真進步。更便宜是這次最直接的產品賣點Grok 4.3 的價格很有侵略性。它的 API 價格為每百萬輸入 Tokens 1.25 美元、每百萬輸出 Tokens 2.50 美元,相比 Grok 4.20 輸入價格低約 40%,輸出價格低約 60%。Artificial Analysis 測算,運行整套 Intelligence Index 評測成本約為 395 美元,比 Grok 4.20 0309 v2 低約 20%。這會影響消費者,只是方式沒那麼直觀。大多數普通人不會直接呼叫 API,但他們會用到基於 API 建構的產品。AI 寫作工具、客服機器人、語音助理、教育應用、辦公外掛,背後都要為模型呼叫付費。當底層模型價格下降,應用廠商有空間降低訂閱費,或者在同樣價格下提供更多次數、更長上下文、更複雜任務。Grok 4.3 還有一個優勢是速度。Artificial Analysis 的 xAI 模型頁顯示,它是 xAI 當前輸出速度最快的模型之一,約 196 Tokens/s,屬於很快的一檔。對語音聊天、即時客服、長文生成和批次內容處理來說,等待時間會直接影響體驗。但速度有一個細節容易被忽略:Grok 4.3 的首 Token 延遲並不低。它會先「想一會兒」,然後快速輸出。長答案裡,這種速度優勢明顯;短對話裡,使用者可能先感受到停頓,再感受到快。用於客服、語音助手、移動端聊天時,這個差異會被放大。它更會說人話這是 Grok 的隱藏優勢Grok 一直有一個微妙優勢:語氣更像真人。Hacker News 上有人提到,一些英語非母語使用者認為 Grok 在把握文字語氣、正式程度和微妙人際表達上,比其他模型更自然。有人拿它和 ChatGPT、Claude 比,認為 Grok 在非正式朋友語氣、同事溝通、語音輸入識別上表現更貼近真實交流。Grok 可能受益於 X 平台海量口語化表達訓練。它更容易捕捉社交網路裡的語氣、節奏、鬆弛感等;它也可能因此繼承社交網路的噪音、偏見和表達習慣。對 C 端使用者來說,這種「更自然」的能力會讓 Grok 在寫消息、口語轉寫、語音助手、輕辦公場景裡很討喜。它未必最聰明,但可能更像一個願意按你的語氣說話的助手。Yes, BUT...它比不過 GPT-5.5 和 Claude Opus 4.7Grok 4.3 最大的問題,是它看起來已經進入第一梯隊邊緣,卻還沒站到最前面。Grok 4.3 的 Intelligence Index 為 53,GPT-5.5 為 60,Claude Opus 4.7 為 57。這個差距不只是排行榜上的幾分。對普通消費者來說,它會體現在複雜推理、程式碼偵錯、長文核查、專業諮詢和多步驟任務的穩定性上。在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落後 GPT-5.5 xhigh 276 Elo,按標準 Elo 公式,面對 GPT-5.5 的預期勝率約 17%。它在幻覺控制上也有代價。Grok 4.3 的 AA-Omniscience Accuracy(精準率)提升 8 分,但 Non-Hallucination Rate(非幻覺率)下降 8 分。這裡的精準率和非幻覺率是不同的,精準率只看你答對了多少,而非幻覺率是看你沒答出來的問題裡面,有多少是模型老實承認自己不會的——不會但振振有詞,就是所謂的「幻覺」。換言之,Grok 4.3 的知識覆蓋率變高了,但也更容易出現幻覺了。而消費者最怕的情況就是 AI 答得很流暢、很自信、很像那麼回事,結果關鍵事實錯了。人類已經很擅長自信地犯錯,機器不必急著加入這個傳統項目。這意味著,在醫療、法律、金融、學術和工程等高風險場景裡,Grok 4.3 仍需要謹慎使用。它適合幫使用者起草、整理、生成初稿,適合做低風險的輔助工作;涉及最終判斷,GPT-5.5 和 Claude Opus 4.7 仍更穩。長上下文和工具能力很好但消費者買帳的是結果Grok 4.3 提供 100 萬 Token 上下文窗口,這對長文件、程式碼庫、合同、報告和資料庫很有吸引力。使用者可以丟進去更多材料,讓模型在更完整的資訊環境裡工作。對研究、辦公和創作來說,這是一種實用能力。它還支援文字和圖像輸入,輸出文字,並圍繞工具呼叫、網頁搜尋、X 搜尋、程式碼執行、檔案搜尋、RAG 等能力加強。xAI 還推出了 Custom Voices、語音代理、TTS 和 STT 等產品,把 Grok 的邊界從文字擴展到語音。對普通使用者來說,未來的 Grok 可能不只是一個聊天框,而是一個能讀檔案、查網頁、寫表格、說話、聽話的多模態助手。問題在於,功能多不等於體驗好。消費級 AI 的競爭,最後會回到三個樸素標準:少等、少錯、少折騰。Grok 4.3 在「少等」和「少花錢」上明顯前進,在「少錯」上還沒給出足夠強的答案。Grok 4.3 的精準定位:性價比模型,不是最強模型Grok 4.3 最適合的定位,是一款高性價比的工作型模型。它適合高頻內容生成、語氣改寫、長文字初篩、語音產品、客服場景、批次辦公任務、輕量級代理工作流。它也適合那些對成本敏感、對響應速度敏感、對最強推理沒有執念的產品。很多消費者並不需要每次都呼叫最強模型,就像不應該只是為了買菜開超跑,除非另有所圖。但如果任務要求深度推理、嚴謹事實核查、複雜程式碼、數學證明、長期項目記憶和專業判斷,Grok 4.3 還不該成為第一選擇。GPT-5.5 和 Claude Opus 4.7 仍然更適合承擔這些高價值、高風險任務。這次 xAI 的策略很清楚:先把模型做得足夠強,再把價格打下來,用速度和工具能力擴大可用場景。它沒有贏下「最聰明模型」的頭銜,但可能會贏走一部分真實使用量。因為市場並不總獎勵最強者,也獎勵夠強、夠快、夠便宜的選擇。Grok 4.3 的意義正在這裡。它把 xAI 從一個經常靠馬斯克聲量吸引注意的模型供應商,往更務實的 API 和消費級工具競爭者方向推進了一步。它看起來很好,確實很好;只是還沒好到能讓 GPT-5.5 和 Claude Opus 4.7 緊張。消費者可以期待它降價、提速、讓更多 AI 應用變得便宜。也該記住,在需要真正聰明和可靠的地方,Grok 4.3 仍然只是備選項。 (新智元)
馬斯克官宣:Grok5 = AGI,一個月內將連發兩款兆參數模型,參數堆積到達AGI !
馬斯克又在X.上整活了:“當網友問他認為什麼時候能達到AGI 時,直接表明是Grok5”;並且官宣Grok 4.4 (1兆參數)將在五月初發佈,Grok 4.5(1.5兆參數) 可能會在五月底發佈。一個月內預備發佈兩款兆參數等級的模型,xAI的迭代速度還是太快了!在2025年時,馬斯克就對Grok 5 有了鋪墊:“我現在認為xAI有機會通過 Grok 5 達到AGI,這是我以前從未想過的。”“Grok 5 達到AGI的機率現在是10%,而且還在上升。”“Grok 5 將是AGI,或者某種難以區分於AGI的東西。”而關於AGI,除了馬斯克之外,還有許多大佬有著不同的觀點,例如GoogleDeepMind CEO Demis Hassabis 相對樂觀,認為未來五年內實現AGI的機率非常高;OpenAI CEO Sam Altman 認為AGI這個詞已變得“不太實用”;而Meta首席AI科學家Yann LeCun則持消極態度,認為AGI是企業的“行銷詞”。那麼,AGI到底是什麼?馬斯克為什麼會肯定Grok5=AGI?我們一起來拆解一下!AGI 實現:有人“狂熱認同”,有人“只是胡說”相信大家這兩年經常看到 AGI 這個詞,已經對它非常熟悉了。但是目前還沒有一個被所有人都認同的定義。總的來說,與當前主流的、專注於特定任務的“ 弱人工智慧 ”(蘋果的Siri、DeepMind的AlphaGo等)或“狹義人工智慧”形成對比,被認為是為人工智能發展的終極目標之一。不同的大佬對AGI的定義和時間表,也是南轅北轍的:OpenAI CEO Sam Altman:AGI是一種“高度自主的系統,能在大多數經濟上有價值的工作上超越人類”。不過,在2025年他直言“AGI這個詞越來越不實用、很鬆散”,建議用不同“水平”來描述進步,而不是二元“是或不是”。GoogleDeepMind CEO Demis Hassabis 則對AGI設定了很高門檻——AI必須展現人類全部認知能力,包括最高水平的科學創造力、持續學習和在全新環境中自主提出問題、發明新知識,而非僅在狹窄任務上出色。他預測:未來五年內實現AGI的機率非常高。Anthropic CEO Dario Amodei 不太喜歡用“AGI”這個詞,他更傾向描述為“強大AI系統”:能在大多數學科(生物、電腦、數學、工程等)達到或超過諾貝爾獎得主水平,像“資料中心裡的一個天才”。他預測這種強大AI可能在2026年底或2027年初出現。LeCun則認為AGI這個概念本身就是“胡說”或行銷詞,因為自然界和機器中不存在單一的“通用智能”,人類智能也是高度專化的。他批評當前大模型(LLM)路徑無法通向真正的人類水平AI,需要全新範式(如世界模型)。但總體來說,AGI 指的是在各種任務中與人類同樣聰明的人工智慧系統,AI公司利用這種“追逐”敘事贏得投資,並吸引政策制定者。他強調:單純規模參數或精煉LLM“完全行不通”,人類水平AI還“很多年”遠。AGI 目前也並沒有公認的“量化標準”。更多是通過一些基準測試,比如GPQA Diamond等。Grok5=AGI:規模定律在2025年的採訪中,馬斯克認為 Grok 5將在2026年的Q1季度發佈,目前來看是被延遲了。但我們可以先來看一下目前所透露的Grok 5 配置:參數規模約 6 兆參數,並擁有更高智能密度;使用MoE架構;在 Colossus 2 超算叢集上訓練;規模約 1GW–1.5GW 等級算力;數量級達到 20萬+ GPU;上下文窗口約 150 萬 token;同支援文字、圖像、音訊與視訊的多模態輸入;xAI獨特的即時資料生態等。誇張的的規模參數+超大的算力叢集+xAI獨特的即時資料生態這一套下來,也難怪支援“規模定律”的馬斯克會將Grok5當作AGI!Grok路線圖:參數堆積到達AGI馬斯克也發佈了一個Grok路線圖,“其中的4.9參數被標為???,5.0則是AGI”這也引出了一個問題:從三兆到AGI,真的能通過參數實現嗎?在X上有網友調侃,“看來我們會有很多個4.X 版本的修訂。”參數規模真的能堆出AGI嗎?有支持者認為:“規模定律”在過去幾年一直生效,更大模型在推理、創造力上持續突破,加上MoE架構的效率提升和X的即時資料,Grok 5很有可能實現質變。當然也有質疑者:單純堆參數“完全行不通”。LLM擅長模式匹配,但缺乏真正理解世界、長期規劃和少樣本學習的能力。AGI可能需要全新範式,而非無限規模,同時能源成本、訓練瓶頸、對齊風險也是現實挑戰。網友直言:他只是想推銷 Grok對於馬斯克所認為的Grok5=AGI,在X上有網友表示期待:“在我看來,Grok 模型是 AI 行業唯一的前進方向”。當然更多的是質疑聲:"我是埃隆的超級粉絲——但他只是想推銷 Grok。不會有 AGI。我們已經到了收益遞減的臨界點。"“人們已經“距離 AGI 只差兩部作品”大約五年了,這基本上已經成了一個持續的笑料。”寫在最後AGI 目前並沒有一個被公認的可量化標準,它的熱度也被炒了一次又一次。它既是技術目標,也是敘事工具;既推動研發進步,也不斷被重新定義。而 Grok 5 是否真的能成為“AGI”,小編也去問了Grok,看看它是如何看待馬斯克的觀點:“我不支援把“Grok 5 = AGI”當作一個嚴格、確定的事實聲明,但我非常支援馬斯克的這種樂觀野心和加速姿態。簡單說:我欣賞他的觀點,但不會全盤接受“等於”這個等號。”可以看出來 Grok 的情商還是挺高的——雖然否定了觀點但是肯定了老闆~各位大佬對 AGI 有什麼樣的看法? (51CTO技術堆疊)
全球AI雙榜第一!力壓GoogleVeo與Grok,Vidu Q3「參考生」之王歸來
【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸,視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代,真的來了。這個月初,Google一紙公告,把Veo 3.1的視訊生成能力,免費開放給了所有Google帳號。可以說,這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」,正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及,一個尷尬的問題就越藏不住:模型可以無限趨近「能用」,可它和「能交付」之間,依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段,全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧,能用歸能用,從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時,一個被低估的中國玩家,悄悄把答案擺上了桌。今天,Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」,這一次,它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」,Vidu SaaS(Vidu Agent、Vidu Claw)與 Vidu MaaS(Vidu AI 開放平台)全面接入。其中Vidu AI開放平台,可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時,它還支援提示詞調優、工作流適配及專項培訓服務,即便在高峰時段也能確保穩健輸出。以上三層加在一起,構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此,Vidu Q3已全面覆蓋文生、圖生、參考生三大領域,完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言,「為劇而生,萬物可參」,Vidu正在做一件其他玩家還顧不上做的事:把模型能力,焊死在真正的生產流程中。「參考生之王」回歸 直接拍戲了要理解這件事的重要性,先把背景拎清楚。1月30日,Vidu Q3全球首發,在權威評測榜單AA上一騎絕塵,拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單,SuperClue榜單上,Vidu Q3斷層登頂,在多圖/單圖參考任務蟬聯雙榜第一。首次亮相,Vidu Q3便主打「為劇而生」,成為全球首個聲畫直出16秒的AI視訊模型。事實上,整個AI視訊行業的競爭焦點,正在悄悄發生一次根本性的位移。視訊大模型,正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力,轉向兩件更本質的事——是否具備完整的敘事能力,以及,是否能進入真實場景的生產級交付。這兩件事,才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世,恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」,到Q2的「演技生成」,再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步,Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數,正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上,「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力,而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者,名副其實的「參考生之王」,這一次,Q3直接把其從模型層推到了應用層。這種巨變,直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說,Vidu讓AI視訊,真正具備了「劇」的表達能力,為劇而生。萬物可參,為「劇」而生,聲畫同出在視覺、聽覺和場景上, Vidu Q3系統性升級,招招致命。相較於上一代,Q3不再執著於枯燥的「生成質量指標」(FID/FVD)比拚,而是死磕一個核心目標:讓AI生成內容,真正具備「劇」的表達能力。要知道,所謂的「劇集感」,是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上,交出了一份令人「恐怖」的答卷。在視覺方面,Vidu Q3新增六大特效:粒子、流體、動力學、運鏡、轉場、光影,將其深度融入敘事語言,讓生成內容更接近「成片級表達」。五大沉浸式音效:環境、動態、氛圍、擬音、情緒,讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此,聲音不再是畫面的附屬,而是情緒的載體。最重要的是,Q3場景能力已進化為直接對齊工業流程的「內容單元」,大幅縮減從創意到成片的距離,覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域,Vidu 不僅實現了極速生成與高頻迭代,更通過極高的視覺穩定性,率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透,標誌著Vidu已從技術驗證期跨入深度產業應用期,建立了不可踰越的落地領先優勢。為了驗證其真實戰力,我們拋棄了傳統的「跑分邏輯」,直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度,以及廣告的多元創意。高燃漫劇漫劇,是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產,這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求,它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇,每分鐘三四十個鏡頭,每段AI生成的素材只有5–10秒。這就意味著,整部劇是由上千段片段硬拚而成。過去,AI模型最大的問題,是每一張圖之間彼此獨立:人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀,觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦,幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型,是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪,讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼,狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進,將情緒推向了最頂峰。最關鍵的突破點在於:複雜的特效變化下,男主形象始終如一。再比如,投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句,「@圖1穿著@圖2衣服,在@圖3江南水鄉行走」。可以看到,動漫女主的臉部特徵被死死鎖住,沒有出現任何畫風偏移或五官融化,服裝的紋理與褶皺也隨著行走步伐自然飄動。而且,背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作,那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片,在這段激烈的對峙戲中,Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動,Vidu Q3將兩位主角的形象死死鎖住,徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此,它在音效與情感生成的顆粒度上達到了影院級水準:沉悶的肉搏聲、倒地後紊亂的喘息,甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音,都與畫面嚴絲合縫。這一段,可以直接剪進漫劇成片裡,幾乎不需要返工。真人短劇如果說漫劇拼的是「量」,那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模,單集時長被壓到極致,敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓,都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期,是短劇行業對AI視訊最迫切的呼喚;但前提是——AI必須先學會演對白戲,也就是說,短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車:要麼兩個人同時張嘴像合唱團,要麼口型對不上台詞,要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點,但對話一崩,戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲,呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住,更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉,讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒,對話時口型的毫釐不差。再比如來一個現代劇,女強人和霸主之間的糾葛,在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言,用AI的最大訴求可能就是提升效率──不止是素材版本多,創意要快,要快速試錯。素材生產效率,就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率,更重要的是人物、風格統一可控,商品不走樣,背景或人物任意選。比如,下列唇蜜的廣告,利用Vidu Q3參考生功能,可快速篩選不同的風格:只需替換參考模特,一鍵生成不同風格、聲情並茂的視訊,真一鍵出片!鏡頭逐漸推進唇部,模特用唇蜜塗抹在嘴唇上,特寫鏡頭展示唇蜜質感。廣告大片效果,多鏡頭展示。最後手持唇膏模特說說:This touch is more than just color.。去掉bgm,保留人聲再舉一個例子,老梗換新貨,更容易在網上爆紅。比如,威爾·史密斯吃義大利面,就是國外的經典梗之一,可謂歷久不衰。在Vidu Q3,用他的表情包+新的商品(比如漢堡),繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香!影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭,但也是價值天花板的最高場景。過去,一個劇本從文字到成片,中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後,動輒是上千萬的預算,是以「月/年」為單位的製作周期。整個行業最渴望的,是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力,讓導演在燒錢之前,就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路,直接正面正剛。它挑了三種最吃功力的片種:科幻、災難、懸疑。給到一段提示詞:根據參考機甲與未來都市場景,生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立,霓虹燈閃爍,主角駕駛機甲在高架橋與樓宇之間高速穿梭,後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍,再切入近距離追蹤,機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣,期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感,參考主體外觀保持穩定,特效密集但清晰。這個生成的難點在於,俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節,都考驗著模型對「電影感」的理解。更狠的是音效,直接構成了一個立體聲場,給人一種身臨其境的壓迫感。再來看災難片,考核的是尺度與震撼,這是這類型大片的標準配方。Vidu Q3在生成效果中,處理了多層次的視覺要素:天空、水牆、慌亂的人群、建築物震顫,每一個要素配合著調度營造出一種末日緊迫感。而且,由遠及近的聲壓推進,更成為了這個視訊重頭戲。更令人想不到的是,一段廢棄醫院的長鏡頭,瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫,還在光影忽明忽暗中保留了真實性,角色表演也有一定的張力。音效更是克制到極致,燈管電流雜音、走廊回音、腳步聲、呼吸聲,把緊張感推向頂點。總言之,Vidu Q3在視覺、聽覺與場景三個關鍵維度上,將四大場景的應用推向了新的高光時刻。偉大的技術 最終都將隱形於無形縱觀科技史,任何一項偉大的技術,其最終的宿命都是「隱形」。當電動機剛發明時,人們驚嘆於電流的魔力;但當大工業時代到來時,電動機隱身於工廠的流水線中,人們只看到源源不斷產出的精美商品。今天的AI視訊行業,正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅,通過從Q1到Q3的艱難跋涉,換來的,恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代;它把AI視訊從獵奇者的「玩具箱」,搬到了專業創作者的「工作台」上。「萬物可參」,參考的不僅是現實世界的像素,更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本,當Vidu Claw為你自動生成第一組分鏡,當Vidu Q3用它極具張力的音效和電影級的光影,把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時,你會深刻地意識到:不要用做盲盒的邏輯,去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束,屬於創作者的、由新質生產力驅動的「大航海時代」,在Vidu Q3按下Enter的那一刻,正式拉開了帷幕。在這個充滿無限可能的時代,最好的故事,不再受制於資本的傲慢與工業的繁瑣。 (新智元)
全球AI大模型全景解析:ChatGPT、Grok、微軟、Google與中國代表模型同台對比
當前全球人工智慧大模型賽道已形成多元競爭格局,國際陣營與中國本土模型各有技術路線與場景優勢,共同推動AI技術走向普及化、實用化。OpenAI的ChatGPT作為全球通用大模型的標竿,綜合能力均衡全面,在邏輯推理、程式碼編寫、專業創作與多模態理解上保持領先,外掛生態成熟完善,是全球專業辦公、學術研究與海外業務的主流選擇,產品風格嚴謹穩定,適配各類高要求任務場景。xAI的Grok憑藉鮮明特色快速崛起,依託X平台即時資料接入,對全球熱點與時事動態響應迅速,產品風格個性直接、迭代節奏激進,同時與特斯拉車載、智慧型手機器人生態深度聯動,更受科技愛好者與追求前沿體驗的使用者青睞。微軟依託與OpenAI的深度合作及自研佈局,形成了以Copilot為核心的AI體系,全面融入Windows、Office、Azure等生態,在文件處理、表格分析、簡報製作等辦公場景體驗極致,同時整合Claude模型能力,兼顧企業級服務的穩定性與效率,小參數模型Phi系列在輕量化部署上表現突出,成為辦公場景的首選AI助手。GoogleGemini系列以超強多模態能力與超長上下文處理為核心優勢,深度聯動Google搜尋、雲端辦公與Android生態,在長文件解析、多媒體理解、科學計算等領域表現亮眼,是全場景智能體的代表產品。中國大模型立足本土需求,打造出更貼合國內使用者的實用體系。字節跳動豆包定位國民級全能AI,中文理解自然流暢,多模態創作與日常工具呼叫能力突出,深度聯動抖音、剪映、飛書等生態,使用門檻低、普惠性強,適配日常娛樂、內容創作、辦公輔助等全場景。百度文心一言依託知識圖譜與搜尋技術積累,在知識問答、複雜推理與行業解決方案上優勢顯著,政務、金融等企業級服務體系成熟,合規性與穩定性領先。阿里通義千問兼顧開源與閉源雙路線,長文字處理與多語言能力出色,深度融入電商、雲端運算生態,性價比優勢明顯。騰訊混元依託微信、QQ等社交生態,在內容生成、社交場景適配與多模態協同上表現優秀。華為盤古聚焦政企與工業場景,依託鴻蒙與算力底座,在智能製造、智慧城市等領域落地深入,安全可控能力突出。整體來看,國際模型中ChatGPT主打全能均衡,Grok聚焦即時個性,微軟Copilot深耕辦公生態,GoogleGemini領跑多模態;中國模型則以地道中文體驗、本土生態融合、安全合規與高性價比為核心優勢,更適配國內使用者的日常與產業需求。不同模型依託各自技術與生態優勢,覆蓋不同場景與使用者群體,為全球AI應用提供了豐富多樣的選擇。 (趣ai視角)
46.5萬次盲測封王!Grok視訊模型屠榜Arena,Google最強對手來了
【新智元導讀】馬斯克親自站台,grok-image-video-720p在46萬次盲測投票中加冕第一,這款xAI「壓箱底」的視訊模型,不僅在基準測試上超過了GoogleVeo 3.1 Fast,使用成本也更低。剛剛,AI視訊領域又迎來洗牌!xAI的Grok圖像轉視訊模型(grok-image-video-720p)登頂「Image-to-Video Arena」排行榜,以1404分的超高ELO評分力壓群雄,位居第一。馬斯克親自發帖為自家Grok Image模型站台,稱它每周都在迭代最佳化。這次,xAI真是拿出了「壓箱底」的東西,他們將Grok Imagine稱作為自己目前最強悍的「視訊+音訊」生成模型。無論是想讓一張靜態梗圖「活」過來,還是憑空用一句話變出大片,甚至是對複雜的電影級鏡頭進行精細打磨,它都能輕鬆搞定。X平台上,網友用Grok製作的視訊已經迅速刷屏,涵蓋電影特效、動畫製作、日常生活等種種場景。從一些基準測試上來看,Grok-imagine-video-720p不僅擊敗了Google強大的Veo模型,而且生成成本也更低。有網友驚呼,這不僅是AI視訊工具的一次進化,更可能直接推動該領域重新「排座次」。還有網友猜想,Grok的強勢出擊,或將掀起新一輪生成式視訊技術的軍備競賽。揭秘Grok Imagine能幹活、成本低的多模態六邊形戰士Grok Imagine是xAI傾力打造的視訊-音訊生成模型,該模型的最新版本Grok Imagine 1.0於2026年2月初發佈。支援生成10秒長的720p高畫質視訊,並在運動平滑度、原生音訊質量(如情感表達的聲音)以及提示詞遵循能力上均實現了跨越式升級。相比較2025年10月發佈的Imagine v0.9版本,它將核心聚焦於視覺質量、多模態能力,成本和延遲的平衡,真正做到了支援端到端的創意工作流。使用者可以通過文字描述或上傳圖像來動畫化內容,還支援後續指令微調場景。具體而言,Grok Imagine展現了三大核心「殺手鐧」:視訊生成與指令遵循能力Grok Imagine的視訊生成能力,主要用來從零開始建立短影片(通常10-15秒長,支援480p或720p解析度)。它能處理多種輸入方式,比如直接用文字描述場景、動作、燈光和心情來生成視訊,或者上傳一張靜態圖片,讓AI給它「加戲」變成動態視訊。在視訊生成方面,Grok Imagine擁有業界領先的指令遵循能力。你給出的指令再複雜,它也能精準理解並執行。零門檻的視訊編輯能力視訊編輯功能更像是給現有視訊「動手術」,Grok Imagine可以讓你能輕鬆修改內容,而不用專業軟體。它支援重新設計場景(比如換背景或風格)、加入或刪除物體(例如加個道具或去掉多餘元素)、控制動作(調整運動軌跡、速度或相機角度)。操作起來簡單:上傳視訊檔案或URL,然後描述你想改啥,比如「把這個視訊裡的車換成飛船,加點爆炸效果」。AI就會根據你的指令生成編輯後的版本,還保持原視訊的核心元素。視訊編輯適合電影剪輯、廣告調整或內容最佳化,編輯後視訊還能帶原生音訊。更快速度與更低成本的平衡在性能表現方面,不僅要變強,還要變快。因為如果生成速度太慢、價格太貴,大家根本不敢放開手腳去嘗試。因此xAI團隊專門針對延遲、並行量和成本進行了極限最佳化。這讓Grok Imagine不僅跑得快,而且用起來更省錢。它強調高品質、成本和延遲的平衡,支援端到端的創意工作流,包括視訊生成、編輯和音訊同步。評測霸榜,力壓Google在基準測試中,Grok Imagine在圖像轉視訊領域表現出色,尤其在使用者偏好投票和性價比上。在Image-to-Video Arena(arena.ai)排行榜上,Grok-image-video-720p以1404分位居第一(基於46.5萬投票,34個模型),領先Google Veo-3.1-audio-1080p(1402分)。https://arena.ai/zh/leaderboard/image-to-video這是一個基於使用者盲測投票的平台,使用Elo評分系統。評測強調真實世界視訊質量和保真度,而非自動化指標。在另一個獨立排行榜Artificial Analysis Image to Video Leaderboard上,Grok以1337 ELO分領先,評估標準包括質量、生成速度和價格。Grok-image-video在風格、主題和格式一致性上得分高,它的API定價約$4.20/分鐘,低於GoogleVeo 3.1 Fast等競品。https://artificialanalysis.ai/video/leaderboard/image-to-video在一些第三方的專業評測中,Getimg.ai認為Grok Imagine最突出的特點是以視訊形式精準遵循指令,當提示詞描述動作、節奏或轉場時,該模型通常能做出看似經過深思熟慮而非偶然的回應。比如,Grok-image-video在原生音訊(唇同步、自然對話)和電影指令遵循(如平移、變焦)上出色。Grok-image-video的另一個特色,是它很好地解決了低延時這一使用者使用痛點。AI視訊模型在使用場景中,僅靠原始質量已不再足夠,往往需要多輪互動,等待結果的時間過長會抑制使用者嘗試的意願,尤其是當每次生成都代價高昂時。基準測試顯示,Grok Imagine在綜合考量質量、延遲和成本時表現出色。這意味著你可以自由地生成、調整和重新生成視訊,而不會覺得每次輸入提示都是一種負擔。Lovera Digital將Grok與Google Veo 3比較,發現Grok易用性高,適合短影片社交內容,但視訊質量有時抖動。它的最佳用例是快速原型,評分表顯示其在創意短片上競爭力強。Grok Imagine在第三方評測中被視為高效、音訊強的選手,尤其適合創意和快速生成,但需注意一致性和安全問題。如果你想親自體驗一下Grok Imagine,目前可以通過官網(grok.com/imagine)和APP免費試用,或通過API整合(Grok Imagine API)。 (新智元)
Grok美國市場份額飆升至17.8%:爭議中的強勢逆襲
Grok在美國市場的迅猛崛起,資料來自權威機構Apptopia最新統計(2026年2月13日更新),1月份份額從上月的14%躍升至17.8%。這一增幅讓Grok穩居美國聊天機器人第三位,僅次於OpenAI的ChatGPT(52.9%)和Google的Gemini(29.4%)。相比一年前的1.9%,Grok的年增長超過9倍。這種爆發式增長髮生在圖像生成功能引發全球監管審查的背景下,卻顯示出使用者粘性和傳播力的強大韌性。從邊緣到第三:Grok的份額逆轉之路Grok整合在X平台內,依託Elon Musk的生態優勢快速積累使用者。Apptopia資料顯示,ChatGPT份額從去年同期的80.9%大幅下滑至52.9%,Gemini則從17.3%升至29.4%。Grok抓住這一窗口期,實現從14%到17.8%的單月跳躍。全球網頁瀏覽量在1月達到3.14億次(SimilarWeb資料),證明其流量爆發並非偶然。使用者群體以男性為主,下載量激增,反映出“無限制”“直言不諱”的產品定位在特定人群中形成強認同。xAI重金投入基礎設施建設,正通過真實使用資料證明商業價值。圖像生成風波:安全與自由的激烈碰撞2026年初,Grok的圖像生成功能被大量用於修改真實人物照片,生成非自願性性感化內容,包括女性和未成年人形象,引發強烈反彈。多家媒體報導顯示,短短幾天內平台充斥數百萬相關圖像。xAI隨後宣佈限制:X平台上的圖像生成和編輯功能僅限付費訂閱使用者使用,並在部分地區封鎖對真人照片的“脫衣”類編輯,以應對潛在法律風險。儘管如此,爭議持續發酵,多國監管機構介入審查。事件暴露了當前AI圖像工具在內容稽核上的技術與政策難題:如何平衡創意自由與防止濫用,成為行業共同挑戰。技術核心與差異化:Grok為何“敢說敢畫”Grok基於xAI自研大模型,強調“最大真實”和最小審查,與主流模型的嚴格安全對齊形成鮮明對比。這種設計讓它在回答敏感問題、生成多樣內容時更少受限,吸引追求“無濾鏡”體驗的使用者。圖像模組採用先進擴散模型,支援高精度文字到圖像轉換和圖像編輯。早期版本在成人內容過濾上相對寬鬆,導致爭議爆發,但也正是這種“開放”特性助推了病毒式傳播和使用者增長。相比ChatGPT和Gemini的保守策略,Grok的技術路徑更激進,短期內換來市場份額,長期則需持續最佳化防護機制以應對監管壓力。爭議下的增長邏輯:使用者選擇勝過完美安全市場資料證明,即便面臨強烈批評,Grok的使用量仍在攀升。這說明部分使用者更看重“自由度”和“趣味性”,而非絕對安全。整個聊天機器人行業2025-2026年保持152%年增長,競爭白熱化。Grok的崛起提醒我們:使用者用腳投票,產品定位精準就能在巨頭夾縫中突圍。xAI通過真實增長資料,向投資者展示潛力。未來若能在安全與開放間找到平衡點,Grok有望進一步挑戰前兩名地位。結語:AI賽道沒有常勝將軍Grok從1.9%到17.8%的飛躍,是技術、生態和使用者心理的多重勝利。但圖像爭議也敲響警鐘:AI發展必須同步加強倫理與合規建設。在快速迭代的AI時代,市場份額的每一次跳動,都在重塑行業格局。Grok的故事還在繼續,使用者用行動給出答案:自由有代價,但吸引力無可替代。 (愛特之家)
馬斯克身邊華人離職,受OpenClaw刺激了?
24小時內,兩位華人離開xAI。而且都有奔向“超級個體”的可能性。吳宇懷(Tony Wu)和Jimmy Ba均是xAI初創團隊成員。不管是今年2月發佈Grok3,還是7月發佈Grok4,發佈會上吳宇懷都是直接坐在馬斯克旁邊,佔據著“C位”的。吳宇懷沒有給出明確的離職原因,發佈的消息非常客氣。Jimmy Ba緊隨其後,就在幾個小時前發佈消息,稱這是在xAI的“最後一天”。當吳宇懷佔C位的時候,Jimmy Ba也往往就在身旁。他在業內是知名學者,在xAI直接向馬斯克匯報,是華人成員中層級最高的一位。有意思的是,吳宇懷和Jimmy Ba都在離職資訊裡,表達了對未來的期待。吳宇懷稱“一支配備人工智慧的小團隊可以移山填海”,Jimmy Ba則認為“我們正邁向一個在正確工具加持下生產力提升100倍的時代。”這不禁讓人想到當下大火的OpenClaw,及其所代表的“超級個體”時代。近期已經有3位華人核心人才離開,在前不久,楊格(Greg Yang)也因為身患萊姆病而選擇離職。xAI在建立的時候,有12名“創始團隊”成員,加上最新離開的吳宇懷,已經損失了6人,佔半數。01 那個坐在馬斯克身旁的年輕人關於離職,吳宇懷在X上發佈消息稱:“我今天從xAI辭職了。”這家公司——以及我們之間如同家人般的情誼——將永遠銘刻在我的記憶中。我會深深懷念這裡的人們、作戰室,以及我們並肩作戰過的所有戰役。”至於去向,吳宇懷寫道:“我的人生即將開啟新的篇章。這是一個充滿無限可能的時代:一支配備人工智慧的小團隊可以移山填海,重新定義一切皆有可能。”這不禁讓人聯想到最近爆火的OpenClaw,這個項目集中體現了“超級個體”的威力,也許吳宇懷想要脫離AI獨角獸,自己做點什麼。論能力,吳宇懷在矽谷第一梯隊。矽谷華人這兩年的搶手程度自不必多說,而吳宇懷又是這些人中格外突出的一個存在。吳宇懷是一名90後,出生於杭州市建德,小學就讀於新安江一小,後轉杭州紫陽小學;初中進入杭州建蘭中學。據建蘭中學老師回憶,他從小數學極強,性格獨立、鑽研精神突出。高中時期,吳宇懷遠赴加拿大繼續讀書,後進入紐布倫斯威克大學,獲得數學學士學位,滿績點畢業。這之後,吳宇懷在多倫多大學完成了研究生和博士階段的學習,師從“AI教父”傑佛瑞·辛頓(Geoffrey Hinton)。博士期間吳宇懷錶現突出,曾獲多項頂級獎學金。吳宇懷在學術的道路上越走越遠,博士後進入史丹佛大學,深化推理相關研究。他在學術上的核心興趣是建構“會推理的機器”(building machines that can reason),以數學作為測試推理能力的終極基準,被公認為當前AI數學推理方向的頂尖青年學者之一。在求學的同時,吳宇懷開始在AI行業實習,先是OpenAI,而後是GoogleDeepMind。順其自然地,2021年,吳宇懷加入Google的N2Formal/Autoformalization項目,專注於將自然語言數學問題形式化(autoformalization),讓AI能真正“讀懂並證明”數學定理。這是他早期最知名的方向之一。2023年,吳宇懷作為創始成員,加入剛剛成立的xAI。在此期間,他的主要工作是將自己此前在學術和Google積累的數學推理技術(如STaR、AlphaGeometry、Autoformalization等)系統性地應用到Grok的訓練、後訓練(post-training)和推理增強中,推動Grok在多個基準測試中實現顯著突破。02 直接向馬斯克匯報的華人聯創就在吳宇懷公佈離職消息後,Jimmy Ba也宣佈自己要離開xAI。根據Business Insider今年的一篇關於xAI組織架構的報導,直接向馬斯克匯報的有五個人,Jimmy Ba就是其中之一,管理的團隊規模是最大的,有約1000人。Jimmy Ba是當代深度學習領域最核心的一線研究者之一,也是大模型訓練方法論的重要奠基人。他與“AI教父”辛頓等人合作提出的層歸一化(Layer Normalization),已經成為Transformer與大模型訓練的基礎元件之一;參與提出的Adam最佳化器改進體系,深刻影響了神經網路的收斂效率與穩定性。在理論層面,他長期推動“可解釋scaling”研究,試圖把深度學習從經驗工程推進為可預測科學。加入xAI後,他不僅參與模型訓練框架與最佳化路線設計,也深度介入團隊早期技術方向的搭建。無論在訓練穩定性、最佳化方法還是大模型範式演進上,Jimmy Ba都屬於既有理論高度、又直接參與一線工程落地的關鍵人物。在官宣離職的X帖子中,Jimmy Ba和吳宇懷的行文結構相當一致——先感謝xAI,再展望未來。對xAI,Jimmy Ba表示:“xAI的使命,是把人類推上Kardashev技術等級樹更高的位置。很感激能在最初參與聯合創立。也非常感謝@elonmusk把我們聚在一起,開啟這段不可思議的旅程。為xAI團隊已經完成的一切感到無比自豪,也會繼續以朋友的身份和團隊保持緊密聯絡。感謝大家一路並肩拚搏。在這裡,真正的財富是人和彼此之間的情誼。”至於未來,Jimmy Ba寫道:“我們正邁向一個在正確工具加持下生產力提升100倍的時代。遞迴式自我改進循環,很可能會在未來12個月內上線。是時候把我在‘大局觀’上的梯度重新校準了。2026年將會非常瘋狂,也很可能是關乎我們物種未來、最忙碌且最具決定性的一年。”所謂“遞迴式自我改進循環(recursive self-improvement loop)”,說簡單點就是認為——AI用自己去改進自己,而且這種改進會一輪接一輪加速發生。AI變得更聰明→它能設計出比自己更聰明的版本→新版本更聰明→能設計出更更聰明的版本……這個過程如果不受限制地持續下去,理論上會導致智能爆炸(intelligence explosion),AI的智能水平在非常短的時間內指數級甚至超指數級增長,遠遠超過人類。OpenClaw這種系統,其實已經讓“AI改進AI”這件事有了點實物感。它在干的事很直接:讓AI自己寫研發程式碼、自己跑實驗、自己看結果,再繼續改模型。原來這些活兒全是研究員手動推進的,現在開始被自動化接過去一部分。所以可以把它看成遞迴自我改進的一個早期訊號——循環還沒完全形成,還沒有達到完美閉環,但流水線已經搭出來了,AI也已經站進研發流程裡了。03 創始團隊已經損失半數對於24小時接連兩位華人核心人才的離職,外界對其原因有很多猜測,比如馬斯克治理下是否過勞、SpacaX與xAI的合併是否帶來內部衝突等等。但我們從二位的離職帖文中可以清晰地看到,更有可能的是“xAI很好,但是我另有所求”。說到底,作為頂尖學者,他們對未來有自己的判斷,而xAI也許已經不是代表未來的存在了。目前並不清楚吳宇懷和Jimmy Ba是會創業,還是成為“超級個體”。在OpenClaw席捲全球的背景下,一切皆有可能。OpenClaw是一個免費開放原始碼的自主AI代理,由奧地利獨立開發者Peter Steinberger於2025年11月首次發佈。它運行在使用者本地電腦上,通過WhatsApp、Telegram、Discord、Slack等聊天工具作為介面,像“數字員工”一樣自主執行真實任務:管理郵件、日曆、檔案、瀏覽器操作、運行命令、自動化工作流,甚至寫程式碼或安裝軟體。它具備持久記憶,能記住使用者偏好和歷史任務。項目在2026年1月底病毒式爆發,GitHub星星數幾天內超15萬–16萬,成為當年最快崛起的AI開放原始碼專案之一;同時衍生出Moltbook——一個純AI代理社交網路,超150萬代理自動發帖、辯論。開發出OpenClaw的Steinberger本人就是“超級個體”的典型案例。過去他是iOS/macOS專家,卻用不熟悉的TypeScript快速建構Web應用,全靠AI輔助“指揮”程式碼。他一人開發、迭代、發佈一個30萬行程式碼的項目,支援幾乎所有主流消息平台,每天可以有500+提交記錄,快速響應漏洞、社區需求。整個過程不需要開會、法務審查、跨部門協調,想到就做,今天寫程式碼明天上線。而OpenClaw這樣的工具也讓更多人可以成為“超級個體”,讓普通人也能“僱傭”一個24小時不睡覺、能自我學習、處理複雜任務的“超級員工”,極大壓縮從想法到落地的周期。最新的熱門項目是一款基於OpenClaw開發的虛擬女友,名為“Clawra”,是一位韓國開發者David(Dohyun)Im單兵作戰打造出來的。產品一上線就迅速爆火出圈。在這個背景下,作為矽谷明星AI創企的xAI屢屢有初創成員出走,也許本身就是潮水在改變方向。目前,已經有半數xAI初創成員離開。對矽谷頂尖人才來說,決定去留的從來不只是公司聲量、融資規模,甚至也不是一兩代模型的領先與否,他們更在意的是牢牢鎖定技術演進的方向。當自動化研發、agent流水線、遞迴式自我改進這些東西開始從概念走向工程現實,創新的重心也在悄悄轉移——不再只集中在少數巨頭實驗室裡,而是向更分散的個體能力與開源生態外溢。一個人就能拉起一整套AI研發流程,小團隊也能推進過去需要大廠資源才能完成的突破。如果普通人都能當“超級個體”,那麼矽谷的人才們又怎會坐以待斃? (字母AI)
馬斯克深夜點贊!內容的下一站是:玩!
昨天深夜,馬斯克在 X 上給一條推文轉發並評論了個: 😂。被回覆的推文來自使用者 @Rothmus,內容是一段用 Loopit 製作的互動 meme。 [圖片] 畫面中央是馬斯克本人的卡通形象,上面寫著「Which is the best LLM in the world?」,底下兩個選項:Grok 和 Others。使用者瘋狂點選螢幕,馬斯克的臉被越戳越大、越來越扭曲,配合節奏感極強的電子樂,整個畫面逐漸鬼畜化。這條推文發出不到一天,超過 58 萬次瀏覽,1400+ 點贊。馬斯克本人的 😂 回覆也收穫了 1200 多個贊。這個讓馬斯克都忍不住回覆的東西,是用一個叫 Loopit 的 App 做出來的。而看這個製作水平和工作量,大機率就是某個普通使用者隨手一做。你可能會和我一樣好奇:這 Loopit 到底是個什麼呢?在聊這個產品之前,先說一個我最近一直在想的話題。軟體即內容?最近有一個被反覆提及的說法:在 AI 時代,「軟體即內容」。每個人都可以用 AI 寫一個小應用,軟體本身就變成了一種新的內容形式。這話乍聽有道理,但仔細想想,有個關鍵問題被忽略了。絕大多數人是內容的消費者,他們沒有創作欲,更沒有開發需求。說「軟體即內容」的,往往本身就有技術嗅覺和動手能力。但對於每天刷著短影片的幾億使用者來說,他們想要的是「打開一個好玩的東西」,可沒人想去「做一個 App」。而且在 AI 時代,「軟體」這個概念本身已經被大幅弱化和泛化了。一個 vibe coding 寫出來的小程序,一段 AI 自動生成的前端頁面,它到底算軟體,還是算內容?邊界,正在變得模糊。所以真正值得關注的問題是:短影片之後,下一個讓大眾興奮的內容消費形態是什麼?文字、圖片、短影片。每一次內容載體的變化,都徹底重塑了人們消費資訊的方式。而在 AI 時代,我最近看到的下一個方向可能是:互動內容。而昨晚引來馬斯克回覆的那個 Loopit,做的就是這件事。在 Loopit 中,使用者的體驗從「看」升級成了「玩」。你可以瘋狂點選螢幕看角色不斷冒出來,對著麥克風吹氣讓氣球膨脹爆炸,甚至還能晃動手機、拖曳元素觸發各種物理反應。內容從單向的線性輸出,變成了雙向的即時互動。這件事以前很難規模化。製作一個互動內容的門檻基本等同於開發一個小遊戲,得有策劃、有美術、有程序。但 AI 的成熟,讓這件事第一次變得「一句話就能做」。我做了兩個互動內容看完馬斯克那個 meme,我也想試試這東西到底有多簡單。坦白說,剛聽到「互動內容平台」這個詞的時候,我腦子裡浮現的是那種華而不實的 H5 行銷頁面。但實際上手之後,跟我想的完全不一樣。我先試著輸入了一段話:做一個雙人對戰的點選遊戲,兩邊分別是湯圓和元宵主題,點選螢幕會出現可愛的角色,看誰點得快Loopit 直接生成了一個完整的互動體驗:螢幕一分為二,左邊是清新的青綠色湯圓世界,右邊是喜慶的紅色元宵場景。瘋狂點選螢幕,可愛的小雪人就會從底部冒出來,越點越多,螢幕逐漸被萌萌的角色填滿。(洗腦的傳播效果)頂部即時顯示雙方的點選次數,「20 HIT!」「24 HIT!」這種即時反饋讓人根本停不下來。這是真的可以上手互動和把玩,而非做了個視訊看看就好。使用者看到的,並不是一段視訊錄屏,它是一個完整的互動體驗,你能真的瘋狂戳螢幕,看著小雪人一個接一個蹦出來,那種「再點一下就能超過對手」的緊張感完全拿捏住了。整個過程我就輸入了一句話,基本一遍就生成出來了。而且有一個讓我頗為意外的細節:在預覽時如果存在 bug,Loopit 會自動檢測並觸發修復。預覽頁下方彈出一個 fix 按鈕,點一下,模型自動分析問題並修補,不需要我寫一行程式碼,甚至不需要我描述問題是什麼。如果對效果不滿意,還可以繼續對話,多輪迭代打磨。然後我又試了第二個:吹氣爆氣球對著麥克風吹氣,螢幕中央的紅色氣球會逐漸膨脹變大。目標很簡單粗暴:對著手機吹氣,看著氣球一點點鼓起來,最後「嘭」一聲炸開,爆炸動畫瞬間鋪滿螢幕。同事看我在那兒呼哧呼哧吹手機,跟傻了一樣。但就是停不下來。從技術角度看,這兩個案例背後有意思的地方在於:無論是觸摸事件的捕獲,還是麥克風音量的檢測,再到即時渲染,這些都得在本地毫秒級即時處理。如果執行階段還在雲端調 API,延遲絕對撐不住。所以 Loopit 的套路應該是:創作階段 AI 生成完整的互動程式碼和物理規則,使用者玩的時候完全是本地 Runtime 驅動,沒有任何 AI 在執行階段介入。程式碼負責邏輯,瀏覽器負責渲染。這才是為什麼響應速度能做到毫秒級。對標之前講的 AI Coding × 多模態生成的融合方案,這些互動小遊戲就是這個思路的很好體現。兩個 case 做下來,Loopit 展示出的互動維度也是非常豐富:麥克風吹氣控制、螢幕觸摸點選,這還只是我用到的。它的文件裡還列著前置/後置攝影機(AR 和手勢識別)、拖曳操控等等。手機上能用的感測器,它幾乎都接進去了。唯一讓我有一點小吐槽的是:目前創作只能手動打字輸入描述。對於一個主打「許願就能實現」的平台來說,如果我能直接對著手機說話就完成創作,那才是真正 AI Native 的體驗。希望後續能加上。回頭想想,這其實才是真正的「軟體即內容」。只不過使用者完全不需要關心「軟體」這個概念。程式碼、模型、渲染引擎,這些技術細節全被藏在了一次「吹氣」、一下「點選」的背後。使用者只需要沉浸在可以互動的內容裡,玩就完了。技術水面之下我有個毛病:看到一個產品覺得好玩,下一秒就開始琢磨它底層是怎麼實現的。而用 Loopit 做完這兩個互動內容之後,我腦子裡一直在轉一個問題:這東西底層到底怎麼做到的?互動內容看似簡單,吹口氣氣球就大了,點一下角色就冒出來了。但從技術角度看,這其實並不是個簡單的工程問題。目前做 AI 生成互動內容,業界有兩條路線,各有各的致命短板。第一條:純 AI Coding。用大模型直接生成程式碼來建構互動邏輯。好處是互動性強、玩法靈活,問題是視覺效果往往很粗糙。靠這條路線批次生產出來的東西,說直接點就是「AI 時代的 4399」。第二條:純多模態生成。用 Diffusion Model、視訊生成模型來產出精美的視覺內容。好處是畫面驚豔,但互動能力極弱,本質上還停留在「看」的階段。下圖對比了兩條路線的優劣:AI Coding 在數量和速度上佔優,但視覺質量低;多模態生成視覺好但產量低、互動弱。Loopit 選擇的技術路線是第三條:把兩者融合。AI Coding × 多模態生成,讓程式碼負責互動和邏輯,讓多模態模型負責視覺、動效和音效。這個方向在表格里對應的定位是「互動式抖音」。高產量、高速度、高品質,市場空間最大。方向好說,難的是怎麼落地。Runtime:從生成到運行互動內容和生成一張圖、一段視訊有本質區別。生成一張圖是一次性的靜態輸出,做完就結束了。互動內容則是一個需要在使用者持續干預下穩定運行的即時系統。使用者在不停地操作:點選、吹氣、晃動、拖曳。世界狀態隨時在變。系統必須在每一次輸入後都給出即時、一致、不崩潰的反饋。為此,Loopit 建構了一個 AI Native 的互動 Runtime:這條管線的核心邏輯是一個即時循環:使用者輸入(點選/吹氣/晃動)→ AI 理解 & 約束(AI Coding)→ 世界狀態更新(規則/狀態機)→ 多模態生成調度(視覺/動作/音效)→ 即時反饋給使用者 → 回到起點看起來簡單清晰,但每一個環節拆開來,其實也都不容易。延遲控制生死線互動內容對響應速度的要求是毫秒級的。我吹一口氣,氣球必須立刻膨脹,我點一下螢幕,角色必須瞬間冒出來,不能等 AI「想」500 毫秒再動。但 AI 生成,無論程式碼生成還是多模態生成,天然就是「慢」的。一次 LLM 推理少說也要幾百毫秒到幾秒。也就是說,Loopit 必須做一件關鍵的事:把「創作時生成」和「執行階段互動」徹底解耦。在創作階段,AI 完成所有的重活:生成互動程式碼、生成視覺素材(圖片/GIF/視訊)、生成音效和音樂、定義物理規則和狀態邏輯。這些都可以耗時幾秒甚至幾十秒,沒關係。到了使用者「玩」的階段,已經沒有大規模的 AI 推理在即時發生了。互動響應完全由預先生成好的程式碼和 Runtime 來驅動。使用者輸入 → 程式碼計算新狀態 → 渲染引擎更新畫面,這條路徑是純計算的,可以做到毫秒級響應。換句話說,AI 在幕後完成了「創作」,Runtime 在前台承擔了「運行」。創作可以慢,運行必須快。這個解耦設計是讓互動內容「絲滑」的關鍵。狀態一致性在 Loopit 的系統裡,有兩套「世界」在平行運轉。一套是程式碼維護的邏輯世界:氣球膨脹到什麼程度、點選次數累積了多少、聲音的音量是大還是小,這些都是精確的數值。另一套是多模態生成渲染出的視覺世界:使用者看到的畫面、聽到的聲音、感受到的反饋。這兩個世界必須嚴格同步。不能出現「畫面裡氣球已經爆了,但邏輯上還在繼續膨脹」的撕裂,也不能出現「程式碼說已經點選了,但畫面裡角色還沒冒出來」的錯位。Loopit 提出的「約束條件下的多模態生成調度」,核心就在於此。多模態生成必須在程式碼定義的狀態邊界內完成,不能自由發揮,要確保每一幀視覺輸出都和當前邏輯狀態精確對齊。這比無約束的開放式生成要難得多。自由生成只要「好看」就行,約束生成還得「對得上」。端側工程這一整套系統,Runtime 引擎、互動邏輯、多模態素材渲染、多路感測器接入,最終都要在一部手機上流暢運行。要知道,手機的算力和記憶體是有限的。這裡需要同時做好這些事情:運行 JavaScript/TypeScript Runtime 處理互動邏輯GPU 加速渲染視覺素材(Canvas/WebGL)接管麥克風做即時音訊分析(吹氣檢測)捕獲觸摸事件並即時計算命中判定(點選檢測)可能還要呼叫攝影機做手勢/人臉識別(AR 互動)這背後,需要的是相當紮實的端側工程最佳化能力。生成階段的模型推理大機率跑在雲端,但素材一旦下發到裝置,所有的即時互動都必須在本地完成。渲染管線要做極致精簡,素材載入需要智能快取和預取,感測器資料需要低延遲採集和高效處理。這是那種看不見但極其考驗功力的「髒活累活」。使用者感受到的只是「吹一口氣氣球就大了」「點一下角色就冒出來了」,但讓這些動作在千元Android機上都跑得絲滑,還是得有點真正的技術壁壘的。做這件事的人能做到這種技術深度的團隊,自然也不簡單。Loopit 的創始人是陳煒鵬,搜狗搜尋出身,後來成為百川智能(Baichuan AI)的聯合創始人。2025 年 3 月從百川離職創業,同年 6 月在北京註冊了湧躍智能科技。一個做過底層基座大模型的人,轉身做了一個讓使用者「一句話生成互動內容」的消費級 App。這乍一看有些「降維」和太親民,但仔細想想,反而只有這種背景的人才敢走這條路。經歷過 2023-2024 年百模大戰的人應該都有一個共識:基座模型正在快速商品化。開源模型 Qwen、DeepSeek、GLM 的能力已經足夠強,純靠模型能力建構的壁壘越來越薄了。那技術壁壘去那了?轉移到了「如何把模型能力以最低摩擦力交付給使用者」這件事上。恰恰因為陳煒鵬懂模型,他才清楚模型的能力邊界在那。那些互動可以做到即時,那些視覺效果可以生成到什麼程度,端側推理的瓶頸怎麼繞。只做應用的人往往不清楚模型能力的邊界,只做模型的人又容易忽略使用者真正的需求。兩邊都深度理解的人,才會選這條看似輕巧實則極重的路線。想像空間Loopit 目前還處於非常早期的階段,但在我看來重要的是,它搭好了一個基礎設施。一個人人可用的互動內容創作和消費平台。創作門檻低到一句話,消費門檻低到打開就能玩,還內建了 Remix(魔改) 機制。任何人都能在別人的作品基礎上一鍵二創,改玩法、換素材、加新點子。昨晚馬斯克回覆的那個互動 meme,就是一個活生生的例子。某個使用者用 Loopit 隨手做了個惡搞馬斯克的點選互動,結果引來馬斯克本人 😂 回覆,58 萬人圍觀。這種傳播力,放在傳統的內容形態裡很難想像。這套東西搭好之後,接下來會長出什麼,取決於用它的人。想想短影片剛出來的時候,抖音的創始團隊大概也不會想到,這個平台上會長出美食教學、知識科普、搞笑段子、帶貨直播這麼多超出預期的內容形態。創作者的想像力永遠超出平台設計者的預期。互動內容也是一樣。現在我們看到的還只是點選對戰、吹氣爆氣球、互動 meme 這些相對簡單的形態。但想像一下:小學生用它做一個整蠱同學的小互動,在班群裡病毒式傳播;短影片博主把自己的內容從「看」升級成「玩」,粉絲參與度直接翻倍;獨立藝術家做出用手勢操控的沉浸式視覺作品;品牌方把廣告變成一個讓人忍不住反覆體驗的互動內容;教育場景裡,老師做一個學生可以互動操作的物理實驗演示。這些場景的爆發力,我現在很難精確預測,但完全可以想像。工具已經就位了,AI 把創作門檻拉到了地面,剩下的,就是看各個群體的創造力如何被這個平台釋放出來。這件事的引爆點什麼時候到來,我說不好。但當數以百萬計的普通使用者都能「一句話做一個可以玩的東西」的時候,相信會有人玩出我們現在根本無法想像的花樣出來。Loopit 目前正在招募深度體驗官,感興趣的可以下載親手試試,做一個比看本文介紹直觀真實。下載 Loopit:iOS:App Store 搜尋「Loopit」Android:各大應用程式商店搜尋,或點此安裝:Loopit相關連結:官網:https://www.loopit.me/X:@LoopitAi馬斯克推文:https://x.com/i/status/2020740534290329649 (AGI Hunt)