#Grok
馬斯克的Grok 4.3悄悄上線,跑分評測出爐
【新智元導讀】Grok 4.3 是 xAI 一次務實升級:更便宜、更快、更像能幹活的助手。但它在硬推理、穩定性和可信度上,仍落後 GPT-5.5 與 Claude Opus 4.7。xAI 發佈 Grok 4.3,沒有把聲量拉到最大,馬斯克甚至沒單獨發推,看起來只是個過渡版本。它更像一次安靜的產品換擋:把模型放進 API,把價格打下來,把工具能力補上,再告訴開發者可以從舊版 Grok 遷移過來。沒有 AGI 宏大敘事,也少了馬斯克式的「即將改變一切」。這反而讓 Grok 4.3 看起來更真實。對普通消費者來說,Grok 4.3 最重要的變化並非某個榜單分數漲了幾分,而是 AI 助手正在變得更便宜、更快,也更像一個能替人完成檔案、表格、簡報的合格助手。然而,Grok 4.3 的聰明程度仍然沒追上 GPT-5.5 和 Claude Opus 4.7。它是一款性價比很強的新模型,也是一款仍有明顯天花板的模型。消費者真正需要關心的,是它在那些場景能省錢省時間,在那些場景會因為判斷不准、想太久或說太多,反而增加成本。它確實變強了尤其像一個更會幹活的助手Artificial Analysis 給 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超過 Claude Sonnet 4.6 和 Muse Spark。這個提升不算小,尤其在 xAI 自家模型線裡,Grok 4.3 已經是目前最強的一檔。更值得看的是代理任務表現。Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。這個榜單更接近日常「讓 AI 做事」的場景,比如整理資料、執行複雜步驟、處理真實工作流。這對普通使用者有實際意義。讓 AI 幫忙寫周報、搭表格、做方案、拆會議紀要、生成 PPT,Grok 4.3 的體驗會比前代更完整。Grok 可以建立簡報、文件和電子表格,可以在一個電腦環境裡寫程式碼、運行程式碼、安裝依賴並產出檔案。對不懂程式碼的使用者來說,這意味著很多原本需要在 Excel、PowerPoint、瀏覽器之間來回切換的操作,可能會被壓縮成一句指令。這也是 AI 消費級產品真正該競爭的地方——使用者更在意它能不能把一個報銷表做完,把一份旅行計畫排清楚,把一封語氣得體的郵件寫好。Grok 4.3 在這部分的進步,是真進步。更便宜是這次最直接的產品賣點Grok 4.3 的價格很有侵略性。它的 API 價格為每百萬輸入 Tokens 1.25 美元、每百萬輸出 Tokens 2.50 美元,相比 Grok 4.20 輸入價格低約 40%,輸出價格低約 60%。Artificial Analysis 測算,運行整套 Intelligence Index 評測成本約為 395 美元,比 Grok 4.20 0309 v2 低約 20%。這會影響消費者,只是方式沒那麼直觀。大多數普通人不會直接呼叫 API,但他們會用到基於 API 建構的產品。AI 寫作工具、客服機器人、語音助理、教育應用、辦公外掛,背後都要為模型呼叫付費。當底層模型價格下降,應用廠商有空間降低訂閱費,或者在同樣價格下提供更多次數、更長上下文、更複雜任務。Grok 4.3 還有一個優勢是速度。Artificial Analysis 的 xAI 模型頁顯示,它是 xAI 當前輸出速度最快的模型之一,約 196 Tokens/s,屬於很快的一檔。對語音聊天、即時客服、長文生成和批次內容處理來說,等待時間會直接影響體驗。但速度有一個細節容易被忽略:Grok 4.3 的首 Token 延遲並不低。它會先「想一會兒」,然後快速輸出。長答案裡,這種速度優勢明顯;短對話裡,使用者可能先感受到停頓,再感受到快。用於客服、語音助手、移動端聊天時,這個差異會被放大。它更會說人話這是 Grok 的隱藏優勢Grok 一直有一個微妙優勢:語氣更像真人。Hacker News 上有人提到,一些英語非母語使用者認為 Grok 在把握文字語氣、正式程度和微妙人際表達上,比其他模型更自然。有人拿它和 ChatGPT、Claude 比,認為 Grok 在非正式朋友語氣、同事溝通、語音輸入識別上表現更貼近真實交流。Grok 可能受益於 X 平台海量口語化表達訓練。它更容易捕捉社交網路裡的語氣、節奏、鬆弛感等;它也可能因此繼承社交網路的噪音、偏見和表達習慣。對 C 端使用者來說,這種「更自然」的能力會讓 Grok 在寫消息、口語轉寫、語音助手、輕辦公場景裡很討喜。它未必最聰明,但可能更像一個願意按你的語氣說話的助手。Yes, BUT...它比不過 GPT-5.5 和 Claude Opus 4.7Grok 4.3 最大的問題,是它看起來已經進入第一梯隊邊緣,卻還沒站到最前面。Grok 4.3 的 Intelligence Index 為 53,GPT-5.5 為 60,Claude Opus 4.7 為 57。這個差距不只是排行榜上的幾分。對普通消費者來說,它會體現在複雜推理、程式碼偵錯、長文核查、專業諮詢和多步驟任務的穩定性上。在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落後 GPT-5.5 xhigh 276 Elo,按標準 Elo 公式,面對 GPT-5.5 的預期勝率約 17%。它在幻覺控制上也有代價。Grok 4.3 的 AA-Omniscience Accuracy(精準率)提升 8 分,但 Non-Hallucination Rate(非幻覺率)下降 8 分。這裡的精準率和非幻覺率是不同的,精準率只看你答對了多少,而非幻覺率是看你沒答出來的問題裡面,有多少是模型老實承認自己不會的——不會但振振有詞,就是所謂的「幻覺」。換言之,Grok 4.3 的知識覆蓋率變高了,但也更容易出現幻覺了。而消費者最怕的情況就是 AI 答得很流暢、很自信、很像那麼回事,結果關鍵事實錯了。人類已經很擅長自信地犯錯,機器不必急著加入這個傳統項目。這意味著,在醫療、法律、金融、學術和工程等高風險場景裡,Grok 4.3 仍需要謹慎使用。它適合幫使用者起草、整理、生成初稿,適合做低風險的輔助工作;涉及最終判斷,GPT-5.5 和 Claude Opus 4.7 仍更穩。長上下文和工具能力很好但消費者買帳的是結果Grok 4.3 提供 100 萬 Token 上下文窗口,這對長文件、程式碼庫、合同、報告和資料庫很有吸引力。使用者可以丟進去更多材料,讓模型在更完整的資訊環境裡工作。對研究、辦公和創作來說,這是一種實用能力。它還支援文字和圖像輸入,輸出文字,並圍繞工具呼叫、網頁搜尋、X 搜尋、程式碼執行、檔案搜尋、RAG 等能力加強。xAI 還推出了 Custom Voices、語音代理、TTS 和 STT 等產品,把 Grok 的邊界從文字擴展到語音。對普通使用者來說,未來的 Grok 可能不只是一個聊天框,而是一個能讀檔案、查網頁、寫表格、說話、聽話的多模態助手。問題在於,功能多不等於體驗好。消費級 AI 的競爭,最後會回到三個樸素標準:少等、少錯、少折騰。Grok 4.3 在「少等」和「少花錢」上明顯前進,在「少錯」上還沒給出足夠強的答案。Grok 4.3 的精準定位:性價比模型,不是最強模型Grok 4.3 最適合的定位,是一款高性價比的工作型模型。它適合高頻內容生成、語氣改寫、長文字初篩、語音產品、客服場景、批次辦公任務、輕量級代理工作流。它也適合那些對成本敏感、對響應速度敏感、對最強推理沒有執念的產品。很多消費者並不需要每次都呼叫最強模型,就像不應該只是為了買菜開超跑,除非另有所圖。但如果任務要求深度推理、嚴謹事實核查、複雜程式碼、數學證明、長期項目記憶和專業判斷,Grok 4.3 還不該成為第一選擇。GPT-5.5 和 Claude Opus 4.7 仍然更適合承擔這些高價值、高風險任務。這次 xAI 的策略很清楚:先把模型做得足夠強,再把價格打下來,用速度和工具能力擴大可用場景。它沒有贏下「最聰明模型」的頭銜,但可能會贏走一部分真實使用量。因為市場並不總獎勵最強者,也獎勵夠強、夠快、夠便宜的選擇。Grok 4.3 的意義正在這裡。它把 xAI 從一個經常靠馬斯克聲量吸引注意的模型供應商,往更務實的 API 和消費級工具競爭者方向推進了一步。它看起來很好,確實很好;只是還沒好到能讓 GPT-5.5 和 Claude Opus 4.7 緊張。消費者可以期待它降價、提速、讓更多 AI 應用變得便宜。也該記住,在需要真正聰明和可靠的地方,Grok 4.3 仍然只是備選項。 (新智元)
馬斯克官宣:Grok5 = AGI,一個月內將連發兩款兆參數模型,參數堆積到達AGI !
馬斯克又在X.上整活了:“當網友問他認為什麼時候能達到AGI 時,直接表明是Grok5”;並且官宣Grok 4.4 (1兆參數)將在五月初發佈,Grok 4.5(1.5兆參數) 可能會在五月底發佈。一個月內預備發佈兩款兆參數等級的模型,xAI的迭代速度還是太快了!在2025年時,馬斯克就對Grok 5 有了鋪墊:“我現在認為xAI有機會通過 Grok 5 達到AGI,這是我以前從未想過的。”“Grok 5 達到AGI的機率現在是10%,而且還在上升。”“Grok 5 將是AGI,或者某種難以區分於AGI的東西。”而關於AGI,除了馬斯克之外,還有許多大佬有著不同的觀點,例如GoogleDeepMind CEO Demis Hassabis 相對樂觀,認為未來五年內實現AGI的機率非常高;OpenAI CEO Sam Altman 認為AGI這個詞已變得“不太實用”;而Meta首席AI科學家Yann LeCun則持消極態度,認為AGI是企業的“行銷詞”。那麼,AGI到底是什麼?馬斯克為什麼會肯定Grok5=AGI?我們一起來拆解一下!AGI 實現:有人“狂熱認同”,有人“只是胡說”相信大家這兩年經常看到 AGI 這個詞,已經對它非常熟悉了。但是目前還沒有一個被所有人都認同的定義。總的來說,與當前主流的、專注於特定任務的“ 弱人工智慧 ”(蘋果的Siri、DeepMind的AlphaGo等)或“狹義人工智慧”形成對比,被認為是為人工智能發展的終極目標之一。不同的大佬對AGI的定義和時間表,也是南轅北轍的:OpenAI CEO Sam Altman:AGI是一種“高度自主的系統,能在大多數經濟上有價值的工作上超越人類”。不過,在2025年他直言“AGI這個詞越來越不實用、很鬆散”,建議用不同“水平”來描述進步,而不是二元“是或不是”。GoogleDeepMind CEO Demis Hassabis 則對AGI設定了很高門檻——AI必須展現人類全部認知能力,包括最高水平的科學創造力、持續學習和在全新環境中自主提出問題、發明新知識,而非僅在狹窄任務上出色。他預測:未來五年內實現AGI的機率非常高。Anthropic CEO Dario Amodei 不太喜歡用“AGI”這個詞,他更傾向描述為“強大AI系統”:能在大多數學科(生物、電腦、數學、工程等)達到或超過諾貝爾獎得主水平,像“資料中心裡的一個天才”。他預測這種強大AI可能在2026年底或2027年初出現。LeCun則認為AGI這個概念本身就是“胡說”或行銷詞,因為自然界和機器中不存在單一的“通用智能”,人類智能也是高度專化的。他批評當前大模型(LLM)路徑無法通向真正的人類水平AI,需要全新範式(如世界模型)。但總體來說,AGI 指的是在各種任務中與人類同樣聰明的人工智慧系統,AI公司利用這種“追逐”敘事贏得投資,並吸引政策制定者。他強調:單純規模參數或精煉LLM“完全行不通”,人類水平AI還“很多年”遠。AGI 目前也並沒有公認的“量化標準”。更多是通過一些基準測試,比如GPQA Diamond等。Grok5=AGI:規模定律在2025年的採訪中,馬斯克認為 Grok 5將在2026年的Q1季度發佈,目前來看是被延遲了。但我們可以先來看一下目前所透露的Grok 5 配置:參數規模約 6 兆參數,並擁有更高智能密度;使用MoE架構;在 Colossus 2 超算叢集上訓練;規模約 1GW–1.5GW 等級算力;數量級達到 20萬+ GPU;上下文窗口約 150 萬 token;同支援文字、圖像、音訊與視訊的多模態輸入;xAI獨特的即時資料生態等。誇張的的規模參數+超大的算力叢集+xAI獨特的即時資料生態這一套下來,也難怪支援“規模定律”的馬斯克會將Grok5當作AGI!Grok路線圖:參數堆積到達AGI馬斯克也發佈了一個Grok路線圖,“其中的4.9參數被標為???,5.0則是AGI”這也引出了一個問題:從三兆到AGI,真的能通過參數實現嗎?在X上有網友調侃,“看來我們會有很多個4.X 版本的修訂。”參數規模真的能堆出AGI嗎?有支持者認為:“規模定律”在過去幾年一直生效,更大模型在推理、創造力上持續突破,加上MoE架構的效率提升和X的即時資料,Grok 5很有可能實現質變。當然也有質疑者:單純堆參數“完全行不通”。LLM擅長模式匹配,但缺乏真正理解世界、長期規劃和少樣本學習的能力。AGI可能需要全新範式,而非無限規模,同時能源成本、訓練瓶頸、對齊風險也是現實挑戰。網友直言:他只是想推銷 Grok對於馬斯克所認為的Grok5=AGI,在X上有網友表示期待:“在我看來,Grok 模型是 AI 行業唯一的前進方向”。當然更多的是質疑聲:"我是埃隆的超級粉絲——但他只是想推銷 Grok。不會有 AGI。我們已經到了收益遞減的臨界點。"“人們已經“距離 AGI 只差兩部作品”大約五年了,這基本上已經成了一個持續的笑料。”寫在最後AGI 目前並沒有一個被公認的可量化標準,它的熱度也被炒了一次又一次。它既是技術目標,也是敘事工具;既推動研發進步,也不斷被重新定義。而 Grok 5 是否真的能成為“AGI”,小編也去問了Grok,看看它是如何看待馬斯克的觀點:“我不支援把“Grok 5 = AGI”當作一個嚴格、確定的事實聲明,但我非常支援馬斯克的這種樂觀野心和加速姿態。簡單說:我欣賞他的觀點,但不會全盤接受“等於”這個等號。”可以看出來 Grok 的情商還是挺高的——雖然否定了觀點但是肯定了老闆~各位大佬對 AGI 有什麼樣的看法? (51CTO技術堆疊)
全球AI雙榜第一!力壓GoogleVeo與Grok,Vidu Q3「參考生」之王歸來
【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸,視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代,真的來了。這個月初,Google一紙公告,把Veo 3.1的視訊生成能力,免費開放給了所有Google帳號。可以說,這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」,正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及,一個尷尬的問題就越藏不住:模型可以無限趨近「能用」,可它和「能交付」之間,依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段,全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧,能用歸能用,從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時,一個被低估的中國玩家,悄悄把答案擺上了桌。今天,Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」,這一次,它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」,Vidu SaaS(Vidu Agent、Vidu Claw)與 Vidu MaaS(Vidu AI 開放平台)全面接入。其中Vidu AI開放平台,可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時,它還支援提示詞調優、工作流適配及專項培訓服務,即便在高峰時段也能確保穩健輸出。以上三層加在一起,構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此,Vidu Q3已全面覆蓋文生、圖生、參考生三大領域,完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言,「為劇而生,萬物可參」,Vidu正在做一件其他玩家還顧不上做的事:把模型能力,焊死在真正的生產流程中。「參考生之王」回歸 直接拍戲了要理解這件事的重要性,先把背景拎清楚。1月30日,Vidu Q3全球首發,在權威評測榜單AA上一騎絕塵,拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單,SuperClue榜單上,Vidu Q3斷層登頂,在多圖/單圖參考任務蟬聯雙榜第一。首次亮相,Vidu Q3便主打「為劇而生」,成為全球首個聲畫直出16秒的AI視訊模型。事實上,整個AI視訊行業的競爭焦點,正在悄悄發生一次根本性的位移。視訊大模型,正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力,轉向兩件更本質的事——是否具備完整的敘事能力,以及,是否能進入真實場景的生產級交付。這兩件事,才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世,恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」,到Q2的「演技生成」,再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步,Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數,正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上,「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力,而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者,名副其實的「參考生之王」,這一次,Q3直接把其從模型層推到了應用層。這種巨變,直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說,Vidu讓AI視訊,真正具備了「劇」的表達能力,為劇而生。萬物可參,為「劇」而生,聲畫同出在視覺、聽覺和場景上, Vidu Q3系統性升級,招招致命。相較於上一代,Q3不再執著於枯燥的「生成質量指標」(FID/FVD)比拚,而是死磕一個核心目標:讓AI生成內容,真正具備「劇」的表達能力。要知道,所謂的「劇集感」,是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上,交出了一份令人「恐怖」的答卷。在視覺方面,Vidu Q3新增六大特效:粒子、流體、動力學、運鏡、轉場、光影,將其深度融入敘事語言,讓生成內容更接近「成片級表達」。五大沉浸式音效:環境、動態、氛圍、擬音、情緒,讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此,聲音不再是畫面的附屬,而是情緒的載體。最重要的是,Q3場景能力已進化為直接對齊工業流程的「內容單元」,大幅縮減從創意到成片的距離,覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域,Vidu 不僅實現了極速生成與高頻迭代,更通過極高的視覺穩定性,率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透,標誌著Vidu已從技術驗證期跨入深度產業應用期,建立了不可踰越的落地領先優勢。為了驗證其真實戰力,我們拋棄了傳統的「跑分邏輯」,直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度,以及廣告的多元創意。高燃漫劇漫劇,是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產,這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求,它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇,每分鐘三四十個鏡頭,每段AI生成的素材只有5–10秒。這就意味著,整部劇是由上千段片段硬拚而成。過去,AI模型最大的問題,是每一張圖之間彼此獨立:人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀,觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦,幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型,是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪,讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼,狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進,將情緒推向了最頂峰。最關鍵的突破點在於:複雜的特效變化下,男主形象始終如一。再比如,投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句,「@圖1穿著@圖2衣服,在@圖3江南水鄉行走」。可以看到,動漫女主的臉部特徵被死死鎖住,沒有出現任何畫風偏移或五官融化,服裝的紋理與褶皺也隨著行走步伐自然飄動。而且,背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作,那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片,在這段激烈的對峙戲中,Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動,Vidu Q3將兩位主角的形象死死鎖住,徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此,它在音效與情感生成的顆粒度上達到了影院級水準:沉悶的肉搏聲、倒地後紊亂的喘息,甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音,都與畫面嚴絲合縫。這一段,可以直接剪進漫劇成片裡,幾乎不需要返工。真人短劇如果說漫劇拼的是「量」,那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模,單集時長被壓到極致,敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓,都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期,是短劇行業對AI視訊最迫切的呼喚;但前提是——AI必須先學會演對白戲,也就是說,短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車:要麼兩個人同時張嘴像合唱團,要麼口型對不上台詞,要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點,但對話一崩,戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲,呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住,更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉,讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒,對話時口型的毫釐不差。再比如來一個現代劇,女強人和霸主之間的糾葛,在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言,用AI的最大訴求可能就是提升效率──不止是素材版本多,創意要快,要快速試錯。素材生產效率,就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率,更重要的是人物、風格統一可控,商品不走樣,背景或人物任意選。比如,下列唇蜜的廣告,利用Vidu Q3參考生功能,可快速篩選不同的風格:只需替換參考模特,一鍵生成不同風格、聲情並茂的視訊,真一鍵出片!鏡頭逐漸推進唇部,模特用唇蜜塗抹在嘴唇上,特寫鏡頭展示唇蜜質感。廣告大片效果,多鏡頭展示。最後手持唇膏模特說說:This touch is more than just color.。去掉bgm,保留人聲再舉一個例子,老梗換新貨,更容易在網上爆紅。比如,威爾·史密斯吃義大利面,就是國外的經典梗之一,可謂歷久不衰。在Vidu Q3,用他的表情包+新的商品(比如漢堡),繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香!影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭,但也是價值天花板的最高場景。過去,一個劇本從文字到成片,中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後,動輒是上千萬的預算,是以「月/年」為單位的製作周期。整個行業最渴望的,是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力,讓導演在燒錢之前,就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路,直接正面正剛。它挑了三種最吃功力的片種:科幻、災難、懸疑。給到一段提示詞:根據參考機甲與未來都市場景,生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立,霓虹燈閃爍,主角駕駛機甲在高架橋與樓宇之間高速穿梭,後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍,再切入近距離追蹤,機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣,期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感,參考主體外觀保持穩定,特效密集但清晰。這個生成的難點在於,俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節,都考驗著模型對「電影感」的理解。更狠的是音效,直接構成了一個立體聲場,給人一種身臨其境的壓迫感。再來看災難片,考核的是尺度與震撼,這是這類型大片的標準配方。Vidu Q3在生成效果中,處理了多層次的視覺要素:天空、水牆、慌亂的人群、建築物震顫,每一個要素配合著調度營造出一種末日緊迫感。而且,由遠及近的聲壓推進,更成為了這個視訊重頭戲。更令人想不到的是,一段廢棄醫院的長鏡頭,瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫,還在光影忽明忽暗中保留了真實性,角色表演也有一定的張力。音效更是克制到極致,燈管電流雜音、走廊回音、腳步聲、呼吸聲,把緊張感推向頂點。總言之,Vidu Q3在視覺、聽覺與場景三個關鍵維度上,將四大場景的應用推向了新的高光時刻。偉大的技術 最終都將隱形於無形縱觀科技史,任何一項偉大的技術,其最終的宿命都是「隱形」。當電動機剛發明時,人們驚嘆於電流的魔力;但當大工業時代到來時,電動機隱身於工廠的流水線中,人們只看到源源不斷產出的精美商品。今天的AI視訊行業,正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅,通過從Q1到Q3的艱難跋涉,換來的,恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代;它把AI視訊從獵奇者的「玩具箱」,搬到了專業創作者的「工作台」上。「萬物可參」,參考的不僅是現實世界的像素,更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本,當Vidu Claw為你自動生成第一組分鏡,當Vidu Q3用它極具張力的音效和電影級的光影,把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時,你會深刻地意識到:不要用做盲盒的邏輯,去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束,屬於創作者的、由新質生產力驅動的「大航海時代」,在Vidu Q3按下Enter的那一刻,正式拉開了帷幕。在這個充滿無限可能的時代,最好的故事,不再受制於資本的傲慢與工業的繁瑣。 (新智元)
全球AI大模型全景解析:ChatGPT、Grok、微軟、Google與中國代表模型同台對比
當前全球人工智慧大模型賽道已形成多元競爭格局,國際陣營與中國本土模型各有技術路線與場景優勢,共同推動AI技術走向普及化、實用化。OpenAI的ChatGPT作為全球通用大模型的標竿,綜合能力均衡全面,在邏輯推理、程式碼編寫、專業創作與多模態理解上保持領先,外掛生態成熟完善,是全球專業辦公、學術研究與海外業務的主流選擇,產品風格嚴謹穩定,適配各類高要求任務場景。xAI的Grok憑藉鮮明特色快速崛起,依託X平台即時資料接入,對全球熱點與時事動態響應迅速,產品風格個性直接、迭代節奏激進,同時與特斯拉車載、智慧型手機器人生態深度聯動,更受科技愛好者與追求前沿體驗的使用者青睞。微軟依託與OpenAI的深度合作及自研佈局,形成了以Copilot為核心的AI體系,全面融入Windows、Office、Azure等生態,在文件處理、表格分析、簡報製作等辦公場景體驗極致,同時整合Claude模型能力,兼顧企業級服務的穩定性與效率,小參數模型Phi系列在輕量化部署上表現突出,成為辦公場景的首選AI助手。GoogleGemini系列以超強多模態能力與超長上下文處理為核心優勢,深度聯動Google搜尋、雲端辦公與Android生態,在長文件解析、多媒體理解、科學計算等領域表現亮眼,是全場景智能體的代表產品。中國大模型立足本土需求,打造出更貼合國內使用者的實用體系。字節跳動豆包定位國民級全能AI,中文理解自然流暢,多模態創作與日常工具呼叫能力突出,深度聯動抖音、剪映、飛書等生態,使用門檻低、普惠性強,適配日常娛樂、內容創作、辦公輔助等全場景。百度文心一言依託知識圖譜與搜尋技術積累,在知識問答、複雜推理與行業解決方案上優勢顯著,政務、金融等企業級服務體系成熟,合規性與穩定性領先。阿里通義千問兼顧開源與閉源雙路線,長文字處理與多語言能力出色,深度融入電商、雲端運算生態,性價比優勢明顯。騰訊混元依託微信、QQ等社交生態,在內容生成、社交場景適配與多模態協同上表現優秀。華為盤古聚焦政企與工業場景,依託鴻蒙與算力底座,在智能製造、智慧城市等領域落地深入,安全可控能力突出。整體來看,國際模型中ChatGPT主打全能均衡,Grok聚焦即時個性,微軟Copilot深耕辦公生態,GoogleGemini領跑多模態;中國模型則以地道中文體驗、本土生態融合、安全合規與高性價比為核心優勢,更適配國內使用者的日常與產業需求。不同模型依託各自技術與生態優勢,覆蓋不同場景與使用者群體,為全球AI應用提供了豐富多樣的選擇。 (趣ai視角)