Veo 3全網實測驚豔所有人！DeepMind CTO：規模是AGI全部嗎？

2025/05/22

•

Veo 3實測來襲：從會說話的鬆餅到電影質感的短片，一句提示詞就能打造電影質感短片，還能音畫同步，好萊塢真的要慌了？DeepMind首席技術官更在訪談中透露，Deep Think模式像多執行緒大腦般平行推理，而AGI的競賽早已超越單純「堆算力」。

外星人駕駛飛碟給你送披薩，月球撞上地球——這不是科幻電影作品，而是來自於Google剛剛推出的視訊生成模型Veo 3。

只用一句提示詞就拍齣電影質感的短片。

不僅如此，Veo 3還能通過文字實現原生的音畫同步生成。

上幾個實例先。

視訊的場景設定在一個復古的餐廳，當氤氳的煙霧在餐桌上翻騰時，女郎的唇形卻配著清晰立體的對白。

畫面中，一個穿著黑色晚禮服的女人和一個穿西裝的男人坐在一張小圓餐桌上。桌面點著一盞小燈，旁邊還有一杯威士忌和一個托盤，像是老電影裡的場景。

網友表示，這簡直太瘋狂了，霸主正在出現。

牛頓穿著18世紀風格的衣服，戴著白色假髮，穿著白色襯衫和黑馬甲，手裡拿著一本金色的蘋果和一本書，在燈光昏暗的書房裡。

視訊裡年輕的牛頓爵士表情誇張，嘴裡在念叨著引力拉扯物體，動作幅度很大。

有人調侃「好萊塢要瑟瑟發抖了」，因為AI的生成能力太強大了。

這段鬆餅對話，令人印象深刻。大個的鬆餅說了一句「我不敢相信Veo 3現在居然能對話了！」

旁邊的小鬆餅聽到後，嚇得大叫：「啊啊啊！一個會說話的鬆餅！」這場景太搞笑了，簡直像動畫裡的情節。

Veo 3不僅能生成視訊，加入對話、音效和背景噪音，文字指令的遵循度也更高了。

視訊雖然只有8秒，但是畫面質量很不錯，鬆餅的表情和動作都做的特別生動，尤其是那個大叫的小鬆餅，聽起來還挺滲人的。

@Aaron Pitters表示，「高品質的動畫電影將以光速製作。這將節省大量時間，簡直難以置信。」

@MartinNebelong分享了一段用Veo 3製作的長視訊。

視訊開頭，老爺爺在一個書房裡，周圍堆滿了書。他看起來特別興奮，揮舞著雙手。

不只是可以對話這麼簡單，甚至連Rap都可以！

畫面切換，一個穿著緊身衣的女人在宇宙飛船裡，表情嚴肅。

接著又回到老爺爺，這一次他坐在桌子前，桌面上還有一個可愛的小機器人。

場景一閃，這次是一個穿著盔甲的騎士站在火把點亮的石牆走廊裡。

整個視訊節奏很快，畫面切換頻繁，感覺像是一部電影的預告片。

@Janek Mann驚嘆，「那個較長的視訊絕對令人難以置信，它現在真的能講述完整的故事。」

@Alex Patrascu表示，Veo 3領先了競品好幾代，劇本已經翻轉了。

畫面中是一個半人半機器的傢伙，表情猙獰，背景有很多螢幕和電腦，燈光昏暗，空氣裡的緊張感都傳達出來了。

他穿著破舊的長袍，身上還有一些機械零件，胳膊上有電光在閃，看上去像是剛從科幻電影裡走出來的反派角色。

從這個畫面來看，真的不得不服，整個場景的細節和真實感都太牛了，感覺像是好萊塢大片的一幕。

視訊效果被網友盛讚為超級史詩。

Google王者歸來，正突然取得巨大進步。

Veo 3，特別是通過影視製作工具Flow，旨在賦能電影製作人和內容創作者。Flow允許使用者建立場景、管理素材、編輯故事情節並控制鏡頭運動。

Klarna等公司正在使用Veo來提高行銷內容創作效率，從而顯著縮短製作周期。

數字行銷公司Jellyfish已將Veo整合到其AI行銷平台Pencil中，並與航空公司合作提供AI生成的機上娛樂內容。

他們報告稱，平均成本和製作時間減少了50%。

Veo 3目前還不是免費開放，Google Gemini的AI Ultra訂閱者（每月249.99美元）才能使用。

想要體驗，還得先掏腰包啊。

DeepMind CTO專訪 Veo 3、Deep Think與AGI

就在Google推出Veo 3的Google I/O 2025開發者大會期間，DeepMind的首席技術官Koray Kavukcuoglu參加了The Big Technology播客。

節目中他與主持人Alex Kantrowitz探討了最新的Veo 3、全新的Deep Think增強推理模式及AGI等熱門問題。

規模是AGI的全部嗎？

規模（Scale），是當前推動AI模型進步的「明星」，還是一個「配角」？

這個問題，觸及了當下大模型發展的核心。

畢竟，Google擁有得天獨厚的計算資源，似乎「大力出奇蹟」是一條顯而易見的路徑。

Koray承認規模確實是一個重要因素，這一點毋庸置疑：在任何研究問題中，擁有一個能帶來改進的維度總是好事。

但他緊接著指出，在生成式AI模型的研究中，規模絕非唯一，它與其他因素同等重要。

那些因素呢？Koray列舉了幾個同樣關鍵的「維度」：

架構：模型的內在結構如何設計。
演算法：驅動模型學習和運行的演算法。
資料（Data）：高品質、多樣化的資料與其他因素同樣關鍵。
推理階段技術：如何在模型訓練完成後，最佳化其推理過程。

他認為，評估模型的進步，不能孤立地看規模，而是要研究規模、資料和參數數量這三者的組合。

他強調，整個領域，包括Google內部的許多不同模型，都在以顯著的步伐改進。他用「相當出色」和「非常令人興奮」來形容目前的進展。

談到AGI時，主持人引用了著名AI科學家、圖靈獎得主Yann LeCun的觀點——僅僅依靠擴展大型語言模型（Scaling Up LLM）無法達到人類水平智能。

Koray回應道，這只是一種假設，可能正確也可能不正確。

但他認為，沒有那個研究實驗室，包括GoogleDeepMind，僅僅專注於擴展大語言模型。

這背後蘊含的哲理是：實現AGI，不僅僅是工程上的規模堆砌，更需要在基礎研究上實現突破和「發明」。

Koray認為，通往AGI的路上，需要發明許多「關鍵要素」和「關鍵創新」。

AGI是一個極其雄心勃勃、可能是我們一生中遇到的最難的研究問題，因此，擁有一個同樣雄心勃勃的研究議程和投資組合，在許多不同的方向上進行嘗試，是至關重要的。

「平行思考」的Deep Think模式

在GoogleI/O大會期間進行的這次訪談，自然不會錯過Google的最新技術發佈。

主持人提到了Google宣佈的一項新技術：Deep Think。

最初主持人以為這是一個新產品，但Koray澄清說，Deep Think不是一個獨立的產品，而是整合在Gemini 2.5 Pro模型中的一種增強「模式」（mode）。

Deep Think模式的核心在於改變了模型的「思考」方式。它讓模型在推理時能夠花費更多時間來「思考」。

更重要的是，與傳統推理模型通常建構單一思維鏈（CoT）不同，Deep Think增強推理模式建構並推理多條平行的思維鏈。

想像一下，傳統模型像一條直線思考，而Deep Think則像擁有多個平行的大腦，同時探索不同的可能性、分析不同的假設。

這無疑是一種更接近人類複雜思維過程的方式。

當被問及模型改進的價值，例如提高10%或50%意味著什麼時，Koray認為很難簡單量化。

如果能在數學或複雜推理等領域將模型的理解能力提高10%，Koray認為這將是巨大的進步。因為這會極大地擴展模型的通用知識和適用範圍。

這種提升不僅僅是分數上的增加，而且是質的飛躍，意味著模型能夠處理以前無法觸及的問題。

例如，幫助人們學習新知識或解決實際難題。所以，模型的價值，最終體現在它能為人類帶來多大的幫助。

多模態的躍進Veo 3

訪談中還提到了Google在視訊生成領域的新進展，特別是Veo 3模型和Flow。

視訊生成是多模態AI的一個生動體現。Koray回顧了Veo 3的演進：

Veo 1到Veo 2主要的進展在於理解物理和動力學，特別是物體對象之間的互動作用。

他提到了一個曾引起廣泛關注的例子——切番茄視訊，Veo 2生成的切片過程和物體互動（刀、番茄、切片掉落）非常精確和逼真。

在此基礎上，Veo 3增加了聲音生成匹配。Koray認為這體現了模型對視覺和聲音之間互動性和互補性的理解。

「氛圍程式設計」全民創造時代

訪談的最後，主持人問了一個輕鬆但充滿洞察的問題：作為CTO，你是否是「vibe coding」（氛圍程式設計）的粉絲？

Koray的回答是肯定的，而且充滿了興奮。

他認為「vibe coding」令人興奮之處在於，它使得沒有編碼背景的人也能夠建構應用程式——這打開了一個全新的世界。

他以學習為例，你可以向模型描述你想要一個什麼樣的應用來解釋某個概念，模型就能幫你建構出來。

儘管還處於早期，AI有些地方做得好、有些還不足。但Koray認為，這是技術帶來的巨大變革，惠及了更廣泛人群。

不僅僅是程式設計師的福音，更是所有想要將想法轉化為實際應用的人的福音，一個全民創造的時代正在到來。 (新智元)

科技