#Veo | 熱門關鍵字 | 鉅亨號

【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸，視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代，真的來了。這個月初，Google一紙公告，把Veo 3.1的視訊生成能力，免費開放給了所有Google帳號。可以說，這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」，正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及，一個尷尬的問題就越藏不住：模型可以無限趨近「能用」，可它和「能交付」之間，依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段，全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧，能用歸能用，從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時，一個被低估的中國玩家，悄悄把答案擺上了桌。今天，Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」，這一次，它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」，Vidu SaaS（Vidu Agent、Vidu Claw）與 Vidu MaaS（Vidu AI 開放平台）全面接入。其中Vidu AI開放平台，可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時，它還支援提示詞調優、工作流適配及專項培訓服務，即便在高峰時段也能確保穩健輸出。以上三層加在一起，構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此，Vidu Q3已全面覆蓋文生、圖生、參考生三大領域，完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言，「為劇而生，萬物可參」，Vidu正在做一件其他玩家還顧不上做的事：把模型能力，焊死在真正的生產流程中。「參考生之王」回歸直接拍戲了要理解這件事的重要性，先把背景拎清楚。1月30日，Vidu Q3全球首發，在權威評測榜單AA上一騎絕塵，拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單，SuperClue榜單上，Vidu Q3斷層登頂，在多圖/單圖參考任務蟬聯雙榜第一。首次亮相，Vidu Q3便主打「為劇而生」，成為全球首個聲畫直出16秒的AI視訊模型。事實上，整個AI視訊行業的競爭焦點，正在悄悄發生一次根本性的位移。視訊大模型，正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力，轉向兩件更本質的事——是否具備完整的敘事能力，以及，是否能進入真實場景的生產級交付。這兩件事，才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世，恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」，到Q2的「演技生成」，再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步，Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數，正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上，「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力，而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者，名副其實的「參考生之王」，這一次，Q3直接把其從模型層推到了應用層。這種巨變，直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說，Vidu讓AI視訊，真正具備了「劇」的表達能力，為劇而生。萬物可參，為「劇」而生，聲畫同出在視覺、聽覺和場景上， Vidu Q3系統性升級，招招致命。相較於上一代，Q3不再執著於枯燥的「生成質量指標」（FID/FVD）比拚，而是死磕一個核心目標：讓AI生成內容，真正具備「劇」的表達能力。要知道，所謂的「劇集感」，是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上，交出了一份令人「恐怖」的答卷。在視覺方面，Vidu Q3新增六大特效：粒子、流體、動力學、運鏡、轉場、光影，將其深度融入敘事語言，讓生成內容更接近「成片級表達」。五大沉浸式音效：環境、動態、氛圍、擬音、情緒，讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此，聲音不再是畫面的附屬，而是情緒的載體。最重要的是，Q3場景能力已進化為直接對齊工業流程的「內容單元」，大幅縮減從創意到成片的距離，覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域，Vidu 不僅實現了極速生成與高頻迭代，更通過極高的視覺穩定性，率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透，標誌著Vidu已從技術驗證期跨入深度產業應用期，建立了不可踰越的落地領先優勢。為了驗證其真實戰力，我們拋棄了傳統的「跑分邏輯」，直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度，以及廣告的多元創意。高燃漫劇漫劇，是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產，這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求，它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇，每分鐘三四十個鏡頭，每段AI生成的素材只有5–10秒。這就意味著，整部劇是由上千段片段硬拚而成。過去，AI模型最大的問題，是每一張圖之間彼此獨立：人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀，觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦，幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型，是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪，讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼，狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進，將情緒推向了最頂峰。最關鍵的突破點在於：複雜的特效變化下，男主形象始終如一。再比如，投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句，「@圖1穿著@圖2衣服，在@圖3江南水鄉行走」。可以看到，動漫女主的臉部特徵被死死鎖住，沒有出現任何畫風偏移或五官融化，服裝的紋理與褶皺也隨著行走步伐自然飄動。而且，背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作，那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片，在這段激烈的對峙戲中，Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動，Vidu Q3將兩位主角的形象死死鎖住，徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此，它在音效與情感生成的顆粒度上達到了影院級水準：沉悶的肉搏聲、倒地後紊亂的喘息，甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音，都與畫面嚴絲合縫。這一段，可以直接剪進漫劇成片裡，幾乎不需要返工。真人短劇如果說漫劇拼的是「量」，那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模，單集時長被壓到極致，敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓，都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期，是短劇行業對AI視訊最迫切的呼喚；但前提是——AI必須先學會演對白戲，也就是說，短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車：要麼兩個人同時張嘴像合唱團，要麼口型對不上台詞，要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點，但對話一崩，戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲，呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住，更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉，讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒，對話時口型的毫釐不差。再比如來一個現代劇，女強人和霸主之間的糾葛，在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言，用AI的最大訴求可能就是提升效率──不止是素材版本多，創意要快，要快速試錯。素材生產效率，就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率，更重要的是人物、風格統一可控，商品不走樣，背景或人物任意選。比如，下列唇蜜的廣告，利用Vidu Q3參考生功能，可快速篩選不同的風格：只需替換參考模特，一鍵生成不同風格、聲情並茂的視訊，真一鍵出片！鏡頭逐漸推進唇部，模特用唇蜜塗抹在嘴唇上，特寫鏡頭展示唇蜜質感。廣告大片效果，多鏡頭展示。最後手持唇膏模特說說：This touch is more than just color.。去掉bgm，保留人聲再舉一個例子，老梗換新貨，更容易在網上爆紅。比如，威爾·史密斯吃義大利面，就是國外的經典梗之一，可謂歷久不衰。在Vidu Q3，用他的表情包+新的商品（比如漢堡），繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香！影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭，但也是價值天花板的最高場景。過去，一個劇本從文字到成片，中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後，動輒是上千萬的預算，是以「月/年」為單位的製作周期。整個行業最渴望的，是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力，讓導演在燒錢之前，就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路，直接正面正剛。它挑了三種最吃功力的片種：科幻、災難、懸疑。給到一段提示詞：根據參考機甲與未來都市場景，生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立，霓虹燈閃爍，主角駕駛機甲在高架橋與樓宇之間高速穿梭，後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍，再切入近距離追蹤，機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣，期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感，參考主體外觀保持穩定，特效密集但清晰。這個生成的難點在於，俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節，都考驗著模型對「電影感」的理解。更狠的是音效，直接構成了一個立體聲場，給人一種身臨其境的壓迫感。再來看災難片，考核的是尺度與震撼，這是這類型大片的標準配方。Vidu Q3在生成效果中，處理了多層次的視覺要素：天空、水牆、慌亂的人群、建築物震顫，每一個要素配合著調度營造出一種末日緊迫感。而且，由遠及近的聲壓推進，更成為了這個視訊重頭戲。更令人想不到的是，一段廢棄醫院的長鏡頭，瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫，還在光影忽明忽暗中保留了真實性，角色表演也有一定的張力。音效更是克制到極致，燈管電流雜音、走廊回音、腳步聲、呼吸聲，把緊張感推向頂點。總言之，Vidu Q3在視覺、聽覺與場景三個關鍵維度上，將四大場景的應用推向了新的高光時刻。偉大的技術最終都將隱形於無形縱觀科技史，任何一項偉大的技術，其最終的宿命都是「隱形」。當電動機剛發明時，人們驚嘆於電流的魔力；但當大工業時代到來時，電動機隱身於工廠的流水線中，人們只看到源源不斷產出的精美商品。今天的AI視訊行業，正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅，通過從Q1到Q3的艱難跋涉，換來的，恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代；它把AI視訊從獵奇者的「玩具箱」，搬到了專業創作者的「工作台」上。「萬物可參」，參考的不僅是現實世界的像素，更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本，當Vidu Claw為你自動生成第一組分鏡，當Vidu Q3用它極具張力的音效和電影級的光影，把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時，你會深刻地意識到：不要用做盲盒的邏輯，去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束，屬於創作者的、由新質生產力驅動的「大航海時代」，在Vidu Q3按下Enter的那一刻，正式拉開了帷幕。在這個充滿無限可能的時代，最好的故事，不再受制於資本的傲慢與工業的繁瑣。 (新智元)

科技

2025/06/04

•

Andrej Karpathy 辣評Veo 3：視訊生成將直接最佳化人類的注意力，TikTok只是弟弟

視訊生成，或正成為一個讓人細思極恐的轉折點。剛剛，Andrej Karpathy 發文對Google的Veo 3視訊生成模型發表了深刻見解，稱這不僅僅只是技術進步，更是對整個內容創作生態即將發生巨變的預警。Karpathy指出，視訊生成技術的進步帶來了四個關鍵轉變，其中最後一個尤其值得警惕。一、視訊是人腦最高頻寬的輸入方式。這不僅體現在娛樂內容上，更重要的是在工作和學習場景中——想想那些讓複雜概念瞬間清晰的圖表、動畫和演示。二、視訊是最簡單有趣的互動形式。視訊是最簡單/有趣的，普通人不喜歡閱讀/寫作，這非常費力。任何人都可以（並且想要）與視訊互動，相比之下，閱讀和寫作對大多數人來說都是高度耗費精力的活動。三、建立視訊的門檻正在趨近於零。以前製作一個高品質視訊需要專業團隊、昂貴裝置和大量時間，現在只需要一個提示詞。建立視訊的障礙是 -> 0但Karpathy 認為，真正革命性的是第四點：四、視訊第一次成為可以直接最佳化的對象。Karpathy解釋道，傳統的視訊平台如TikTok，本質上是在一個有限的視訊庫中進行索引、排序和推薦。創作者製作內容，演算法學習如何將合適的視訊推送給合適的使用者。這個「人類創作者學習使用者喜好+演算法學習推薦策略」的系統，雖然已經讓人們對TikTok上癮，但在Karpathy看來，這只是冰山一角。Veo 3這類模型輸出的視訊是神經網路的直接產物，這是一個可微分的過程。這意味著我們可以設定任意目標，然後用梯度下降來最佳化。無論是使用者參與度、瞳孔擴張程度，還是廣告點選轉化率，都可以成為直接最佳化的目標。「為什麼要索引有限的視訊庫，當你可以無限生成並直接最佳化它們？」Karpathy問道。他認為視訊將成為AI與人類交流的絕佳介面。一個精心設計的圖表或動畫比一堵文字牆更容易讓人理解。但當這個高頻寬的媒介變得可以直接最佳化時，我們可能不會喜歡「最優」的樣子。chrissy(@chrissyykat)分享了劉慈欣的科幻短篇，暗示我們正在接近那個反烏托邦的未來：隨著Veo 3的發佈，我無法停止思考這個。感覺我們每天都在越來越接近Eric Watson jr(@Ironman_E)認為這將徹底改變視覺創意領域：我同意。在視覺創意方面，這改變了一切。這是激動人心的時刻。讓我們看看現在限制都消失了，我們能有多有創意。希望主要是好的方面。Shardul(@isharduld)提出了一個關鍵問題：當視訊參與度變成梯度下降問題時，我們需要什麼保障措施？Emmanuel O(@emmanuelomn)描繪了一個令人不安的場景：這是個可怕的想法。把人類從等式中移除。我已經能看到了。一個所有視訊都由公司生成的社交媒體網站🙃教育領域的應用前景則更讓人期待。Hitarth Sharma(@iamhitarth)設想：我很好奇這在教育科技領域會如何發展。想像一下為在TikTok上長大的一代人將物理、化學或數學TikTok化，並最佳化理解而不僅僅是打勾完成任務——那將是了不起的。Alon Aizescu(@AlonAizescu)發出了更嚴肅的警告：在不久的將來，消費線上內容可能比毒品更容易上癮。所有被AI取代的工人將沉迷於消費內容。誰能在戒毒領域開發出突破性產品將大大受益。Simon Lermen(@SimonLermenAI)總結到：噩夢燃料Vishvanand(@vishvanands1)提出了一個有趣的對比：為什麼同樣的事情沒有發生在生成文字的LLM上？例如訓練LLM編寫能產生最大點選/轉化的文案Mr R(@slantsalot)提出了反對意見：我不完全同意這個觀點。例如，惡作劇視訊、事故視訊、打架視訊或尷尬視訊只有在真實人類的背景下才有價值。AI視訊無法沿著這些獎勵向量進行最佳化以增加價值Tom Löwe(@awaken_tom)用圖片展示了GUI介面現在與5年後的對比，暗示著互動方式的徹底改變。Jeffrey Emanuel(@doodlestein)的評論引人深思：基本上我們的孩子註定會成為上癮的白痴，因為沒有其他東西能與這種未來最佳化的自動垃圾生成競爭。這有點令人沮喪，不是嗎？而且很可能是不可避免的。唯一的解決方案是永遠不要嘗試一次，就像海洛因或可卡因一樣。Nike_Zoldyck(@Nitin_wysiwyg)則幽默總結：Veo3發佈5分鐘後……兄弟，世界只是某人寫的一個提示詞😅最後，Gabriel Baker(@gabrieljbaker)的觀察讓人警醒：這是個大問題。許多青少年顯然不喜歡面對面的人際接觸。他們活在Character AI和TikTok上。當視訊可以被直接最佳化來抓住我們的注意力，當AI可以無限生成最「吸引人」的內容，我們是否準備好了面對這個新世界？對未來的興奮和憧憬之外，讓我有一絲不安的是——無論這是潘多拉的魔盒，亦或是阿拉丁的神燈，一路向前的我們，似乎已經別無選擇。 (AGI Hunt)

科技

2025/05/22

•

Veo 3全網實測驚豔所有人！DeepMind CTO：規模是AGI全部嗎？

Veo 3實測來襲：從會說話的鬆餅到電影質感的短片，一句提示詞就能打造電影質感短片，還能音畫同步，好萊塢真的要慌了？DeepMind首席技術官更在訪談中透露，Deep Think模式像多執行緒大腦般平行推理，而AGI的競賽早已超越單純「堆算力」。外星人駕駛飛碟給你送披薩，月球撞上地球——這不是科幻電影作品，而是來自於Google剛剛推出的視訊生成模型Veo 3。只用一句提示詞就拍齣電影質感的短片。不僅如此，Veo 3還能通過文字實現原生的音畫同步生成。上幾個實例先。視訊的場景設定在一個復古的餐廳，當氤氳的煙霧在餐桌上翻騰時，女郎的唇形卻配著清晰立體的對白。畫面中，一個穿著黑色晚禮服的女人和一個穿西裝的男人坐在一張小圓餐桌上。桌面點著一盞小燈，旁邊還有一杯威士忌和一個托盤，像是老電影裡的場景。網友表示，這簡直太瘋狂了，霸主正在出現。牛頓穿著18世紀風格的衣服，戴著白色假髮，穿著白色襯衫和黑馬甲，手裡拿著一本金色的蘋果和一本書，在燈光昏暗的書房裡。視訊裡年輕的牛頓爵士表情誇張，嘴裡在念叨著引力拉扯物體，動作幅度很大。有人調侃「好萊塢要瑟瑟發抖了」，因為AI的生成能力太強大了。這段鬆餅對話，令人印象深刻。大個的鬆餅說了一句「我不敢相信Veo 3現在居然能對話了！」旁邊的小鬆餅聽到後，嚇得大叫：「啊啊啊！一個會說話的鬆餅！」這場景太搞笑了，簡直像動畫裡的情節。Veo 3不僅能生成視訊，加入對話、音效和背景噪音，文字指令的遵循度也更高了。視訊雖然只有8秒，但是畫面質量很不錯，鬆餅的表情和動作都做的特別生動，尤其是那個大叫的小鬆餅，聽起來還挺滲人的。@Aaron Pitters表示，「高品質的動畫電影將以光速製作。這將節省大量時間，簡直難以置信。」@MartinNebelong分享了一段用Veo 3製作的長視訊。視訊開頭，老爺爺在一個書房裡，周圍堆滿了書。他看起來特別興奮，揮舞著雙手。不只是可以對話這麼簡單，甚至連Rap都可以！畫面切換，一個穿著緊身衣的女人在宇宙飛船裡，表情嚴肅。接著又回到老爺爺，這一次他坐在桌子前，桌面上還有一個可愛的小機器人。場景一閃，這次是一個穿著盔甲的騎士站在火把點亮的石牆走廊裡。整個視訊節奏很快，畫面切換頻繁，感覺像是一部電影的預告片。@Janek Mann驚嘆，「那個較長的視訊絕對令人難以置信，它現在真的能講述完整的故事。」@Alex Patrascu表示，Veo 3領先了競品好幾代，劇本已經翻轉了。畫面中是一個半人半機器的傢伙，表情猙獰，背景有很多螢幕和電腦，燈光昏暗，空氣裡的緊張感都傳達出來了。他穿著破舊的長袍，身上還有一些機械零件，胳膊上有電光在閃，看上去像是剛從科幻電影裡走出來的反派角色。從這個畫面來看，真的不得不服，整個場景的細節和真實感都太牛了，感覺像是好萊塢大片的一幕。視訊效果被網友盛讚為超級史詩。Google王者歸來，正突然取得巨大進步。Veo 3，特別是通過影視製作工具Flow，旨在賦能電影製作人和內容創作者。Flow允許使用者建立場景、管理素材、編輯故事情節並控制鏡頭運動。Klarna等公司正在使用Veo來提高行銷內容創作效率，從而顯著縮短製作周期。數字行銷公司Jellyfish已將Veo整合到其AI行銷平台Pencil中，並與航空公司合作提供AI生成的機上娛樂內容。他們報告稱，平均成本和製作時間減少了50%。Veo 3目前還不是免費開放，Google Gemini的AI Ultra訂閱者（每月249.99美元）才能使用。想要體驗，還得先掏腰包啊。DeepMind CTO專訪 Veo 3、Deep Think與AGI就在Google推出Veo 3的Google I/O 2025開發者大會期間，DeepMind的首席技術官Koray Kavukcuoglu參加了The Big Technology播客。節目中他與主持人Alex Kantrowitz探討了最新的Veo 3、全新的Deep Think增強推理模式及AGI等熱門問題。規模是AGI的全部嗎？規模（Scale），是當前推動AI模型進步的「明星」，還是一個「配角」？這個問題，觸及了當下大模型發展的核心。畢竟，Google擁有得天獨厚的計算資源，似乎「大力出奇蹟」是一條顯而易見的路徑。Koray承認規模確實是一個重要因素，這一點毋庸置疑：在任何研究問題中，擁有一個能帶來改進的維度總是好事。但他緊接著指出，在生成式AI模型的研究中，規模絕非唯一，它與其他因素同等重要。那些因素呢？Koray列舉了幾個同樣關鍵的「維度」：架構：模型的內在結構如何設計。演算法：驅動模型學習和運行的演算法。資料（Data）：高品質、多樣化的資料與其他因素同樣關鍵。推理階段技術：如何在模型訓練完成後，最佳化其推理過程。他認為，評估模型的進步，不能孤立地看規模，而是要研究規模、資料和參數數量這三者的組合。他強調，整個領域，包括Google內部的許多不同模型，都在以顯著的步伐改進。他用「相當出色」和「非常令人興奮」來形容目前的進展。談到AGI時，主持人引用了著名AI科學家、圖靈獎得主Yann LeCun的觀點——僅僅依靠擴展大型語言模型（Scaling Up LLM）無法達到人類水平智能。Koray回應道，這只是一種假設，可能正確也可能不正確。但他認為，沒有那個研究實驗室，包括GoogleDeepMind，僅僅專注於擴展大語言模型。這背後蘊含的哲理是：實現AGI，不僅僅是工程上的規模堆砌，更需要在基礎研究上實現突破和「發明」。Koray認為，通往AGI的路上，需要發明許多「關鍵要素」和「關鍵創新」。AGI是一個極其雄心勃勃、可能是我們一生中遇到的最難的研究問題，因此，擁有一個同樣雄心勃勃的研究議程和投資組合，在許多不同的方向上進行嘗試，是至關重要的。「平行思考」的Deep Think模式在GoogleI/O大會期間進行的這次訪談，自然不會錯過Google的最新技術發佈。主持人提到了Google宣佈的一項新技術：Deep Think。最初主持人以為這是一個新產品，但Koray澄清說，Deep Think不是一個獨立的產品，而是整合在Gemini 2.5 Pro模型中的一種增強「模式」（mode）。Deep Think模式的核心在於改變了模型的「思考」方式。它讓模型在推理時能夠花費更多時間來「思考」。更重要的是，與傳統推理模型通常建構單一思維鏈（CoT）不同，Deep Think增強推理模式建構並推理多條平行的思維鏈。想像一下，傳統模型像一條直線思考，而Deep Think則像擁有多個平行的大腦，同時探索不同的可能性、分析不同的假設。這無疑是一種更接近人類複雜思維過程的方式。當被問及模型改進的價值，例如提高10%或50%意味著什麼時，Koray認為很難簡單量化。如果能在數學或複雜推理等領域將模型的理解能力提高10%，Koray認為這將是巨大的進步。因為這會極大地擴展模型的通用知識和適用範圍。這種提升不僅僅是分數上的增加，而且是質的飛躍，意味著模型能夠處理以前無法觸及的問題。例如，幫助人們學習新知識或解決實際難題。所以，模型的價值，最終體現在它能為人類帶來多大的幫助。多模態的躍進Veo 3訪談中還提到了Google在視訊生成領域的新進展，特別是Veo 3模型和Flow。視訊生成是多模態AI的一個生動體現。Koray回顧了Veo 3的演進：Veo 1到Veo 2主要的進展在於理解物理和動力學，特別是物體對象之間的互動作用。他提到了一個曾引起廣泛關注的例子——切番茄視訊，Veo 2生成的切片過程和物體互動（刀、番茄、切片掉落）非常精確和逼真。在此基礎上，Veo 3增加了聲音生成匹配。Koray認為這體現了模型對視覺和聲音之間互動性和互補性的理解。「氛圍程式設計」全民創造時代訪談的最後，主持人問了一個輕鬆但充滿洞察的問題：作為CTO，你是否是「vibe coding」（氛圍程式設計）的粉絲？Koray的回答是肯定的，而且充滿了興奮。他認為「vibe coding」令人興奮之處在於，它使得沒有編碼背景的人也能夠建構應用程式——這打開了一個全新的世界。他以學習為例，你可以向模型描述你想要一個什麼樣的應用來解釋某個概念，模型就能幫你建構出來。儘管還處於早期，AI有些地方做得好、有些還不足。但Koray認為，這是技術帶來的巨大變革，惠及了更廣泛人群。不僅僅是程式設計師的福音，更是所有想要將想法轉化為實際應用的人的福音，一個全民創造的時代正在到來。 (新智元)

科技