#圖像生成
Google Nano Banana Pro閃亮登場!
台北時間周四深夜,AI巨頭Google麾下的Nano Banana圖像生成模型迎來重磅更新——Nano Banana Pro閃亮登場!作為背景,Google於今年8月底發佈基於Gemini 2.5 Flash模型的Nano Banana。由於該模型能夠將人物或者動漫照片變成栩栩如生的“3D列印手辦”,短時間內形成全球範圍內的破圈效應。GoogleCEO皮查伊披露,在Nano Banana的推動下,Gemini應用的月活使用者數在短短1個季度內,就從4.5億暴增至6.5億。隨著本周Google發佈新一代旗艦大模型,Google的圖像生成模型也迎來了意料之中的飛躍式升級。用Google的話來講,Nano Banana Pro能“以空前的控制力、無瑕的文字呈現和增強的世界知識,將使用者的構想變成工作室級的設計”。據Google介紹,Nano Banana Pro基於本周早些時候發佈的Gemini 3 Pro,不僅在細節表現力、圖像解析度和文字渲染精準性方面強於前一代Nano Banana,還能以不同風格、字型和語言生成本文。新一代圖像生成模型還新增了編輯功能,並加入網際網路搜尋能力。Google強調,Nano Banana Pro是在圖像中生成正確且清晰可讀文字的最佳AI模型,不論是簡短的標語還是長段落均可,支援更加豐富的紋理、字型和書法。同時借助Gemini增強的多語言推理能力,使用者可以生成多種語言的文字,或者對內容進行翻譯和本地化。(將一張照片轉化為電影分鏡,以及翻譯飲料包裝上的文字,來源:Google)同時基於網際網路知識庫,Nano Banana Pro還能將現實世界的資訊轉化為生動形象的可視化資訊,例如如何製作一杯荳蔻茶。Google透露,Nano Banana Pro也非常適合用來做PPT或者資訊圖表,同時會加入Google的辦公套件Workspace。Google Labs和Gemini副總裁Josh Woodward介紹稱:“Nano Banana Pro在資訊圖表方面非常出色,可以用來製作幻燈片。它最多可以處理14張不同的圖像,或5個不同的角色,並在某種程度上保持角色一致性。”對於創意產業的工作者而言,Nano Banana Pro也大幅升級了編輯功能,直接將創意的決策權交到使用者手中。Google介紹稱,新的編輯功能支援改變相機角度、場景光線、景深、對焦等,同時可以調整多種縱橫比,解析度也從Nano Banana的1024X1024上升到最高4K。(調整角度或圖片焦點)Google正在各項AI工具中推出Nano Banana Pro,包括免費使用者在內,都能在Gemini等應用中試用這一新功能(但會有配額限制)。Google AI Plus、Pro和Ultra訂閱使用者會獲得更高的配額。Google也表示,該功能隨後也將率先在Flow(Google的AI電影製作工具)向Ultra訂閱使用者推出。 (財聯社AI daily)
對話凱文·凱利:不必過多擔憂,AI變強後,人類只需專注於“玩”
當人工智慧以顛覆性姿態重構人類文明時,一個無法迴避的問題浮出水面:我們究竟在創造怎樣的未來?若要尋找這個時代的科技先知來探討這個問題,凱文·凱利(Kevin Kelly)的名字必然位列其中。這位《連線》雜誌創始主編、《失控》作者,早在1994年網際網路方興未艾之際,便預言了雲端運算、物聯網和虛擬現實的技術趨勢。他的“技術元素”理論重構了矽谷對技術本質的認知,而“一千個鐵桿粉絲”法則至今仍是創作者經濟的核心指導思想之一。如今,在其新作《2049:未來10000天的可能》中,他將目光投向2049年——一個被AI徹底重塑的世界。凱利給出的答案依然充滿預言性的洞見。他讓我們忘掉AGI和大一統模型的存在,轉而擁抱像動物園一樣千奇百怪的“異類智能”AI。他不相信AI將是凌駕於人類之上的神明,而是像外星人一樣與我們共存的"他者"。在他描繪的2049年,我們將生活在一個“鏡像世界”中。一個增強版的“元宇宙”,疊加在現實之上的虛擬維度。在那裡,人類與AI在三維空間中相遇、協作、創造。在這個世界中,人類的價值不會因AI而貶值,反而會因其稀缺性而倍增。這份烏托邦式的願景是否經得起現實檢驗?回望1990年代,凱利曾堅信網際網路會帶來去中心化的民主盛世,但現實卻演變為演算法壟斷與資訊戰的血腥戰場。而今天,當我們審視這個被演算法主宰、被巨頭壟斷、充斥著虛假資訊的網際網路時,不得不承認現實與理想之間存在著巨大的鴻溝。因此,當凱利再次描繪一個由AI主導的美好未來時,我們既需要他的遠見照亮前路,更需以清醒之姿追問:當智能眼鏡記錄一切時,人是否真的可以為了便利放棄所有的隱私?當AI助理接管人類時,平等的主張是否還有意義?這些問題的答案,將決定2049年是“酷中國”的崛起,還是新一輪失控的開端。重新思考AI 從“超級智能”到“異類智能”騰訊科技:KK你好!在我們2024年的對話中,你曾提到ChatGPT和AI圖像生成技術帶來的顛覆性體驗。今年呢,是否有任何新的AI模型或智能體讓你感到驚訝?Kevin Kelly:沒有什麼令人震驚的新產品,新模型似乎沒有那麼革命性。很多人都會有同感。這可能表明擴大規模正變得越來越困難。自我們上次對話以來,我對當前的模型印象深刻,但並不驚訝。這也包括中國的模型,它們非常出色,但與美國的模型相比仍沒有太大區別。騰訊科技:當下的模型能通往AGI嗎,還是說需要更多的東西?Kevin Kelly:我認為還需要更多。但這只是我的直覺,也可能會錯。很多聰明的投資者相信,僅靠擴大現有模型的規模就能實現AGI,基於我過去的經驗,我對此表示懷疑。在寫《失控》和《新經濟新法則》時,我試圖說明的是,我們無法用一種完全自下而上、完全去中心化、完全扁平化的東西走完全程。而這些大語言模型就是這樣的,沒有層級,所有神經元都一樣。所以,我懷疑通過擴大這種扁平模型能否實現AGI。這是一個絕佳的起點,但無法帶領我們到達終點。智能不是單一元素,而是由幾十種不同元素構成的複雜化合物。我們可能需要新的術語去描述智能。我的基本前提是,我們普通人和研究它的科學家對智能到底是什麼一無所知。就像1700年代發現電和元素時一樣,當時最聰明的人對它有各種理論,但最終都錯了。我們正處於這個階段——對智能毫無頭緒。騰訊科技:這個新術語是你在書中提到的“異類智能”(Alien Intelligence)嗎?你為何認為用它來描述未來25年的AI,比AGI或ASI更準確?Kevin Kelly:“異類智能”對我來說是一個思考AI的隱喻。把它想像成來自另一個星球的外星人。它們可能有感知,有意識,但關鍵是它們是不同的,而不是更高級的。騰訊科技:它和通用人工智慧(AGI)或人工超級智能(ASI)有什麼區別?Kevin Kelly:“超級”(Super)這個詞暗示著在人類之上。而我說的是,它不在我們之上或之下,而是“他者”(Other)。就像《星際迷航》裡的斯波克,它是外星智能,但它比柯克船長更優越嗎?不,它只是不一樣而已。智能不是一個向上的階梯,“超級AI”這種說法是錯誤的隱喻。它們是不同的物種,是異類的,不在我們之上。騰訊科技:按照這個邏輯,對我們人類來說,其它動物也是一種異類智能,因為我們無法理解它們的想法。但我們歷史上一直認為自己比動物和植物更高級。Kevin Kelly:是的,這源於我們的進化,我們可能無意中滅絕了其他智慧物種。但事實上,我們甚至不知道鯨魚是否比我們更聰明,比如你的計算器在算術上就比你聰明。問題在於,我們本能地想把事物放在一個階梯上,但智能並非如此,它不是單一維度,而是多維度的廣闊空間。當我們開始繪製動物智能和機器智能的圖譜時,會發現我們的智能只是處於某個邊緣。目前,缺少一門關於“可能心智的分類學”(taxonomy of possible minds)。我們需要建立一個分類學,能夠標示出動物心智(狗、鯨魚、黑猩猩等)、人類心智以及各種AI的位置。認為我們比長頸鹿更優越的想法是沒有意義的。同樣,我們對“超級智能”沒有任何定義或度量,對它的無知是巨大的。我認為這個詞沒有幫助,到2049年,我們甚至不會再使用AGI或ASI了。騰訊科技:但似乎學界也有不同的想法。比如辛頓在最近的發言中說,AI最終能做我們能做的一切,並且做得更好。Kevin Kelly:萬物皆有取捨。你不可能製造一台在所有方面都優於其他所有機器的機器。為了讓某樣東西更快,必然要在工程上做出犧牲,我們無法同時最佳化靈活性、速度、成本和能效,這是工程學的真理。智能也是如此,無法在所有維度上都進行最佳化。騰訊科技:所以你才認為AGI無法實現,或者一個基礎大模型無法做所有事?Kevin Kelly:就像我們和螞蟻。有很多事是螞蟻能做而我們做不到的,比如鑽進小洞、聞到我們聞不到的氣味。我們可能會說我們不在乎,但螞蟻在乎。你不能說我們在所有方面都優於螞蟻。我們在很多方面優於它們,但不是所有方面。騰訊科技:你描述的這種“異類智能”,似乎是會專注於不同的事情,而不是一個能做所有事的通用大模型。這也與Google、OpenAI等公司的發展方向不同。他們正試圖通過微調和強化學習,讓一個基礎模型能快速掌握新技能,而不需要專門的小模型。Kevin Kelly:是的,如我所說,世界上最聰明的人和最大的資本都在賭這條路,它完全有可能成功。但是,我對此持懷疑態度。所以,我們必須考慮兩種情況。提出不同場景的目的不是為了預測未來,而是為了讓我們對未來不感到意外。你需要預演,如果薩姆·奧特曼的版本成功了,我作為個人、公司或國家,是否準備好吸收其益處?如果他不正確,我們迎來的是一個更加去中心化、不需要巨量資料的AI世界,就像DeepSeek正在做的那樣,我也不想感到意外,我要準備好如何充分利用它。“鏡像世界”是下一代網際網路的新平台騰訊科技:現在我們來談談你對2049年AI世界的描述。你提到了“鏡像世界”(Mirror World)這個新概念,並將其定義為下一代網際網路。它到底是什麼?與我們現在所說的“元宇宙”(Metaverse)有何根本不同?Kevin Kelly:它有點像虛擬現實(VR),像電影《頭號玩家》那樣,你可以進入一個非常逼真的三維空間並與之互動,但這只是其中一小部分。第二個更重要的部分是,我們是在真實世界之上疊加了一個虛擬世界,這個虛擬世界是真實世界的孿生或鏡像。比如現在我們對話,我戴上眼鏡會看到你的一個三維化身(Avatar)坐在我旁邊的沙發上,我會確信你就在那裡。這個化身是在我的真實房間裡,看起來像一個全息圖。你也可以通過它看到我房間的樣子。第三個層面是所謂的“空間智能”。在這個虛擬世界裡,虛擬的球會像真球一樣彈跳,液體會遵循同樣的物理定律,有遠近、上下、左右。這種空間維度是我們目前不具備的。它能讓你通過一句話生成一個具備空間邏輯的完整三維世界,理解物體的前後遮擋關係。第四個層面是,當汽車和機器人在移動時,比如一輛Waymo無人車行駛在路上,它所“看到”的世界就是鏡像世界。它在自己的“腦海”中建立了一個虛擬表徵,這個表徵就是鏡像世界。可以說,我們將會在鏡像世界中與機器人和AI相遇。在這個鏡像世界裡,你可以戴上一副智能眼鏡,看到你的房間,並要求疊加不同的資訊層。比如讓它顯示所有物體的材質,或者在進入房間的人頭頂上顯示他們的名字。但這只是最容易描述的版本。所有這些都只有在廉價、普及的AI支援下才可能實現。沒有AI,就沒有增強現實的鏡像世界。騰訊科技:我理解你說的第三和第四層面的鏡像世界,即對物理世界的完全復刻,必須基於能理解物理世界的AI模型。但前兩個層面,Meta在AI時代之前就已經在嘗試了。為什麼鏡像世界在你的未來構想中如此重要?Kevin Kelly:這是一個終點,是不可避免的。現在我們用全世界的視訊來數位化和訓練AI,這是在用“過去”的資料。當所有已記錄的資料都用完後,我們唯一剩下的就是用“現在”——即時發生的真實世界來喂養AI。一旦你這麼做,你就擁有了鏡像世界。因為AI在觀察真實世界時,必須對其進行處理、渲染和想像,這就構成了鏡像世界。然後我們便可以進入其中,進行社交、培訓、導航等。我們在那裡與它們相遇,並將其用於娛樂、協作等我們甚至還沒想到的事情。我認為娛樂只是其中一小部分,其主要用途是作為協作的工具。我斷言,在所有社交媒體中,鏡像世界將是最具社交性的。人們會願意花數小時與其他人的虛擬化身待在一起。它還能讓我們發明新的協作工具,實現前所未有的規模協作,比如讓一百萬人在同一個虛擬公司世界裡即時合作一個項目,這是在現實空間裡無法做到的。騰訊科技:但現在網際網路本身,比如在微信裡,一個500人的群也可以一起聊天。溝通的規模已經被拓寬了。Kevin Kelly:是的,但我們想變得更寬。騰訊科技:但這怎麼實現?在交流中,人腦接收和處理資訊的頻寬非常有限。Kevin Kelly:問題不在於接收更多資訊,而在於在正確的時間獲得正確、最少或最佳的資訊。這關乎智能。一個能讓百萬人協作的系統,必須能很好地“閱讀”我,理解我的才能、情緒等各種情況,以進行最佳化匹配。這不是發發郵件或簡訊就能解決的。想像一下,你要和一個將與你共事一生的人合作,你需要瞭解他的一切,現在再把這個需求乘以一百萬。騰訊科技:這個鏡像世界不僅僅是把我們的聲音或文字加上虛擬形象,而是以一種全新的協作方式。它需要AI來篩選,找到合適的話題和合作者。Kevin Kelly:沒錯。它是一個協作、社交和創造的平台。我曾提出“1000個鐵桿粉絲”理論,即每個人都可以通過為1000個粉絲創作來謀生。難點不在於創作,而在於找到你的1000個鐵桿粉絲,並讓他們找到你。AI可以幫我們解決這個問題。騰訊科技:這聽起來更像是一個新版的推薦系統。Kevin Kelly:是的,匹配就像推薦,但這只是其中一部分。它也是一個能讓你更高效、更有創造力的平台。戴上眼鏡,我所看的一切都會被監測,系統會知道我盯著什麼看了多久,瞭解我的興趣和厭倦,知道我何時最高效。它也是一種自我認知和自我提升的平台。AI時代的社會:壟斷、工作與人性的價值騰訊科技:我們來談談AI將如何影響世界。你提到鏡像世界可能會由一個超級公司主導。為什麼你會這樣認為?Kevin Kelly:會有少數幾家,形成寡頭壟斷,一兩家或三家。就像Windows和Mac,會有一兩個巨頭。這遵循網路效應——越大越好,越好越大。AI也是如此,儘管現在AI還不能通過使用者使用來學習,但一旦它們可以,我們就會看到這個效應。最大的會變得更大,因為它們越大,學得越好。所以這種動態不會改變,會一直持續到2049年。我認為這是一種“自然壟斷”。所有這樣的通訊系統都有這種贏家通吃的動態。但這種自然壟斷的生命周期很短。它們崛起很快,但主導地位消失得也很快。因為新的平台會到來。比如Google搜尋80%的份額,可能在兩年內就消失了,因為大家都會直接問AI。OpenAI可能取代Google。現在,如果你有了AI,主導者可能不會是Google或Facebook,而是一家像OpenAI、Anthropic或DeepSeek這樣的新興公司。然後,當鏡像世界到來時,它們的主導地位也會被一個更大的新平台所取代。騰訊科技:讓我們從公司這個層面轉向人。你在書中說人類擁有AI不具備的“大寫的創造力”(Capital C creativity)。為什麼只有人類擁有這種能力?Kevin Kelly:我要明確,這是就目前而言。我不是說AI最終學不會“大寫的創造力”,事實上AGI的目標就是實現它。“大寫的創造力”是指突破性的創新。用電腦科學的術語來說,AI非常擅長“爬山”。“爬山”,即通過不斷最佳化找到一個已知的山頂。現在的AI,只能找到已知的解決方案,但突破性的創造力不是爬山,而是創造新的山,發現一個更大的山。現在的AI不擅長提出前所未有的新想法。也許有一天我們能教會它們,但這需要新的模型,擴大現有模型的規模是做不到的。騰訊科技:但是在一個資本主義世界,有價值的東西是因為它可以被出售。我們可以建構一個在所有可出售的技能上都比我們強的AI。Kevin Kelly:是的,它們可以在對經濟有價值的技能上比人類做得更好。如果你只專注於那些對我們當前工作有價值的少數技能,AI確實可以做得比我們好。騰訊科技:我們當今經濟所依賴的,正是我們擅長的這些事。因為AI還不能比我們更好地完成這些日常工作,我們才有工作。當AI達到能比我們做得更好的水平時,我們的社會會如何改變?Kevin Kelly:如果機器人和AI變得非常出色,它們會賺到所有的錢,然後給我們任何我們想要的錢,我們只需要玩耍。對很多人來說,這似乎是他們的夢想。“我為什麼要工作?如果我不用工作,我就應該玩。”我對此不會抱怨。騰訊科技:但這有可能發生嗎?你之前提到AI可能會被幾家公司集中控制,它們擁有巨大的權力,會讓我們什麼都不做只玩嗎?Kevin Kelly:我假設那些公司裡工作的人也在玩。大多數人早上醒來並不會想:“我想做電子表格,我想開公車。”這類工作我認為會消失。這很奇怪,我們認為文明的目標是我們不必工作,但我們又常常擔心失去工作。我們應該希望盡快失去工作才對。騰訊科技:人們現在需要工作,是因為他們要維持生計。Kevin Kelly:工作與生計這兩者是分開的。但如果AI發展得如此之快,下個月就取代了我們所有的工作,那確實是個問題。但沒有任何證據表明它會發生得那麼快。大語言模型已經出現了好幾年,因為AI而被解僱的人數非常非常少。也許這會在十年內發生,但這給了我們充足的時間來調整。騰訊科技:所以在AI能提供足以支撐全民基本收入(UBI)的生產力之前,會有多長的過渡期?Kevin Kelly:我認為UBI並不會發生。因為沒有必要。我們會發現,與其他人待在一起非常有價值。我喜歡觀察富人的行為作為未來的指標。過去只有富人出國度假,現在中產階級也這麼做。我認為,未來富人會只讓自己被人類包圍。億萬富翁不會與AI打交道,他們身邊只會是人,因為人會變得更有價值,會成為一種稀缺品。所以我們作為人類,很多時候會花錢僱傭其他人類來“做人”,來陪伴我們。你會花很多錢去見一個通常只在Zoom上見的朋友;你會花很多錢在你生病時請一個真人坐在你旁邊;你會花很多錢請一個真人老師來教你,並讓AI作為輔助。這就是我們賺取收入和價值的方式。我們的價值在於我們的人性。即使AI和機器人非常聰明能幹,作為人類,我們永遠更願意花時間和另一個人在一起,這是天性。所以人類本身,我們的存在,就變得非常有價值。我們不需要為此做什麼,只要我們活著、健康、有活力,這就變得極具價值。騰訊科技:當我們有了完美的AI虛擬化身,為什麼還需要與人交流呢?相比完美的AI,人類有太多缺點。現在已經有年輕人更願意和聊天機器人交談,因為覺得AI更懂他們。Kevin Kelly:我堅信我們會交流得更多。會有一些人因此感到被隔離,但找到連接感的人會遠遠超過他們。人類的存在,無法被偽造,你能聞到、感受到它。它會變得稀缺。地球上的人口在減少,一百年後可能會減少一半。所以人類的存在會變得極其珍貴。騰訊科技:但讓AI替代人去做事,有一些風險。你假設AI助理需要你的資訊來為你提供個性化的AIOS服務,照顧你的一切。這些資料會被提供這些助理的公司掌握。這不危險嗎?Kevin Kelly:我認為我們應該有一個可以調節的“旋鈕”,讓使用者自己選擇願意開放多少透明度來換取多大程度的個性化服務。我們發現,大多數人為了獲得個性化,會把旋鈕調到最大透明度。所以答案是,人們會為了個性化而放棄隱私。我們願意將資訊交給一個我們信任的公司或機構,關鍵是“信任”。如果我們不信任他們,就不會感到安心。所以問題是,未來人們更信任政府,還是更信任企業或非營利組織?在美國,人們更信任企業。目前,人們在一定程度上願意將資訊交給公司,只要他們能從個性化服務中獲得好處。隨著好處增多,他們會願意放棄更多。所以我認為AI助理需要你的資料,只要它能提供巨大的價值作為回報。騰訊科技:現在已經有很多論文講了用AI操縱人類的可能,甚至用機器人組建軍隊的水平。所以我們應該在事情發生前就立法防範,對嗎?Kevin Kelly:不,我們不必。我們必須等待看看實際發生了什麼,然後基於證據而不是想像來制定政策。基於想像的叫做“預防原則”,這是非常危險的。而“主動原則”是指你使用並不斷測試,基於實際發生的好壞證據來制定政策。騰訊科技:但根據AI安全主義的敘事,在AI時代情況可能完全不同。當AI相關的風險發生時,你可能沒有第二次機會去糾正它。Kevin Kelly:這個說法沒有證據。未來的核心技能是,學會如何為自己學習騰訊科技:你覺得在AI時代的核心技能是什麼?你在書中預測,對高中畢業生來說,最重要的將是“知道如何為自己最好地學習”。你為什麼這麼想?Kevin Kelly:這是一個很自然的問題:“我應該在學校學什麼?我的孩子應該主修什麼?”很明顯,到2049年,一些薪水最高的工作在今天根本不存在。所以解決方案是你必須成為一個終身學習者。人們已經這樣說了一段時間,但“學會如何學習”這項技能,我沒在任何學校見過。我找不到任何一所學校會教你如何最佳化自己的學習。兩年後又會有新東西出現,你必須再重新學習。所以你必須非常擅長學習,但我們卻沒有被教導如何為自己最好地學習。如果是面向學習方法的教育,當你畢業時,老師應該幫助你改進過學習方式,讓你確切地知道你需要多少次重複、多少休息、用什麼方法去學習。我認為這是真正的核心技能,因為回答問題,AI會做;執行任務,AI會很擅長。你將需要不斷學習新東西。騰訊科技:但我們現在在學校也被教了一些學習方法,比如讀書、做練習。Kevin Kelly:是的,但這些方法未必對每個人都適用。教育學告訴我們,每個學生都應該按照自己的節奏進行自定進度的學習。其次,學校沒有嘗試去最佳化你獨立於科目之外的學習能力本身。歷史老師關心的是你是否在學習歷史,而不是你是否在學習以及如何學習。所以沒有人真正關注最佳化你自己的學習能力,而這才是你唯一需要學習的東西。當然,有些基礎是必要的,比如閱讀、一些批判性思維技能、基礎詞彙和數學。確實存在一個每個人都應該知道的知識子集,但它非常小。騰訊科技:現在關於教育有一個很流行的說法是,AI時代know-how可能不再那麼重要,因為AI可以為你完成所有過程,最重要的是提出好問題和做出好選擇。你認為這與學習技能有何關聯?Kevin Kelly:是的,我在另一本書《必然》裡有一整章都在談論從答案到問題的轉變,以及為什麼問題變得更有價值。學習如何提問,本身就是一種學習方式。如果你在學習如何“學習”,你很快就會發現,學會提問是最佳化學習的方法之一。所以我同意,教人如何提問的課程是正確的方向。 (騰訊科技)
Gemini Diffusion:1500 token/秒,快如閃電!
Google推出革命性文字擴散技術!你可能沒注意的是,Google DeepMind 在 I/O 2025 上發佈了一個重磅實驗性模型——Gemini Diffusion!一個將擴散(diffusion)技術用於文字生成的全新嘗試!這或許是一個意義重大的技術突破。擴散模型在圖像生成領域已經證明了其強大的能力(如 Stable Diffusion、DALL-E),但將其應用於純文字生成,這算得上是對傳統語言模型範式的重大挑戰。為什麼這麼快?傳統的自回歸語言模型(如 GPT-4、Claude)生成文字的方式是從左到右順序生成每個標記,類似於人類的寫作過程。也就是模型每多生成一個token,都得先得到其左邊所有的token,然後再將所有當前的token 全部送進神經網路,再通過預測得到下一個token.而 Gemini Diffusion 採用了完全不同的方法:它不是逐個標記生成,而是先將整段文字初始化為「噪聲」,然後通過多次迭代,逐步將這些噪聲「淨化」,最終形成有意義的完整文字。這種方法帶來了顯著的性能提升:官方測試資料顯示,Gemini Diffusion 每秒能生成約 1500 個token!比現有的 Gemini 2.0 Flash-Lite 模型快了整整 5 倍!核心能力據 Google DeepMind 的技術介紹,Gemini Diffusion 具備三大關鍵優勢:超高響應速度:顯著快於Google現有的最快模型更高文字連貫性:能夠一次性生成整塊標記,而非逐個生成迭代自我修正:在生成過程中進行錯誤糾正,確保輸出的一致性特別是對於程式設計和數學這類需要高度邏輯一致性和多次驗證的任務,擴散模型展現出了明顯的優勢。@amirkdev 提出了一個有趣的問題:「對於程式設計來說,它會不會與自己爭論那種括號風格最好?」這是一個幽默卻也頗有洞察的問題——由於平行生成的特性,擴散模型能夠在多個迭代步驟中全域最佳化整段程式碼,包括保持一致的編碼風格。性能相當,但快如閃電值得注意的是,儘管 Gemini Diffusion 採用了全新的生成機制,但在標準基準測試上與 Gemini 2.0 Flash-Lite 的表現相當接近:注意:兩者性能相當,但 Gemini Diffusion 的速度優勢高達 5 倍!官方提供了詳細的基準測試結果:資料顯示 Gemini Diffusion 在大多數指標上與 Gemini 2.0 Flash-Lite 表現相當,且在 AIME 2025(數學)測試上略有優勢。速度突破的技術原理網友@karthik_dulam 也好奇提問:「誰能解釋為什麼擴散語言模型能夠快一個數量級?」那麼,為什麼擴散模型在文字生成領域能實現數量級的速度提升呢?據分析,這涉及四個核心技術「加速機制」:1. 平行解碼架構自回歸模型:必須按順序生成標記,後一個標記依賴前一個的完成。擴散模型:整句話同時處理,所有位置平行進行噪聲去除。@itsArmanj 給出了推測性的分析:「幫我理解:如果你讓 Transformer 計算二乘三,它會推理出 23=,然後下一個標記是 6。擴散模型如何在形成 23 之前就得出 6?」事實上,擴散模型不依賴順序推理,而是在多輪迭代中最佳化整個序列。它先生成包含噪聲的「候選答案」,然後通過多步去噪過程,確保整個表示式和答案在數學上的一致性。2. 可調迭代步數Gemini Diffusion 僅需約12步迭代就能生成高品質文字,而自回歸模型處理一個包含1000個標記的段落則需要1000次順序處理。3. 高效算子融合擴散模型採用雙向注意力而非單向注意力機制,不需要維護 KV-cache,更適合充分利用 GPU/TPU 的平行計算架構。@LeeLeepenkman 觀察到:「我們又回到了擴散器和 DIT 塊的路線。之前大家都在嘗試自回歸圖像生成,因為 4oimage 採用了這種方式,但當你深入思考或實際嘗試時會發現這種方式相當緩慢。通過大規模擴展擴散模型,我們或許能達到這種邏輯和文字精度,就像實現逼真的光照一樣。」通過規模擴展,擴散模型將有可能達到與自回歸模型相同的邏輯推理能力和精準性,同時保持其顯著的速度優勢。4. 計算資源最佳化擴散模型僅在最後一步將輸出對應到詞表,顯著減少了計算開銷。技術路線對比:擴散與自回歸的範式之爭@TendiesOfWisdom 提出了一個富有啟發性的類比:「科幻電影《降臨》中的外星人文字 = 新的擴散語言模型?他們的圓形文字一次性傳遞完整概念;這些模型平行迭代達成連貫性,拋棄了逐步生成標記的方式。非線性思維與 AI 的下一波浪潮相遇。」這個比喻倒是有些意思,科幻電影《降臨》中外星人的圓形文字能夠一次性表達完整概念,擴散語言模型也採用「非線性」方式同步生成整段內容。跨模態統一的技術趨勢值得關注的是,Google 正將擴散技術統一應用於文字(Gemini Diffusion)、圖像(Imagen 4)和視訊(Veo 3)三大領域,這顯然是在建構一個基於擴散技術的全模態 AI 生態系統。Google 尚未發佈 Gemini Diffusion 的詳細技術論文,僅有一篇簡單的產品介紹連結:https://deepmind.google/models/gemini-diffusion/不過,此前也有相關的技術路線研究,如 Diffusion-LM(Stanford, 2022)和 d1(UCLA & Meta, 2025)等工作。目前,Gemini Diffusion 僅向有限的合作夥伴開放測試,但 Google 已開放了候補名單供研究者和開發者註冊。我已經排上隊了,連結在此:https://docs.google.com/forms/u/0/d/e/1FAIpQLSdsxa-YU25JIPJGmu-pySJEYeTy6lwbdZAzxlZ11x3GPj6DhA/formResponse這次的Gemini Diffusion,展示的不僅是速度的提升,更可能是生成範式的根本性變革。這,或將會是個有趣的實驗對象。而隨著擴散模型在文字生成領域應用的開啟,我們可能正在見證 AI 生成技術的又一次革命性轉變。 (AGI Hunt)
通義萬相VACE開源!一款模型搞定多種視訊編輯任務
此次開放原始碼的 Wan2.1-VACE-1.3B 支援 480P 解析度,Wan2.1-VACE-14B 支援 480P 和 720P 解析度。通過 VACE,使用者可一站式完成文生視訊、圖像參考生成、局部編輯與視訊擴展等多種任務,無需頻繁切換模型或工具,真正實現高效、靈活的視訊創作體驗。傳統視訊生成流程,一旦生成完成,想要調整人物姿態、動作軌跡或場景佈局非常困難。VACE 提供了強大的可控重繪能力,支援基於人體姿態、運動光流、結構保持、空間運動、著色等控制生成,同時也支援基於主體和背景參考的視訊生成。背後的核心技術是 VACE 的多模態輸入機制,不同於僅依賴文字提示的傳統模型,VACE 建構了一個集文字、圖像、視訊、Mask 和控制訊號於一體的統一輸入系統。對於圖像輸入,VACE 可支援物體參考圖或視訊幀;對於視訊輸入,使用者可以通過抹除、局部擴展等操作,使用 VACE 重新生成;對於局部區域,使用者可以通過0/1二值訊號來指定編輯區域;對於控制訊號,VACE支援深度圖、光流、佈局、灰度、線稿和姿態等。VACE 支援對視訊中指定區域進行內容替換、增加或刪除等操作。在時間維度上,VACE 可根據任意片段或首尾幀補全整個視訊時長;在空間維度上,支援對畫面邊緣或背景區域進行擴展生成,如背景替換 ——在保留主體不變的前提下,依據 Prompt 更換背景環境。得益於強大的多模態輸入模組和 Wan2.1 的生成能力,傳統專家模型能實現的功能 VACE 可以輕鬆駕馭,包括:圖像參考能力,給定參考主體和背景,可以完成元素一致性生成視訊重繪能力,包括姿態遷移、運動控制、結構控制、重新著色等局部編輯能力,包括主體重塑、主體移除、背景延展、時長延展等VACE 還支援多種單任務能力的自由組合,打破了傳統專家模型各自為戰的協作瓶頸。作為統一模型,它能夠自然融合文生視訊、姿態控制、背景替換、局部編輯等原子能力,無需為單一功能單獨訓練新模型。這種靈活的組合機制,不僅大幅簡化創作流程,也極大拓展了 AI 視訊生成的創意邊界,例如:組合圖片參考 + 主體重塑功能 → 視訊中物體替換組合運動控制 + 首幀參考功能 → 靜態圖片的姿態控制組合圖片參考 + 首幀參考 + 背景擴展 + 時長延展 → 將豎版圖拓展為橫式影片,並且在其中加入參考圖片中的元素。我們通過對四類常見任務(文生視訊、圖生視訊、視訊生視訊、局部視訊生視訊)的輸入形態進行分析和總結,提出了一個靈活統一的輸入範式:視訊條件單元 VCU。它將多模態的各類上下文輸入,總結成了文字、幀序列、mask 序列三大形態,在輸入形式上統一了 4 類視訊生成與編輯任務的統一。VCU 的幀序列和 Mask 序列在數學上可以相互疊加,為多工的自由組合創造條件。如何將多模態輸入統一編碼為擴散 Transformer 可處理的 token 序列?這是 VACE 需要解決的一大難題。首先,VACE 對 VCU 輸入中的 Frame 序列進行概念解耦,將其分為兩類:一類是需要原封不動保留的 RGB 像素(不變幀序列),另一類是需要根據提示重新生成的內容(可變幀序列)。接下來,分別對這三類輸入(可變幀、不變幀、Mask)進行隱空間編碼,其中,可變幀和不變幀通過 VAE 被編碼到與 DiT 模型噪聲維度一致的空間,通道數為 16;而 mask 序列則通過變形和採樣操作,被對應到時空維度一致、通道數為 64 的隱空間特徵。最後,將 Frame 序列和 mask 序列的隱空間特徵合一,並通過可訓練參數對應為 DiT 的 token 序列。通過本次發佈的 VACE 系列模型定量評測可以看出,相比 1.3B preview 版本,模型在多個關鍵指標上均有明顯提升。在訓練策略上,我們對比了全域微調與上下文介面卡微調兩種方案。全域微調通過訓練全部 DiT 參數,能取得更快的推理速度;而上下文適配微調方案是固定原始的基模型參數,僅選擇性地複製並訓練一些原始 Transformer 層作為額外的介面卡。實驗表明,兩者在驗證損失上差異不大,但上下文介面卡微調具有更快的收斂速度,且避免了基礎能力丟失的風險。因此,本次開源版本採用該方法進行訓練。如果想要基於 VACE 進行二次開發,可以遵循以下步驟進行使用,首先從 GitHub 下載 Wan2.1 的官方repo,再進入HuggingFace或  ModelScope下載對應的 VACE 模型,在 Wan 的主站也即將支援 VACE 的部分功能。 (通義大模型)
OpenAI 圖像API來襲!幾行程式碼,讓你的創意瞬間成真!
🔥 你敢相信?幾秒鐘讓AI為你畫出夢想中的世界!有沒有一刻,你腦海中浮現出一個絕妙的畫面,卻苦於無法將它呈現出來?現在,這個遺憾將成為過去!OpenAI,這個AI領域的“魔法師”,正式通過API開放了它的圖像生成神器——gpt-image-1。幾行程式碼,幾秒鐘時間,你的創意就能從虛幻變為現實。 🚀1. 技術的魔法棒:點燃創意的火花gpt-image-1,這個曾在ChatGPT中掀起熱潮的圖像生成模型,如今化身為開發者的「秘密武器」。它能聽懂你的指令,生成多樣風格的圖像,甚至還能精準呈現文字——這可是許多AI圖像工具的「老大難」問題。開發者可以透過API調整影像的解析度、風格,甚至背景透明度,彷彿擁有能隨心所欲揮舞的魔法畫筆。 🎨2. 使用者的狂熱:數字裡藏著的情感資料是最真實的見證者。ChatGPT影像功能上線首周,全球1.3億用戶創作了超過7億張圖片! 📊 這不是冷冰冰的數字,而是無數人對自我表達的渴望、對美的追求。如今,這股熱潮透過API釋放給了開發者,讓更多人能在這場創意盛宴中分一杯羹。你,準備好加入了嗎?3. 價格的誠意:讓每個人都能玩轉AIOpenAI用行動證明,尖端技術不該高高在上。他們的定價如同貼心的朋友:低解析度圖像每張約0.02美元,高畫質圖像也僅0.19美元。 💸 這樣的價格,讓初創公司、獨立開發者,甚至是學生,都能輕鬆將AI圖像生成融入自己的項目。創意,從未如此平易近人。4. 產業的風向標:先行者的腳步大玩家們早已聞風而動。Adobe將gpt-image-1嵌入Firefly和Express,Figma讓設計師在設計中直接產生圖像,Wix、Canva等平台也正在加速探索。 🌟 想像一下,在Figma中,你可以用幾句話產生一張海報,然後調整風格、增刪元素,整個過程如行雲流水。這樣的效率,誰能不愛?5. 安全的燈塔:創新不失底線技術如同一匹奔騰的野馬,OpenAI卻懂得如何為它套上韁繩。他們通過C2PA中繼資料浮水印,確保每張AI圖像都有“身份證”,來源透明可追溯。同時,開發者還能調節內容審計的敏感度,既釋放了創意的自由,也守護了技術的底線。 🛡️🌈 你呢?準備好迎接這場創意風暴了嗎?看到這裡,你是否已經心動不已?如果是你,這項技術會如何點亮你的生活?開發者們,你會用它打造什麼驚豔的應用?一般使用者們,你期待在那些場景中看到AI圖像的魔法?請在評論區留下你的想法,或是把這篇文章分享給你的好友,一起加入這場AI圖像革命的狂歡吧! 🎉 (澤問科技)
震驚!大福利,openai圖像生成重大更新
你還在為創意設計而苦惱嗎?還在為找不到合適的圖像素材而焦頭爛額?OpenAI的GPT-4o,即將徹底顛覆你對創意的想像!💡一場前所未有的視覺盛宴想像一下,只需輕輕一句話,眼前就能立即呈現出你想要的精準圖像。這不再是科幻電影中的橋段,而是即將成為現實的突破性技術!GPT-4o正在用無與倫比的魔法,將你的想像力瞬間轉化為視覺作品。🎨GPT-4o不僅僅是一個簡單的圖像生成工具,它更像是一位懂得傾聽、能夠理解你內心創意的藝術大師。無論是精準的logo設計、生動的教育插圖,還是富有創意的社交媒體配圖,它都能瞬間將你的靈感具象化。🌈重大突破,席捲各行各業1. 設計師的秘密武器再也不用為找不到靈感而焦慮!GPT-4o能精準捕捉你的設計意圖,瞬間生成多種風格的創意方案。從寫實到抽象,從簡約到複雜,隨心所欲。💪2. 行銷人員的得力助手想要製作吸引眼球的宣傳海報?想要打造獨特的品牌形象?GPT-4o將成為你最強大的創意夥伴,輕鬆生成專業且富有感染力的視覺內容。📣3. 教育領域的創新工具複雜的科學概念、歷史場景,都能瞬間通過GPT-4o轉化為生動的可視化圖像,讓學習變得輕鬆有趣。🌍技術之神,還是創意魔法師?GPT-4o不僅僅是冰冷的技術,更是一位能夠讀懂人心、激發創造力的藝術家。它能精準還原文字細節、處理多個對象、適應各種藝術風格,簡直是創意的百變精靈!✨值得稱道的是,OpenAI在技術創新的同時,始終不忘對技術的負責任開發。每一張AI生成的圖像都經過嚴格審查,確保創意的安全與合規。🛡️朋友們,AI正在重新定義創意的邊界。GPT-4o不僅僅是一個工具,更是一扇通向無限想像力的大門。👉 你對這項顛覆性技術有什麼看法? 👉 你期待用它解決什麼創意難題?快快在評論區分享你的想法,一起見證這場創意革命的璀璨時刻!記得轉發給你的朋友,讓更多人瞭解這個令人驚嘆的AI黑科技!🌟 (澤問科技)
驚豔!5大理由,讓你徹底改變對GPT-4o的看法!
🚀 你還在為AI生成圖片千篇一律而煩惱嗎?OpenAI最新推出的GPT-4o模型,即將顛覆你對人工智慧圖像生成的所有認知!在科技飛速發展的今天,人工智慧正以超乎想像的速度改變著我們的生活。就在剛剛,OpenAI悄然推出了一項技術突破 —— GPT-4o模型的圖像生成功能,簡直驚豔到讓人難以置信!🤯角色一致性:告別千篇一律想像一下,你是否曾被AI生成的圖片中那些面目全非、前後矛盾的"角色"所困擾?GPT-4o用"角色一致性"功能徹底解決了這個行業痛點!以往,我們需要為每一張圖片加入繁瑣的"種子碼"來保持角色特徵。現在?只需一個簡單的指令,GPT-4o就能精準還原角色的每一個細節 —— 從髮型、眼鏡到服裝,甚至是微妙的表情變化,都能保持驚人的一致性!🕵️‍♂️文字渲染:細節到極致文字渲染向來是AI圖像生成的一大難點。模糊、變形、錯位……這些都將成為過去。GPT-4o展現出的文字渲染能力,簡直令人瞠目結舌!無論是複雜的學術公式,還是動漫場景中的對話氣泡,GPT-4o都能以令人驚嘆的精確度呈現。字型清晰、邊緣平滑,彷彿是專業設計師精心雕琢的傑作。✍️細節控制:創意無限還在為找不到合適的表情包而發愁嗎?GPT-4o的"細節指令"功能將徹底釋放你的創意潛能!想要九宮格展示不同表情?想要精準定製每一個細節?只需簡單的文字描述,GPT-4o就能為你量身定製專屬表情包。想表達什麼,它都能完美呈現!🎭GPT-4o不僅僅是一個圖像生成工具,更是想像力的放大器。背景重建、風格轉換、角色一致性……這些曾經需要專業設計師耗費大量時間的工作,現在只需幾秒鐘就能完成!在這個視覺智能爆發的時代,你是選擇被動接受,還是主動擁抱變革?GPT-4o正在重新定義創意的邊界,你,還在猶豫什麼? 🌟 (澤問科技)