#GoogleAI
36個月大逆轉!他帶著GoogleAI殺回來了,下一步世界模型
ChatGPT發佈距今已近36個月,面對OpenAI的領先,哈薩比斯帶領GoogleAI全面反攻,通過新發佈的Gemini 3強勢回歸。Gemini 3在LM Arena等多個模型榜單登頂,表現優於GPT-5及其他模型,上演了一場完美逆襲。大模型排行榜,你方唱罷我登場。馬斯克的Grok 4.1剛登頂,隨後就被Gemini 3 Pro反超了,上演了一幕AI版的「速度與激情」!Google DeepMind CEO哈薩比斯(Demis Hassabis)哈薩比斯在X平台上興奮地曬出Gemini 3的成績單,稱其「當然地」登頂各大排行榜,並表示這是自己迄今為止最愛的模型。就連奧特曼和馬斯克,也紛紛為Gemini 3點贊。馬斯克連發兩個哭泣的表情包:看來我們要盡快推Grok 4.2了。新發佈的Gemini 3具備領先的推理、多媒體處理和編碼能力,擅長推理、生成視訊和寫程式碼。Google強調,Gemini 3不只是一個更聰明的模型或聊天機器人,更重要的是它從發佈之日起,就開始全面增強Google現有產品,包括其利潤可觀的搜尋業務。它是Google這台龐大的賺錢機器的AI引擎,用哈薩比斯的話說:「我們是Google的動力引擎,現在我們正在讓AI全面接入」。哈薩比斯認為目前確實可能存在AI泡沫的問題,比如許多尚未經過檢驗的初創公司卻拿到了數十億美元的估值。但在他看來,即便是AI泡沫真的破裂,Gemini 3也讓Google有了穿越這場泡沫的底氣。把Google搜尋塞進GeminiGoogle內部,一直有一個把Google搜尋「塞」進Gemini的想法。這一想法,甚至可以追溯到Google早期。當時的Larry Page和Sergey Brin就設想過把整個網際網路都放進AI的「記憶」中,然後再對外提供服務。因此,Google在上下文方面做了大量實驗,並將上下文窗口提升到了100萬個token,目前這個記錄仍沒真正被人打破。哈薩比斯認為,機器理論上可以擁有比人類多幾百萬倍的儲存/記憶空間,但如果只是「天真地」把所有東西暴力存下來,其實並不高效。因此,與Google搜尋「塞」進Gemini相比,Google更多是把Gemini作為現有產品的底層模型向使用者開放。此次Gemini 3一發佈,Google已經正式通過Gemini應用,以及Google搜尋中的AI Overviews功能向使用者開放。據Google母公司Alphabet在7月的季度財報中表示,AI Overviews推動搜尋查詢量提升了10%。同時,Google視覺搜尋也出現了70%的激增,這項功能依賴於Gemini對照片的分析能力。與OpenAI相比,Google的優勢在於其產品「家底」深厚。它擁有包括搜尋、Google地圖、Gmail、雲服務等非常廣泛的基礎產品線。而且,Google很早就開始利用AI來增強其已有產品的能力。這使得它在與OpenAI、xAI、Anthropic等AI廠商的競爭中進可攻,退可守。哈薩比斯表示,「在不利的情況下,我們會更加依靠這些基礎產品;在有利的情況下,我們擁有最全面的佈局和最具前瞻性的研究。」Google也在考慮通過Gemini重啟Google眼鏡(Google Glass)項目。哈薩比斯表示,當時Google眼鏡步子邁得有點超前,缺少一個真正的「殺手級用例」,而通用助手正是這樣一個用例。因此,未來Gemini也將啟動Google以往積累下來的「經驗和遺產」,但是重點會放在「世界理解」上。以Gemini為例,Google一開始就將機器人和眼鏡視為兩個非常重要的應用場景,因此決定走多模態路線。如今,這些押注正在逐漸顯現出成果,Gemini已經在多模態理解上顯現出明顯優勢。除了用AI增強現有和以往的產品之外,Google也在積極利用AI打造越來越受歡迎的新工具。比如,NotebookLM,它可以根據文字材料自動生成播客;AI Studio,可以借助AI快速生成應用原型,等等。此外,Google還探索將這項技術應用到遊戲、機器人等領域。哈薩比斯提到GoogleAI的一個優勢,目前所有產品已經完全跑在Gemini技術堆疊上,實現了從產品到模型的「一體化」。這意味著無論是產品改動,還是模型微調都會容易很多,而且產品也可以更好地學會理解和使用底層模型。目前,哈薩比斯的重要精力,一半是將Gemini應用進一步加速做強,另一方面是將AI融入Google的各條業務線,使之成為Google的「AI動力艙」。「我對這一切非常興奮,目前我們只是剛剛觸及未來可能性的表面,明年會更直觀地看到這些變化」。哈薩比斯表示。被OpenAI「搶跑」後Google正快速趕上Google在AI領域長期投入巨大資源,並取得了一系列關鍵性突破。包括在2017年發現了Transformer模型架構,但沒有將其商業化,而是選擇把它公開。一直到2022年,OpenAI基於Transformer的ChatGPT爆火,動搖了Google的核心搜尋業務,才令它深受震動,開始奮起直追。有意思的是,OpenAI的崛起,不僅喚醒了Google在AI領域的加速發展,甚至還間接幫助Google避免了被分拆,出售其搜尋業務的命運。如今,Google的搜尋業務不僅沒有被OpenAI等AI新勢力所顛覆,相反它的AI模型還實現了對後者的反超。與Gemini3相比,OpenAI在8月份發佈的GPT-5令人略顯失望。一些評論者認為它「表現平平」,使用者也抱怨其風格變得更正式。據Google表示,Gemini 3在LM Arena等多個模型榜單上的表現優於GPT-5及其他模型,尤其在模擬推理以及長時間規劃方面表現更佳,這有助於提升依賴工具或網際網路的AI智能體的實際能力。在早期的AI競賽中,經歷過一些磕磕絆絆之後,Google總算是「漸入佳境」了。從使用者活躍度上看,Gemini應用的月活使用者已超過6.5億,僅次於ChatGPT的7-8億周活使用者(如果換算成月活可能在10億以上)。每月有超過20億人通過搜尋裡的AI Overviews使用Gemini;還有約1300萬開發者在自己的產品中整合了Gemini。這些數字表明Google正在逐漸縮短與OpenAI在AI領域的差距,作為GoogleAI總負責人的哈薩比斯也可以鬆口氣了。各方面都最強才叫AGI實現還要5-10年哈薩比斯表示,Google仍然在追求做「各方面都最強」的模型。在他看來,這才是真正意義上的通用模型,也是最終通向通用人工智慧(AGI)系統的關鍵組成部分。從之前的幾個版本到Gemini3,Google一直在修正Gemini模型的一些短板,使其在程式設計、推理、數學等能力上更進一步。比如,此次Gemini 3就在2.5之上迭代,一方面升級它的基礎能力,另一方鞏固在多模態領域的優勢。哈薩比斯認為未來AI的技術路線會越來越收斂,而擁有一個通用、全能的基礎模型將是一切的地基。除此次發佈的Gemini3 Pro外,Gemini模型家族裡的其他成員也在打磨中,等到這些模型陸續就位之後,Google還將在產品分層服務上提供更大的靈活度。簡單來說,就是更強的性能,更低的價格。正如哈薩比斯所言:「大方向是每一代新模型,都要在整體能力上更強,同時所需算力更便宜、更高效,帶來更有競爭力的價格和更低的時延」。目前,哈薩比斯在世界模型研究上花時間最多,在他看來這是通往AGI的關鍵元件。同樣,他也認為未來世界模型也將迎來類似ChatGPT那樣的「爆發時刻」。但最大的挑戰是推理/服務成本,以及還要解決在更長時間尺度上保持世界一致性等關鍵難題,才能迎來真正的「破圈」時刻。哈薩比斯表示,目前世界模型已經有了一些內部用例,比如用來訓練其他智能體、機器人系統等。未來可能會出現一些非常酷的外部應用場景。哈薩比斯仍然堅持他對通用人工智慧(AGI)時間表的預測。他認為距離真正意義上的完全實現AGI還有五到十年,而Gemini 3將成為未來打造更強大AI的重要平台,還需要在現有模型不斷變強的基礎上再取得一兩次關鍵性突破。在通往AGI的路上,哈薩比斯同樣也有算力焦慮。他坦言「即便將現在全世界的算力加在一起,也不夠滿足我們想做的所有事情」。因此,需要在不同項目之間衡量算力投入的回報。比如,研究上的收益、新產品探索的價值,或是直接的收入等。除了追求AGI,哈薩比斯還在帶領DeepMind在AlphaEvolve等一些科學領域進一步擴展。穿越AI泡沫的底氣談到AI泡沫,哈薩比斯整體上還是比較樂觀的,但他認為仍然存在一定的泡沫。「那些幾乎沒有什麼的項目,種子輪估值就能到幾十億美元,這在邏輯上有點行不通。」對比這些泡沫,哈薩比斯認為Google的位置非常好。就DeepMind而言,既有紮實營收,同時又承擔著Google「AI動力艙」的重任;既有Gemini模型及App,還有基於Gemini的NotebookLM等AI優先產品。哈薩比斯表示,目前AI已經在Google現有業務中看到了立竿見影的回報:正在為搜尋、YouTube、雲等業務「加功率」。作為DeepMind的聯合創始人,哈薩比斯早在12年前選擇與Google「聯手」時,已經考量過雙方合作的價值:Google可以提供海量的算力資源,同時它的產品又天然適合用AI去增強。目前,這條路正一步步變成現實。在哈薩比斯看來,Google與DeepMind的結合,讓現在的Google在AI競爭中處於一個非常有利的位置,使它有機會穿越泡沫,笑到最後。 (新智元)
Google AI 今年最大王炸!測試曝光直接復刻 macOS,比GPT-5更值得期待
還記得不久前我們介紹過一波 Google AI 全家桶嗎,那會兒正是 nano banana 爆火,Gemini 登頂第一。許多人因此第一次去嘗試了 Gemini 2.5 Pro,發現這個不聲不響的旗艦模型,很多時候竟然比 GPT-5 還要好。現在,更強大的 Gemini 3.0,已經在 Google AI Studio 的測試裡「提前上線」。網友們發現,它的能力提升不止一星半點,能直接用一套簡單的提示詞生成一個網頁版 Windows、macOS 等。大量的測試結果,都提到 Gemini 3 寫的程式碼能直接運行,前端設計也更成熟,甚至能做出剪視訊、刷短影片的工具。這有可能是 Gemini 繼續在圖像編輯領域之外,再次超越 Claude 和 GPT-5 的時刻。不過,是不是跟當時 GPT-5 一樣的行銷,還是真的能改變我們的使用體驗,先跟我們一起來看看這些網友分享的 Gemini 3 案例吧。起手就是寫一個 Windows?就像 nano banana 在判斷生圖能力時,採用的指標,是看這個模型在生成文字時的表現。而如何判斷一個基礎模型的交付能力,程式設計,這種一旦程式碼裡有個輕微的錯誤,就無法運行的項目,成了大部分基礎模型廠商專攻的方向,一開始在這方面表現不錯的 Claude,也因此賺得了一定的聲量。選擇 Agentic Coding Average(智能體程式設計任務平均得分)後,模型排行榜,Claude Sonnet 4.5 位於第一名。來源:https://livebench.ai/近期多個博主在 X 上爆料,即將推出的 Gemini 3,在多個程式設計任務上的真實表現,不用說打敗 GPT-5,甚至有直接超越 Claude 的趨勢。Google AI Studio 負責人 Logan 也在 X 上回覆網友,確認了 Gemini 3 擁有工具呼叫的能力,即我們常說的智能體。以前的程式設計測試,大多數集中在對邏輯能力的理解,一個小球在六邊形框框裡面流動的物理測試;對前端能力的審美把握,觀察 AI 生成的網站,是否足夠互動友好,頁面現代化;還有一些實用型的小遊戲或小工具等。這次放出來的部分 Gemini 3 測試,完全可以說是一次測試樣例的大升級。X 博主 chetaslua 分享了多個由 Gemini 3 完成的程式設計任務。它能直接給我們生成一個 macOS 的網頁電腦,在這個網頁裡,就像是在操作一台雲電腦。所有的應用程式都可以打開,點選 Safari 的圖示,可以進入瀏覽器,並在網頁裡繼續訪問。prompt: Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block提示詞:設計並建立一個類似 macOS 作業系統的全功能網路作業系統,從文字編輯器、帶 Python 的終端和程式碼編輯器開始,并包含一個可玩的遊戲,用於檔案管理器、繪圖、視訊編輯器以及所有重要的 Windows 作業系統預裝軟體。使用任何庫來完成這個任務,但確保我能夠將所有內容貼上到一個單一的 HTML 檔案中,並在 Chrome 中打開它。使其有趣且高度詳細,展示沒有人預期的細節,在一個程式碼塊中實現完全的創意和美感原始碼: https://codepen.io/ChetasLua/pen/yyezLjN來源:https://x.com/chetaslua/status/1977866953705316571把提示詞中 macOS 換成 Windows、Linux Ubuntu 等。不僅 macOS 雲電腦能生成,博主還用同樣的提示詞,修改成 Windows、Linux、以及雲手機等作業系統,開機動畫、系統內操作,同樣能完美還原。而且,Gemini 3 在處理這些程式設計任務時,速度也得到了提升。根據博主在評論區的回覆,Gemini 3 的推理速度在 1-2 分鐘。當把同樣的提示詞交給 Claude Sonnet 4.5 處理,網友分享的結果是,Claude 只是生成了一個頁面,所有的應用程式都不能點開。我也測試了一下 GPT-5 的能力,雖然它可以點開某些應用,但是打開之後,就沒有下一步的處理邏輯了。https://x.com/pallavmac/status/1977979879489679640還有一個小彩蛋,在網頁打開的雲電腦裡面,點選終端,輸入 matrix,我們會看到類似駭客帝國電影海報的 01 流動程式碼,可以說是真矩陣革命(駭客帝國電影港版譯名)了。除了這幾個熱門的系統還原測試,Gemini 3 的程式設計能力,還體現在它的前端,也有了其他 AI 模型做不到的進步。最明顯的就是 AI 程式設計容易出現的漸變紫,Gemini 3 終於擺脫了。x@Liam06972452,提示詞:Write full HTML, CSS and JavaScript for a stunning, bold, creative and unique landing page for a website about llms. It should look like it was built from scratch by a world-leading web design agency.就像這個關於大語言模型的網站,輸入的提示詞僅僅是「為關於 LLMs 的網站編寫完整的 HTML、CSS 和 JavaScript,以建立一個令人驚嘆、大膽、富有創意和獨特的著陸頁。它應該看起來像是世界頂尖的網頁設計公司從頭開始建構的。」網友們紛紛在評論區說,Gemini 3 一定有專門和設計師在合作,還有人預測 Gemini 3 將在前端領域,像 nano banana 一樣佔據主導地位。不過也有人認為 Gemini 3 的前端,還是有一些問題。儘管它解決了那些討厭的漸變,改變了大多數 AI 模型,長期以來一直在做的同樣事情,但 3.0 的前端總是黑色,除非明確提示。在我看來,黑色比漸變好太多,網站的設計就是應該簡潔大方。基於能一句話搓出一個作業系統,還有優秀的前端能力,Gemini 3 還可以生成一個線上的視訊編輯器,當然也是真的能夠剪輯視訊。提示詞:create amazing single html page video editor that WORKS! make it amazing.(建立一個令人驚嘆的單一 HTML 頁面視訊編輯器,它必須能正常工作!讓它變得非常棒。)  來源:https://x.com/sbalhatlani/status/1977501190322549017  CodePen 可運行的體驗連結:https://codepen.io/DiNaSoR/pen/WbrEELE一個能無限流刷視訊的抖音 App 網頁版。來源:https://www.reddit.com/r/Bard/comments/1o67jz4/crazy_google_gemini_30_pro_just_built_a_perfect/體驗地址:https://jsbin.com/yisixokuwi/1那些做 vibe coding、一鍵生成網頁應用工具的 Lovable、Cursor 等,可能要考慮默認模型換成 Gemini 3 了。在經典的程式碼能力測試上,還有一個生成騎自行車的鵜鶘任務,比較模型對於 SVG 程式碼的生成效果。Gemini 3 能生成普通的版本的鵜鶘。https://x.com/whylifeis4/status/1974205929110311134甚至還有遊戲《我的世界》同款風格的 3D 版本。查看更多內容;https://x.com/Lentils80/status/1977441690970476621騎自行車的鵜鶘,現在屬於是大語言模型程式碼能力的基準測試了。我們還看到有網友用 Gemini 3.0 Pro,生成了一個宇航員在月球打高爾夫的 SVG 動畫。https://x.com/itsleonliang/status/1976296575052939596生圖、視覺理解,nano banana 全面版除了程式設計能力,作為 Google 最強基礎模型,視覺理解能力同樣出色。通過了六指測試。https://x.com/AlLeakWire/status/1976565987500753341能夠把一個潦草的手寫文件,精準提取裡面的所有內容。https://x.com/HistoryGPT/status/1977895243195334826以及生成各種各樣的城堡測試。https://x.com/bercankilic/status/1977476903029383669上下滑動查看更多內容;https://x.com/scaling01/status/1977392252931437052無聊玩玩 Gemini 3 做的小遊戲最後,讓它來生成一些小遊戲,小工具,部分釋放出的 Gemini 3 測試案例表現都很不錯。例如可以讓 Gemini 3 為我們創作原創音樂。https://x.com/legit_api/status/1977033715965718754製作一個帶有 Gemini 創作的真實配樂的遊戲。https://x.com/cannn064/status/1977882763832201643還有說是由 Gemini 3.0 Pro 製作的吸血鬼遊戲。https://x.com/cannn064/status/1977542849848823845體驗地址:https://codepen.io/jules064/pen/bNErYKX目前這些爆料出來的 Gemini 3 測試,都是在 Google AI Studio 網頁上 A/B 測試完成的。但是 A/B 測試觸發的條件相當隨機,就像我們有時候用 ChatGPT 聊天,它會突然給我們兩個答案,要我們選擇更喜歡那一個。這些網友也是不斷地在 AI Studio 裡面瘋狂輸入提示詞,直到 AI Studio 給出了兩個不同的回答,然後默認更好的那個就是 Gemini 3,甚至 Gemini 3.0 Pro、Ultra 等版本。有網友說,這只是一個 A/B 測試,並不能得出結論說這個結果是由 Gemini 3.0 生成,因為也有可能只是,同一個模型,不同參數的 A/B 測試。甚至有人發 X 說 Gemini 3 的智能體能力獲得大提升,但是在帖子被廣泛傳播之後,他又緊急闢謠,Google 周六不上班。因此,目前這些爆料,大多集中在比較客觀理性的任務上,能夠直接區分出 Gemini 2.5 Pro 和 Gemini 3.0 的差別。像是寫作、我們日常的交流這些問題上,沒有客觀統一的標準,即使觸發了 A/B 測試,也很難明確,那個是 Gemini 3.0。不過,就在今天,Google AI Studio 首頁倒是真的有了一次更新,加入了 API 資料統計等功能,很難不讓人懷疑,這是在為 Gemini 3.0 上線做準備。有網友直接問 AI studio 負責人,Gemini 3 是不是即將到來,Logan 回覆他說「可能性很高」。至於會不會像之前,網上爆料說一個實習生洩露的發佈日期,即 10 月 22 日,還真的沒有定論。而關於 Gemini 3 能力如何,目前唯一來自官方的確認,也只有 Mikhail 發佈的這條推文,他說 Demis 上周告訴他,Gemini 3 會讓人印象深刻。Demis Hassabis 是 Google DeepMind 負責人,而 Mikhail Parakhin 曾在微軟工作,現在是 Shopify 首席技術官 CTO。總而言之,Gemini 3 肯定是馬上要來了。OpenAI 憑藉著自身擁有的龐大使用者,和 ChatGPT 收集的海量資料,在最近持續性地推出了多項應用,主動推送、購物、接入 App 等等,似乎是進一步鞏固使用者群體,不讓他們離開。Claude 繼續著他們在程式設計領域的老大地位,按照計畫、不過分行銷的推進基礎模型的更新,也在他們最看重的安全方面,發佈了多項研究。作為後來居上的 Google,靠著 nano banana 屬實讓 Gemini 大火了一把,現在我們說到圖像編輯,一定會有 nano banana,這就就跟說到程式設計,離不開 Claude 一樣。我甚至會覺得,Google 終於追上來了。事實證明,大模型的能力還是有辦法繼續再「卷」下去的,並不是說只能轉型去做應用、捲入口。我們對大模型的期待一直都有,而且也沒有變得很高,只是希望它真的能做出一些「哇」的東西。 (APPSO)
Google副總裁:解密GoogleAI轉型內幕,從“搜尋已死”到Gemini登頂,分享成功產品的三大法則
8月26日,隨著Nano Banana功能正式發佈,短短兩周時間,Gemini新增了2300萬使用者,被用於編輯超過5億張圖片,Gemini也在9月12日首次登頂美國App Store榜首,霸榜兩三周之久。(雖然,隨著Sora的橫空出世,目前即時榜中又跌落到ChatGPT和Sora之後的第三名)。這個結果已經讓無數觀察者跌破眼鏡——過去幾年,人們一直在質疑Google在AI消費級產品上的表現,認為這家搜尋巨頭已經被OpenAI等新興公司遠遠甩在身後。在最新一期的播客訪談中,Google搜尋產品副總裁Robby Stein揭秘了這場AI轉型的內幕故事。作為Google搜尋的核心負責人,Stein不僅見證了Gemini的崛起,也是AI Mode、AI Overviews等革命性產品的幕後推手。此外,這位曾打造Instagram Stories、Reels等十億級產品的產品人,也分享了他對打造AI產品的獨特見解。(訪談連結:Inside Google's AI turnaround: AI Mode, AI Overviews, and vision for AI-powered search | Robby Stein,https://www.youtube.com/watch?v=kOnsqqVbIeY&t=48s)核心觀點速覽1. Gemini逆襲登頂:9月到10月GoogleGemini意外擊敗ChatGPT,一度成為App Store排名第一的應用2. AI擴展論:AI並未取代傳統搜尋,而是讓使用者提出更多問題,實現了搜尋需求的擴展3. 一年奇蹟:AI Mode從概唸到全面推出僅用一年時間,展現Google前所未有的執行速度4. 多模態突破:Google Lens視覺搜尋增長70%,多模態AI成為新的增長引擎5. 殘酷改進哲學:永不滿足現狀,持續迭代改進是打造十億使用者產品的核心6. Stories教訓:Instagram Stories用3年時間才成功,證明大膽投入資源的重要性7. 成功產品三大原則:深度理解使用者、資料驅動分析、簡潔勝過巧妙是產品成功的基石8. 好奇心驅動:保持好奇心是產品創新和個人成長的終極秘訣‍1意外逆襲:Gemini登頂(來源:sensortower,從8月1日至10月13日,ChatGPT和Gemini的美國免費app榜排名變化,Sora新近上市,目前第三方資料平台尚未收錄。從app store即時排名,sora目前位居榜首。)不久前,還有大量聲音在唱衰Google,“Google完了,誰還想要翻看搜尋結果然後點選連結?” 但事實證明了這種預判錯誤。作為Google搜尋產品副總裁,Robby Stein負責整個Google搜尋體驗,包括最新的AI Overviews、AI Mode、多模態AI體驗如Google Lens,以及排名演算法等核心產品。他認為Google的使命從未改變。"Google的使命是讓任何資訊都能被普遍獲取。這是一個非常持久、非常激勵人心的目標。感覺在AI時代,我們比以往任何時候都更能實現這個目標。"轉折點:從技術積累到產品突破很多人好奇:Google擁有如此強大的技術積累(畢竟Transformer論文就是Google寫的),為什麼直到現在才在消費者AI產品上取得突破?SteinRobby的回答提到了組織內部的變化:"我現在感受到的是令人難以置信的專注感和緊迫感。"這種緊迫感來自於對關鍵時刻的認知——AI產品的下一年將決定人們未來多年的使用習慣。 他進一步解釋說,這種變化並非源於某個單一的重組或人事變動,而是多種因素的復合效應:1. 技術成熟度到達臨界點:AI模型終於能夠真正為消費者提供價值2. 團隊協作加強:產品團隊與DeepMind研究團隊密切合作3. 持續改進的複利效應:每個月都在無情地改進產品或模型對於Gemini的突然爆火,Stein回答:"我發現很多時候,人們把大量的動力歸因於一次性的變化或某個人,但實際上這更像是一種複利效應,當你每天都在變得更好時,最終會達到一個臨界點。"‍"很多人剛剛發現這些AI工具有多強大。""我經常在Twitter上看到有人說'我剛發現了這個AI功能',但對我們來說,這些功能很早就在核心搜尋體驗中了。人們正在認識到,你可以在Google的產品套件中做很多很酷的事情。"。‍Nano Banana這樣的病毒式功能,讓普通使用者感受到了Google的AI魔力2AI搜尋:擴展而非替代的哲學面對ChatGPT、Perplexity等競爭對手的挑戰,許多人預測"Google搜尋已死"。面對"AI會殺死傳統搜尋"的擔憂,Stein給出了不同的觀察:人們使用Google搜尋的需求其實非常廣泛——他們要找電話號碼、查價格、獲取導航、支付稅費網頁等等各種各樣的需求。"這種廣泛性被很多人低估了。"更有趣的是,資料顯示AI實際上是擴展性的:"現在有越來越多的問題被提出,越來越多的好奇心可以通過AI得到滿足。"Google Lens就是一個很好的例子,視覺搜尋年增長率達到70%,已經達到數十億次的規模。人們可以拍攝鞋子問"在那裡能買到",拍攝作業問"第二題怎麼做",拍攝書架問"基於這些書我應該讀什麼書"。這些都是傳統搜尋無法滿足的需求,AI的出現讓搜尋的邊界大大拓展了。AI並沒有取代這些基礎需求,而是創造了增量需求。3AI Mode:重新定義搜尋體驗Stein談到AI Mode(可通過google.com/ai訪問)體現了Google對AI搜尋的全新思考。三大核心元件他將Google的AI搜尋體驗分為三個重要元件:1. AI Overviews:頁面頂部的快速AI回答2. 多模態搜尋:視覺搜尋和Lens功能3. AI Mode:端到端的前沿搜尋體驗AI Mode的獨特之處在於它專為搜尋而設計。它可以理解Google內部極其豐富的資訊:500億個購物圖譜中的產品資訊(每小時更新20億次),2.5億個地圖位置,所有金融資訊,以及整個網路的上下文。"你可以問任何你想問的問題,它會利用所有這些資訊來為你提供儘可能高品質和知情的資訊。"從概唸到產品:僅用一年時間從概唸到全面推出,Google只用了一年時間——這對於一家以"動作緩慢"著稱的大公司來說,幾乎是不可能完成的任務。從去年夏天開始,一個只有5-10人的小團隊開始探索這個概念,到今年全面推出,不到一年就完成了搜尋體驗的重大變革。這種速度在Google歷史上是罕見的,也反映了公司內部對AI機遇的緊迫感。"我認為接下來一年左右的產品開發將在很大程度上確定人們在未來許多年如何使用下一代產品。"AI Mode的三大核心能力1. 深度資訊整合:接入Google購物圖譜中的500億商品資訊,每小時更新20億次即時價格2. 多輪對話能力:支援連續對話,理解上下文,可以進行深度追問3. 即時搜尋功能:AI會在後台進行"查詢扇出",同時搜尋數十個相關查詢獲取最新資訊Stein回憶了團隊的"頓悟時刻":"我在為女兒規劃活動時使用了早期版本,它找到了關於公園的各種有用資訊——包括Google Maps顯示的步行可達性。那一刻我被震撼了,這讓我們確信應該繼續深入開發。"這個項目最初只有5-10個人的小團隊,但關鍵是在看到潛力後,Google迅速投入了更多資源。4從Instagram Stories學到的產品哲學作為Instagram Stories的主要開發者,Stein對產品創新有著深刻的理解。當年Stories的推出頗具爭議,因為它幾乎完全借鑑了Snapchat的成功模式。關鍵洞察:理解使用者的根本需求回顧那段經歷,Robby分享了幾個重要教訓:1. 要深刻理解使用者為什麼使用你的產品"Instagram的核心是分享生活和連接他人。如果有一種方式能夠降低壓力(因為沒有點贊)、採用短暫格式、為移動裝置最佳化的全螢幕體驗,那它就是一個很棒的格式。"2. 不是所有偉大的創意都必須由你發明"就像Feed一樣,Facebook可能創造了現代資訊流,但每個產品都有資訊流——LinkedIn有資訊流,Door Dash也有資訊流。這些東西很快就成為了核心原語和格式。"3. 要讓借鑑的功能變成自己的Instagram Stories並不是簡單的複製。團隊加入了獨特的創意工具、霓虹繪圖、精緻濾鏡,允許使用者上傳照片(而不僅僅是即時拍攝),加入了暫停功能等等。這些改進讓Stories感覺像是Instagram的原生功能。"歸根結底,如果你不為使用者提供更好的產品,你實際上是在剝奪使用者群體獲得更好產品的機會。"成功產品的三大核心原則基於多年的產品經驗,Stein總結出了三個核心產品原則:1. 深度理解使用者這裡Stein特別推薦了Clayton Christensen的"Jobs to be Done"框架,不要把使用者看作"使用"你的產品,而要理解使用者是在"僱傭"你的產品為他們做某件事。他建議進行深度訪談:"你為什麼使用我的產品?你當時在那裡?在床上還是在工作?在做什麼?"通過這種"審訊式"的訪談找到使用者第一次決定使用產品的那個"大僱用"時刻,這是最關鍵的資訊。2. 分析嚴謹,理解問題當指標下降時,必須深入進行根因分析。不能停留在表面現象,要追蹤到具體的使用者行為和決策點。Robby分享了一個Instagram Close Friends功能的例子:這個功能最初完全失敗了,因為人們只加入一個"親密朋友"到列表中(在許多市場中被誤譯為"最好朋友")。當只有一個人在你的列表中時,那個人看到並回覆你的機率幾乎為零,產品就壞了。3. 簡潔勝過巧妙Stein引用了Don Norman《設計心理學》中的門把手案例——為什麼經過這麼多年,人們走到門前還是不知道該推還是拉?因為設計是為了美觀而創造了對稱的雙把手玻璃門,沒有傳達任何資訊。設計哲學:使用全球通用的圖示和互動模式,不要為了"與眾不同"而重新發明輪子。"很多人想要通過設計來差異化,但如果某個東西是標準的,人們理解它,你傾向於使用它,你會得到比重新發明它更多的槓桿作用。"5團隊建設:小團隊 vs 大投入的平衡與當前流行的"精益團隊"理念不同,Robby對團隊規模有著更細緻的看法。反對盲目的"精益崇拜""我認為存在一種精益、快速、快速拋棄產品的崇拜。雖然這對於內部確信是有道理的,但要建構一個適用於很多人的產品,特別是基於技術突破的產品,很多時候我看到團隊過早放棄或對產品投資不足。"他的觀察是:更常見的情況是人們過久地堅持小團隊,然後要麼永遠無法達到目標,要麼需要很長時間才能成功。關鍵的資源投入時機Robby建議在兩個關鍵時刻考慮增加資源:1. 內部確信時刻:當你和團隊真正相信這個產品時2. 外部驗證時刻:當外部測試者(包括朋友)持續使用產品30、60、90天後仍在使用"如果你的20個朋友在90天後還在使用你的產品,那說明你正在做一些對他們有用的事情。"6未來展望:AI的無限可能談到AI的未來發展,Robby特別看好多模態和視覺搜尋的潛力。從文字聊天到全模態體驗"AI在很大程度上誕生並成長於文字模態作為聊天,但AI正在被解放,能夠在每種可能的模態中提供幫助。"Google正在開發的視覺版AI Mode將允許使用者問這樣的問題:"什麼是中世紀現代美麗的辦公室設計,帶有深色主題?"AI會生成一個鼓舞人心的圖像板,使用者還可以進行多輪對話:"實際上我想要更多淺色主題,更奶油色,更加州,更沿海的感覺。"對孩子和AI原生一代的思考作為一個父親,Robby分享了他對下一代的觀察:孩子們使用Google的搜尋直播功能(Search Live)與AI進行語音對話學習,這種方式對他們來說非常自然。"他們想瞭解動物,想瞭解歷史。以這種方式學習對他們來說太自然了,這正在幫助他們變得比我做的任何其他事情都更加AI原生。""不懈的持續改進"如果要總結Robby的產品哲學,那就是他提到的關鍵詞:"體現無休止的改進"。這個理念包含兩個要素:1. 永不滿足:始終朝著積極生產力的方向施加完全的努力2. 持續改進:總是讓事情變得更好,永遠不滿足有趣的是,這個理念源於一個小故事。在Instagram的全員會議上,當被問及用一個詞描述自己時,Robby問妻子,得到的回答是"不滿足"(dissatisified)。"這不是說你不快樂,而是你希望世界變得更好。你被一種對世界給你的東西的深深不滿所驅動,你想讓它變得更好。"Stein引用了Tony Fadell的TED演講中關於水果上貼的標籤的例子——大多數人已經習慣了撕貼標時戳破水果的體驗,但優秀的產品人會問"為什麼要容忍這種糟糕的體驗?"這種"不滿足"的驅動力,正是那些改變世界的產品背後的核心動力。從Google AI的突然崛起,到產品開發的核心原則,Robby Stein的分享為我們提供了一個內部視角,讓我們看到了Google這家科技巨頭如何在AI時代重新找到自己的節奏。成功不是來自於某個神奇的時刻,而是來自於持續不斷的改進和對使用者需求的深度理解,"無休止的改進"的精神。也如Robby在快問快答中提到的座右銘:"保持好奇心。產品就像高爾夫球一樣——你總是離完美揮杆只有一步之遙。" (JER學家)
諾獎得主、GoogleAI掌門人潑冷水:所謂“博士級智能”純屬無稽之談
AGI有望開啟一場新的文藝復興。智東西9月15日報導,昨日,GoogleDeepMind的AI應用Gemini憑藉其圖像編輯模型“Nano Banana”的病毒式傳播,在美區蘋果App Store免費應用榜中取代ChatGPT,強勢登頂,成為該區域最受歡迎的應用之一。近日,這場現象級的爆火背後的締造者——2024年諾貝爾化學獎得主、GoogleDeepMind創始人兼CEO Demis Hassabis,在All-in峰會上進行了一場深度分享,系統闡釋了從爆款產品到AGI未來的宏大議題,內容橫跨世界模型、機器人、AGI定義、科學智能、創作的未來和能源等多個前沿維度。Hassabis將GoogleDeepMind定位為驅動Google的“AI引擎室”,Gemini、Genie、Veo等模型,都在深度融入Google的現有產品。其中,Genie 3世界模型正通過“逆向工程”學習物理規律,未來可能會推動機器人技術革命。Google還在Gemini的基礎上打造機器人模型,有望形成“機器人Android系統”這樣的通用平台。對於業界熱議的AGI前景,Hassabis給出了冷靜判斷,直言當前部分競爭對手所謂的“博士級智能”是“無稽之談”(nonsense)。雖然並未指名道姓,但相關表述很有可能指的是OpenAI聯合創始人兼CEO Sam Altman對GPT-5能力達到“博士級智能”的爭議表述。▲Demis Hassabis(右)接受採訪(圖源:Youtube)Hassabis認為,目前AI系統最大的缺陷,就是無法提出真正有創造性的觀點。要實現AGI系統,我們仍需等待1-2個關鍵技術突破的出現。他還透露,其領導的AI藥物發現公司Isomorphic進展迅速,預計明年進入臨床前研究,旨在將新藥研發周期從數年縮短至數周。自上世紀90年代起,Hassabis就一直在從事AI相關研究,尤其對科學智能(AI for Science)有深厚的興趣。他認為,AGI有望成為科學探索的終極工具,其實現意味著科學黃金時代的到來,有望開啟又一場文藝復興。以下是Hassabis在All-in峰會上採訪的實錄:01. 諾獎公佈前10分鐘才知曉 DeepMind已成Google“引擎室”主持人:首先恭喜你獲得諾貝爾獎。關於AlphaFold這一重大突破,大家都很想聽聽你得知獲獎時的情景。當時你在那裡?是怎麼得知的?Demis Hassabis:那是一個非常超現實的時刻。整個過程都很不真實。他們通知的方式是,在消息對外公佈前大約十分鐘打電話給你。當你接到來自瑞典的電話時,整個人都懵了。這是每個科學家夢寐以求的電話。之後就是在瑞典與王室共度的一整周頒獎典禮,非常神奇。最令人震撼的部分是,他們會從保險庫裡拿出諾貝爾獎簽名簿,你可以在那上面簽下自己的名字,和所有偉大人物並列。翻閱那些頁面時,你會看到費曼、居里夫人、愛因斯坦、玻爾的名字,然後你也把自己的名字寫進那本書裡。這真是難以置信的時刻。主持人:你之前有沒有想過自己可能會獲獎?Demis Hassabis:外界會有一些傳聞,但令人驚訝的是,即便在當今時代,諾獎評選方依然能把消息保密得如此嚴密。這個獎對瑞典來說就像是國寶。會有人說AlphaFold這種成果足以配得上諾獎的認可。但諾貝爾獎不僅看重科學突破,也重視對現實世界的影響,而這種影響往往需要二三十年才能完全顯現。即使聽到風聲,也無法預料會不會真的發生。對我來說是一個驚喜。主持人:那我們來聊聊DeepMind。在Alphabet內部,DeepMind是什麼定位?具體負責什麼?Demis Hassabis:我們現在稱之為GoogleDeepMind。幾年前我們把Google和Alphabet內部所有的AI研究合併到一起,包括GoogleDeepMind。各團隊的優勢彙集成了一個部門。如今GoogleDeepMind是整個Google和Alphabet的“引擎室”。DeepMind打造的主力模型Gemini,以及其他許多模型,包括視訊模型、互動式世界模型等,都已經融入到Google各個產品中。幾乎每一項產品、每一個服務領域都有我們的AI模型。如今已有數十億人通過AI概覽、AI模式、Gemini應用等使用Gemini模型。而這僅僅是開始,我們還把它整合進Workspace、Gmail等等。這對我們來說是絕佳機會——既能做前沿研究,又能立刻將成果推送給數十億使用者。主持人:你們的團隊規模有多大?人員構成是怎樣的?Demis Hassabis:大約有5000人,其中80%以上是工程師和博士研究員。02. Genie靠逆向工程學會物理規律 最終可推動機器人技術發展主持人:模型在不斷演進,新模型層出不窮。前幾天你們發佈了Genie 3世界模型。能給大家介紹一下嗎?Demis Hassabis:這些畫面都是可互動的世界,根據文字提示即時生成的,使用者可以用方向鍵和空格鍵操控3D環境。畫面中,每一個像素都是即時生成的,直到使用者進入那個區域,它才存在。整個過程充滿細節。比如這個例子裡,有人正在給房間刷漆、在牆上畫東西。玩家轉頭看向右邊時,那部分世界才被生成。然後再回頭時,剛才留下的筆跡還在。這一切都是即時生成的。你還可以輸入“穿著雞仔戲服的人”或“水上摩托”之類的提示,它會立刻把這些元素加入場景中。真的非常震撼。主持人:我覺得最難理解的地方是,我們都玩過帶有沉浸式3D元素的電子遊戲,但那些世界裡的物體都是預先建好的,需要Unity或Unreal這樣的渲染引擎。而Genie是在即時生成2D圖像。Demis Hassabis:Genie實際上是在對物理學進行“逆向工程”。它看過數百萬條YouTube視訊和其他現實世界素材,僅憑這些就推演出了很多世界運作的規律。當然,它還不完美,但已經能生成一致的一兩分鐘互動體驗,而且不限於人類角色,甚至可以操控海灘上的狗或水母。主持人:3D渲染引擎的工作方式是這樣的:程式設計師需要把所有物理規律都編寫進去,比如光線的反射方式。程式設計師需要建立一個三維物體,然後讓光線在上面反射,這樣軟體才能渲染出來。但Genie完全不同,它是通過視訊訓練出來的,卻自己推理出了這一切。Demis Hassabis:沒錯,它既用真實視訊,也用部分遊戲引擎合成資料來訓練。這一項目與我的個人興趣很有淵源,在90年代我職業生涯早期時,我便曾經開發過電子遊戲和遊戲內的AI系統,還自己做過圖形引擎。我知道當年要靠手工編寫多邊形、物理引擎有多麼困難。而現在這個模型可以毫不費力地做到,甚至能即時渲染水面反射、材質流動、物體互動等複雜效果。主持人:這些畫面的複雜性是難以想像的。這會把我們帶向何方?比如推演到Genie 5?Demis Hassabis:雖然Gemini語言模型的能力在不斷進步,但它從一開始就被設計為多模態,可以處理圖像、音訊、視訊等各種輸入,並生成各種輸出。我們之所以要建構這樣的模型,是因為我們認為真正的AGI必須理解我們周圍的物理世界,而不僅僅是語言或數學這些抽象領域。這是機器人技術能夠運作的關鍵,目前這塊能力還是缺失的。同時,AI眼鏡如果想要在日常生活中發揮作用,也需要理解所處的物理環境和周圍世界的工作原理。像Genie、Veo這些項目,實際上都是在訓練AI去掌握世界的動態和物理規律。如果模型能生成一個互動式的世界,那就說明它在某種程度上理解了世界的運行邏輯,而這最終可以推動機器人技術的發展。03. Google想打造“機器人領域的Android系統”主持人:視覺、語言與行動模型(VLA模型)的最新進展如何?我們能否建構一個通用系統:機器人通過攝影機觀察世界,然後我可以用文字或語音告訴它“請幫我完成某件事”,而它知道如何在物理世界中執行相應的行動?Demis Hassabis:是的,正是如此。例如,你可以嘗試我們推出的Gemini Live版本:只需舉起手機,它就能觀察你周圍的世界。我建議大家親自體驗一下,它已經能夠理解物理世界中的許多內容,這一點非常令人驚嘆。下一步,我們可以設想將其整合到更便攜的裝置中,比如眼鏡。那樣它就會成為一個日常助手——當你在街上行走時,它可以為你推薦資訊,或者我們可以將其嵌入Google地圖等功能中。在機器人領域,我們開發了Gemini機器人模型,它們是基於Gemini模型、並利用額外機器人資料進行微調的版本。今年夏天我們發佈了一些演示。我們佈置了桌面環境,兩個機械臂在桌上與物體互動,而你可以直接用語言與機器人交流。比如你可以說“把黃色的物體放進紅色的桶裡”,它就能將語言指令轉化為電機動作。這體現了多模態模型的力量,而不僅僅是傳統的機器人專用控制模型——它能夠將對現實世界的理解融入與人的互動中。最終,這種模型能力將同時服務於使用者互動體驗,以及機器人與世界的互動。主持人:我曾經問過GoogleCEO Sundar Pichai:我們是否最終能建構出一種機器人的通用作業系統,類似於Unix或Android。如果它能足夠通用,可以在多種裝置上運行,那麼機器人裝置、公司與產品將迎來爆發式增長,因為存在一種可廣泛適配的軟體基礎。Demis Hassabis:這正是我們正在推進的策略之一,可以稱之為“機器人領域的Android戰略”。但另一方面,將我們最先進的模型與特定類型的機器人設計進行垂直整合,實現端到端學習,也非常有趣。這兩種策略我們都在積極探索。04. 人形與專用機器人將共存 演算法仍需進一步發展主持人:人形機器人是否是一種合理的外形呢?有人認為它適合人類,因為我們自己就是人形,但解決問題可能需要不同形態的機器人,比如專門疊衣服、洗碗或打掃的形態。Demis Hassabis:我認為兩者都會存在市場。實際上,五到十年前我曾認為我們會為特定任務開發特定形態的機器人。在工業領域確實如此,無論是實驗室或生產線,你會根據任務最佳化機器人的形態。然而,對於通用或個人用途的機器人,尤其是需要與人類環境互動的場景,人形機器人可能非常關鍵。畢竟,我們的物理世界是為人類設計的:台階、門道……一切設施都符合人的形態。與其改變整個世界,不如讓機器人適應我們已有的環境。人形機器人在這類任務中可能非常重要。但我相信,專用形態的機器人同樣會有其市場空間。主持人:你對未來五到七年的機器人數量有什麼看法?比如,你是否認為會有數百萬甚至數千萬的機器人?你有沒有一個願景?Demis Hassabis:是的,我有。我在這方面花了很多時間思考。我覺得我們仍然處於機器人技術的早期階段。在接下來的幾年裡,機器人技術或許將會有真正的“Wow”的時刻。但我認為演算法還需要進一步發展。機器人模型的底座,也就是通用模型,還需要變得更好、更可靠,並且更好地理解周圍的環境。這將在接下來的幾年內實現。在硬體方面,我認為最終會有成百上千萬機器人出現,關鍵在於硬體合適能發展到可以進行大規模生產的程度。當你開始建造大批次生產某款機器人的工廠時,就很難快速迭代機器人設計。如果你過早地開始大規模生產,那麼6個月後可能會出現新一代機器人,它更可靠、更靈活,這就比較棘手了。主持人:用電腦類比的話,我們處於70年代的PC DOS時代。Demis Hassabis:是的,可能就是這樣。我認為也許這就是我們所處的位置,但當時耗費10年完成的進展,在如今可能1年內就會發生。05. AGI將成為科學探索終極工具 目前AI系統仍缺乏創造力主持人:讓我們來談談其他應用,特別是在科學領域。我始終認為,我們能夠用AI解決的最偉大的問題,是那些人類目前憑藉現有技術和能力以及我們的大腦等還無法解決的難題。你對那些科學領域的突破感到最興奮,以及我們將使用什麼樣的模型來實現這些突破?Demis Hassabis:將AI用於加速科學發現,並為人類的醫療健康事業做貢獻,是我投身AI研究的初衷,也是我眼中AI最重要的應用領域。如果我們以正確的方式建構AGI,它將成為科學探索的終極工具。DeepMind在這方面已取得多項重要成果,最著名的例子是AlphaFold。實際上,我們已將AI系統應用於多個科學領域,包括材料設計、電漿體與聚變反應堆控制、天氣預測,甚至解決數學奧林匹克競賽問題。同樣的系統,經過微調就能解決很複雜的問題。但我們目前仍然只是觸及表面,AI系統尚未展現出真正的創造力,還無法像人類科學家那樣提出新的猜想或理論。我認為,這將是衡量AGI實現與否的關鍵標準之一。主持人:你認為什麼是創造力?Demis Hassabis:我認為創造力是那種我們常常在歷史上最偉大的科學家和藝術家身上看到的直覺性飛躍,也許是通過類比推理實現的。心理學和神經科學中有許多相關理論。我認為一個不錯的測試方法是,給現代AI系統設定一個知識截止時間(比如1901年),然後觀察它是否能像愛因斯坦那樣,在1905年提出狹義相對論。如果能夠做到,那可能意味著我們真正接近AGI。另一個例子是我們的AlphaGo程序。它在十年前擊敗了世界圍棋冠軍,甚至還發明了前所未有的新策略,比如第二局中著名的第37手。但目前的AI系統還無法創造出像圍棋這樣兼具優雅性、滿足感與審美價值的遊戲。我認為,這正是當前通用系統或AGI系統所欠缺的。06. “博士級智能”遠未實現 仍有部分關鍵能力缺失主持人:你能分享一下具體那些部分還有短板嗎?OpenAI的Sam Altman、Anthropic的Dario Amodei近期提出“AGI即將在未來幾年實現”的觀點,你認同嗎?Demis Hassabis:這個問題的核心在於,我們是否能讓AI系統模仿那些頂尖人類科學家所展現出的那種直覺式飛躍,而不是僅僅做出漸進式的進展。我常說,區分偉大科學家與優秀科學家的關鍵在於,兩者在技術上都非常出色,但偉大的科學家更具創造力。他們可能會從其他學科領域中發現某種模式,並將其類比或匹配到正在研究的問題上。我認為未來的AI終將具備這種能力,但目前它還缺乏實現這種突破所需的推理能力和思維方式。此外,現有AI系統也缺乏能力的一致性。有時我們的競爭對手聲稱AI系統已達到“博士級智能”,我認為這就是無稽之談(nonsense)。它們不是博士級智能,可能在某些方面具備博士級能力,但並非在所有領域都達到這一水平——而真正的通用智能應能做到這一點。正如我們所體驗到的,如果你以某種方式提問,當前的聊天機器人甚至會在高中數學或簡單計數問題上出錯。真正的AGI系統不應出現這類錯誤。我認為,要實現能夠勝任這些任務的AGI系統,可能還需要五到十年的時間。另一個尚未實現的核心能力是持續學習,即系統能夠線上接受新知識或調整其行為。目前這些能力仍然缺失,也許通過擴大模型規模可以實現一部分,但我認為可能還需要一兩個突破性的進展,這些突破有望在未來五到十年內出現。07. 模型性能提升未停滯 Nano Banana或實現創作普惠主持人:一些報告和評分似乎反映出兩種趨勢:第一,大語言模型的性能逐漸趨於收斂;第二,性能提升的速度可能正在放緩甚至趨於平穩。這兩種說法是否基本精準?Demis Hassabis:實際上,我們內部並未觀察到這種現象。我們依然看到顯著的進步速度,並且我們的視角更為廣闊。例如,我們的Genie模型、Veo模型,以及最近的Nano Banana,都展現出令人矚目的進展。我認為,未來創意工具的發展方向是使用者能夠與它們自然互動,甚至通過對話進行操作,而系統能夠以高度一致的方式響應使用者需求,就像Nano Banana一樣。它不僅在圖像生成領域處於領先地位,更突出的是其一致性——能夠在遵循指令的同時保持其他元素不變,使使用者能夠通過迭代獲得理想的輸出。這種能力預示著創意工具的未來,人們很喜歡這一模型,也喜歡用它來創作。主持人:我記得小時候為了學習如何在Photoshop中去除圖像中的某些部分,不得不購買書籍,學習複雜的操作如填充、羽化邊緣等。而現在,任何人都可以通過Nano Banana輕鬆實現這些效果,只需向軟體描述需求,它就能自動完成。Demis Hassabis:這一方面,這些工具正變得普惠化,普通人無需學習複雜的使用者介面即可進行創作;另一方面,我們也在與頂尖創意人士合作,打磨工具的設計。例如導演達倫·阿倫諾夫斯基及其團隊,他們使用Veo等工具製作電影,並幫助我們最佳化工具功能。通過與這些專業人士的合作,我們發現這些工具不僅適用於普通使用者,還能以十倍、百倍的幅度,提升頂級創作者的生產力。他們可以以極低的成本嘗試更多想法,並快速實現高品質的作品。因此,我們認為這兩方面是平行不悖的:我們既面向日常使用場景,將這項技術普惠化,也在賦能高端專業使用者。那些懂得如何使用這些工具的人,以及擁有願景、敘事風格和講故事能力的頂尖創意人士,能將這些工具發揮出更好的效用。主持人:從文化角度看,一個有趣的問題是:未來娛樂內容將如何演變?是會每個人都能定製自己感興趣的內容,例如根據特定音樂風格生成新曲目,或基於電影《勇敢的心》建立遊戲體驗?還是仍然保持一對多的創作模式?從文化角度看,這個問題頗具哲學意味。我們是否仍然需要由創作者共同建構的、具有共識性的敘事?抑或是每個人都將開始開發和建構自己獨特的虛擬體驗?Demis Hassabis:基於我從90年代起從事遊戲設計和程式設計的經驗,我認為當前所見只是娛樂產業未來的起點。未來可能會出現全新的藝術形式或內容類型。在這種模式下,雖然會存在一定程度的共同創作,但我始終認為頂尖的創意願景家仍將發揮關鍵作用。這些創作者能夠建構出引人入勝的體驗和動態敘事,即使使用相同的工具,他們的作品質量也會遠超普通使用者。與此同時,數百萬使用者不僅可以進入這些世界,還能參與部分內容的共同創造。在這種情況下,頂級創意者可能更傾向於扮演"世界編輯者"的角色。這正是我們接下來幾年希望探索的方向,目前正在通過Genie等技術逐步實現這個願景。08. 大量時間投入AI藥物發現公司 明年進入臨床前期研究階段主持人:你如何分配你的時間?也許你可以談一下Isomorphic,你是不是在那兒投入了大量時間?Demis Hassabis:是的,我確實投入了大量時間。這是一家從DeepMind拆分出來的公司,正致力於通過蛋白質摺疊技術AlphaFold的突破來革新藥物發現領域。雖然理解蛋白質結構是關鍵突破,但這只是藥物研發過程中的一個環節。Isomorphic正在開發與AlphaFold相關的多項技術,致力於設計能夠精準靶向蛋白質且避免副作用的化合物。我們預計能將藥物發現周期從現在的數年甚至十年,縮短到數周等級。目前我們正在建構技術平台,與禮來、諾華等製藥企業建立了深度合作。同時我們也在推進內部藥物研發項目,預計明年進入臨床前期研究階段,後續將由合作夥伴推進臨床實驗。我們的研究重點涵蓋癌症、免疫學和腫瘤學等領域,並與MD安德森癌症中心等機構保持合作。主持人:在藥物發現領域,我們需要如何平衡確定性模型(基於物理化學原理)與機率性模型(基於資料訓練)的協同工作?Demis Hassabis:我們正在建構混合模型系統,未來5年也是如此。以AlphaFold為例,它既包含基於神經網路和Transformer的機率學習部分,也整合了化學物理規則的確定性約束。在生物化學領域,資料稀缺是常態,因此需要融入已知的科學原理作為約束條件。比如原子之間的鍵角,讓模型理解原子之間不能相互重疊等。理論上,它可以從資料中學習這些,但那將浪費大量的學習能力,因此最好將這些作為約束條件納入其中。就像AlphaGo一樣:讓一個神經網路學會識別棋局中的模式,再在上面加一層蒙特卡洛樹搜尋來做規劃。難點在於如何把學習型子系統與人工定製的子系統無縫結合。主持人:這種架構能否帶來通向AGI的突破?Demis Hassabis:我認為,一旦把混合系統跑通,下一步就是把得到的知識反哺回學習元件,儘量做端到端學習,讓模型直接從資料裡預測目標。一旦用混合系統完成了初步研究,就可以進行逆向工程,看看是否可以將這些資訊納入學習系統。這正是AlphaZero的做法:拋棄人類棋譜和圍棋專用知識,從零自我對弈,結果不僅能下圍棋,還能通吃任何棋類。09. AGI將開啟科學的黃金時代主持人:AI的能源需求是一個熱點話題。這些能源需求將從何而來?模型架構、硬體,或者模型與硬體的協同會不會逐漸改進,最終把每個token的能耗或成本降下去,讓總能源需求曲線走平?還是說並不會,我們仍要面對一條很陡的需求曲線?Demis Hassabis:我認為這兩種情況都是正確的。在GoogleDeepMind,我們專注於打造非常高效的模型,因為我們在內部有很多用例,需要為數十億使用者提供AI服務。模型必須極其高效,極其低延遲,並且成本低廉。因此,我們開創了許多技術,使我們能夠做到這一點,比如蒸餾,讓大模型教小模型。過去兩年,在同樣的性能水平上,模型效率提高10倍甚至100倍。現在,能源需求沒有減少的原因是,我們還沒有達到AGI。對於前沿模型,我們需要更大規模上嘗試和實驗新的想法。但在伺服器端,模型正變得越來越高效。所以這兩種情況都是正確的。最終,從能源角度來看,我認為AI系統將在能源和氣候變化等方面回饋更多,而不是消耗更多。在未來10年內,AI將在電網系統、電力系統、材料設計、新型材料、新型能源來源等方面發揮巨大作用,這些貢獻將遠遠超過它今天所消耗的能源。主持人:作為最後一個問題,請描述一下10年後的世界。Demis Hassabis:哇,10年甚至10周在AI領域都是一段很長的時間。但我確實認為,如果我們能在未來10年內實現AGI,那麼這將開啟一個科學的新黃金時代。一場新的文藝復興。我們將在能源、醫療等各個領域見證AGI帶來的好處。 (智東西)
AI接管新聞界?全球首份全AI報紙問世!AI新聞摘要即將上線
義大利報紙《Il Foglio》推出全球首份完全由AI生成的報紙,從寫作到諷刺手法皆出自AI之手。《獨立報》攜手Google推出Bulletin平台,由編輯稽核AI生成的摘要,為趕時間的讀者提供可靠的新聞。一家義大利報紙《Il Foglio》高調宣佈,出版了世界上第一份完全由AI製作的報紙。AI包攬了寫作、標題、引用……甚至諷刺手法。《Il Foglio》的編輯Claudio Cerasa稱,這次發行AI報紙,是一項為期一個月的新聞實驗的重要部分,旨在全方位展示AI技術對工作方式以及日常生活的影響。世界上第一份AI生成的報紙這份4頁篇幅的《Il Foglio AI》從周二起,在報攤及網路平台同步發售。Cerasa表示,這將是全球第一份完全由AI打造的日報,寫作、標題、引言,甚至連字裡行間的諷刺意味,都是AI的「手筆」。他進一步補充道,記者的作用,僅僅是向AI工具提問,然後閱讀它給出的答案。在AI版《Il Foglio》上,記者的任務僅限於向AI工具提問並閱讀答案當前,全球的新聞機構都在絞盡腦汁,思索如何合理運用AI,而《Il Foglio》的這次實驗,正好趕上了這股熱潮。本月早些時候,《衛報》曾報導,BBC新聞打算借助AI,為大眾量身打造更具個性化的內容。《Il Foglio AI》創刊號的頭版,有一篇文章提及了美國總統川普,探討了義大利川普支持者身上的矛盾之處。頭版還有個專欄指出,俄羅斯總統普丁在過去20年裡,多次違背承諾、撕毀協議,言行不一。難得的是,報紙裡還有一篇對義大利經濟持樂觀態度的報導。文章援引義大利國家統計局(Istat)最新發佈的收入再分配報告,報告顯示,隨著約75萬工人因所得稅改革實現加薪,義大利正朝著好的方向轉變。報紙第二版的內容,講述歐洲年輕人如何對穩定戀愛敬而遠之。這些文章結構清晰、表述直白,沒有明顯的語法錯誤。不過,新聞版面上的文章,均未直接引用任何人的原話。報紙最後一頁,刊登了由AI生成的讀者來信,其中有一封信詢問:未來AI會不會讓人類變得一無是處?AI給出的回覆是:「AI固然是一項了不起的創新,但它連點杯咖啡都做不好,糖都能放錯。」Cerasa表示,《Il Foglio AI》展現了「一份真實報紙該有的樣子」,是新聞資訊、觀點辯論與話題爭議的集合體。他也提到,這是一個試驗田,用來觀察AI在實際應用中的效果,看看利用這項技術製作日報會帶來那些影響。這迫使我們思考一系列問題,而不僅是新聞行業本身。Cerasa還強調,這不過是另一份用智慧打造的《Il Foglio》,別把它稱作AI的產物。《獨立報》將推出由GoogleAI支援的新聞服務當下,新聞機構都在急切探尋,如何應對這項新技術帶來的生存威脅。《獨立報》即將推出一項全新的新聞服務,該服務將借助Google的AI工具生成文章摘要,全程由該報記者把關。本月晚些時候將推出一個名為Bulletin的平台,首先會通過《獨立報》上線,之後會在獨立網站推出。它將運用Google的Gemini AI模型生成報導摘要,再由記者進行編輯。《獨立報》CEO Christian Broughton說,這個服務為那些趕時間的讀者,提供可靠、經過核實的新聞。如今,全球新聞機構都在探索如何從AI技術中獲益。不過,人們也擔憂AI技術可能在未經許可的情況下,抓取並複製新聞媒體內容,或產生嚴重錯誤。對於AI新聞推送和摘要引發的擔憂,Broughton回應稱,這個平台由記者開發,也將由記者主導。不會取代傳統新聞業《獨立報》專門組建了團隊來管理Bulletin平台。Broughton認為,AI不會取代傳統新聞業,反而會開拓新聞傳播的新途徑。AI生成的摘要,會經由負責長篇報導的記者稽核通過,畢竟AI生成的內容是以這些長篇報導為依據。Broughton表示,該產品不會出現AI新聞服務常有的「內容抓取和干擾」問題。他補充說,「現在AI被濫用的情況太多了」。AI工具發展迅猛,傳統出版商也紛紛行動,近期出現一系列合作。OpenAI已與新聞集團和《金融時報》簽署了商業合作及授權協議,讓ChatGPT使用者能看到特定的、註明出處的新聞摘要、引用和連結。不過,媒體集團和AI初創公司之間不乏衝突,AI生成的內容有時也會出錯。去年,Perplexity被指秘密抓取媒體網站內容,隨後它和Automattic、《明鏡》周刊和《時代》周刊達成了收入分成協議。今年早些時候,蘋果也不得不暫停一項由AI生成的自動新聞摘要功能,因其會展示虛假或誤導性資訊。英國政府目前正在就一項提案徵求意見。除非相關公司明確選擇不參與,否則AI公司將更容易獲取報紙、音樂、書籍和電影的內容。企業高管們提醒,這會給傳統媒體帶來新麻煩,因為AI生成的新聞內容,可能在未經編輯稽核的情況下大量傳播,無法保證精準性。Bulletin平台一開始會為《獨立報》現有讀者提供新聞摘要,之後計畫推出獨立網站和應用程式,並利用該平台發佈音訊內容。這項服務免費向使用者開放,但未來需要註冊,才能獲取更新。平台還將引入相關工具,實現新聞推送的個性化定製,讓使用者能根據自己喜好定製新聞推送。《獨立報》主編Geordie Greig表示,Bulletin是有人類編輯監督的AI應用,能讓讀者快速抓住重點,獲取關鍵新聞資訊。參考資料:https://www.theguardian.com/technology/2025/mar/18/italian-newspaper-says-it-has-published-worlds-first-ai-generated-editionhttps://www.ft.com/content/fc5d4642-af71-4ac6-8311-1920726f8baa (新智元)