#DeepMind
Gemini 面臨的最大風險|DeepMind 首席技術官最新訪談實錄
11月25日,Google DeepMind 首席技術官兼 Google 首席 AI 架構師 Koray Kavukcuoglu 接受了Google for Developers的訪談。本次對話探討了 Scaling Law的現狀、基準測試的本質、Gemini 關注的重點領域,強調指令遵循、工具呼叫和國際化,以及多模態模型最終走向“單一權重”的演進路徑等話題。Koray Kavukcuoglu 堅信,AI 進步的步伐並未放緩,Scaling 仍在持續。他指出,基準測試不等於進步,它只是定義“未解決問題”的臨時工具。當模型分數接近頂峰,舊基準便失效,真正的進步標準必須從“刷榜”轉向模型在現實世界中被科學家、律師、工程師等專業人士使用的廣度與深度。在技術路徑上,Koray 強調程式碼與工具呼叫是智能的全新“倍增器”。模型不僅是工具的使用者,更是工具的製造者。他認為,直接從軟體工程師等終端使用者處獲取的反饋訊號,對模型後訓練階段的質量提升具有決定性意義,這種“與產品整合並獲取訊號”的模式已成為理解問題的核心驅動力。Koray 預測,圖像生成與文字生成最終將統一於“單一模型權重”之下,儘管目前仍面臨像素級完美與概念連貫性的雙重挑戰,但這將是必然趨勢。此外,他透露Gemini 面臨的最大風險並非外界擔憂的安全問題,而是“創新枯竭”——即誤以為只要照搬成功公式進行擴展即可,他認為唯有持續在架構和理念上進行創新,才是通往 AGI 的唯一路徑。01 基準測試的侷限與 Scaling LawGemini 3 已經上線,反響積極。回看從 2.5 到 3.0 的處理程序,感覺進步的步伐並未放緩。目前業界對 Scaling有諸多討論,你認為這種趨勢還能持續嗎?此外,有些基準測試如 HLE、ARC-AGI-2 分數飆升,而像 GPQA Diamond 這樣的靜態基準測試依然屹立不倒。你是如何看待這些基準測試的演變以及它們與實際進步之間的關係的?Koray Kavukcuoglu:我對這些進步感到非常興奮,尤其是研究方面的進展。身處研究一線時,你會發現各個領域都充滿了令人興奮的事物,從資料、預訓練、後訓練到方方面面。我們看到了很多熱情、進步和新想法。歸根結底,這一切都源於創新和想法。我們做出的東西越有影響力,越能進入現實世界被人們使用,我們實際上就會獲得更多的靈感,因為你的接觸面擴大了,獲得的訊號種類也增加了。我認為問題會變得更難、更多樣化,隨之而來的挑戰也會升級,但這種挑戰是好事。這也是我們建構智能的動力。有時如果你只看一兩個基準測試,可能會覺得分數提升的空間變小了,但我認為這很正常。基準測試是在某個任務還具有挑戰性時定義的。隨著技術進步,舊的基準測試就不再能代表最前沿的水平了。於是你會定義新的基準測試。這在機器學習中非常正常。基準測試和模型開發總是相輔相成的。你需要基準測試來指導模型開發,但只有當你接近現有目標時,你才知道下一個前沿在那裡,從而定義新的基準。(關於 GPQA 等難題)那裡面確實有一些很難的問題。那些我們仍然無法解決的難題,依然在測試著某種能力。但如果你看看我們在 GPQA 上的表現,我們並不是停留在二三十分需要追趕到九十分,而是已經接近頂峰,所以它所定義的“未解決問題”正在減少。在某種程度上,尋找新的前沿和基準是件好事。定義基準測試真的很重要。如果我們把基準測試等同於進步,那並不一定總是一致的。進步是進步,基準是基準。理想情況下它們是百分百一致的,但現實從來不是這樣。對我來說,衡量進步最重要的標準是我們的模型被現實世界中的科學家、學生、律師、工程師所使用。人們用它做各種事情,比如創意寫作、發郵件。從簡單到困難的光譜,以及不同的主題和領域都很重要。如果你能持續在這些方面提供更大的價值,我認為那就是進步。基準測試只是幫助你量化這一點。02 程式碼與工具呼叫是智能的倍增器,模型本身正在變成一種可建構工具的工具你是如何考慮從一個模型版本到下一個版本的持續最佳化的?比如在指令遵循、國際化語言支援以及程式碼和工具呼叫方面,我們的最佳化目標是什麼?此外,作為 Gemini 3 發佈的一部分,我們推出了 Google Anti-Gravity 作為一個新的 Agentic 編碼平台。為了從模型角度提升質量,你有多看重這種“產品腳手架”(Product Scaffolding)在獲取反饋訊號方面的作用?Koray Kavukcuoglu:有幾個重要的領域。其中之一是指令遵循。這要求模型能夠理解使用者的請求並嚴格執行。你不希望模型只是回答它覺得自己該回答的內容。指令遵循能力非常重要,這也是我們一直在做的。對我們來說,國際化也很重要。Google 是一家非常國際化的公司,我們希望觸達全球使用者,所以這部分很關鍵。你必須持續關注這些領域。它們看起來可能不像知識的前沿,但因為要在那裡與使用者互動,所以非常重要。正如我所說,這一切都是為了從使用者那裡獲得訊號。(關於程式碼與工具呼叫)接下來,如果你進入稍微技術一點的領域,函數呼叫、工具呼叫、Agentic 行為和程式碼真的很重要。函數呼叫和工具呼叫之所以重要,是因為我認為這是智能的一個全新倍增器,不僅模型可以自然地使用我們建立的所有工具和函數進行推理,而且模型還可以編寫自己的工具。你可以認為模型本身也是一種工具。這是一件大事。顯然程式碼很重要,不僅因為我們是軟體工程師,還因為有了程式碼,你實際上可以建構任何在你筆記型電腦上運行的東西。而在筆記型電腦上發生的不只是軟體工程。我們現在做的很多事情都發生在數字世界中,而程式碼是這一切的基礎,它能與你生活中幾乎所有事情整合。這就是為什麼這兩者結合在一起能極大地擴展使用者的能力。我喜歡舉 Vibe coding 這個例子。很多人很有創造力,有很多想法,突然之間你讓他們變得高產了。從有創意到有產出,你只需要把它寫下來,應用程式就會在你面前呈現。大多數時候它都管用,而當它管用時感覺棒極了。這種反饋循環很棒。突然之間,你讓更多人成為了建設者。能夠建構東西的感覺是很棒的。(關於產品腳手架的作用)對我來說這非常重要。Anti-Gravity 本身是一個令人興奮的產品,但從模型的角度看它具有雙重價值。首先從模型端來看,能夠與終端使用者,在這裡是軟體工程師整合,並直接向他們學習,瞭解模型那裡需要改進,這對我們來說至關重要。Gemini App 也是出於同樣的原因,直接理解使用者非常重要。Anti-Gravity 和 AI Studio 也是如此。擁有這些我們緊密合作的產品,然後理解、學習並獲取使用者訊號,作用是巨大的。Anti-Gravity 一直是非常關鍵的發佈合作夥伴。雖然他們加入不久,但在發佈的最後兩三周,他們的反饋真的起到了決定性作用。Search AI Overviews 搜尋 AI 概覽也是一樣,我們從中獲得了很多反饋。對我來說,與產品的整合並獲取訊號是我們理解問題的主要驅動力。當然我們有基準測試,所以我們知道如何推動 STEM、科學、數學這些硬核智能的發展。但理解現實世界的用例真的很重要,因為技術必須在現實世界中有用。03 通過產品連接使用者是建構智能的路徑作為新任首席 AI 架構師,你的職責擴展到了確保 Google 的產品能真正利用這些模型,Gemini 3 發佈首日就覆蓋了所有產品介面。相比一年半前單純的研發,這種“既要模型好,又要產品用好”的雙重目標增加了多少複雜性?此外,我們在某種意義上正在與客戶共同建構 AGI,在這種開放模式下,你是如何考量安全與穩健性的?Koray Kavukcuoglu:確實增加了複雜性,但我們在建構智能。很多人問我身兼雙職的問題。我有兩個頭銜,但這在很大程度上是同一件事。如果我們要建構智能,就必須通過產品、通過連接使用者來實現。作為架構師,我試圖做的是確保 Google 的產品能獲得最好的技術支援。我們不是要親自“做”產品,我們不是產品經理,我們是技術開發者。我們開發技術,訓練模型。當然每個人都有自己的觀點,但對我來說,最重要的是以最佳方式提供模型和技術,然後與產品團隊合作,讓他們在這個 AI 世界中建構最好的產品。這是一個新世界。新技術正在定義使用者的期望、產品的表現形式、資訊的傳遞方式,以及你可以用它做的所有新鮮事。對我來說,這就是要在整個 Google 範圍內實現這一點,與所有產品團隊合作。這令人興奮,不僅從使用者獲得的產品角度,也從我之前提到的角度,那是我們的主要驅動力。感知使用者需求、獲取使用者訊號對我們來說至關重要。這就是我想做這件事的原因。這是我們建構 AGI 的路徑。這也是我們建構智能的路徑,通過產品。(關於安全與穩健性)而且我認為這實際上也是一個非常值得信賴、久經考驗的系統。這是一種我們正在越來越多採用的工程思維。在這個問題上保持工程思維很重要。當東西經過精心設計,你知道它是穩健的、安全的。所以我們在現實世界中做事,採用的是所有經過驗證的建構理念。這也反映在我們如何考量安全和安保。我們試圖從底層、從一開始就考慮這些,而不是事後諸葛亮。所以在做後訓練模型、預訓練和處理資料時,我們始終銘記在心。每個人都要思考這個問題。我們有安全團隊嗎?顯然有,他們帶來了相關技術。安保團隊也一樣。但關鍵是讓參與 Gemini 的每個人都深入參與這個開發過程,並將其作為第一原則。這些團隊本身也是我們後訓練團隊的一部分。當我們開發這些模型、進行迭代和發佈候選版本時,就像我們關注 GPQA、HLE 這些基準測試一樣,我們也關注安全和安保指標。我認為這種工程思維很重要。04 程式碼與智能體仍需突破最後的體驗瓶頸Gemini 3 的發佈就像 NASA 的阿波羅計畫,雖然參與者眾多,但這確實是 Google 全球團隊的共同努力。你如何評價這種跨國協作?同時,雖然模型在許多基準測試上都是 SOTA,反響也很積極,但如果快進到下一次發佈,還有什麼事是你希望列在“真希望我們做了 X、Y、Z”的清單上的?在享受當下的同時,你看到了那些具體的差距?Koray Kavukcuoglu:關於 Gemini 3,我們也剛反思過。對我來說,重要的一點是這個模型是一個真正的 Team Google 模型。每個 Gemini 版本的發佈都需要來自美洲、歐洲、亞洲等世界各地的人員參與。我們有遍佈全球的團隊在做貢獻。不只是 Google DeepMind 團隊,而是 Google 的所有團隊。這是一個巨大的協作成果。我們與 AI Mode 同步發佈,與 Gemini App 同步發佈。這些都不容易。他們在開發過程中與我們並肩作戰。只有這樣,在模型準備好的第一天,我們才能一起發佈。我們一直在這樣做。當我們說“跨越 Google”時,不僅僅是指那些積極建構模型的人,所有的產品團隊也在貢獻力量。(關於未來的差距)我認為應該兼顧。我們要享受這一刻,那怕只享受一天也是好的。這是發佈日,人們在讚賞這個模型,所以我希望團隊也能享受這一刻。但與此同時,在每一個領域,我們也看到了差距。寫作完美嗎?不完美。編碼完美嗎?也不完美。特別是在 Agentic 行為和編碼領域,我認為還有很大的提升空間。那是增長最令人興奮的領域之一。我們需要識別那裡可以做得更多,並且我們會去做。我認為我們已經走了很遠。可以說,對於那些從事編碼的人,無論是軟體工程師還是想建構東西的創意人士,這個模型基本上滿足了他們 90% 到 95% 的需求。我願意認為這個模型是他們能用的最好的工具。但在某些情況下,我們可能還需要做得更好。關於程式碼和工具使用,回顧 Gemini 的發展歷程,顯然我們在 1.0 版本時非常側重於多模態能力,而在 2.0 版本中,我們才開始建構一些智能體基礎設施。你覺得為什麼我們沒有從一開始就在智能體工具使用方面處於業內領先地位?畢竟在多模態領域,Gemini 1 從一開始就是業內領先的。Koray Kavukcuoglu:我不認為這是刻意為之。坦率地說,回過頭看,我認為這與模型的使用方式有關,也就是開發環境與現實世界的聯絡緊密程度。我們與現實世界的聯絡越緊密,就越能理解實際發生的真實需求。在 Gemini 的研發征程中,我們的起點是 Google 深厚的 AI 研究底蘊。我們擁有大量傑出的研究人員和輝煌的 AI 研究歷史。但 Gemini 的研發也是一個從研究環境向工程思維轉變的過程,讓我們進入了一個真正與產品緊密相連的領域。看著現在的團隊,我感到非常自豪,因為這個團隊的大多數成員,包括我自己,在四五年前還在寫論文。那時我們在做 AI 研究。而現在,我們站在技術的最前沿,通過與產品使用者的互動來開發技術。這是一種完全不同的思維模式。以前我們可能很久才出一個成果,現在我們每六個月建構一次大模型,然後每一到一個半月就進行一次更新。這是一個驚人的轉變,而我們成功跨越了這一轉變。05 圖像與文字架構正在趨同,最終將融合為單一模型的“物理理解力”隨著 Veo 3、Nano Banana 模型的出現,我們在產品化方面取得了巨大成功。在追求 AGI 的過程中,你是如何看待生成式媒體模型的定位?它們是否也是理解物理世界和萬物運行規律的關鍵部分?Koray Kavukcuoglu:如果你回到 10 到 15 年前,生成式模型主要集中在圖像上,因為我們可以更直觀地檢查結果。此外,這種理解世界、理解物理規律的想法正是開發圖像生成模型的主要驅動力。我們在生成式模型方面做過的一些令人興奮的工作可以追溯到 10 年前,比如 WaveNet。20 年前,我們還在做圖像模型。我在讀博士時,那時大家都在做生成式圖像模型。我們經歷過那個階段。我們當時有叫 PixelCNNs 的圖像生成模型。某種程度上,當時大家意識到文字領域能取得更快的進展。但我認為圖像模型的回歸是非常自然的。在 Google DeepMind,我們在很長一段時間裡都擁有非常強大的圖像、視訊和音訊模型。將這些能力結合起來是順理成章的。我們現在的方向正是我們一直強調的多模態,而且是輸入輸出層面的多模態。這就是我們的方向。隨著技術的進步,這兩個不同領域之間的架構和理念正在相互融合。過去這些架構截然不同,但現在它們正在高度趨同。所以並不是我們在強行整合什麼,而是技術在自然地融合。隨著這種融合,大家都明白了從那裡可以獲得更高的效率,理念在何處演進,我們看到了一條共同的路徑。這條共同路徑結合得非常好。Nano Banana 是最初的那些時刻之一,你可以對圖像進行迭代,可以與模型對話。文字模型通過文字擁有了大量的世界認知,而圖像模型則從另一個角度理解世界。當你將這兩者結合時,會產生令人興奮的化學反應,因為人們會感覺到這個模型理解了他們想要表達的神韻。我們談談 Nano Banana Pro,這是在 Gemini 3 Pro 之上建構的全新業內領先圖像生成模型。團隊是否看到了在 Pro 級模型中做這件事的早期訊號,即利用 Pro 的架構可能會在文字渲染和世界理解等更細微的用例上獲得更強的性能?Koray Kavukcuoglu:我認為這可能是我們看到不同技術協同發揮作用的地方。對於 Gemini 模型,我們一直秉持的理念是,每個模型版本都是一個模型家族。我們有 Pro、Flash、Flash-Lite 這一系列模型。因為在不同的尺寸下,你在速度、精準性、成本等方面會有不同的權衡。隨著技術融合,我們在圖像方面自然也有同樣的體驗。所以我認為團隊的想法是,既然有 3.0 Pro 的架構,我們是否可以利用在第一版中學到的所有經驗,通過增加尺寸來調整這個模型,使其更側重於圖像生成?我認為最終我們得到了能力更強的東西。它能理解非常複雜的文件。一些最令人興奮的用例是,你有一大堆非常複雜的文件,輸入進去,我們依靠這些模型來回答問題,你還可以要求它生成一張相關的資訊圖表,效果非常好。這就是自然的輸入輸出多模態發揮作用的地方,這感覺就像魔法一樣。(關於統一權重)Tulsee 曾承諾我們將擁有統一的 Gemini 模型權重。現在的進展表明我們實際上已經非常接近那個目標了,即在圖像生成和文字生成上實現統一,儘管歷史上架構是不同的。這是否是一個確定的目標?目前有那些因素在阻礙這一處理程序?Koray Kavukcuoglu:正如我所說,技術和架構正在對齊,所以我們看到這正在發生。人們在定期進行嘗試。但這只是一個假設,你不能基於意識形態來做這件事。科學方法就是科學方法。我們提出假設,進行嘗試,然後看結果。有時成功,有時失敗。但這就是我們必須經歷的過程。目標越來越近了。我很確定在不久的將來,我們會看到這些東西結合在一起。逐漸地,它將越來越趨向於單一模態。但這需要大量的創新。仔細想想,這其實很難。輸出空間對模型來說至關重要,因為那是學習訊號的來源。目前,我們的學習訊號主要來自程式碼和文字。這是輸出空間的主要驅動力,也是我們在這些方面表現出色的原因。現在,要能夠生成圖像,我們在影像品質上的調整已經非常精細。這是一件很難的事情。生成像素級完美的質量很難。而且圖像在概念上必須是連貫的,每個像素不僅關乎質量,還關乎它如何與圖片的整體概念相融合。訓練一個能同時做好這兩件事的模型更難。我看待這個問題的方式是,我認為這絕對是可能的。這終將實現。關鍵在於找到正確的模型創新來達成它。06 DeepMind 利用 DeepThink 等項目在主線外探索新邊界DeepMind 現在擁有許多業內領先的模型。13 年前你是 DeepMind 的第一位元深度學習研究員,當時人們對這項技術並不興奮,而現在它驅動著所有核心產品。當你反思這段旅程時,你想到了什麼?Koray Kavukcuoglu:這令人驚訝嗎?這是充滿希望的、積極的結果。當我在讀博士時,我想每個讀博士的人都一樣,你相信你所做的東西很重要,或者將會變得重要。你對那個課題充滿熱情,你認為它會產生巨大的影響。我當時也是這種心態。這就是為什麼當 Demis 和 Shane 聯絡我,我們交談後,我對 DeepMind 感到非常興奮。得知有一個地方真正專注於建構智能,並且將深度學習作為核心,我非常激動。在那個年代,擁有一家專注於深度學習、專注於 AI 的初創公司是很不尋常的。我認為那是非常有遠見的。後來我組建了深度學習團隊,團隊不斷壯大。我認為其中一件事,我對深度學習的方法一直是一種關於如何處理問題的心態。第一原則是它總是基於學習的。這就是 DeepMind 的核心,一切都押注在學習上。從我們早期的工作開始,到強化學習和智能體,以及我們要一路走來所做的一切,這是一段令人興奮的旅程。你投身這些事業,總是希望有一個積極的結果。但反思過去,我想說我們很幸運。我們很幸運生活在這個時代,因為我認為很多人投身 AI 或他們熱衷的領域,都認為那是屬於他們的時代,是技術將會成功的時候。但它確實正在當下發生。我們也必須意識到,AI 之所以能在當下爆發,不僅僅是因為機器學習和深度學習的進步,還因為硬體的進化達到了某種狀態,網際網路和資料積累達到了某種狀態。是許多因素因緣際會。我很幸運能實際從事 AI 工作並一路走到這一刻。(關於里程碑對比)回顧 AlphaFold 等歷史里程碑,與現在相比,我們在組織團隊、將科學轉化為結果的經驗上有何不同?DeepThink 作為一個在奧林匹克數學競賽中實戰的模型,在其中扮演了什麼角色?Koray Kavukcuoglu:我認為在如何組織團隊,或者什麼是成功的文化特質,以及如何將艱難的科學和技術問題轉化為成功的結果方面,我們在過去的許多項目中積累了大量經驗,從 DQN、AlphaGo、AlphaZero 到 AlphaFold。所有這些項目都極具影響力。通過它們,我們學到了很多關於如何圍繞一個特定目標、一個特定使命進行組織,以及如何作為一個較大的團隊進行協作。我記得在 DeepMind 早期,我們會有一個 25 人的團隊一起做一個項目,並且 25 個人一起署名寫論文。每個人都會對我們說,肯定沒有 25 個人真的都在做這個吧。我會說,不,他們確實都做了。因為在科學和研究領域,這種規模並不常見。我認為那種知識、那種心態是關鍵。我們通過這些經歷完成了進化。這真的很重要。同時,對於最近這兩三年,我們將這種經驗與工程思維相結合,即我們要開發一條模型主線,並且我們學會了如何利用現有模型在這條主線上進行探索。我看到這一點的絕佳例子,每次想到這個我都感到很高興,是我們的 DeepThink 模型。那些是我們用來參加國際數學奧林匹克競賽、ICPC 競賽的模型。我認為那是一個非常酷且恰當的例子,因為我們在進行探索。你挑選這些宏大的目標。國際數學奧林匹克競賽真的很重要,它涉及真正極難的問題。向每一位參賽的學生致敬,這真的是了不起的事情。能夠把一個模型放到那個賽場上,當然,你會有一種衝動去為此專門定製一些東西。但我們試圖做的是利用那個機會來進化我們現有的技術,或者構想出與我們現有模型相容的新想法。因為我們相信我們所擁有技術的通用性。回顧當年那篇論文只有 25 位作者,而今天 Gemini 3 的貢獻者名單可能有 2500 人。看到這些問題現在的規模如此之大,這種從科學小團隊向大規模工程協同的轉變帶來了那些思考?Koray Kavukcuoglu:確實如此。這對我們很重要,這也是 Google 最棒的地方之一:這裡有太多各自領域的頂尖專家。我們受益於 Google 擁有的全端方法,因為在每一層都有專家,從資料中心到晶片再到網路,以及如何大規模運行這些系統。目前已經發展到一種狀態,再次回到這種工程思維,即這些環節是密不可分的。當我們設計一個模型時,是基於它將運行在什麼硬體上來設計的。同樣,我們在設計下一代硬體時,也知道模型大概會往那個方向發展。這非常美妙。但是協調這一切,當然需要成千上萬的人協同工作並做出貢獻。我們需要認識到這一點,這本身就是一件美妙的事情。07 Gemini 最大的風險是創新枯竭在這個時代,你如何看待 DeepMind 在“純粹的科學探索”與“僅僅試圖擴大 Gemini 規模”之間的平衡?要繼續擴大規模顯然需要創新,你如何看待這種決策?Koray Kavukcuoglu:那是關鍵所在,找到這種平衡真的非常重要。即使是現在,當人們問我“Gemini 最大的風險是什麼”時,我思考過很多,我認為 Gemini 最大的風險是創新枯竭。因為我真的不相信我們已經找到了“成功秘籍”,接下來只需要照章執行就行了。我不相信這一套。如果我們的目標是建構智能,我們要通過產品與使用者一起實現這一目標,那麼擺在面前的問題是非常具有挑戰性的。我們的目標依然極具挑戰且尚未實現。我不覺得我們已經掌握了既定公式,只需要單純地擴展或執行。唯有創新才能實現這一目標。關於創新,你可以將其視為在不同尺度上,或在與當前方向不同的切入點上進行的探索。當然我們有 Gemini 模型,在 Gemini 項目內部我們也進行了大量探索。我們探索新架構、新想法、不同的做事方式。我們必須這樣做,我們也在持續地這樣做。這就是所有創新的源泉。但同時,我認為 DeepMind 或整個 Google DeepMind 進行更多的探索對我們來說至關重要。我們必須做這些事,因為有些東西可能受限於 Gemini 項目本身而無法在其中探索。所以我們能做的最好的事情是,無論是在 Google DeepMind 還是在 Google Research,我們都要探索各種各樣的想法,並將這些想法引入進來。歸根結底,Gemini 不僅僅是一種架構。Gemini 是你想要實現的目標。你想要實現的目標是智能,你想通過產品來實現它,使整個 Google 真正運行在這個 AI 引擎上。從某種意義上說,具體是什麼架構並不重要。我們目前有一套方案,我們有演進的方法,我們將通過它不斷進化。而這背後的動力源泉將是創新,永遠都是創新。因此找到這種平衡,或者找到以不同方式進行創新的機會是非常關鍵的。在 I/O 大會現場我親身感受到了你、Sergey Brin 和 Demis Hassabis 展現出的人性溫暖。當你思考幫助塑造和營運這個團隊時,這種文化對你意味著什麼?Koray Kavukcuoglu:首先非常感謝你,你讓我有點不好意思了。但我認為這很重要。我相信我們的團隊,我相信信任夥伴並給予人們機會。團隊的層面很重要,這至少是我可以說我在 DeepMind 工作期間學到的東西。因為我們曾經是一個小團隊,你在那裡建立了那種信任。然後當你成長時,如何維持這種信任很重要,要創造這樣一種環境,讓人們感覺到我們真的在乎解決那些具有挑戰性的技術和科學問題,那些能產生影響、對現實世界有意義的問題。我認為這仍然是我們正在做的事情。正如我所說,Gemini 就是關於這一點的。建構智能是一個高度技術化、極具挑戰性的科學問題。我們必須以這種方式去處理它。我們也必須懷著謙卑之心去處理它,必須時刻審視自己。希望團隊也有同樣的感受。這就是為什麼我總是說我真的為團隊感到驕傲,他們配合得驚人地好。今天我們在樓上的茶水間聊天,我對他們說:“雖然很累人,很艱難,我們都筋疲力盡了,但這正是它的本質。”對此我們沒有完美的架構。每個人都聚在一起,協同工作並互相支援。這很難,但讓這一切變得有趣和愉快的,以及讓你能解決真正難題的,我認為在很大程度上是因為擁有正確的團隊在一起並肩作戰。 (數字開物)
陶哲軒力推AlphaEvolve:解決67個不同數學問題,多個難題中超越人類最優解
陶哲軒又來安利AlphaEvolve了。在與DeepMind高級工程師Bogdan Georgiev等人合著的新論文中,陶哲軒稱其為數學發現的有力新工具。具體來說,他們用AlphaEvolve研究了67個數學問題,涵蓋組合數學、幾何、數學分析與數論等多個領域。結果發現,AlphaEvolve在可擴展性、魯棒性、可解釋性方面均優於傳統工具。更關鍵的是,AlphaEvolve已經可以自主發現新穎的數學構造,並在部分問題上超越人類已有的最優結果。AI自主發現新數學構造AlphaEvolve在67個問題的測試中,不僅復現了眾多已知最優解,更在多個方面展現了其獨特的發現能力。一個關鍵的成就是AlphaEvolve能夠自主發現人類未曾一窺的新數學構造。例如在處理Nikodym集問題時,系統生成的初步構造雖然尚未達到最優,但它為人類研究者提供了“一個極好的人類直覺跳板” 。基於AI提供的結構,研究人員通過人工簡化和直覺推演,最終找到了一個更優的構造,改進了已知的上界,這一人機協作的成果將作為一篇獨立的數學論文發表。同樣地,在算術Kakeya猜想中,AlphaEvolve也發揮了類似作用。系統不僅將一個已知的下界從1.61226提升至1.668,其構造的解(形態上類似於離散高斯分佈)還啟發人類數學家建立了新的漸近關係,相關成果也即將發表。這種啟發人類研究的能力,與AlphaEvolve輸出結果的可解釋性緊密相關。系統在大多數情況下生成的是結構清晰的程式碼,而非難以理解的黑盒結果,這使得人類專家可以方便地分析、歸納其發現的模式,並提煉出通用的數學公式。積木堆疊問題便是這一特性的絕佳體現。在該問題中,系統最初生成了一個邏輯正確的遞迴程序來計算積木的放置。在隨後的演化中,系統內部的LLM分析了這段程式碼的邏輯,並自主將其重構為一個更簡潔、高效的顯式程序。這個最終程序清晰地揭示了最優解與諧波數(harmonic numbers)之間的數學關係,這與人類已知的理論公式完全一致,展示了系統從複雜解法中提煉數學本質的能力。除了方案的清晰性,AlphaEvolve在不同類型的問題設定下也表現出了強大的魯棒性。它能夠有效處理高維度參數空間、複雜的幾何約束以及基於蒙特卡洛模擬的近似評分函數。比如這裡有一個最小三角形密度問題。研究人員最初設計了一個樸素的評分函數,但系統很快利用了該問題空間的非凸性,通過“欺騙”評分函數獲得了超越理論最優的不可能分數。為瞭解決這個問題,研究人員設計了一個更魯棒的新評分函數,該函數基於問題的利普希茨連續性(Lipschitz type bounds)構造。在切換到這個更複雜的連續評分函數後,AlphaEvolve不再受局部陷阱的迷惑,迅速收斂到了已知的、正確的理論最優解。並且AlphaEvolve具備了出色的泛化能力,來看IMO 2025的第6題。研究人員只在輸入n為完全平方數時才對系統進行評分。這種“資訊限制”反而迫使AlphaEvolve去尋找這些稀疏實例背後的共同結構模式,而不是對每個n進行“過擬合”。最終,系統成功發現並輸出了在所有完全平方數n上均達到最優的通用構造,展現出了歸納能力。在實際應用中,AlphaEvolve的效率極高,僅需少量高品質提示即可驅動。論文指出,來自領域專家的提示(expert guidance)往往能顯著提升最終構造的質量,表明系統對人類輸入具有高度的敏感性。同時,該系統在架構上支援平行化,允許研究人員在多個問題實例或同一問題的不同參數設定上同時運行探索,並能自動遷移成功的搜尋策略,這在處理多參數的幾何類問題時尤其高效。AlphaEvolve工作模式AlphaEvolve並非一個單一流程的系統,而是通過不同“工作模式”適應不同類型的數學問題探索任務。該系統主要在兩種不同的模式下運行——“搜尋模式”(search mode)和“泛化模式”(generalizer mode)。“搜尋模式”是系統最常用的模式,其目標是高效地發現最優的數學構造,而不必關心構造過程是否具有可解釋性或普適性。在這種模式下,AlphaEvolve演化的不是直接生成構造的程序,而是演化用於搜尋構造的程序。每一個被演化的程序本身就是一個“搜尋啟髮式演算法”(search heuristic)。評估器會給予這些啟髮式演算法一個固定的時間預算,演算法的得分取決於它在此預算內能找到的最佳構造的質量。這種方式解決了LLM呼叫(緩慢且昂貴)與傳統局部搜尋(快速且廉價)之間的速度差異——一次緩慢的LLM呼叫用於生成一個高效的搜尋策略,該策略隨後可以觸發大規模的廉價計算,自主探索數百萬個候選構造。系統演化的是一系列“改進器”(improver)函數,它們動態地適應搜尋處理程序,早期可能偏好進行廣泛探索的啟髮式演算法,而當接近最優解時,則會演化出更精細的、針對特定問題進行最佳化的演算法。“泛化模式”則更具挑戰性 。其目標是讓AlphaEvolve編寫一個能夠解決任意給定參數n的問題的通用程序 。系統的評估方式是考察該程序在一系列不同n值上的綜合表現。這種模式的期望是,通過讓系統觀察自己在小規模n上找到的最優解,它能夠自主“發現模式”,並將其歸納推廣為一個適用於所有n的通用公式或演算法 。總之,AlphaEvolve展示了AI引導的演化搜尋如何補充人類的直覺,為數學研究提供了一個強大的新範式。 (量子位)
陶哲軒敲警鐘!Google DeepMind聯手五大神殿,用AI向世紀難題宣戰
【新智元導讀】GoogleDeepMind再出重拳,集結全球五大頂尖機構,以AI之力直指數學界聖盃!同時,陶哲軒也發出冷靜警示:須警惕AI濫用帶來的潛在風險。今天,GoogleDeepMind重磅發起「AI賦能數學計畫」,集結了全球五大頂尖機構。他們將用上Google最強數學AI,去探索發現新的疆域。這其中,有奪下IMO金牌的Gemini Deep Think,有演算法發現AI智能體AlphaEvolve,還有形式化證明自動補全AlphaProof。目前,首批合作機構陣容,堪稱豪華:倫敦帝國學院普林斯頓高等研究院(IAS)法國高等科學研究所(IHES)西蒙斯計算理論研究所(加州大學伯克利分校)塔塔基礎科學研究所(TIFR)這五大機構有著一個共同的使命,發掘可以被AI點亮的數學難題,加速科學發現。然而,陶哲軒擔憂的是,「當前AI在數學研究中應用加深,除了負責任的使用,AI濫用的案例也屢見不鮮」。因此他認為,現在正是時候,啟動關於如何最佳融入AI、透明披露其作用,並緩解風險的討論。或許,這不僅能守護數學研究的嚴謹性,還將為AI+數學融合鋪就道路。五大頂尖機構,聯手強攻數學難題數學,是宇宙最基礎的語言。在GoogleDeepMind看來,AI可以作為強大工具,與數學家合作,激發其創造力。「AI賦能數學計畫」的誕生,就是為了:發掘有望借助AI獲得深刻見解的新一代數學難題;建構支援這些前沿探索所需的基礎設施與工具;最終加速科學發現的步伐。這項計畫,將由Google.org提供資金支援,以及GoogleDeepMind的頂尖技術。幾個月來,GoogleDeepMind自身的研究,取得了飛速進步。2024年,AlphaGeometry和AlphaProof在IMO競賽中,拿下了銀牌。而搭載Deep Think的最新Gemini模型,更是在今年IMO中取得了金牌水平的表現,完美破解5題拿下35分。今年5月,GoogleDeepMind又發佈的AlphaEvolve,堪稱最強通用AI智能體。在數學分析、幾何學、組合數學和數論領域50個公開難題上,20%題目中,AlphaEvolve取得了最優解。而且,在數學與演算法發現領域,它發明了一種全新的、更高效的矩陣乘法方法。具體來說,在4x4矩陣乘法這一特定問題上,它發現了僅需48次標量乘法的演算法。這一結果,打破了1969年由Strassen演算法,創下長達50年的歷史紀錄。不僅如此,在電腦科學領域,AlphaEvolve協助研究員發現了全新的數學結構。同時,它還發現了有些複雜問題的求解難度,其實比人們過去想的還要高,這讓研究者對計算邊界看得更清楚、更精準,為未來的研究探明方向。以上這些進展,都是當前AI模型快速發展的有力證明。對於AI的全部潛力,還有它怎麼搞定思考最深奧的科學問題,人類的理解才剛剛開始。AI+數學,邊界在那?一直以來,陶哲軒是「AI+數學」領域應用的看好者,也是最佳實踐者。他曾多次聯手GPT-5 Pro等頂尖AI,破解了許多數學領域的難題,大大提升了效率。毋庸置疑,在數學領域,LLM和證明助手等AI工具,正悄然改變研究範式。最近,一些頂尖論文開始融合AI,推動了從形式化證明到複雜計算的創新。論文地址:https://borisalexeev.com/pdf/erdos707.pdf然而,隨著AI的深度介入,也引發了一個關鍵問題:如何確保這些工具的使用,不損害論文的嚴謹性和價值?陶哲軒獻策借此契機,陶哲軒在公開平台上發起了討論,在長帖中,他提出了三大建議。以下,AI一詞,它不僅涵蓋LLM,也包括神經網路、可滿足性求解器、證明助手以及任何其他複雜的工具。1 AI使用聲明論文中,所有對AI實質性的使用,超出其基礎功能,比如自動補全、拼寫檢查,或搜尋引擎AI摘要,都必須明確聲明。2 AI風險討論與緩解措施論文中,應討論所用AI工具可能帶來的一般性風險,並說明為緩解這些風險已採取的措施。以下將舉例說明:2.1. 內容虛構,出現了「幻覺」AI可能會編造參考文獻、證明過程或文字,導致事實錯誤。建議不要在論文正文中,使用AI生成的文字;若必須使用AI輸出,則用不同字型或標記清晰標註。2.2. 缺乏可復現性專有AI或高計算成本的結果難以復現。解決方案是,開源提示詞、工作流程、認證資料等,讓他人能低成本驗證。2.3. 缺乏可解釋性AI輸出往往晦澀,其解釋可能站不住腳。建議為每個AI輸出配以人類撰寫的、可讀性強的對應內容。比如,一個定理可以同時包含一個由人類撰寫、易於閱讀的非形式化證明,以及一個由AI生成但不易閱讀的形式化證明。2.4. 缺乏可驗證性AI易藏細微錯誤,檢查耗時。形式化驗證,一致性檢查,都有助於緩解這一問題,並採用多層次方法。關鍵是標註驗證範圍,在定理旁加「校驗標記」,未驗證部分則明確說明。2.5. 目標形式化不當AI可能精確解決「錯位」目標,即形式化後的命題偏離作者意圖。為此,應從獨立來源獲取形式化目標,或由人類深入審視形式化過程。2.6. 可能利用漏洞達成目標與上一問題相關聯,AI可能會鑽形式化表述的空子,如加入任意公理「證明」命題。應對方法是,列出已知漏洞,並討論排除機制確保過程嚴謹。2.7. AI生成程式碼有BugAI生成程式碼bug更加隱蔽,難以用傳統標準方法來檢測修復。為此,建議採用大量單元測試、外部驗證,或將AI使用限於簡單場景,複雜任務需由人類修改適配。3 責任歸屬最終,論文的所有作者,必須為AI貢獻內容承擔責任,包括任何不精準、疏漏或虛假陳述。除非明確標記為「未經核實」,否則作者不能推卸。以上這些,僅是陶哲軒的拋磚引玉,他希望加入更多的討論,和業界研究人員進一步完善這份清單。評論下方,一位研究者John Dvorak直戳痛點——除非我們能跨過臨界點,讓所有數學證明都用Lean做形式化驗證,成為學界的標配,否則這個問題基本無解。說到底,在Lean普及之前,這些法子雖然治標不治本。對此,陶哲軒拋出了最近看到的一個觀點,即用AI審稿質量是可以的,但它並非是主要的篩選工具質之一。否則就會觸發「古德哈特定律」(Goodhart's law),AI工具就會找到漏洞,用一些異常、分佈之外的文字字串就能繞開稽核。說白了,AI評估器頂多給人類稽核當個輔助,而不能完全取代人類評估者。 (新智元)
突發!OpenAI深夜推出瀏覽器ChatGPT Atlas:一文深度詳細解析「率先支援mac OS」
Sam Altman 太“壞了”,昨天DeepMind產品負責人logan 宣佈今天要發新新東西,結果又被sam截胡,OpenAI終於丟出了瀏覽器產品:ChatGPT Atlas。Sam 新口號(新大餅):重塑瀏覽器就在剛剛,OpenAI 正式推出名為 ChatGPT Atlas 的全新人工智慧驅動的瀏覽器,旨在通過將對話式 AI 深度整合到使用者的日常網頁瀏覽體驗中,從而徹底改變人們與網際網路互動的方式。其核心理念是,AI 提供了一個十年一遇的契機,可以重新思考瀏覽器的本質和功用。Atlas 並非簡單地在傳統瀏覽器上附加一個聊天按鈕,而是將 ChatGPT 作為其“跳動的心臟”,使其成為一個能理解、協助甚至代為執行任務的智能伴侶介面長這樣,感覺平平無奇:ChatGPT Atlas引入了三個核心功能:讓聊天無處不在的“隨行聊天 (Chat Anywhere)”、能夠跨網站學習使用者偏好的“瀏覽器記憶 (Browser Memory)”以及可以自主操作網頁完成複雜任務的“代理模式 (Agent Mode)”。通過這些創新,ChatGPT Atlas 致力於將瀏覽體驗從被動的資訊展示,轉變為一種主動、高效且高度個性化的協同工作流程ChatGPT Atlas 今天面向全球的 macOS 使用者正式上線。所有使用者均可下載和使用基礎版的瀏覽器,更高級的“代理模式 (Agent Mode)”功能,在初期將僅對 Plus 和 Pro 付費使用者開放,Windows、iOS 和 Android 平台的版本正在開發中以下是詳細解讀,先不要看會不會顛覆現有的額瀏覽器,大家可以感受一下OpenAI的思路,感興趣的接著往下看:Atlas 的三大支柱:核心功能解析Atlas產品負責人 Adam Fry 詳細介紹了構成 ChatGPT Atlas 體驗的三大核心功能支柱。Atlas 在提供創新功能的同時,也保留了所有使用者熟悉的傳統瀏覽器元素,如標籤頁、書籤、密碼自動填充等,確保了無縫的過渡體驗。以下是三個功能解析1.Chat comes with you anywhere (隨行聊天)這個功能旨在解決使用者在傳統工作流中反覆在不同標籤頁之間複製和貼上內容的痛點。在 Atlas 中,無論你正在撰寫電子郵件、編輯文件還是瀏覽任何網頁,ChatGPT 都可以被即時呼叫。它會以側邊欄或行內工具的形式出現,並且能夠理解你當前頁面的上下文這意味著當你需要幫助時,AI 助手就在你手邊,並且因為它瞭解你正在做什麼,所以能夠提供更具相關性和幫助性的建議。這徹底改變了以往需要打開一個專門的 ChatGPT 標籤頁,再將內容貼上過去進行處理的繁瑣流程2.Browser Memory (瀏覽器記憶)該功能將 ChatGPT 廣受歡迎的“記憶 (memory)”特性從單一的聊天會話擴展到了整個網路瀏覽體驗中。Adam 解釋說,使用者之所以喜愛 ChatGPT 的記憶功能,是因為隨著使用時間的增長,它會變得越來越個性化,更能理解使用者的需求。在 Atlas 中,這種個性化的學習能力將貫穿你訪問的每一個網站。瀏覽器會安全地、選擇性地記住你的偏好、歷史記錄和行為模式,從而提供更加貼心和高效的幫助。這使得整個瀏覽器體驗隨著你的使用而不斷進化,變得越來越懂你,最終成為一個真正為你量身定製的工具3.Agent (代理模式)這是 Atlas 最具突破性的功能。在代理模式下,ChatGPT 不再僅僅是一個提供資訊和建議的助手,而是能夠主動為你“採取行動 (take actions)”的執行者。當你授權它時,螢幕上會出現一個代表代理的小游標,它會像人類使用者一樣開始在網頁上點選、輸入和導航。舉例來說,代理可以幫助你預訂餐廳或機票,甚至直接在你正在處理的文件中進行編輯。這一功能將瀏覽器從一個資訊消費工具,轉變為一個可以為你分擔實際工作的強大生產力平台Atlas 體驗統一的主螢幕Atlas 的主螢幕,這是使用者每次打開應用或新建標籤頁時都會看到的介面。螢幕中央是一個醒目的編輯器 ,使用者可以直接在這裡像平常一樣向 ChatGPT 提問。同時,使用者也可以方便地訪問所有的工具、模型選擇以及包含聊天歷史的側邊欄然而,由於它是一個瀏覽器,這個介面能做的事情遠不止聊天。具有多種互動方式:智能導航:輸入“hacker news”,瀏覽器會直接識別意圖並跳轉到相應的 URL自然語言書籤:用自然語言說出“open my commits for this galaxy diff”,瀏覽器便能理解並打開你之前收藏的一個特定的 GitHub 提交頁面基於記憶的搜尋:當不確定一份文件的具體位置時,輸入了“搜尋關於Atlas core design 文件”。瀏覽器開始搜尋瀏覽記憶,並會成功找到了儲存在 Google Docs 中的目標檔案,點選即可打開主螢幕編輯器的下方是“建議 ”區域。這是 Atlas 個性化功能的初步體現。這些建議會根據 Atlas 對你近期活動的理解,為你生成可能感興趣的內容,從簡單的新聞故事到更高級的代理任務委託。你使用 Atlas 的次數越多,這些建議就會變得越精準隨行聊天:伴侶側邊欄的實際應用比如切換到了一個 GitHub 頁面,上面是有一些正在處理的一些程式碼。在任何網頁的右上角,使用者都會看到一個“ask chatgpt”按鈕。點選後,螢幕右側會滑出一個“側邊欄 ”在這個側邊欄中,你可以執行所有與 ChatGPT 相關的常規操作,但關鍵區別在於,它現在能夠看到並理解當前網頁的具體內容。這是一個重大的解鎖,它將瀏覽器從一個僅僅為你展示資訊的工具,轉變為一個能夠理解資訊,甚至在某些情況下為你編輯資訊的智能夥伴演示兩個場景:1.讓ChatGPT 總結當前程式碼差異 (diff) 的內容,AI 迅速給出了準確的摘要2.提出了一個更複雜的問題:“將這個提交挑選到今天要發佈的 RC 版本中安全嗎?”。AI 會給出一個比如“風險很低”的評估全新的搜尋範式Atlas 對搜尋功能的重大升級。在瀏覽器中搜尋一部想看的電影時,搜尋結果頁面頂部出現了一系列標籤,如圖片、視訊和新聞 ,讓使用者可以像在傳統搜尋引擎中一樣快速切換內容類型,同時又不失核心的聊天體驗最有趣的創新在於點選搜尋結果後的互動。比如當點選一條影評連結時,頁面並非全螢幕跳轉,而是默認將聊天側邊欄滑入,並將網頁連結以分屏檢視的形式打開。這種設計是讓你在瀏覽搜尋結果時,身邊始終有一個 AI 伴侶。這創造了一種“多輪體驗 ”,你可以就當前瀏覽的頁面內容持續與 AI 進行對話和提問,而不是被簡單地傳送到一個網頁後就中斷了與搜尋引擎的互動在看著四星好評的影評時,可以直接在側邊欄問 ChatGPT:你能用五個或更少的詞總結這篇評論嗎?,可以立即得到更精煉回答游標聊天:行內 AI 輔助一個非常普遍的工作流程是我們在郵件或文件中寫好初稿,複製到 ChatGPT 進行潤色,再把修改後的結果貼上回來。Atlas 的目標是扁平化這個流程你可以在郵件草稿中,他選中了一段寫得較為隨意的文字,文字旁邊立即出現了一個小的ChatGPT 小部件。點選後,輸入指令:潤色我的語言。AI 隨即在原地提供了一個更優雅、更專業的版本。當他點選“更新 ”按鈕時,原始選中的文字就被 AI 生成的新文字無縫替換了。這種功能允許使用者執行“範圍非常明確的編輯”,極其有用釋放Agent的潛力:專屬網路助理不得不服,別管實際工作表現如何,OpenAI的互動設計還是很酷炫的,這在Agent 模式裡也體現的淋漓盡致Atlas 的高級功能——代理模式 (Agent Mode)。Atlas 如何被賦予能力,代表使用者在網路上自主執行任務呢?專業任務自動化第一個場景設定在工作中。比如工作團隊正在用一個 Google Doc 非正式地規劃一個鬼屋項目。現在面臨兩個挑戰:1.文件中有些成員沒有填寫他們本周的任務(標記為“to-do”)。他需要禮貌地在文件中留言提醒他們2.團隊使用一個名為 Linear 的正式項目管理工具,他需要將 Google Doc 中所有已填寫的任務,遷移並建立為 Linear 中的“issues”(任務)如果自己項目管理經驗不足,也不太熟悉 Linear 的操作。因此,可以將這項繁瑣的任務完全委託給 Atlas 的代理模式。點選了介面上的“Agent Mode”按鈕,並下達了指令。這個模式告訴 ChatGPT,希望它能在 Atlas 內部“代表我採取行動 “啟動後,螢幕上出現了一個獨立的代理游標,開始自主地在 Google Doc 頁面上移動和點選,就像一個真人在操作一樣。OpenAI強調,這個代理是在使用者的本地瀏覽器中運行,可以訪問使用者所有的本地認證資訊(如登錄狀態)和歷史記錄,感覺就像是“使用者自身的自然延伸 ”。使用者可以即時觀看代理的操作過程,也可以切換到其他標籤頁做自己的事,讓代理在背景執行經過一段時間:結果顯示,代理不僅成功地在 Linear 中建立了所有任務並正確地標記了負責人,還在 Google Doc 中為那些未完成任務的同事留下了禮貌的提醒評論。這個功能極大地節省你的時間和精力,實現了從“vibe coding”(憑感覺程式設計)到“vibe lifing”(憑感覺生活)的跨越,讓使用者可以將生活和工作中各種繁瑣的任務委託給 Atlas 代理個人生活輔助一個常見的煩惱:需要根據用餐人數(8人)重新計算食材用量,並列出購物清單。可以首先使用普通的聊天功能詢問 Atlas:為八個人做這道菜我需要買什麼食材?。ChatGPT 迅速閱讀了網頁,完成了計算,並生成了一份清晰的購物清單接下來,將任務升級。在確認自己只需要購買肉和蔬菜後,對 ChatGPT 說:你能幫我訂購這些肉和蔬菜嗎?。此時,ChatGPT 識別出這是一個需要實際操作的任務,並主動請求授權以代理模式接管瀏覽器。點選“繼續 (continue)”後,代理便開始了行動代理會展現出個性化能力:它知道你習慣電商購物,於是直接導航到了該網站。在搜尋框中輸入商品名稱,並將正確的商品逐一加入到購物車中。最終,代理並沒有直接下單付款,而是將裝滿商品的購物車準備好,交由你最後稽核和確認。這體現了其作為“助手”而非完全自主決策者的設計理念,確保使用者始終擁有最終控制權安全在展示代理模式強大能力的同時,OpenAI團隊也花了大量篇幅強調其圍繞安全和使用者控制所做的設計。與 ChatGPT 共享整個瀏覽器的存取權也帶來了一系列全新的風險。因此,將安全性根植於從模型到產品體驗的每一個環節至關重要。內建的安全保障與操作邊界首先,代理模式有一些硬性限制以保障基礎安全。它只能在使用者打開的瀏覽器標籤頁內操作,無法執行使用者電腦上的本地程式碼,也無法訪問瀏覽器之外的任何檔案。它的活動範圍被嚴格限制在使用者的網路瀏覽會話中精細的使用者控制:登錄與登出狀態Atlas 賦予了使用者精細的控制權。在一個新標籤頁中,使用者可以隨時決定 ChatGPT 代理是以“登錄 (logged in)”狀態還是“登出 (logged out)”狀態運行登錄狀態:代理可以使用使用者在該網站的登錄憑證和個人資料,適合需要訪問個性化資訊(如 Instacart 購物歷史)的任務。登出狀態:代理在沒有個人資料存取權的情況下執行任務,適用於那些不需要登錄的通用操作團隊建議使用者在執行每項任務前仔細考慮,代理是否真的需要訪問你的登錄資訊,從而以最小權限原則來保障資料安全可選且透明的記憶功能“瀏覽器記憶 (browser memories)”功能也是完全可選的。使用者在首次設定瀏覽器時就可以選擇是否開啟。即使開啟後,使用者也可以隨時在設定中查看、管理甚至刪除這些記憶。這確保了使用者對自己的資料擁有完全的知情權和控制權用於保護隱私的隱身模式對於任何使用者不希望被瀏覽器或 ChatGPT 記憶的瀏覽活動和查詢,Atlas 同樣提供了標準的“隱身窗口”。團隊以一個幽默的例子說明了其用途,比如當你想問一個私密問題時,就可以使用隱身模式來保護隱私Sam Altman大餅計畫Sam Altman 認為人工智慧的崛起代表著一個十年一遇的罕見機會 ,促使我們去重新思考瀏覽器的定義、使用方式,以及如何更高效、更愉快地利用網路。他指出,自從標籤頁 (tabs) 出現以來,瀏覽器領域在很長一段時間內都未曾見過重大的創新。這讓 OpenAI 的團隊感到興奮,因為他們看到了一個真正重塑這一核心工具的巨大潛力Altman 提出了一個核心的時代類比:在過去的網際網路時代,瀏覽器的網址列 (URL bar) 和搜尋框 (search box) 是人們與網路互動的主要入口,是一種完美的模式。而現在,隨著人們開始以新的方式使用網際網路,他們相信“聊天體驗 ”將成為未來與網路互動的全新、更佳的模式。基於這一理念,團隊開始著手設計一款以對話式體驗為中心的瀏覽器Atlas 的工程負責人 Ben Goodger 進一步闡述了這一設計哲學。他強調,Atlas 的誕生源於一個簡單而深刻的問題:如果你能和你的瀏覽器聊天會怎樣?。從這個想法出發,團隊重新構想了整個瀏覽體驗,目標是用簡潔的對話取代多年來積累的混亂和複雜 。一個關鍵的設計原則是,要避免讓 Atlas 感覺像是“一個僅僅被釘上聊天按鈕的舊瀏覽器”。相反,他們將 ChatGPT 置於產品的核心,使其成為 Atlas “跳動的心臟 (the beating heart of Atlas)”。這意味著 ChatGPT 將始終陪伴在使用者身邊,隨時準備在你瀏覽網頁時提供幫助Sam Altman 認為當前展示的功能僅僅是這個項目的早期階段。未來真正令人興奮的可能性在於,當使用者的“自訂指令”能夠跟隨他們到網路的每一個角落時,會發生什麼。他描繪了一個未來場景:一個越來越瞭解你的代理,能夠主動為你整合資訊,發現你可能在網際網路上感興趣的內容,並將它們彙集在一起。這將遠遠超出當前演示的範圍,實現更高層次的智能協同 (AI寒武紀)
OpenAI前VP聯手DeepMind大神創業,目標打造AI科學家,a16z領投3億美元
兩位來自OpenAI和Google DeepMind的AI大牛正式聯手創業William Fedus 和 Ekin Dogus Cubuk 今日正式官宣新公司 Periodic Labs  的成立William Fedus曾任OpenAI後訓練副總裁,也曾在Google大腦工作Ekin Dogus Cubuk是另一位聯合創始人,此前是Google DeepMind材料科學與化學負責人,同樣出身於Google大腦他們宣佈,公司的目標是:打造一個AI科學家核心理念:AI科學家 + 自動化實驗室Periodic Labs認為,科學的運作方式是提出關於世界如何運作的猜想,進行實驗,並從結果中學習。在這個過程中,智力是必要但不充分的。只有當想法被驗證與現實一致時,新知識才得以創造。因此,Periodic Labs正在建構AI科學家,以及供其操作的自動化實驗室直到目前,科學領域的AI進展都源於基於網際網路資料訓練的模型。但網際網路儘管浩瀚,其資料仍是有限的(估計約10兆文字token),而近年來最前沿的AI模型已將其完全耗盡儘管研究人員試圖更好地利用這些資料,但正如任何科學家所知:重讀教科書可能會帶來新見解,但最終他們必須通過實驗來驗證想法是否成立自動化實驗室是Periodic Labs戰略的核心。它們具備三大優勢:1.提供海量、別處無法獲得的高品質資料(每個實驗可產生GB等級的資料)2.生成極具價值的負面結果,而這類結果很少被公開發表3.最重要的是,它們為AI科學家提供了行動的工具從物理科學起步,自然界就是RL環境Periodic Labs選擇從物理科學領域起步,因為技術進步受限於人類設計物理世界的能力選擇這一領域的原因在於:實驗的訊號雜訊比高且速度相對較快,物理模擬能有效建模許多系統,更廣泛地說,物理學是一個可驗證的環境AI在擁有資料和可驗證結果的領域(如數學和程式碼)中進步最快。而在物理科學領域,自然界就是強化學習(RL)的環境公司的目標之一是發現比現有材料更高工作溫度的超導體。這方面的重大進展將有助於創造下一代交通工具,並建設損耗最小的電網但這只是一個例子——如果能夠實現材料設計的自動化,就有可能加速摩爾定律、太空旅行和核聚變的發展同時,公司也致力於將解決方案與工業界結合。例如,他們正在幫助一家半導體製造商解決晶片散熱問題。通過為其工程師和研究人員訓練定製的AI agent,幫助他們理解實驗資料,從而加快產品迭代速度豪華創始團隊與投資陣容Periodic Labs的創始團隊背景深厚,曾共同創造了ChatGPT、DeepMind的GNoME、OpenAI的Operator(現為Agent)、神經網路注意力機制和MatterGen;他們還曾擴展自動化物理實驗室,並為過去十年中一些最重要的材料發現做出了貢獻公司也獲得了頂級投資者的支援。a16z領投了其3億美元的融資,其他投資者還包括 Felicis、DST Global、NVentures(輝達的風險投資部門)、Accel,以及包括Jeff Bezos、Elad Gil、Eric Schmidt和Jeff Dean在內的個人投資者這筆資金將用於發展團隊、擴大實驗室規模,並開發第一代AI科學家 (AI寒武紀)
那個最可能帶領人類達成AGI的男人,更新了終極路線圖:世界模型+人形機器人,再造下一個AlphaFold
Google DeepMind 的Demis Hassabis是我認為目前最有可能帶領人類達成AGI的人,除了本身就是技術天才以外,從他過往的深度採訪以及哲學觀點,對AI的理解非常牛逼,今天這篇文章是Demis剛剛在All-In Summit 的深度訪談,這是他最新的觀點Demis認為像Genie 3這樣的世界模型才是通往 AGI 的必經之路,讓 AI 真正理解我們所處的物理現實,由世界模型所引導的人形機器人是未來的機器人關鍵形態,Google內部正在推行機器人界的 Android戰略,Demis內涵了Sam Altman的GPT-5是博士級的AI說法,認為這是無稽之談,我們距離實現真正的AGI還需要5到10年,目前存在一到兩個關鍵的不存在的理論突破另外Demis還透露他領導者一家名為Isomorphic Labs 的公司,這家公司可以被看作是諾獎級成果 AlphaFold 的延伸,目標是建構一系列“鄰近的 AlphaFold”徹底顛覆藥物設計開發臨床試驗全過程Google DeepMind 的角色與 AlphaFold 的諾貝爾獎之路Demis Hassabis 首先分享了他獲得諾貝爾獎的經歷,這一榮譽不僅是對他個人成就的肯定,更是對 AI 在基礎科學領域取得歷史性突破的認可。他將獲得諾貝爾獎的整個過程描述為一種超現實的體驗,從接到瑞典的電話通知,到在斯德哥爾摩參加持續一周、充滿歷史感的頒獎典禮,每一步都令人震撼。其中最令他感動的時刻,是在一本擁有 120 年歷史的諾貝爾名冊上籤下自己的名字,與愛因斯坦、瑪麗·居里、費曼等科學巨匠並列。Hassabis 提到,諾貝爾獎的評選不僅看重科學突破本身,也極其關注其在真實世界中產生的深遠影響,而 AlphaFold 正是這樣一個典範在分享完個人榮譽後,Hassabis 清晰地定義了 Google DeepMind 在 Alphabet 集團中的戰略定位。他將 Google DeepMind 形容為整個 Google 和 Alphabet 的引擎室。經過內部整合,Google DeepMind 彙集了公司內所有頂尖的 AI 研發力量,形成了一個擁有約 5,000 名員工的強大團隊,其中超過 80% 是工程師和博士級研究員。這個團隊的核心任務是建構前沿的 AI 模型,並將其深度整合到 Google 的所有產品和服務中核心模型 Gemini:作為旗艦模型,Gemini 不僅是對話式 AI 的基礎,其多模態能力 (multimodal) 使其能夠處理和輸出文字、圖像、音訊、視訊等多種資訊格式。如今,全球數十億使用者已經通過各種方式與 Gemini 模型進行互動,例如 Google 搜尋的 AI 概覽 (AI overview)、Gemini 應用等,就在昨天 Gemini APP已經超越ChatGPT成為蘋果應用程式商店下載量第一的應用廣泛的產品整合:DeepMind 的技術正在被全面地融入到 Google 的生態系統中,包括 Workspace 辦公套件、Gmail 等,旨在提升使用者體驗和工作效率前沿與應用的結合:Hassabis 強調了 Google DeepMind 獨特的優勢,即能夠將最前沿的科學研究與大規模的商業應用緊密結合,實現從理論到實踐的快速轉化,讓最新的 AI 技術能立即觸達數十億使用者總而言之,Google DeepMind 不再僅僅是一個獨立的研究機構,而是驅動整個 Alphabet 集團智能化轉型的核心動力。它負責建構從基礎大模型到專有應用模型的全方位 AI 能力,並通過 AlphaFold 這樣的項目,展示了 AI 作為工具來解決人類最根本科學問題的巨大潛力Genie 3 世界模型在訪談中,Hassabis 重點介紹了 Genie 3 的革命性技術,它代表了 AI 在理解和生成物理世界方面的重大飛躍。Genie 3 是一個世界模型,其核心能力是僅通過單一的文字提示,就能生成一個可互動的、動態的虛擬世界。這與傳統的遊戲開發或視訊生成有著本質的區別傳統的 3D 虛擬世界建構,依賴於 Unity 或 Unreal 這樣的渲染引擎。開發者需要手動建立 3D 模型,編寫物理規則(如光線如何反射、物體如何碰撞),並設計所有互動邏輯。這是一個極其複雜且耗費人力的過程。而 Genie 3 的工作方式完全不同,它顛覆了這個流程:端到端的生成:使用者看到的每一個像素都是由 Genie 3 模型即時動態生成的。在使用者與環境互動之前,這個世界的某些部分甚至根本不存在。例如,在一個演示中,當玩家視角轉向一個新區域時,該區域的景象才被即時創造出來;當視角轉回時,之前留下的痕跡(如牆上的塗鴉)依然存在,這證明模型維持了世界的內部一致性逆向工程物理規律:Genie 3 的能力並非來自預設的物理程式碼,而是通過學習數百萬計的視訊和遊戲錄影等資料,自主地逆向工程出了我們世界運行的直觀物理規律。它理解了光影、水面反射、材質流動和物體行為等複雜現象,並將這些理解應用於世界的生成中,使得生成的環境看起來既真實又合乎邏輯即時互動與控制:Genie 3 生成的不僅僅是靜態視訊,而是一個可以被使用者控制的動態環境。使用者可以通過鍵盤的箭頭鍵和空格鍵等簡單操作,在生成的世界中移動和互動,例如控制一個穿著小雞套裝的人,或是在沙灘上奔跑的狗。使用者還可以通過輸入新的文字指令Hassabis 強調,建構像 Genie 3 這樣的世界模型,其戰略意義遠不止於遊戲或娛樂。它是實現通用人工智慧 (AGI) 的關鍵路徑之一。他認為,一個真正的 AGI 系統不能只理解抽象的語言或數學,它必須深刻理解我們所處的物理世界 。這種理解能力是實現以下目標的基礎:高級機器人技術:機器人要在現實世界中安全、有效地執行任務,就必須具備對環境的直觀物理感知和預測能力。Genie 3 所展現的能力,正是未來機器人模型所需要的核心智能助理與智能眼鏡:一個能夠在你日常生活中提供幫助的智能眼鏡助理,必須理解你所處的物理環境和上下文 (physical context),才能給出真正有用的建議多模態模型的演進:Genie 3 和 Google 的文生視訊模型 VEO,都是 Gemini 從一開始就追求多模態能力的體現。通過生成動態世界,AI 證明了它對世界動態規律的深刻理解,這比單純處理靜態資料要複雜得多Hassabis 個人對此項目感觸頗深,因為他在 90 年代曾親自編寫遊戲和圖形引擎,深知手動實現這一切的難度。看到 AI 能夠如此毫不費力地完成這些複雜的任務,讓他感到非常震撼。Genie 3 的出現,標誌著 AI 正在從理解內容,邁向理解並創造可互動的世界AI 在機器人領域的現狀與未來訪談中,Hassabis 深入探討了機器人技術,特別是視覺-語言-行為模型 (vision-language-action models) 的發展現狀和未來方向。這類模型的目標是建立一個通用系統,能夠通過攝影機觀察物理世界,理解人類的自然語言指令(文字或語音),並將其轉化為具體的物理動作Hassabis 指出,當前的 Gemini 模型已經具備了強大的物理世界理解能力,使用者可以通過手機上的 Gemini Live 功能,將攝影機對準周圍環境,體驗其神奇的識別和分析能力。而機器人技術,正是這一能力的自然延伸。Gemini 機器人模型:Google DeepMind 已經開發了專門的 Gemini 機器人模型,這是在通用 Gemini 模型的基礎上,使用額外的機器人資料進行微調的版本。這些模型能夠將高層次的語言指令,如“把黃色的物體放進紅色的桶裡”,直接轉化為機器人手臂精確的馬達運動。這種多模態模型的優勢在於,它能將現實世界的常識性理解帶入人機互動中,使得與機器人的溝通更加自然和直觀“機器人界的 Android”戰略:Hassabis 確認,Google 正在探索一種類似 Android 在移動裝置領域的策略,即建立一個通用的、跨平台的機器人軟體層或作業系統 (OS layer)。這個系統一旦足夠成熟,能夠適配多種硬體裝置,就有可能催生一個龐大的機器人硬體生態系統,極大地加速機器人產品和公司的發展垂直整合與端到端學習:除了平台化戰略,Google 也在探索將最新的 AI 模型與特定的機器人硬體設計進行深度垂直整合。這種端到端的學習方法 (end-to-end learning) 同樣具有巨大潛力,兩條路線都在積極推進中。關於機器人的具體形態,特別是人形機器人的價值,Hassabis 的觀點也發生了演變。他過去傾向於認為針對特定任務的專用形態機器人會是主流,例如在工廠流水線或實驗室中,最佳化形態以適應特定任務會更高效。然而,他現在認為,在通用或個人應用場景中,人形機器人可能至關重要與人類世界相容:我們的物理世界,從樓梯、門把手到各種工具,都是圍繞人類的形態設計的。與其大規模改造現有環境來適應機器人,不如設計一個能夠無縫融入這個環境的機器人形態,這在經濟和實踐上都更具可行性通用性與專業性的並存:他最終的結論是,未來將是兩種形態並存的世界。工業領域會有高度專業化的機器人,而在與日常生活互動的場景中,人形機器人將扮演重要角色儘管前景廣闊,Hassabis 也坦言機器人技術仍處於相對早期的階段。他預測,未來幾年內會出現一個令人驚嘆的wow moment,但在此之前,演算法和硬體都還需要進一步發展。他認為,當前的模型在可靠性和對世界的理解上仍需提升。同時,硬體方面也面臨一個關鍵的時機問題:過早地投入大規模生產,可能會導致工廠剛建成,新一代更靈巧、更可靠的機器人設計就問世了。他用一個計算歷史的比喻來形容當前的狀態,或許我們正處於個人電腦的70年代,但他也補充道,在這個時代,十年發生的事情可能在一年內就完成了邁向AGI 的挑戰:衡量標準、創造力與模型進展Hassabis 在訪談中詳細闡述了他對通用人工智慧 (AGI) 的看法,並指出了當前 AI 技術距離實現 AGI 所面臨的核心挑戰。他認為,AGI 的真正標誌不僅僅是完成任務的能力,更在於其是否具備人類頂尖科學家和藝術家所擁有的真正的創造力。他明確指出,當今的 AI 系統尚不具備這種創造力。它們可以證明一個已有的猜想,但無法獨立提出一個全新的、深刻的科學假說或理論。為了更具體地衡量 AGI,他提出了幾個極具挑戰性的測試標準:科學發現的再現:給一個 AI 系統設定一個知識截止日期,比如 1901 年,看它是否能像愛因斯坦在 1905 年那樣,獨立推匯出狹義相對論。如果 AI 能做到這一點,那將是 AGI 即將實現的有力證據從策略到創造:以 AlphaGo 為例,它雖然在圍棋比賽中擊敗了世界冠軍,並創造了“第 37 手”這樣前所未有的新策略,但這仍是在既定規則下的最佳化。一個真正的 AGI,應該能夠創造出像圍棋這樣優雅、美觀且富有深度的新遊戲,而不僅僅是玩好一個已有的遊戲根據 Hassabis 的分析,當前 AI 系統要達到 AGI 水平,主要缺失以下幾個核心能力:直覺飛躍 (Intuitive Leaps):頂尖的科學家之所以偉大,不在於他們的技術能力,而在於他們能夠進行創造性的、跨領域的聯想和模式匹配,實現直覺上的突破。目前的 AI 更擅長漸進式的改進,而非這種根本性的思維跳躍一致性與可靠性 (Consistency):他反駁了當前某些模型已達到博士級智能的說法,認為這種描述是無稽之談(此處內涵Sam Altman ,😁) 。雖然模型在某些方面表現出色,但它們在整體能力上遠未達到博士水平。一個簡單的問題,如果換種方式提問,模型就可能在高中數學甚至簡單的計數上犯錯。一個真正的 AGI 系統不應出現這種不一致性持續學習 (Continual Learning):模型需要具備線上學習的能力,能夠即時地接收新知識或根據反饋調整自身行為,而不是依賴於大規模的離線重新訓練基於以上判斷,Hassabis 預測,我們距離能夠完成上述任務的 AGI 系統大約還有 5 到 10 年 的時間。他傾向於認為,僅僅依靠擴大模型規模 (scaling) 可能不足以實現 AGI,我們可能還需要 一到兩個目前尚未出現的理論性突破同時,他也回應了關於大語言模型性能增長放緩或趨於一致的觀點。他表示,在 Google DeepMind 內部,他們並未觀察到這種停滯。相反,他們仍然看到技術以極快的速度在進步。他認為,外界之所以有這種感覺,可能是因為只關注了語言模型這一個維度。而 Google DeepMind 正在更廣闊的領域取得突破,例如前面提到的 Genie 世界模型、VEO 視訊模型,以及像 Nano-Banana 這樣的創意工具,這些都展示了 AI 能力仍在飛速擴展AI 賦能科學與創意:從 Isomorphic Labs 到 Nano-BananaHassabis 強調,利用 AI 加速科學發現和改善人類健康,是他投身 AI 事業的初衷和最終目標。他認為這是 AI 最重要的應用方向,而 AGI 將成為科學研究的終極工具。DeepMind 在這方面已經取得了一系列成就,除了眾所周知的 AlphaFold,AI 還被應用於材料設計、控制核聚變反應堆中的電漿體、天氣預測以及解決奧數難題等多個領域為了將 AI 在生物科學領域的突破商業化並產生更大影響,Hassabis 同時還領導著一家名為 Isomorphic Labs 的公司Isomorphic Labs 的使命:這家公司可以被看作是 AlphaFold 的延伸。AlphaFold 解決了蛋白質結構預測這一關鍵問題,但這只是藥物發現漫長流程中的一步。Isomorphic Labs 的目標是建構一系列“鄰近的 AlphaFold” (adjacent AlphaFolds),用 AI 解決藥物研發中的其他瓶頸問題,例如設計能夠精確結合到蛋白質特定靶點且副作用最小的化學分子重塑藥物發現流程:Hassabis 的願景是,在未來十年內,利用 AI 將傳統需要數年甚至十年的藥物發現周期,縮短到幾周甚至幾天。目前,Isomorphic Labs 已經與禮來 (Eli Lilly)、諾華 (Novartis) 等製藥巨頭建立了合作夥伴關係,並擁有自己的內部藥物研發項目,專注於癌症、免疫學等領域。他透露,預計明年將進入臨床前階段除了硬核的科學應用,Hassabis 也對 AI 在創意領域的潛力感到興奮,並以 Google 最近火爆全網的圖像生成工具 Nano-Banana 為例,闡述了 AI 如何實現“創造力的大眾化” 。Nano-Banana 的獨特之處:它不僅是一個頂級的圖像生成器,其最強大的特性之一是一致性和對指令的精確遵循。使用者可以反覆迭代,對圖像的特定部分進行修改,而模型會保持其他部分不變。這種可控性讓使用者能夠最終得到自己心中所想的完美效果賦能專業人士與大眾:Hassabis 認為 AI 創意工具將帶來兩個層面的影響1.大眾化:像 Nano-Banana 這樣的工具,讓任何沒有專業技能(如 Photoshop)的普通人都能輕鬆創作出高品質的視覺內容,無需學習複雜的軟體介面。這極大地降低了創作的門檻2.超級賦能專業人士:同時,AI 也為頂尖的專業創作者(如電影導演)提供了強大的助力。它能讓這些專業人士的生產力提升 10 倍甚至 100 倍,他們可以低成本、快速地嘗試各種創意想法,從而更快地實現其藝術願景未來的娛樂形態:Hassabis 展望,未來的娛樂可能會演變成一種新的藝術形式,其中包含共同創作的元素。頂尖的創意大師將建構引人入勝的動態世界和故事情節,而普通使用者也能在這些世界中進行某種程度的共同創作。這種互動式的、個性化的內容體驗,將由像 Genie 這樣的技術驅動,最終可能改變我們消費和參與娛樂內容的方式AI 的底層架構與未來展望:混合模型、能源消耗與科學黃金時代在訪談的最後部分,Hassabis 深入探討了支撐 AI 發展的底層技術架構、備受關注的能源問題,並對未來十年做出了展望。關於模型架構,他解釋了當前許多先進 AI 系統,包括 AlphaFold,實際上採用的是一種混合模型的設計。這種架構結合了兩種不同方法的優點:機率性學習元件:這部分基於神經網路和 Transformer 等技術,從海量資料中學習模式和規律。它具有強大的泛化能力,但其表現依賴於資料的質量和數量確定性規則元件:在許多科學領域(如生物、化學),我們並沒有足夠的資料來讓模型從零開始學習所有知識。因此,需要將一些已知的、確定性的物理或化學規則(例如原子間的鍵角、原子不能重疊等)作為約束或先驗知識直接建構到模型中Hassabis 指出,這種混合架構的挑戰在於如何讓學習系統和手工設計的規則系統協同工作。AlphaGo 就是一個典型的例子,它結合了用於評估棋局模式的神經網路和用於規劃搜尋的蒙特卡洛樹搜尋演算法。他認為,最終的目標是儘可能將規則元件中的知識“上游化” (upstream it into the learning component),即通過改進學習演算法,讓模型能夠通過端到端學習自主發現這些規律,就像 AlphaZero 所做的那樣,它擺脫了對人類棋譜資料的依賴,實現了更強的通用性對於 AI 發展帶來的能源消耗激增問題,Hassabis 提出了一個雙向的觀點。效率的提升:一方面,Google DeepMind 一直在努力提升模型的效率。因為服務數十億使用者的內部需求(如 AI 概覽)要求模型必須具備極低的延遲和成本。通過蒸餾等技術(用一個大模型來訓練一個性能相近的小模型),過去兩年模型的效率已經提升了 10 倍到 100 倍前沿探索的需求:另一方面,儘管伺服器端的模型效率在提高,但對能源的總需求並未減少。這是因為研究人員仍在不斷探索 AGI 的邊界,需要訓練更大、更複雜的前沿模型AI 的能源回報:他堅信,從長遠來看,AI 為解決能源和氣候變化問題所做的貢獻,將遠遠超過其自身的能源消耗。AI 可以在最佳化電網系統、設計新型材料和能源、提升能源使用效率等方面發揮巨大作用最後,當被問及對未來十年的預測時,Hassabis 認為,我們將在未來十年內擁有真正的 AGI。而 AGI 的到來,將開啟一個科學的新文藝復興和黃金時代。屆時,從能源到人類健康,各個領域的科學發現都將以前所未有的速度湧現,深刻地改變人類社會 (AI寒武紀)
DeepMind CEO定義世界模型標準:不僅理解物理世界,還能創造它
從與現實難辨的AI視訊,到細緻到流水與倒影都符合物理的虛擬世界,再到會在推理中主動呼叫工具自我修正的模型——這並非科幻小說,而是DeepMind最新的AI工具,已經展現的驚人能力。8月13日消息,GoogleDeepMind首席執行官德米斯・哈薩比斯(Demis Hassabis)近日做客播客節目《Release Notes》,全面闡述了DeepMind最新一系列技術突破背後的思路與戰略佈局,其中世界模型Genie 3的突破性進展成為核心亮點。在這場深度對話中,他勾勒出一個令人振奮又充滿挑戰的AI新紀元:從AlphaGo征服圍棋,到Deep Think斬獲數學奧賽金牌;從生成逼真世界的Genie 3,到即將誕生的“全能模型”,我們正站在通向AGI的關鍵轉折點。然而,即便AI已能創造一個完整的虛擬宇宙,它依然可能在國際象棋中違規行棋,這種“參差型智能”的悖論,正揭示了人工智慧最深層的秘密。哈薩比斯指出,“思考型模型” (the thinking models)是通向通用人工智慧(AGI)的必經之路;DeepMind的終極目標是推出融合語言、多媒體、物理推理與生成能力的全能模型(Omni Model),其核心支撐正是世界模型的持續進化,最終將實現全面且一致的智能表現,推動通用人工智慧(AGI)安全落地。此次訪談由GoogleAI Studio產品負責人洛根・基爾帕特里克(Logan Kilpatrick)主持,以下為對話內容實錄:1. 思考型模型:從遊戲AI到AGI的演進之路基爾帕特里克:今天我們的嘉賓是GoogleDeepMind首席執行官德米斯·哈薩比斯。你好德米斯,感謝你的到來,很高興能一起聊聊我們在過去幾個月裡取得的大量發佈成果和進展。哈薩比斯:你好,很高興來到這裡。基爾帕特里克:我想先談談這種前所未有的進展勢頭。我看到DeepMind近期在不斷推出各種成果,包括Deep Think、IMO金牌、Genie 3,還有其他大約五十個項目,在過去兩個月內接連面世,快到讓人忘記它們的存在,因為一切都在飛速推進。我想聽聽你對這種進展與勢頭的總體看法。哈薩比斯:是的,這種情形令人振奮。過去幾年,我們一直在積蓄力量,加快發佈和研發的節奏,如今正看到這些努力的結果。我認為這是行業一個非常令人興奮的時刻。幾乎每天都有新成果面世,我們團隊幾乎每天都在發佈新東西,即便是在內部,也很難跟上進度,更不用說整個領域了。看到這一切我非常自豪,也對我們近期的一些成果感到非常滿意。基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。在遊戲AI中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。基爾帕特里克:我之前看了《The Thinking Game》那部視訊,一邊觀看一邊做筆記,發現 DeepMind 團隊其實很早就踏上了這條道路,而且和你們當年用強化學習(RL)解決問題的過程有許多相似之處。比如,AlphaFold 曾面臨的資料瓶頸,就和我們現在在程式設計等領域缺乏專家資料的困境十分相似。這種情況,會讓你產生似曾相識的感覺嗎?哈薩比斯:確實如此。我們很早就堅定選擇了強化學習,這是 2010 年我們做出的首批關鍵決策之一,與深度學習並列。當時的 Atari 項目,是第一個能真正完成有趣任務的深度強化學習系統——它能夠直接從螢幕像素中學習玩上世紀 70 年代的Atari遊戲,而且表現超過任何人類玩家。更重要的是,它能“開箱即用”地玩任何 Atari 遊戲,這種通用性證明了新技術具備規模化並行揮實際價值的潛力。我個人從小下國際象棋時,就會思考如何最佳化自己的思維過程,這也促使我去研究神經科學,探索大腦的工作機制,並借助人工智慧這一強大的工具,將智慧凝結為數字形態。當然,現有系統在某些方面的表現已經非常出色,但在一些相對簡單的任務上仍有不足,比如高中數學、基礎邏輯,或者某些經過特殊設計的小遊戲。它們體現出一種“參差型智能”——在某些維度上表現驚人,但在另一些方面則很容易暴露弱點。2. 從機器人到通用助理 Genie 3 的多維度潛力基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。在遊戲 AI 中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。基爾帕特里克:許多人看了Genie 3的演示後感到震撼,有人甚至誇張地說“這是模擬理論的證據”。它確實和用遊戲推動強化學習發展有關。回顧Genie 3,你覺得結果和當初的預期一致嗎?我覺得,提升模型玩遊戲的能力,未必必然帶來如今的世界模型。哈薩比斯:Genie 3彙集了多條研究路徑與想法。我們一直把棋類或電子遊戲作為挑戰環境,不僅用來推動演算法進步,也用來合成資料。我們會建構極為逼真的虛擬環境,用來訓練系統理解物理世界。我們想要建構的世界模型,不僅要理解物理結構、材料特性、液體流動,還要理解生物和人類的行為,因為AGI必須理解物理世界,才能在其中運作。這對機器人至關重要,也對通用助理項目如Project Astra(Gemini Live)不可或缺。驗證世界模型的一種方法,就是讓它生成與現實一致的虛擬世界,比如打開水龍頭會有水流出,鏡子裡會映出自己等等。Genie 3之所以驚人,就在於它生成的世界具有一致性。你轉身離開,再回頭,世界保持原樣。這說明它的底層物理理解相當出色。基爾帕特里克:你認為使用者將如何使用 Genie?我們的目標是僅將它作為改進Gemini和其他機器人項目的工具,還是你覺得它本身還有更多用途?哈薩比斯:它在多個維度上都令人興奮。首先,我們已經在用它進行訓練。例如,我們有一個名為SIMA(Simulated Agent,模擬智能體)的遊戲智能體,可以開箱即用地操作並玩一款現有的電腦遊戲。它有時表現不錯,有時不夠理想。令人有趣的是,我們可以把SIMA放進Genie 3里,相當於一個AI在另一個AI的“腦海”中行動。SIMA會根據目標(比如找到房間裡的鑰匙)發出操作指令,而Genie 3則即時生成遊戲世界。這樣可以創造無限的訓練資料,對機器人訓練或AGI系統的通用訓練都有價值。同時,它在互動娛樂領域也有巨大潛力。我有很多想法去打造下一代遊戲,甚至可能催生一種介於電影與遊戲之間的新型娛樂形式。最後,從科學家的角度看,最有趣的是這能告訴我們關於現實世界、物理規律,甚至模擬理論的什麼資訊。當你在深夜生成整片虛擬世界時,你會不自覺地思考:現實世界的本質是什麼?這也是我整個職業生涯推動自己用AI服務科學的動力所在。我認為,像Veo 3和Genie 3這樣的模型,若換個角度觀察,能給我們關於現實本質的啟示。3. AI的能力鴻溝 強大生成力與低級錯誤並存基爾帕特里克:這正好能回到我們之前談到的“參差型智能”問題。一方面,我們已經有了能生成完整虛擬世界的驚人系統;另一方面,讓 Gemini下國際象棋,我可能都能贏它,而且有時它甚至會違反規則。我們最近宣佈了 DeepMind 與 Kaggle 合作推出“遊戲競技場”,讓模型在各種遊戲中對戰並接受測試。你怎麼看?哈薩比斯:這反映了一個更普遍的問題——如今的系統(無論是 Gemini 還是競爭對手的模型)在很多方面都很強大:它們能從文字生成模擬世界,能理解視訊,能解數學題、做科研。然而,用過這些聊天機器人的人都知道,它們的能力邊界很容易被觸碰到。在我看來,這種缺乏一致性,正是它們距離實現完全AGI還差的一步。一個普通人不應該如此輕易就能發現系統的低級缺陷。我們或許已經解決了過去那種“數 strawberry 裡的R”這種用於評估模型細節關注度的低級問題,但依然存在一些小學生都能輕鬆完成、而模型卻失敗的任務。這很可能是因為在推理、規劃、記憶等方面,仍然缺少關鍵性的創新。此外,我們現有的評測基準中,很多已經接近飽和。比如在 AIME 數學測試上,Deep Think 最近的成績已經達到 99.2%,幾乎沒有提升空間,這甚至可能意味著測試本身已經失去區分力。因此,我們需要設計更新、更難、覆蓋面更廣的評測,用來考察模型的物理直覺、世界理解,以及安全性(比如防止欺騙行為)。我對“遊戲競技場”非常期待,因為它延續了我們最初做遊戲 AI 的初衷。遊戲是乾淨的測試環境,有客觀分數,沒有人為主觀打分;它們會隨著系統能力的提升自動增加難度,還可以不斷引入更複雜的遊戲。未來甚至能讓 AI 自創新遊戲、彼此對戰學習,從而避免資料洩露或過擬合。這種多智能體環境將成為長期有效的重要評測基準之一。4. 能力內化 VS 外部呼叫:經驗驅動的決策基爾帕特里克:我過去兩年的感悟是,生活中的許多問題,本質上都是一種評測。工作表現是一種評測,你看待事物的方式也是評測。在遊戲領域,我們有明確的約束條件和客觀的結果,但一旦擴展到非遊戲領域,“真值”就很難定義。比如,在人類日常任務中,如何建構強化學習環境?你覺得在非遊戲環境中,我們該怎麼捕捉這些特徵?哈薩比斯:如何定義獎勵函數或目標函數,一直是強化學習在真實且混亂的環境中面臨的最大挑戰。現實世界中,並不存在單一的目標函數,而是多個目標並存,而且這些目標的權重會隨著情緒、環境、職業階段等因素不斷變化。我認為,未來的通用系統必須學會理解使用者的真實意圖,並將其轉化為一組可最佳化的獎勵函數。這涉及元認知或“元強化學習”(meta-RL)的研究——在主要系統之上再建立一個系統,用來推測主要系統的最優目標函數。這類研究在十年前的 AlphaGo、AlphaZero 遊戲階段我們就已經開始嘗試,如今很可能會再次成為研究重點。基爾帕特里克:我覺得我們應該現在就著手,因為感覺 DeepMind 十年前做的事,正好就是今天大家追趕的前沿。回到“思考趨勢”和“遊戲趨勢”,我們歷史上經歷了多種模型擴展路徑——預訓練、後訓練、資料擴展、算力擴展,後來又有了推理擴展,比如 Deep Think 就得益於推理能力的提升。現在似乎“工具”成了新的擴展維度。你覺得,給模型配備物理模擬器作為工具,會是未來的方向之一嗎?哈薩比斯:工具使用是 AI 系統最重要的能力之一。思考型系統的核心在於,它能在思考過程中主動呼叫工具,比如搜尋引擎、數學程序、程式設計環境,然後基於工具提供的結果調整規劃。有趣的是,那些能力應當放進主模型(即“主腦”),那些應當作為外部工具,這在數字系統中並不像在人類身上那麼清晰。對於人類來說,不屬於身體的就是工具;但在 AI 中,這條界限很模糊。比如,下棋能力是直接內建在主模型中,還是呼叫 Stockfish 或 AlphaZero 作為外部工具?經驗表明,如果某項能力(如數學、程式設計)能提升整體推理水平,就應該放入主模型;但如果它可能削弱模型的其他通用能力,則更適合作為外部工具。這完全是一個經驗性問題,需要在實踐中不斷試驗和驗證。5. AGI的綜合能力藍圖 語言、多媒體與物理推理一體化基爾帕特里克:很多開發者現在都會問,模型已經不再是過去那種靜態的權重,而是在推理過程中能呼叫各種工具,功能越來越像一個完整的系統。這正在改變人們建構應用的方式。你怎麼看這種從“模型”到“系統”的轉變?對開發者有什麼建議?哈薩比斯:模型的進化速度非常快,尤其是當工具能力與規劃、思考能力結合後,其潛力可能呈指數級擴張,因為它們可以用全新的方式組合使用工具。我建議開發者多思考:那些工具對 AI 的能力最有價值?然後著手建構這些工具。即便有了工具呼叫和智能體能力,這些系統本身還不是成品,它們依然需要大量的產品化工作。產品經理和設計師面臨的挑戰,是必須預判一年後的技術狀態,並為那個未來去設計產品,同時允許底層引擎在 3 到 6 個月,甚至更短的周期內進行一次重大更新。基爾帕特里克:現在感覺幾乎是每兩周就有一次更新。哈薩比斯:確實是這種節奏,而且短期內不會改變。未來整個網路生態和應用的運作方式,都將因為智能體系統能夠靈活使用工具而發生深刻變化。基爾帕特里克:Genie 3 的進展令人震撼,很多人都迫不及待想親手體驗。我希望能盡快讓更多使用者用上它。從世界模型和 Genie 的角度看,下一步是什麼?哈薩比斯:我們正在努力提升 Genie 的運行效率,好讓更多使用者盡快體驗。目前它還處於有限預覽階段。我們也在思考最佳的發佈方式,希望使用者能夠分享自己創作的世界,互相體驗、投票,從而形成一個活躍的社區。但有一個關鍵問題是,如何保持世界生成的一致性——當某個提示生成了一個極具吸引力的世界,我們怎樣確保後來者也能復現它?這是我們正在攻關的技術挑戰之一。更長遠來看,Genie、Veo、Gemini 這些目前相對獨立的模型,正逐漸走向融合,形成我們所謂的“全能模型”(Omni Model)。它既能處理語言、多媒體,又能進行物理推理和內容生成,這才是 AGI 應該具備的綜合能力。基爾帕特里克:我們之前還開玩笑說,Genie 是我們製作和玩遊戲的絕佳藉口。哈薩比斯:沒錯。基爾帕特里克:這樣 DeepMind 就成了一家遊戲公司了。哈薩比斯:這是我的秘密計畫。等 AGI 安全落地之後,我就會用這些工具去製作史上最偉大的遊戲——那將是我的夢想成真。基爾帕特里克:會是終極版的《主題公園》嗎?哈薩比斯:也許吧,不過我還有更宏大的遊戲創意。基爾帕特里克:我們在 AI Studio 裡做了很多“氛圍程式設計”功能,如果一切順利,你在 AGI 誕生前就可以不斷拋出這些創意,自己打造一個“德米斯遊戲競技場”。哈薩比斯:這已經在我的高優先順序待辦清單上了。基爾帕特里克:前段時間我們慶祝每月處理 980 兆個 token,如今已經突破千兆(quadrillion)大關,我們還特地為你準備了一個紀念品。哈薩比斯:謝謝,這真是太棒了。基爾帕特里克:我們還會做一些其他版本。哈薩比斯:非常感謝。基爾帕特里克:今天非常感謝你抽出時間做客,也感謝你和 DeepMind 團隊為未來所付出的努力與深夜的思考。這次訪談很愉快。哈薩比斯:我也很高興能和你交流,謝謝。 (騰訊科技)