#GoogleDeepMind
GoogleDeepMind CEO 與Gemini負責人揭秘Gemini 3三大突破(對話實錄)
在Google發佈Gemini 3系列模型之後,《紐約時報》旗下科技播客《Hard Fork》發佈特別節目,由主持人Kevin Roose和Casey Newton專訪GoogleDeepMind首席執行官Demis Hassabis與GoogleGemini團隊負責人Josh Woodward。在這場獨家對話中,GoogleDeepMind CEO Demis Hassabis和Gemini團隊副總裁Josh Woodward首次全面揭秘了Gemini 3的技術突破、產品策略,以及通往AGI的路徑。他們坦言,距離AGI仍需要一到兩個重大突破,時間線仍是5-10年,但Gemini 3已經讓人們看到了這個未來的雛形。以下為對話全文:Casey:我們今天有一期特別的緊急播客,關於Gemini的發佈。Kevin:是的,這次備受期待的發佈在矽谷AI圈引發了熱烈討論。我們終於要親手體驗真正的產品了。Kevin:通常我們不會為了某個大型AI公司發佈新模型就打破周五的發佈計畫,出一期特別節目。他們一直在發佈各種模型。但這周我們認為值得專門談談Gemini 3,有幾個原因。首先,我們採訪到了Demis Hassabis和Josh Woodward,兩位GoogleAI部門的核心高管,Demis是GoogleDeepMind的CEO,這是他們內部的AI實驗室。Josh Woodward是Gemini團隊的副總裁,同時負責Google的其他一些項目。所以我們很高興能和他們聊聊這次重大的模型發佈。但我認為我們感興趣的原因還不止這些。Casey:是的,Kevin,一個重要的原因是,相比其他模型發佈,這次Gemini 3似乎格外引起了Google競爭對手的關注。我們從其他AI實驗室的員工那裡聽到很多傳言,嗯,看起來Gemini 3在某些方面取得了突破,這可能對他們的業務不利。我認為整個AI行業都有一種感覺:Google在AI領域掙紮了幾年——他們推出了Bard和第一代Gemini,都遇到了一些問題。大家一直覺得他們在追趕最先進的技術。現在問題是,這是不是意味著他們要奪回王冠了?所以我們會和Demis、Josh深入討論這些。但先讓我們聊聊Casey,我們對Gemini 3瞭解多少。他們本周早些時候舉行了一場簡報會,介紹了這個新模型及其能力。我們瞭解到了什麼?-1-Gemini 3的核心能力Casey:好的,就能力而言,這對我來說永遠是最有趣的部分。Google分享了幾個方面。首先,除了那些你能想到的常規升級,比如編碼能力更強、氛圍程式設計更好之外,它還會在你提問時生成新的互動介面。現在,你問大多數聊天機器人一個問題,它會用文字回覆,可能會顯示一張圖片。但據Google的說法,Gemini 3會直接為你建構定製化的介面。他們展示了一個例子,有人想瞭解畫家梵高,Gemini 3就編寫了一個互動式教學,包含各種圖像和互動元素。他們還展示了另一個例子,建構了一個針對百萬美元以上房產的抵押貸款計算器,這是Google員工能想像的最低購房預算了。所以這些就是你可以期待在Gemini 3中看到的功能,Kevin。Kevin:是的。我要說,簡報會和Google在Gemini 3發佈前分享的材料的主題就是:這個模型在幾乎所有方面都比他們上一個模型Gemini 2.5 Pro更好。有幾個引起我注意的基準測試,一個叫"人類最後的考試"(Humanity's Last Exam),這是一個非常難的跨學科考試,包含一系列問題,基本上是研究生或博士水平的。他們之前的模型Gemini 2.5 Pro在這個測試中得分約21.6%,而Gemini 3 Pro得分37.5%。基本上所有這些基準測試都是這個趨勢。他們給出了十幾個不同基準測試的例子,新模型都輕鬆擊敗了舊模型。對很多人來說,這可能無關緊要。大多數使用GoogleAI產品的人可能不會去解決物理學中的新問題。但他們的基本宣傳就是:這是一個最先進的模型,你能用ChatGPT、Claude或舊版Gemini做的任何事情,用Gemini 3 Pro都能做得更好。他們還談到了正在測試的Gemini智能體,它能做一件我一直期待有人做的事:瀏覽你的收件箱,理解內容,提議回覆,把郵件分類整理,真正幫你控制收件箱。這是我個人從未做到過的。我們基本上只看到了幾張動圖演示,但這肯定會是我拿到Gemini 3後第一個嘗試的功能。Casey:是的,我們應該說,他們不會立即向所有人推出。本周它會在Gemini應用中提供,也會在AI模式中提供,那是Google主搜尋引擎旁邊的一個標籤。它也會在各種產品中向開發者提供。但他們沒有說什麼時候會進入像Google Docs或Gmail中的Gemini整合,這些每天有數十億人使用的非常受歡迎的產品。但我覺得有趣的是,他們已經把這個模型帶到了Google搜尋,雖然是在AI模式中,而不是主搜尋欄。這對我來說意味著,他們覺得可以以足夠低的成本提供這個模型,使其有可能被數十億人使用,而不會讓他們的伺服器崩潰或產生數十億美元的成本。Kevin:是的,到目前為止他們說AI概覽(AI Overviews)的使用量一直在增長,每個季度他們都繼續賺更多錢。所以這對他們來說效果不錯,對網際網路其他部分來說不太好,但對Google來說效果很好。Casey:是的,但我認為這就像,顯然Google在這裡相對於競爭對手的巨大優勢在於,他們有每天被數十億人使用的產品,隨著時間推移,他們可以把Gemini 3塞進這些產品,獲得越來越多的使用量和資料,並用這些來改進他們的模型。Kevin:這就是為什麼我們總是告訴學生,當他們向我們尋求建議時:第一步,建立一個非法壟斷。Casey:是的。說到學生,Google本周宣佈的另一個重要消息是,他們將向所有美國大學生提供一年免費的Gemini付費版本。我認為這是個聰明的舉動。我對此感覺有點不舒服,基本上就是告訴學生,嘿,為什麼不用這個來做一些家庭作業,也許幫你考試。我們會給你第一次免費體驗。Kevin:是的,你知道,我在今天早上的簡報會上也注意到,我相信有三個不同的人使用了學習任何東西。這似乎已經成為Google資訊傳遞中非常突出的一部分,他們把Gemini呈現為一個學習工具,這也許只是"幫你做作業工具"的委婉說法。我不知道。Casey:是的。好的,這就是我們對Gemini 3的瞭解。一旦它在周二完全發佈,我們將進行自己的測試和評測。但現在,我們想給你們介紹基礎知識,還有我們對GoogleDeepMind的Demis Hassabis和Josh Woodward的採訪。在我們開始之前,我們應該做一下聲明。我為《紐約時報》公司工作,該公司正在就大型語言模型的訓練起訴OpenAI和微軟,我的男朋友在Anthropic工作。-2-對話:Demis Hassabis & Josh Woodward主持人:Demis和Josh,歡迎來到Hard Fork。Demis & Josh:很高興來這裡。謝謝。主持人:兩年前,Sundar Pichai告訴我們,Bard是一輛改裝過的本田思域,正在與更強大的車競爭。那Gemini 3是什麼車?Josh:這是個好問題。Demis,你想回答嗎?Demis:嗯,我希望它比本田思域快一點。你知道,我不太喜歡用車來類比……也許它是那些很酷的直線加速賽車之一。主持人:人們對這個模型非常興奮。我們從一些早期測試者那裡聽到反饋,顯然你們展示了很多基準測試,非常令人印象深刻。在具體層面上,Gemini能做那些以前的AI模型做不到的事情?Josh:好的,我來說幾點突出的。第一,我們開始看到這個模型在推理方面真正表現出色,能夠同時思考很多步驟。有時過去的模型會失去思路,失去追蹤。這個模型在這方面好得多。第二點你明天也會看到,就是各種新的生成式介面。這是我們迄今為止在建立新型介面方面最好的模型。它為人們提供真正定製化的設計和對問題的回答。第三點我要說的是,我們在編碼本身投入了大量精力。所以你會看到很多編碼例子,像Google Anti-Gravity這樣的新產品也會展示這一點。主持人:有一種討論認為,對於普通使用者來說,聊天用例可能已經解決了,普通使用者幾乎想不出一個問題,能讓新模型生成與上一代明顯不同的結果。這對你們來說在多大程度上是真的?普通人真的會注意到差異嗎?Josh:是的,我們在一些測試中看到的,Demis也可以補充,我認為這些模型真的——對我們來說,這個模型更簡潔、更有表現力,開始以更容易理解的方式呈現資訊。我認為對大多數人來說,這會是一個很大的直接影響。然後我認為有趣的是,這些模型如何開始與其他類型的資訊互動。所以我們經常談論學生如何能夠用這個模型學習,或者這個模型如何在你的許可下連接到你在其他Google產品中可能擁有的其他類型的資料。這些是我們開始展示的方式,我認為它已經超越了標準的文字問答來回。Demis:是的,我想補充一點,就是它的總體可靠性。你使用時會注意到。我認為我們在內部稱之為"人設"(persona)的東西上下了很大功夫,就像它的風格。我認為它更簡潔,更切中要點,很有幫助。我覺得它的風格更好。我發現用它來頭腦風暴和使用更愉快。然後我認為,在一些方面幾乎有一個階躍變化。我覺得它在實用性上跨越了某種門檻,比如氛圍程式設計(vibe coding)。我一直在重新學習遊戲程式設計。我打算在聖誕節期間給自己設定一些項目,因為我覺得它在前端和這類事情上已經達到了一個非常有用和強大的水平,而之前的版本可能沒那麼好。-3-通往AGI的路徑主持人:Demis,上次你上我們的節目是在5月,你說你認為我們距離AGI還有5到10年,而且可能需要一些重大突破。Gemini 3有多好,觀察它的表現,是否改變了這些時間線?或者它是否包含了你認為必要的那些突破?Demis:不,我認為它完全按計畫進行,如果你明白我的意思。我認為我們對這個進展非常滿意。我認為這是一個絕對驚人的模型,完全符合我的預期和我們過去幾年的發展軌跡,實際上自從Gemini開始以來,我認為這是業內進步最快的。我認為我們會繼續這個軌跡,我們期待這會持續。但除此之外,我仍然認為還需要一到兩個額外的東西,才能真正獲得你期望從通用智能中得到的全面一致性,以及在推理、記憶方面的改進,也許還有像世界模型這樣的想法——你也知道我們正在用Simmer和Jeannie研究這些。它們會建立在Gemini之上,但以各種方式擴展它。我認為其中一些想法也是完全解決物理智能等問題所必需的。所以兩者都是真的。我對Gemini 3的進展非常滿意,我認為人們會相當驚喜,但它符合我們預期的進展軌跡。這意味著仍然是5到10年,可能還需要一到兩個突破。-4-關於Gemini的"人設"主持人:你提到了Gemini 3的風格。最近有很多關於AI伴侶的討論,人們與它們建立的關係。你如何看待Gemini 3的個性,你希望使用者與它建立什麼樣的關係?Josh:我要說,在應用本身中,我們在團隊中很大程度上把它看作一個工具,或者說是你用來處理和應對一天工作的東西。所以無論是幫助你解決不同類型的問題,還是幫助你創造東西,這真的是我們看到它真正擅長的地方,也是我們希望看到的方向。我認為如果你放大來看,如果你看Gemini或我們的其他一些項目,比如Notebook LM或Flow,我們真的在試圖思考AI如何成為你工具箱中的這個超級力量、超級工具,無論你是用於寫作、研究、製作電影還是其他什麼。這才是我們真正關注的地方。我認為隨著時間推移,我們團隊真的很感興趣能夠追蹤像"我們幫你一天完成了多少任務"這樣的指標。這是一種新型指標,我認為我們對此感到興奮,也是原始Google搜尋工作方式的某種延續,你來到它這裡,你試圖獲得一個答案或被傳送到一個頁面,然後從那裡繼續。主持人:這一切聽起來都很好很負責任,但我想知道,你們不做一個色情伴侶,是不是放棄了很多病毒式傳播的參與度。Josh:無可奉告。-5-Google是否領先AI競賽?主持人:你們的一些競爭對手在Gemini 3發佈前的幾天和幾周裡非常緊張,我認為他們開始聽到和我們一樣的傳言,說這個模型相當不錯。也許敘事正在從Google在AI領域追趕,轉變為現在在競賽中處於領先地位,或至少處於領導地位。你們覺得Google現在在AI競賽中領先嗎?Demis:看,你們都很清楚,這是一個非常激烈的競爭環境,可能是有史以來最激烈的。所以永遠不能……真正唯一重要的是你的進步速度,對吧,從你所在的位置。這就是我們關注的,我們對此非常滿意。我的意思是,我真的不把它看作是,你知道,我們重新領先了之類的。我們一直在這個研究領域處於先鋒地位。我認為這就像確保這在下游反映在我們所有的產品中。我認為我們真的進入了狀態。我認為你實際上在去年就看到了這一點。我們在這方面越來越好。就像GDM(GoogleDeepMind)是Google的引擎室。當然,有Gemini應用,有Notebook LM,這些AI優先的產品,但也在為所有這些令人驚嘆的現有Google產品提供動力,無論是地圖、YouTube、Android,當然還有搜尋,帶有AI優先的功能,實際上在某些情況下,從AI優先的角度重新構想事物,通常Gemini在背景執行。這進展得非常好。我認為我們只是完成了這個進化的一半,但看到我們的使用者在看到每一個新功能時獲得的價值和興奮,這非常令人興奮,例如,工作空間、Gmail等等。那裡幾乎有無限的可能性。所以我們對此非常興奮,還有所有這些我們也在想像和原型製作的AI優先產品。-6-歷史學家的驚喜體驗主持人: 我們上周節目請了一位歷史學家,他在 AI Studio 裡用了一個未發佈的Google模型。他被震驚了,因為那個模型能夠轉錄非常古老的檔案,並正確推理出1800 年代加拿大皮毛貿易中的糖分測量單位。你能告訴我們,這個人用的是 Gemini 3 嗎?Josh: 這個我不確定。但我可以說,這個模型在建立這種連接方面確實非常驚人。我不知道那位歷史學家是否用了舊檔案或日記的照片……主持人:對,他就是這麼做的。Josh: 那很有可能就是了。它在這方面非常擅長。像我這樣字跡很差的人,拍一頁筆記,它也能毫不費力地處理。-7-關於成本、搜尋與 Scaling Laws主持人:你們提到要把這個模型整合到搜尋的 AI 模式中。這是否意味著你們找到了一種比以前的模型更高效、更便宜的方法來服務這個模型?Demis: 我覺得我們總是處於前沿。除了模型性能,我覺得我們在模型效率(efficiency)方面也做得非常好。我們開創了許多蒸餾技術和其他技術。這不僅是為了 AI 概覽(AI Overviews)這種需要服務數十億使用者的極端用例,也是為了我們的雲客戶。我們一直試圖處於成本與性能的帕累托前沿(Pareto frontier)。當然,我們今天只發佈了 Pro,但我們也正在為 3.0 時代開發其他系列的 modello。主持人:每次看到新的前沿模型發佈,我們都要重新討論縮放定律(Scaling Laws)。我們是否開始看到邊際收益遞減?我能預想到推特上肯定會有人對此發表看法。你們怎麼看 Gemini 3 與這個問題的關係?Demis:我們對 Gemini 3 相對於 2.5 的進步非常滿意。就像我說的,這符合預期。但這並不意味著出現了“收益遞減”。當人們聽到收益遞減時,他們想的是“歸零”還是“指數級增長”。但中間還有一種情況:即使不是指數級翻倍,它仍然非常值得做,投資回報率極高。 我認為我們正處於這個階段。而且,正如我所說,要一直通往 AGI,我的懷疑是還需要一兩個研究突破。但在此期間,你需要儘可能大規模的基礎模型,我們仍然看到了巨大的進步。-8-安全和泡沫主持人: 在你們展示的眾多基準測試中,那一個對普通使用者最重要?Josh: 這是個好問題。我覺得大多數人不會像我們一樣盯著基準測試看,它們只是代理指標。比如在 LM Arena 上突破 1500 ELO 分這類事很棒,但真正重要的是產品中的使用者滿意度。讓我們感到鼓舞的是,這兩者是同向發展的。主持人: 隨著模型能力的提升,有什麼新的危險能力或安全隱患嗎?Demis: 我們在這個模型上花了很長時間,因為它是一個前沿模型。正如 Josh 所說,我們不僅僅看基準測試,我們花了很多時間與安全機構和外部測試人員進行安全測試。我會說這是我們目前測試最徹底的模型。特別是我們努力改進了工具呼叫(tool call)和函數呼叫的能力。這對於程式設計和推理非常重要,但也讓它在像網路攻擊(cyber)等風險較高的事情上更具能力。所以我們在提升這些維度的同時必須加倍謹慎。主持人:我們處於 AI 泡沫中嗎?Demis: 這是一個太二元化的問題。我的觀點是,AI 行業的某些部分可能處於泡沫中。比如有些種子輪融資拿到幾百億美元,但除了團隊什麼都沒有,這可能是泡沫的跡象。但另一方面,即使不談 Gemini,看看機器人技術、遊戲、DeepMind 在藥物發現(Isomorphic)和自動駕駛(Waymo)方面的工作。這些領域需要時間成熟,但我認為這裡面有半打到一打的領域會發展成數千億美元的業務。而在近期,我們有Google的“引擎室”策略,把 AI 推送到數十億使用者的產品中,這會帶來近期的收入和回報。所以無論是否有泡沫,我們的工作都是在兩種情況下獲勝。主持人 好的,想像一下馬上就是感恩節了,地點是灣區。如果有聽眾想在飯桌上轉移大家對政治的注意力,你會建議他們展示 Gemini 3 的什麼功能來震驚全場?Josh: 我不知道能不能拯救感恩節,但這可能會帶來一些笑聲。Gemini 的圖像模型仍然是世界上最好的。我會說,拿出你的手機拍張自拍,把你自己放進畫面裡進行編輯。人們仍然非常喜歡這麼做,這很有趣。然後你可以順便展示 Gemini 3 的其他能力。主持人:聽到了嗎各位?用Nanobanano來拯救感恩節晚餐吧。 先生們,謝謝你們。Demis & Josh: 謝謝邀請。 (創頭條New)
36個月大逆轉!他帶著GoogleAI殺回來了,下一步世界模型
ChatGPT發佈距今已近36個月,面對OpenAI的領先,哈薩比斯帶領GoogleAI全面反攻,通過新發佈的Gemini 3強勢回歸。Gemini 3在LM Arena等多個模型榜單登頂,表現優於GPT-5及其他模型,上演了一場完美逆襲。大模型排行榜,你方唱罷我登場。馬斯克的Grok 4.1剛登頂,隨後就被Gemini 3 Pro反超了,上演了一幕AI版的「速度與激情」!Google DeepMind CEO哈薩比斯(Demis Hassabis)哈薩比斯在X平台上興奮地曬出Gemini 3的成績單,稱其「當然地」登頂各大排行榜,並表示這是自己迄今為止最愛的模型。就連奧特曼和馬斯克,也紛紛為Gemini 3點贊。馬斯克連發兩個哭泣的表情包:看來我們要盡快推Grok 4.2了。新發佈的Gemini 3具備領先的推理、多媒體處理和編碼能力,擅長推理、生成視訊和寫程式碼。Google強調,Gemini 3不只是一個更聰明的模型或聊天機器人,更重要的是它從發佈之日起,就開始全面增強Google現有產品,包括其利潤可觀的搜尋業務。它是Google這台龐大的賺錢機器的AI引擎,用哈薩比斯的話說:「我們是Google的動力引擎,現在我們正在讓AI全面接入」。哈薩比斯認為目前確實可能存在AI泡沫的問題,比如許多尚未經過檢驗的初創公司卻拿到了數十億美元的估值。但在他看來,即便是AI泡沫真的破裂,Gemini 3也讓Google有了穿越這場泡沫的底氣。把Google搜尋塞進GeminiGoogle內部,一直有一個把Google搜尋「塞」進Gemini的想法。這一想法,甚至可以追溯到Google早期。當時的Larry Page和Sergey Brin就設想過把整個網際網路都放進AI的「記憶」中,然後再對外提供服務。因此,Google在上下文方面做了大量實驗,並將上下文窗口提升到了100萬個token,目前這個記錄仍沒真正被人打破。哈薩比斯認為,機器理論上可以擁有比人類多幾百萬倍的儲存/記憶空間,但如果只是「天真地」把所有東西暴力存下來,其實並不高效。因此,與Google搜尋「塞」進Gemini相比,Google更多是把Gemini作為現有產品的底層模型向使用者開放。此次Gemini 3一發佈,Google已經正式通過Gemini應用,以及Google搜尋中的AI Overviews功能向使用者開放。據Google母公司Alphabet在7月的季度財報中表示,AI Overviews推動搜尋查詢量提升了10%。同時,Google視覺搜尋也出現了70%的激增,這項功能依賴於Gemini對照片的分析能力。與OpenAI相比,Google的優勢在於其產品「家底」深厚。它擁有包括搜尋、Google地圖、Gmail、雲服務等非常廣泛的基礎產品線。而且,Google很早就開始利用AI來增強其已有產品的能力。這使得它在與OpenAI、xAI、Anthropic等AI廠商的競爭中進可攻,退可守。哈薩比斯表示,「在不利的情況下,我們會更加依靠這些基礎產品;在有利的情況下,我們擁有最全面的佈局和最具前瞻性的研究。」Google也在考慮通過Gemini重啟Google眼鏡(Google Glass)項目。哈薩比斯表示,當時Google眼鏡步子邁得有點超前,缺少一個真正的「殺手級用例」,而通用助手正是這樣一個用例。因此,未來Gemini也將啟動Google以往積累下來的「經驗和遺產」,但是重點會放在「世界理解」上。以Gemini為例,Google一開始就將機器人和眼鏡視為兩個非常重要的應用場景,因此決定走多模態路線。如今,這些押注正在逐漸顯現出成果,Gemini已經在多模態理解上顯現出明顯優勢。除了用AI增強現有和以往的產品之外,Google也在積極利用AI打造越來越受歡迎的新工具。比如,NotebookLM,它可以根據文字材料自動生成播客;AI Studio,可以借助AI快速生成應用原型,等等。此外,Google還探索將這項技術應用到遊戲、機器人等領域。哈薩比斯提到GoogleAI的一個優勢,目前所有產品已經完全跑在Gemini技術堆疊上,實現了從產品到模型的「一體化」。這意味著無論是產品改動,還是模型微調都會容易很多,而且產品也可以更好地學會理解和使用底層模型。目前,哈薩比斯的重要精力,一半是將Gemini應用進一步加速做強,另一方面是將AI融入Google的各條業務線,使之成為Google的「AI動力艙」。「我對這一切非常興奮,目前我們只是剛剛觸及未來可能性的表面,明年會更直觀地看到這些變化」。哈薩比斯表示。被OpenAI「搶跑」後Google正快速趕上Google在AI領域長期投入巨大資源,並取得了一系列關鍵性突破。包括在2017年發現了Transformer模型架構,但沒有將其商業化,而是選擇把它公開。一直到2022年,OpenAI基於Transformer的ChatGPT爆火,動搖了Google的核心搜尋業務,才令它深受震動,開始奮起直追。有意思的是,OpenAI的崛起,不僅喚醒了Google在AI領域的加速發展,甚至還間接幫助Google避免了被分拆,出售其搜尋業務的命運。如今,Google的搜尋業務不僅沒有被OpenAI等AI新勢力所顛覆,相反它的AI模型還實現了對後者的反超。與Gemini3相比,OpenAI在8月份發佈的GPT-5令人略顯失望。一些評論者認為它「表現平平」,使用者也抱怨其風格變得更正式。據Google表示,Gemini 3在LM Arena等多個模型榜單上的表現優於GPT-5及其他模型,尤其在模擬推理以及長時間規劃方面表現更佳,這有助於提升依賴工具或網際網路的AI智能體的實際能力。在早期的AI競賽中,經歷過一些磕磕絆絆之後,Google總算是「漸入佳境」了。從使用者活躍度上看,Gemini應用的月活使用者已超過6.5億,僅次於ChatGPT的7-8億周活使用者(如果換算成月活可能在10億以上)。每月有超過20億人通過搜尋裡的AI Overviews使用Gemini;還有約1300萬開發者在自己的產品中整合了Gemini。這些數字表明Google正在逐漸縮短與OpenAI在AI領域的差距,作為GoogleAI總負責人的哈薩比斯也可以鬆口氣了。各方面都最強才叫AGI實現還要5-10年哈薩比斯表示,Google仍然在追求做「各方面都最強」的模型。在他看來,這才是真正意義上的通用模型,也是最終通向通用人工智慧(AGI)系統的關鍵組成部分。從之前的幾個版本到Gemini3,Google一直在修正Gemini模型的一些短板,使其在程式設計、推理、數學等能力上更進一步。比如,此次Gemini 3就在2.5之上迭代,一方面升級它的基礎能力,另一方鞏固在多模態領域的優勢。哈薩比斯認為未來AI的技術路線會越來越收斂,而擁有一個通用、全能的基礎模型將是一切的地基。除此次發佈的Gemini3 Pro外,Gemini模型家族裡的其他成員也在打磨中,等到這些模型陸續就位之後,Google還將在產品分層服務上提供更大的靈活度。簡單來說,就是更強的性能,更低的價格。正如哈薩比斯所言:「大方向是每一代新模型,都要在整體能力上更強,同時所需算力更便宜、更高效,帶來更有競爭力的價格和更低的時延」。目前,哈薩比斯在世界模型研究上花時間最多,在他看來這是通往AGI的關鍵元件。同樣,他也認為未來世界模型也將迎來類似ChatGPT那樣的「爆發時刻」。但最大的挑戰是推理/服務成本,以及還要解決在更長時間尺度上保持世界一致性等關鍵難題,才能迎來真正的「破圈」時刻。哈薩比斯表示,目前世界模型已經有了一些內部用例,比如用來訓練其他智能體、機器人系統等。未來可能會出現一些非常酷的外部應用場景。哈薩比斯仍然堅持他對通用人工智慧(AGI)時間表的預測。他認為距離真正意義上的完全實現AGI還有五到十年,而Gemini 3將成為未來打造更強大AI的重要平台,還需要在現有模型不斷變強的基礎上再取得一兩次關鍵性突破。在通往AGI的路上,哈薩比斯同樣也有算力焦慮。他坦言「即便將現在全世界的算力加在一起,也不夠滿足我們想做的所有事情」。因此,需要在不同項目之間衡量算力投入的回報。比如,研究上的收益、新產品探索的價值,或是直接的收入等。除了追求AGI,哈薩比斯還在帶領DeepMind在AlphaEvolve等一些科學領域進一步擴展。穿越AI泡沫的底氣談到AI泡沫,哈薩比斯整體上還是比較樂觀的,但他認為仍然存在一定的泡沫。「那些幾乎沒有什麼的項目,種子輪估值就能到幾十億美元,這在邏輯上有點行不通。」對比這些泡沫,哈薩比斯認為Google的位置非常好。就DeepMind而言,既有紮實營收,同時又承擔著Google「AI動力艙」的重任;既有Gemini模型及App,還有基於Gemini的NotebookLM等AI優先產品。哈薩比斯表示,目前AI已經在Google現有業務中看到了立竿見影的回報:正在為搜尋、YouTube、雲等業務「加功率」。作為DeepMind的聯合創始人,哈薩比斯早在12年前選擇與Google「聯手」時,已經考量過雙方合作的價值:Google可以提供海量的算力資源,同時它的產品又天然適合用AI去增強。目前,這條路正一步步變成現實。在哈薩比斯看來,Google與DeepMind的結合,讓現在的Google在AI競爭中處於一個非常有利的位置,使它有機會穿越泡沫,笑到最後。 (新智元)
清華物理傳奇Yao Shunyu,跳槽GoogleDeepMind!
【新智元導讀】清華物理系傳奇特獎得主姚順宇離職Anthropic,正式加盟GoogleDeepMind!他在Anthropic僅工作一年,離職原因中約40%與公司「價值觀」不合。他指出現階段AI研究如同17世紀熱力學探索:雖缺乏完整理論,卻充滿規律發現的契機。清華物理系傳奇特獎得主Yao Shunyu(姚順宇),官宣離職Anthropic,正式加盟GoogleDeepMind!從領英的履歷來看,他在2024畢業到加州伯克利做了幾個月博士後,2024年10月加入了Anthropic。滿打滿算,姚順宇在Anthropic只待了一年。此次離職,姚順宇在他的個人部落格(文末有全文)聲明了兩點原因,其中幾乎一半(40%)原因是因為Anthropic「價值觀」問題!眾所周知,Anthropic此前在2025年9月4日的博文裡把中國列為「adversarial nations」。此舉激起了AI領域國內外眾多反對之聲!姚順宇在部落格中也透露,即使Anthropic內部,大多數人也不同意這種說法。他認為這是離職的Anthropic的主要原因之一,其他原因涉及企業內部資訊,無法透露。順便一提,現在搞大模型的Yao Shunyu有兩位。一位就是今天的主角,本科就讀於清華大學物理系,研究方向為理論物理(包括但不限於理論凝聚態物理、理論高能物理和混沌系統)。另一位就是OpenAI的Yao Shunyu(姚順雨),目前最新動向還未「解禁」。順便說一句,這兩位大神名字都太硬了,Yao Shunyu(拼音同漢字,堯舜禹),也只有這兩位大神能壓得住了~姚順宇在最新的領英中同時更新了一篇部落格,詳細總結了這一年在AI領域的經歷。我的AI研究元年——從物理學到AI在我離開伯克利的博士後崗位、加入Anthropic 不久後,我曾計畫寫一篇短文,主要是為自己留下一份筆記,記錄我離開物理學、投身AI研究的心路歷程。然而,由於在Anthropic的工作異常緊張,我一直沒能抽出時間動筆。直到9月19日,我從Anthropic辭職,在加入GoogleDeepMind前有了一周的休息時間。我為什麼離開物理學,又為什麼選擇AI?主要原因在於,我想尋找一個對年輕人機會更多的方向。理論物理是一個絕佳的思維訓練領域:它充滿智力挑戰、博大精深,並需要運用來自數學、電腦科學(如複雜性理論)以及物理學本身等多個領域的知識。然而,這個領域多年來已缺乏新的實驗資料支撐。一個沒有實驗指引的領域,會面臨很多方面的問題。比如,我們很難客觀地評判一項理論工作的價值,也很難僅通過系統性的實驗來消除分歧、澄清困惑。於是,我將選擇範圍縮小到了AI和QC(Quantum Computing,量子計算)。儘管我相信QC在未來會變得至關重要,但我的感覺是,目前其瓶頸主要在於實驗平台。因此,我選擇了AI。有趣的是,我發現AI研究與物理學研究有如下相似之處。作為物理學家,從事AI研究是種怎樣的體驗?在某種意義上,這很像17世紀的熱力學研究。那時,人們甚至不知道「熱」究竟是什麼,事實上,當時學界依然信奉「燃素說」。但這並未阻止人們進行科學的實驗探索。例如,波義耳定律(Boyle's law)揭示了在溫度恆定時,壓力與體積之間的關係。正是通過這樣系統性地設計實驗,人們才總結出了足夠多的「定律」,並在此基礎上指導了熱機的發明與研究,最終改變了世界。在我粗淺看來,如今的大規模AI模型領域與之類似。一方面,我們仍未擁有可靠的理論或模型來描述大型神經網路的行為。另一方面,系統性的研究已開始為我們揭示許多寶貴的認知,例如Scaling Law。而進行這類系統性的研究,正成為在AI領域大規模取得持續進展的關鍵要素。為什麼選擇Anthropic,又為什麼離開?儘管我已經離開,但我依然認為Anthropic是物理學家(可能也包括其他STEM背景的博士)開啟AI研究生涯的最好去處之一。我於2024年10月1日加入Anthropic,當時我們開始為後來發佈的Claude 3.7 Sonnet進行研究。作為一名從事了多年物理研究的人,能夠親眼看到自己的研究成果迅速對前沿模型的能力產生影響,並見證人們與AI的互動方式隨著新能力的湧現而改變,這是一種無與倫比的激動人心的體驗。然而,我最終決定離開,主要出於兩個原因:1. 約40%的原因是:我強烈反對Anthropic發表的反華言論。尤其是在最近的公開聲明中,中國被稱為「敵對國家」。需要澄清的是,我相信Anthropic的大多數人並不同意這種說法,但我認為自己已無法再待下去。2. 剩下的60%則更為複雜。由於其中大部分涉及Anthropic的內部資訊,因此不便透露。是時候翻開新篇章了!與物理學相比,AI的發展速度快得驚人。回首過去一年,發生的一切都讓我感到驚訝。我非常榮幸能見證Claude從3.7迭代到4.5的過程,我個人也收穫良多。但,是時候繼續前行了。從個人發展的角度看,Anthropic是我第一份,也是唯一一份AI工作。因此,我不希望自己的經驗和認知被某一個實驗室所侷限。(尤其是在如今,核心研究團隊已不再公開發表論文的情況下。)所以Anthropic,與你共事很棒,但沒有你我會更好。我已於9月29日(2025年)加入GoogleDeepMind。 (新智元)
GoogleDeepMind曝光首個“AI 經濟體”完整架構,Agent催生全新經濟體正在悄然成形
GoogleDeepMind最新論文「Virtual Agent Economies」描繪了一個由 AI Agent 自主交易和協作的全新經濟體,不管願不願意,AI催生的全新經濟體正在形成,我覺得DeepMind這篇文章非常值得一讀這篇論文的核心論題是,隨著自主 AI 代理(autonomous AI agents)的迅速普及,一個全新的經濟層級正在形成,在這個層級中,AI 代理能夠以遠超人類監督的速度和規模進行交易與協調。作者提出了“沙盒經濟(sandbox economy)”這一框架來分析這個新興系統,並從兩個關鍵維度對其進行刻畫:其起源(是自發湧現的,還是被有意設計的)及其與現有人類經濟的隔離程度(是高度滲透的,還是完全封閉的)論文指出,我們當前的發展軌跡正導向一個自發湧現且高度滲透的 AI 代理經濟,這雖然帶來了前所未有的協調機會,但也伴隨著巨大的挑戰,例如系統性的經濟風險和加劇的社會不平等。因此,論文的核心結論是,我們必須採取主動設計的策略,建構一個可控、可引導的代理市場(steerable agent markets),通過引入公平的資源分配機制(如拍賣)、協調集體目標的“使命經濟(mission economies)”以及確保信任與安全的社會技術基礎設施,來確保這場技術變革能夠服務於人類長期的集體繁榮新經濟層級的黎明:虛擬代理經濟的崛起隨著技術的演進,我們正邁向一個全球經濟的新時代,其中自主 AI 代理將成為核心的經濟參與者,能夠獨立於人類勞動進行互動並創造價值。這篇論文深入探討了這一新興生態系統的構成、潛在風險以及我們應該如何主動設計其架構,以確保其發展符合人類的長遠利益。什麼是虛擬代理經濟?歷史上,技術進步通常是通過改進特定領域生產力的“僵化”發明來實現的。然而,AI 代理則代表了一種全新的“靈活資本(flexible capital)”,它們能夠跨行業、跨職業地自動化執行多樣化的認知任務。從擔任個人 AI 助理到在公共和私營部門中自動化商業流程,這些代理系統的自主性是其與過去技術最顯著的區別。當這些具備自主性的 AI 代理大規模部署並開始相互互動時,一個全新的經濟層級便應運而生。作者將這個新興的生態系統概念化為“虛擬代理經濟(virtual agent economy)”或更具指導意義的“沙盒經濟(sandbox economy)”。後者暗示了我們的核心目標:確保 AI 代理在這個新經濟層級中的運作是安全可控的分析框架:沙盒經濟的兩個維度為了更好地理解和設計這個新興經濟體,作者提出了一個包含兩個關鍵維度的分析框架:起源維度:意圖性 vs. 湧現性意圖性經濟:指那些被刻意設計和建構的代理經濟,其目的可能是為了安全的實驗、測試或達成特定目標湧現性經濟:指隨著技術被廣泛採用而自發形成的代理經濟,它不是任何單一實體規劃的結果,而是集體行為的副產品邊界維度:滲透性 vs. 封閉性封閉性經濟:指與現存的人類經濟完全隔離的代理經濟,如同一個密閉的實驗室,內部的經濟活動不會影響到外部世界滲透性經濟:指與人類經濟有著緊密互動和交易的代理經濟,其邊界是多孔的,允許外部參與者(人類或機構)與其進行價值交換論文的核心判斷是,如果我們不採取任何干預措施,我們當前的發展軌跡正不可避免地導向一個自發湧現且高度滲透的沙盒經濟。這種形態在實踐中幾乎等同於 AI 代理直接參與到現有的人類經濟活動中,這帶來了巨大的機遇,也伴隨著嚴峻的挑戰。因此,我們面臨的核心問題不是 是否 要建立這個生態系統,而是 如何 架構它,使其變得可引導、安全且符合人類的集體目標。滲透性(Permeability)成為了其中最關鍵且可控的設計變數具體應用場景為了讓大家更直觀地理解虛擬代理經濟的運作模式,論文提出了幾個典型的應用場景:加速科學研究:AI 代理可以代表不同研究機構進行協作,自動化地完成從構思、實驗到成果發表的整個流程。由於科學實驗通常涉及真實世界的資源(如材料、能源)和人類參與者,代理之間需要一種機制來協調資源使用和進行價值補償。例如,一個代理可能需要使用另一個代理所持有的專有資料或模擬器,這就需要通過某種形式的交易來完成。區塊鏈技術在這裡可能被用於確保信用的公平分配和工作的可驗證性機器人協作:在物理世界中, embodied AI agents(具身 AI 代理)可以執行危險或重複性的任務。由於機器人同一時間只能存在於一個地方,且執行任務需要消耗能源,多機器人系統的協調與最佳化至關重要。一個代理 A 可能會請求附近的代理 B 執行一項任務,並為其消耗的時間和能源支付報酬。代理 B 在決策時,可能會向一個擁有全域資訊的非具身代理 C 諮詢,以判斷報價是否公平,或是否存在更優的選擇個人助理協商:這是最可能率先普及的場景。兩個分別代表不同使用者(UA 和 UB)的個人 AI 助理 A 和 B,可能需要為他們的主人預訂同一天的同一間度假住宿。它們不僅會基於當前的請求,還會根據對各自使用者偏好(例如,UA 更看重靠近海灘,而 UB 更看重公共交通的便利性)的深入理解來進行協商。最終,一個代理可能會選擇讓步,並通過虛擬代理貨幣獲得補償,然後將這筆補償用於滿足使用者其他更重要的需求3. 雙刃劍虛擬代理經濟的出現,既為我們帶來了前所未有的協調能力與效率,也引入了全新的、高風險的挑戰。其高度滲透性和超人反應速度,使其成為一把需要謹慎使用的雙刃劍市場機制的潛力市場作為一種組織創新的機制,其核心優勢在於能夠高效地為個體行為者分配信用,從而激勵他們持續改進產品和服務。這篇論文認為,這種機制同樣可以應用於 AI 代理經濟,以引導其產生有益的結果精準的信用分配與專業化:在一個代理協作完成複雜任務的場景中(例如,代理1依賴代理2、3、4的能力最終向使用者交付結果),一個分佈式的信用系統可以確保價值被精準地追溯和分配給每一個做出貢獻的代理。這種基於結果的信用體系會激勵代理們專注於自己最具比較優勢的領域,從而形成一個高效的、動態的勞動分工體系,最大化整個生態系統解決問題的能力建立信任與聲譽系統:在真實環境中,代理之間的互動是跨越時間和空間的。這為建立基於歷史互動的信任機制提供了可能。一個強大的聲譽系統對於克服市場失靈至關重要。在這樣的系統中,保持良好聲譽和團體成員資格所帶來的長期利益,將遠遠超過通過欺騙或自私行為獲得的短期收益。這使得市場力量本身就能夠被用來塑造和激勵有益社會的代理行為。去中心化協調:對於大規模、複雜的系統,完全中心化的協調往往是不可行的。市場提供了一種去中心化的協調機制,通過價格訊號和激勵引導代理行為。論文引用了一項關於交通控制的研究,該研究表明,在某些情況下,去中心化的競爭對於實現最大的社會福祉至關重要,即使是擁有全域資訊的中心化規劃者也無法同時滿足個體理性與系統韌性高頻交易警示AI 代理經濟的一個顯著特點是其運作速度遠超人類反應能力。這讓我們可以從高頻交易(High-Frequency Trading, HFT)的歷史中汲取教訓閃崩風險的蔓延:在股票市場中,演算法交易代理以毫秒級的速度對市場訊號做出反應。這種高度互聯和快速反饋的循環,可能引發無法預料的災難性湧現行為。2010 年的閃崩事件就是一個典型的例子,當時自動化交易演算法在短時間內觸發了劇烈的市場崩盤。論文警告說,在一個高度滲透的沙盒經濟中,類似的崩潰事件可能會迅速從代理經濟蔓延到真實的人類經濟,造成廣泛的金融損害高頻協商與數字鴻溝:與高頻交易類似,代理之間的協商也可能以極高的頻率進行,作者稱之為“高頻談判(High-Frequency Negotiation, HFN)”。在一個多數人都依賴個人 AI 助理進行談判的世界裡,這種 HFN 可能成為社會動態的核心。然而,並非所有代理的能力都是平等的。初步研究表明,能力更強的 AI 助理能夠為其使用者爭取到明顯更好的交易結果這將導致一個危險的循環:擁有更多資源的個人和公司可以使用更強大的 AI 代理,從而獲取更多資源,進一步加劇社會不平等,形成一個由演算法強化的、難以打破的新型階級結構代理自身的缺陷:設計沙盒經濟的護欄時,還必須考慮到現有 AI 代理的已知缺陷,包括:幻覺:產生不符合事實的資訊諂媚:傾向於提供使用者想聽到的答案,而非最準確的答案易受對抗性操縱:容易被惡意輸入所欺騙認知偏見:由於模仿人類決策資料進行訓練,代理可能也會繼承人類的認知偏見和盲點4. 公平的架構:拍賣機制與使命導向的市場面對上述挑戰,僅僅被動地設立防護措施是遠遠不夠的。論文的核心主張是,我們必須主動設計市場的規則和激勵機制,將公平和集體目標內建於其基礎架構之中。為此,作者提出了兩個核心的設計方案:基於拍賣的公平資源分配,以及用於實現集體目標的“任務經濟”設計一:基於拍賣的公平資源分配這個方案旨在解決高頻協商中因代理能力不均而導致的系統性不平等問題。其思想根源來自於羅納德·德沃金(Ronald Dworkin)基於拍賣的分配正義理論核心理念:拍賣的對象不是 AI 代理本身,而是所有代理為了實現其使用者目標所需要利用的共享資源池。這些資源可以包括計算能力、對專有資料集的訪問權、高優先順序的任務執行權限,或是專門的工具和模型元件運作機制:1.平等的初始稟賦:系統中的每個使用者(或其代理代表)都被授予完全相同數量的初始虛擬代理貨幣。這確保了所有參與者在談判桌上擁有平等的購買力和議價能力2.代理競價:個人 AI 助理或其他代理代表其使用者,對所需的共享資源進行競標。出價的多少理想地反映了使用者對不同選項需求的強度3.價格發現:通過彙總所有代理的競價訊號,不同資源的虛擬價格會自然地形成,反映出它們的稀缺性和受歡迎程度。資源因此會被引導至能夠發揮其最高價值的地方公平性標準:嫉妒測試這個設計的公平性目標是通過德沃金提出的嫉妒測試。一個通過了嫉妒測試的資源分配結果應該是這樣的:在拍賣結束後,沒有任何一個使用者會寧願選擇另一個使用者獲得的資源組合及剩餘貨幣,也不願選擇自己的。換句話說,每個代理獲得的都是根據其特定偏好定製化的最佳資源包。這樣的結果既是“雄心敏感的(ambition-sensitive)”,因為它反映了參與者的個人偏好;同時也是“稟賦不敏感的(endowment-insensitive)”,因為它通過給予每個人相同的初始貨幣,從根本上消除了因外部資源不平等而帶來的不公平優勢設計二:“任務經濟”以應對集體挑戰除了確保個體間的公平,代理經濟還可以被設計用來協調大規模的努力,以解決人類社會面臨的緊迫挑戰,如氣候變化、生物多樣性喪失和全球流行病等。這種設計被稱為“任務經濟(mission economies)”。核心理念:通過市場和市場塑造政策,將 AI 代理的協調能力引導向預設的、有益於社會的宏大目標。這意味著要建立特定的激勵結構,使追求集體任務的完成對代理來說是“有利可圖”的。實現方式:獎勵塑造:在多代理系統中,通過精心設計獎勵函數來促進協作已經是一種成熟的方法。同樣,我們可以在代理市場中嵌入與特定使命相關的獎勵社區貨幣與特定激勵:可以建立與特定使命掛鉤的社區貨幣或代幣。例如,一個旨在減少碳排放的使命經濟可以獎勵那些能夠最佳化能源效率或開發綠色技術的代理論文同時也審慎地指出了“任務經濟”方法的潛在缺陷,這源於對現實世界中類似嘗試的批評:規範性偏見:使命的定義本身可能帶有價值偏見,且可能過於簡化複雜問題自上而下的治理風險:過度依賴中心化的決策可能忽視私營部門和去中心化創新的貢獻意外的負面後果:專注於一個使命(如環境保護)可能會對另一個使命(如發展中經濟體的人類福祉)產生不利影響因此,設計良好的使命經濟應該是結果導向的,而非解決方案導向的,並且應當承認和納入未來的高度不確定性。虛擬代理經濟的優勢在於,其可程式設計性或許能比協調人類行為更容易地實現這種精細的激勵設計5. 基礎設施層任何宏大的設計理念都需要堅實的技術和治理基礎設施來支撐。要實現一個安全、可控且公平的沙盒經濟,必須建構一個全新的、專為代理互動設計的底層架構。論文詳細闡述了構成這個架構的幾個關鍵元件身份、聲譽與信任去中心化識別碼(Decentralized Identifiers, DIDs):為每個 AI 代理提供一個全球唯一、由其自身控制的身份錨點,無需依賴任何中心化機構。DIDs 使得代理的身份持久且可跨平台移植,是實現安全通訊和權威簽名的基礎did:key:一種簡單的、自包含的 DID 方法,適用於為臨時任務建立的一次性代理did:ion:一種基於比特幣區塊鏈第二層網路的高度可擴展且抗審查的 DID 方法,適用於需要長期存在和高價值互動的企業級或國家級代理。可驗證憑證(Verifiable Credentials, VCs):這是物理世界中證書或許可證的數字等價物。VCs 是由發行方(如一個市場平台)對主體(如一個賣家代理)做出的、帶有加密簽名的陳述,具有防篡改的特性。它能將抽象的“聲譽”轉化為具體的、機器可讀的、可驗證的資產組合。例如,一個代理的聲譽可以由多個 VCs 構成,分別證明其“成功交易完成率”、“在 X 領域的認證能力”或“公平資源分配的實踐記錄”人格證明(Proof-of-Personhood, PoP):為了防止“女巫攻擊(Sybil attacks)”(即單一惡意行為者建立大量虛假身份以獲取不正當利益),任何涉及向人類使用者公平分配資源的系統都必須引入 PoP 機制。PoP 提供了一種可驗證的擔保,證明一個代理或帳戶對應於一個獨一無二的人類。這是一個刻意設計的、受控的“滲透點”,將數字身份與真實世界的人類掛鉤,以確保系統的完整性社交圖譜驗證:如 BrightID,通過已驗證使用者之間的信任關係網路來確認新使用者的唯一性隱私保護生物識別:如 Worldcoin,使用硬體(“Orb”)掃描使用者虹膜生成唯一雜湊值,以證實其唯一性,同時不儲存或洩露原始生物資料通訊、協調與隱私互操作性協議:為了避免代理生態系統變成一個個相互隔離的“圍牆花園”,開發開放、通用的標準至關重要Agent2Agent (A2A):旨在支援代理之間的互操作性Model Context Protocol (MCP):使 AI 代理能夠無縫地與外部工具、資料來源和 API 進行互動COALESCE 框架:允許代理分解任務,並將子任務外包給更專業的代理,同時提供評估內外部執行成本的機制隱私保護技術:零知識證明(Zero-Knowledge Proofs, ZKPs)ZKPs 允許一方(證明者)向另一方(驗證者)證明一個陳述為真,而無需透露任何使該陳述為真的底層資訊。在代理經濟中,ZKPs 可以從根本上解決隱私和操縱風險選擇性披露:代理可以證明自己滿足某個條件(如“帳戶餘額足以完成此次購買”)而無需透露具體數值(總預算),從而防止掠奪性定價匿名憑證:代理可以證明自己屬於某個群體(如“某社區居民”)以使用本地貨幣,而無需暴露其具體身份,防止跨場景的行為追蹤不可連結性:可以為每次互動生成全新的 ZKP,使得外部觀察者在計算上難以將一個代理的多次活動關聯起來,從而打破形成“資訊繭房”的資料鏈條治理與監督混合式、多層級的監督基礎設施:由於代理經濟的速度和規模,傳統的“人在環路中”的監督模式已不再適用。論文提出了一個混合式的監督架構:1.第一層:自動化 AI 監督員:即時監控市場活動,以程式設計方式執行基本規則,並標記出預示著欺詐、操縱或系統性風險的異常行為2.第二層:自動化裁決系統:當第一層發現問題時,該層級可以介入,例如暫時凍結有問題的代理帳戶或交易,同時收集相關資料以供審查3.第三層:人類專家審查:只有最複雜、最新穎或風險最高的案件才會上報到這一層,確保人類的專業知識被用在最關鍵的地方。這個監督架構的有效性,依賴於兩個關鍵的技術基礎:不可變的、有加密安全保障的帳本(如區塊鏈),以及標準化、可解釋的審計追蹤,這兩者共同為事後問責提供了可靠的依據6. 最終建議基於以上分析,論文最後提出了一個清晰的行動路線圖以下是論文提出的五項核心建議:1.為責任和問責制建立清晰的法律框架傳統法律很難界定一個自主代理行為的責任歸屬(是創造者、部署者還是使用者?)。當代理以“群體代理(group agents)”的形式協同運作時,這一挑戰變得更加複雜。因此,我們需要發展新的法律模型,可以參考公司法中關於法人責任的判例,將整個協調後的代理系統視為一個單一的、可問責的實體。這為追究集體行為的責任提供了一條更現實的路徑2.為代理的互操作性和通訊制定開放標準一個碎片化的數字景觀將極大地限制虛擬代理經濟的潛力,並催生資料壟斷的“圍牆花園”。因此,推動和採納開放、通用的標準至關重要。這些標準需要建立一種通用語言,讓所有代理,無論其來源或提供商,都能無縫地發現彼此的能力、協商條款並安全地進行交易。建立這樣一個公平的競爭環境是 fostering 一個競爭性、創新性和去中心化的代理生態系統的先決條件。3.建構混合式的監督與遏制基礎設施如前所述,必須建立一個結合了 AI 系統即時警惕性和人類專家深思熟慮判斷的混合監督系統。這個分層的構架(AI 監督員 -> 自動化裁決 -> 人類審查)能夠在機器速度下遏制潛在危害(如防止“閃崩”),同時將寶貴的人類注意力集中在最棘手的問題上。其基礎是不可變的帳本和標準化的審計追蹤,以確保所有行動都可驗證、可追溯。4. 在監管沙盒中開展試點項目鑑於這些提議的新穎性和複雜性,純理論的方法是不足的。論文強烈建議建立監管沙盒,啟動受控的試點項目,作為連接理論與實踐的橋樑。這些沙盒將作為真實世界的實驗室,讓私營公司、學術研究者和監管機構合作,在一個受控的環境中部署和觀察小規模的代理經濟。例如,可以選擇一個具體的社會任務——如最佳化大學校園的能源網、管理一個城市的自動配送車隊——來進行壓力測試,觀察湧現的代理行為,並衡量市場機制的實際效果。5.投資於勞動力互補性與現代化的社會安全網AI 代理經濟帶來的一個重大社會風險是大規模的勞動力替代和不平等加劇。為了應對這一挑戰,需要採取雙軌策略第一軌是促進人與 AI 的互補性:重塑教育和職業培訓,重點培養人類獨特的優勢,如批判性思維、複雜問題解決能力、創造力以及管理和評估 AI 產出的能力。第二軌是加固社會安全網:僅靠培訓是不夠的,必須同時強化社會保障體系。這不僅包括傳統的失業救濟,還應探索如失業保險、可攜帶式福利系統和負所得稅等更具適應性的機制。通過這五項建議,論文呼籲我們抓住一個稍縱即逝的機會窗口:與其被動地將強大的新技術塞進它們註定會破壞的舊系統中,不如主動地去設計和建構一個新的世界,在這個世界裡,我們最強大的工具,從其設計之初,就是我們最高願望的延伸 (AI寒武紀)
IMO 主席正式宣佈:Google DeepMind在國際數學奧賽拿下金牌!
剛剛,Google DeepMind 終於宣佈,他們的Gemini Deep Think模型在2025年國際數學奧林匹克競賽(IMO)中取得了金牌水平的成績。雖然比OpenAI 來得晚了一些,但要厚道許多。這次AI 終於實現了質的飛躍:在規定時間內,用自然語言解決世界上最難的數學題了。但在DeepMind正式宣佈這個消息之前,還有一段戲劇性的插曲。OpenAI「截胡」據知情人士透露,DeepMind其實在7月19日周五下午就已經拿下了IMO金牌,但因為內部驗證流程,計畫等到周一才正式發佈。結果呢?OpenAI在周六凌晨1點就搶先發佈了他們的成績,瞬間搶走了所有聚光燈。Jasper(@zjasper666)指出:在這個遊戲裡,速度大於官僚主義。錯過時機,就失去了話語權。更讓人玩味的是,據Mikhail Samin透露,IMO組織方原本要求AI公司等到閉幕式後一周再公佈成績,不要搶走孩子們的風頭。但OpenAI並沒有與IMO合作測試他們的模型,所以可能「不知道」這個約定。OpenAI的Noam Brown後來澄清說,他們確實在閉幕式結束後才發佈,並且提前通知了一位組織者。不過據IMO協調員反映,OpenAI在閉幕晚會前就發佈了,這被認為是「粗魯和不恰當的」。不過,Sam Altman和OpenAI 再懂不過的是,在這場AI 競賽中,「注意力就是你所需要的一切」。Deep Think:從形式語言到自然語言的跨越拋開OAI 的插曲,讓我們回到技術本身。國際數學奧林匹克競賽是全球最負盛名的青年數學競賽,自1959年以來每年舉辦一次。每個參賽國派出6名頂尖的大學預科數學家,在4.5小時內解決6道極其困難的題目,涉及代數、組合學、幾何和數論。今年,Gemini Deep Think在同樣的時間限制下,完美解決了6道題中的5道,獲得35分(滿分42分),達到了金牌標準。這意味著什麼?去年,DeepMind的AlphaProof和AlphaGeometry 2組合系統雖然也取得了銀牌成績(28分),但需要專家先將題目從自然語言翻譯成Lean等形式語言,而且計算時間長達兩到三天。今年的Gemini完全不同:它直接用英語讀題,直接用英語寫證明,全程端到端,而且在規定的4.5小時內完成。IMO主席Gregor Dolinar教授評價道:我們可以確認,Google DeepMind已經達到了這個備受期待的里程碑,獲得了35分——金牌分數。他們的解答在許多方面都令人驚嘆。IMO評分員發現這些解答清晰、精準,而且大部分都很容易理解。Deep Think的技術細節那麼,Gemini是如何做到的呢?Deep Think採用了一種增強推理模式,專門用於解決複雜問題。這個模式融入了DeepMind最新的研究技術,包括平行思考能力——模型可以同時探索和組合多種可能的解決方案,而不是沿著單一的思維鏈前進。為了充分發揮Deep Think的推理能力,研究團隊還:使用新穎的強化學習技術進行訓練,讓模型能夠利用更多的多步推理、問題解決和定理證明資料為Gemini提供了一個精選的高品質數學問題解答庫在指令中加入瞭解決IMO問題的一般提示和技巧值得注意的是,DeepMind這次參與了IMO的官方評估流程,他們的成績是由IMO協調員使用與學生解答相同的標準進行評分和認證的。技術還是行銷?網友們對這次「搶先發佈」事件的看法各不相同。Think_Different_(@ThinkDi92468945)指出:這不僅僅是速度問題。我打賭OpenAI的模型用了更少的計算資源+更少的專門/針對性方法。soyboy(@soyboy)也持類似觀點:DeepMind用的是專門為此設計的模型,而OpenAI用的是通用模型。所以無論如何,他們能宣稱的東西都會更少。Krishna Kaasyap(@krishnakaasyap)則提出了不同看法:他們會開源自己的答案,最有創意的答案將經得起時間的考驗。如果DeepMind的答案確實有創意,DeepMind可以實現另一個AlphaGo的「第37手」,讓這種先發優勢變得無效。社區反應激烈消息一出,馬斯克就回應:「Imagine」(想像一下),並稱:這雖然是個重要的里程碑,但對AI 來說,這將很快變得微不足道。還有開發者趁機調侃Grok:「這是真的嗎?你覺得你能拿金牌嗎?」各路網友也紛紛發表看法。有人調侃道,既然能解5道題,為什麼不是6道?是不是在考慮包容性問題?有網友則認為DeepMind 和OpenAI 都進行了新的RL 微調:也有人指出,目前還沒有公開可用的模型能做到這一點,並展示了數學競技場的排行榜截圖:即將向更多人開放Google DeepMind表示,他們將向一批可信的測試者(包括數學家)開放這個Deep Think模型,然後再向Google AI Ultra訂閱使用者推出。雖然今年的方法完全基於Gemini的自然語言能力,但DeepMind也在繼續推進AlphaGeometry和AlphaProof等形式系統。他們相信,結合自然語言流暢性和嚴格推理(包括形式語言中的驗證推理)的AI代理,將成為數學家、科學家、工程師和研究人員的寶貴工具。[1] Google DeepMind IMO 2025結果公告: https://goo.gle/imo-2025-results[2] Gemini解題方案PDF文件: https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf[3] MathArena AI數學能力排行榜: https://matharena.ai/[4] Noam Brown關於發佈時間的澄清: https://x.com/polynoamial/status/1947024171860476264[5] Harmonic公司關於IMO約定的聲明: https://x.com/harmonicmath/status/1947023450578763991[6] Gemini模型系列: https://goo.gle/models/gemini/[7] AlphaProof項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/[8] AlphaGeometry項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/[9] Google AI Studio: https://aistudio.google.com/prompts/new_chat[10] Gemini聊天介面: https://gemini.google.com/ (AGI Hunt)
GoogleDeepMind發佈AlphaEvolve:AI界的“演算法設計進化大師”誕生
GoogleDeepMind剛剛又往前拱了一大步,宣佈推出 AlphaEvolve智能體 ,目標直指更上游,用於通用演算法的設計發現和最佳化簡單說,AlphaEvolve就像個AI界的“演算法育種大師”。它把自家Gemini大模型(Gemini Flash負責廣撒網,洞察力強的Gemini Pro負責深挖)和一套“自動化考官”(負責驗證演算法靠不靠譜、效率高不高)結合起來,再套上一個“進化論”的框架,讓好演算法能一代更比一代強AlphaEvolve工作流程:工程師設定框架,AI通過“提示採樣器”給LLM喂招,LLM出新招(程序),“考官”打分,好招進“兵器譜”,並用來啟發下一輪出招。去年DeepMind就秀過肌肉,證明LLM能生成程式碼函數來搞定科學問題。但AlphaEvolve的野心是進化一整個程式碼體系,去啃那些更複雜的演算法硬骨頭。AlphaEvolve已經在Google內部“上崗”了AlphaEvolve已經在Google的多個核心業務裡默默發光發熱了:1.改善資料中心調度:AlphaEvolve給Google龐大的資料中心Borg系統發現了一種簡單卻極其有效的啟髮式方法。這套方案上線一年多,平均給Google全球計算資源摳回了0.7%的算力2.設計晶片 (TPU Circuit Design):在Google的AI晶片TPU設計中,AlphaEvolve直接上手改起了Verilog(晶片設計語言)。它最佳化了一個矩陣乘法關鍵電路,去掉了冗餘。改動通過了嚴格的“體檢”,確認功能沒問題,已經被用在了下一代TPU裡3.給AI訓練和推理再提提速:AlphaEvolve找到了更巧妙的方法來拆解大矩陣乘法,讓Gemini架構裡的這個核心“零部件”快了23%,最終給Gemini模型的訓練省了1%的時間。對大模型訓練這種“吞金獸”來說,1%也是肉。工程師們也從幾周的苦哈哈最佳化,變成了幾天的自動化實驗,能更快搞創新了它甚至還能最佳化底層的GPU指令。對於Transformer模型裡常用的FlashAttention,AlphaEvolve給整出了最高32.5%的加速。這塊通常是編譯器啃的硬骨頭,人一般不輕易動不止搞工程,數學前沿它也敢闖AlphaEvolve的目標不只是最佳化現有系統,它還想在更基礎的數學和演算法發現上取得突破:矩陣乘法新演算法:給定一個基礎程式碼框架,AlphaEvolve設計出了一種新穎的基於梯度的最佳化過程,發現了多個矩陣乘法新演算法。例如,它找到了一個用48次標量乘法計算4x4複數矩陣乘積的演算法,優於自1969年以來已知的Strassen演算法。這比DeepMind之前的AlphaTensor(專攻矩陣乘法,但對4x4矩陣只在二元算術上找到改進)又進了一步攻克公開數學難題:DeepMind用AlphaEvolve嘗試了超過50個來自數學分析、幾何、組合學和數論的公開問題,在約 75% 的案例中,它重新發現了當前已知的最優解。在約20%的案例中,它改進了已知的最優解!例如,在困擾了數學家300多年的“接吻數問題”(Kissing Number Problem,即一個中心球最多能同時接觸多少個不重疊的等大球體)上,AlphaEvolve在11維空間中發現了一個包含593個外層球的構型,刷新了該維度下的已知下界對數學成果感興趣的,DeepMind也放了些結果在Google Colab上,地址:https://colab.research.google.com/github/google-deepmind/alphaevolve_results/blob/master/mathematical_results.ipynb寫在最後大語言模型的編碼能力還在進化,AlphaEvolve也會跟著變強。Google目前推出了早期試用計畫,先給學術圈的朋友們嘗嘗鮮,想嘗鮮的可以去DeepMind官網填個表https://docs.google.com/forms/d/e/1FAIpQLSfaLUgKtUOJWdQtyLNAYb3KAkABAlKDmZoIqPbHtwmy3YXlCg/viewform (AI寒武紀)
Google推出AlphaEvolve實現演算法自我進化,將顛覆數學與電腦科學!
演算法自我進化革命已經悄然開始!Google DeepMind剛剛發佈了AlphaEvolve系統,這是一個革命性的Gemini驅動編碼代理,不僅能設計演算法,而且能通過進化框架持續最佳化這些演算法!它已經發現了更快的矩陣乘法演算法,解決了開放性數學問題,並最佳化了Google的資料中心、晶片設計和AI訓練。這不是簡單普通的AI工具發佈,而是演算法發現範式的根本轉變!AlphaEvolve的技術架構:三大核心能力從技術角度解析,AlphaEvolve的突破性在於它獨特的系統架構,結合了三大關鍵元件的協同工作:大語言模型整合:AlphaEvolve利用最先進的Gemini模型組合,包括高效的Gemini Flash用於最大化探索的廣度,以及強大的Gemini Pro提供深度洞察。這些模型負責綜合分析問題資訊、歷史解決方案,並用電腦程式碼形式提出演算法實現。自動化評估系統:AlphaEvolve實現了一套客觀量化的評估指標,能夠自動驗證、運行並評分每個提出的程序。這種方法在所有能夠明確衡量進步的領域(如數學和電腦科學)中表現出色。評估系統為進化過程提供了精確的適應度函數。進化演算法框架:系統實現了一個適應性進化框架,它不僅迭代改進現有最佳演算法,還通過重組不同解決方案中的思路找到更優解。這種進化策略能夠跨越局部最優解,在更大的解空間中搜尋。BensenHsu對論文進行了詳細解讀,指出了AlphaEvolve的關鍵創新:論文介紹了AlphaEvolve,一個使用最先進大語言模型的編碼代理,通過進化過程迭代改進演算法。AlphaEvolve旨在解決科學和計算領域的挑戰性問題。它發現了新穎、可證明正確的演算法,在數學和電腦科學中的一系列問題上超越了現有最先進的解決方案,如找到更快的矩陣乘法演算法並改進各種數學不等式的界限。最佳化Google計算基礎架構的具體實踐過去一年,AlphaEvolve發現的演算法已經部署在Google的整個計算生態系統中,形成了一個多層次的最佳化體系:資料中心調度演算法革新AlphaEvolve在Borg資料中心編排系統中實現了突破性最佳化。它設計了一種新型啟髮式演算法,在全域資源分配決策中引入了動態權重調整機制。這個生產環境中運行超過一年的解決方案,持續回收了Google全球計算資源的平均0.7%。技術上的關鍵在於,AlphaEvolve生成的程式碼不僅性能卓越,還具有可解釋性、可偵錯性和可預測性,這在超大規模分佈式系統中至關重要。與黑盒最佳化方法不同,它生成的解決方案能夠被工程師理解並進一步改進。晶片設計中的電路最佳化在硬體層面,AlphaEvolve提出了矩陣乘法關鍵電路的Verilog程式碼重寫方案。它識別並移除了精心最佳化的算術電路中的冗餘位,同時保證了電路功能的正確性。這種修改已經整合到Google即將推出的 Tensor Processing Unit(TPU) 晶片中。這一應用的技術創新在於,AlphaEvolve能夠使用硬體描述語言(HDL)提出修改,促進了AI系統與硬體工程師之間的協作。每一個建議都必須通過嚴格的驗證方法,以確保修改後的電路維持功能正確性。AI訓練和推理的多層次加速在軟體和演算法層面,AlphaEvolve實現了AI性能和研究速度的雙重提升:矩陣乘法子問題分解最佳化:通過發現更智能的方法將大型矩陣乘法操作分解為可管理的子問題,AlphaEvolve將Gemini架構中的關鍵核心加速了23%,導致Gemini訓練時間減少了1%。考慮到生成式AI模型的計算資源需求,這種最佳化轉化為顯著的資源節約。GPU指令級最佳化:AlphaEvolve還最佳化了底層GPU指令,這是一個通常由編譯器處理而不被工程師直接修改的複雜領域。它在基於Transformer的AI模型中為FlashAttention核心實現了高達32.5%的速度提升。核心最佳化工程時間降低:從工程效率角度看,AlphaEvolve將核心最佳化所需的時間從專家數周的努力縮短到了幾天的自動化實驗,顯著加速了研究創新速度。AI Wave(@aiwaveco)對這一技術突破進行了深刻評價:我們從「提示詞+程式碼」發展到了「開放問題+演算法+最佳化」。AlphaEvolve玩的是完全不同的遊戲。數學和演算法設計的演算法定理機AlphaEvolve在純數學和演算法設計領域的成就同樣驚人,它正在成為一個"演算法定理機",能夠自動發現和證明演算法性質。矩陣乘法演算法的突破性創新AlphaEvolve在矩陣乘法這一電腦科學基礎問題上取得了顯著進展。它設計了一種全新的基於梯度的最佳化過程,能夠發現多種新型矩陣乘法演算法。具體而言:技術上,AlphaEvolve提出了一個小型程式碼框架,然後自主設計了新型梯度最佳化過程的多個元件它找到了使用48個標量乘法計算4×4復值矩陣的演算法,超越了Strassen在1969年提出的演算法(此前被認為是該設定下的最佳演算法)相比之前的AlphaTensor模型,AlphaEvolve採用了更泛化、更高效的方法,在4×4矩陣上實現了超越,而AlphaTensor僅在二進制算術上取得了改進在演算法進化過程中,AlphaEvolve進行了15次變異,跨越了最佳化器、權重初始化、損失函數和超參數掃描等多個元件,顯示出其驚人的演算法設計能力。開放性數學問題的系統化攻克DeepMind團隊將AlphaEvolve應用於超過50個分析、幾何、組合學和數論領域的開放性問題,實驗設定僅花費數小時就完成,充分展示了系統的靈活性。研究成果展示了AlphaEvolve的演算法能力:在約75%的情況下,它獨立重新發現了當前已知的最先進解決方案在20%的情況下,它改進了此前最佳已知解決方案,在相應的開放問題上取得了進展尤為突出的是AlphaEvolve在「親吻數問題」(kissing number problem)上的成就。這個已經困擾數學家300多年的幾何挑戰,研究的是與公共單位球體相切的非重疊球體的最大數量。AlphaEvolve發現了593個外部球體的構型,並在11維空間中建立了新的下界,這是一個重要的數學突破。AI Notkilleveryoneism Memes(@AISafetyMemes)分享了一張表達對AlphaEvolve數學能力複雜感受的圖片:演算法進化的未來:跨領域應用前景從技術角度看,AlphaEvolve展示了演算法發現領域從特定領域解決方案向通用複雜演算法開發的飛躍。其核心技術優勢在於其架構的普適性——只要問題的解決方案能夠被描述為演算法並通過自動化方式驗證,AlphaEvolve就有可能應用。技術架構的未來發展路徑隨著大語言模型能力的不斷提升,特別是編碼能力的增強,AlphaEvolve的進化框架預計會得到相應的提升。研究團隊特別指出,隨著Gemini模型在編碼方面能力的增強,AlphaEvolve的演算法發現能力將同步提升。從軟體工程角度,DeepMind團隊與People + AI Research團隊已經建構了互動介面,使研究人員能夠更直觀地與AlphaEvolve互動。他們計畫推出早期訪問計畫,並探索更廣泛部署的可能性。跨領域應用前景AlphaEvolve的演算法進化方法預計將在多個科學與技術領域產生深遠影響:材料科學:自動設計和最佳化材料配方演算法,加速新型材料的發現過程。藥物發現:最佳化分子對接演算法,加速候選藥物的篩選和評估過程。可持續發展:設計更高效的資源分配演算法,最佳化能源使用和減少碳排放。技術與商業應用:針對特定業務流程自動設計最佳化演算法,提高營運效率。Uncertain Systems(@uncertainsys)提出了一個重要的商業應用問題:它能發現新的SaaS嗎?這一問題暗示了AlphaEvolve可能對軟體服務創新產生的影響,演算法進化可能催生全新類型的軟體服務。jzv(@jzvtrades)則提出了更深層次的技術問題:但它能發明模型突破嗎?這反映了研究界對AI系統能否實現元級創新的思考——能否設計出全新的AI架構和模型,而不僅僅是最佳化現有演算法。演算法進化已經從理論走向實踐,我們正在見證電腦科學和數學研究模式的變革,這預示著人類與AI系統在科學發現領域的新型協作關係。 (AGI Hunt)
破解300年數學難題,智能體大突破!Google發佈超強AI Agent
今天凌晨,GoogleDeepmind在官網發佈了,用於設計高級演算法的程式設計AI Agent——AlphaEvolve。AlphaEvolve與Google的大模型Gemini實現深度整合,用於自動評估通用演算法的發現與最佳化,可以幫助開發人員快速設計出最好、高效的矩陣演算法。簡單來說,大模型擅長生成各種想法和演算法,但是沒人知道這些到底行不行,而AlphaEvolve相當於“質檢員”,能夠按照特定標準來衡量這些想法是否可行。AlphaEvolve超強能力Google在展示AlphaEvolve的能力時,就特意找了一道300多年的數學難題——親吻數問題。這道題的歷史最早可以追溯到1694年,牛頓還和別人辯論、研究過。其難點在於給定維度的空間中,最多可以有多少個相同大小的球體同時接觸一個中心球體,這些球體之間不發生重疊。而AlphaEvolve發現了由593個外層球體組成的結構型,並在11維空間中建立了新的下界,超越之前數學家們創造的記錄。AlphaEvolve還能為複雜的數學問題提出新的解決方法。基於極簡程式碼框架,AlphaEvolve設計了一種基於梯度的新型最佳化程序的諸多元件,並行現了多種用於矩陣乘法的新演算法。AlphaEvolve找到了一種用於4x4復值矩陣乘法的演算法,該演算法僅需48次標量乘法,改進了Strassen在1969年提出的演算法,後者此前被認為是該場景下的最佳演算法。這一發現表明,與Google之前專注於矩陣乘法演算法的研究成果AlphaTensor相比,取得了重大進展。此外,Google使用AlphaEvolve來增強大模型的訓練和推理。AlphaEvolve將大規模矩陣乘法運算拆解為更易於處理的子問題,使Gemini模型架構中的核心計算效率提升了23%,整體訓練時間縮短了1%,節省大量成本。AlphaEvolve還能對GPU底層指令進行最佳化。這是一個極其複雜的領域,通常編譯器已對其進行了深度最佳化,所以,人類工程師一般不會直接對其進行修改。AlphaEvolve實現了基於Transformer的人工智慧模型中FlashAttention核心計算最高達32.5%的加速。這類最佳化有助於專家精準定位性能瓶頸,並能輕鬆地將最佳化成果整合到程式碼庫中,極大提高了工作效率。AlphaEvolve架構簡單介紹任務定義與評估模組是AlphaEvolve的核心之一,主要負責明確使用者的需求,包括評估標準、初始解決方案以及背景知識。通過一個自動化的評估機制來衡量生成的解決方案的質量,這一機制以函數的形式存在,將解決方案對應到一組標量評估指標上。這些指標通常是最大化的目標,例如,在數學問題中,如果目標是找到滿足特定屬性的最大可能圖,評估函數將呼叫進化程式碼生成圖,檢查屬性是否成立,然後返回圖的大小作為得分。大模型整合與提示採樣模組負責建構上下文提示,這些提示包括明確的上下文資訊,例如,問題的詳細描述、方程式、程式碼片段或相關文獻;隨機格式化,通過機率分佈提供人類編寫的替代方案以增加多樣性;渲染的評估結果,包括程序、執行結果以及評估函數分配的分數;以及元提示進化,由大模型本身在額外的提示生成步驟中建議的指令和上下文,這些內容與解決方案程序在單獨的資料庫中共同進化,為大模型提供了豐富的資訊,使其能夠生成更準確和有效的程式碼修改建議。創造性生成與程式碼修改是AlphaEvolve另外一個核心模組,主要利用大模型的能力來生成程式碼修改建議。這些大模型能夠處理豐富的上下文資訊,並根據過去的嘗試和想法提出新的改進方案。當AlphaEvolve要求大模型修改現有程式碼時,它會請求以特定格式的差異塊提供更改,這種格式允許對程式碼的特定部分進行針對性的更新。在某些情況下,如果程式碼非常短,或者需要完全重寫,AlphaEvolve可以配置為直接輸出整個程式碼塊,而不是使用差異格式。評估與反饋模組負責跟蹤AlphaEvolve的進展,並選擇在後續代中傳播那些想法。每個由大模型提出的新解決方案都會被自動評估,這一過程本質上是簡單地在生成的解決方案上執行使用者提供的評估函數。AlphaEvolve支援一些可選機制,使評估更加靈活和高效,例如,評估級聯,使用者可以指定一系列難度遞增的測試用例,只有在所有早期階段都取得足夠有希望的結果時,新解決方案才會進入下一個階段;大模型生成的反饋,用於評估那些難以在使用者提供的評估函數ℎ中精確捕捉的解決方案特性;以及平行化評估,通過非同步呼叫評估叢集來分配這項工作,從而提高評估效率。進化與資料庫管理負責儲存和管理在進化過程中生成的解決方案。這些解決方案儲存在一個進化資料庫中,其主要目標是在後續代中最佳地重新出現先前探索的想法。設計這種資料庫的一個關鍵挑戰是平衡探索和利用,以持續改進最佳程序,同時保持多樣性以鼓勵整個搜尋空間的探索。AlphaEvolve的進化資料庫實現了一種演算法,該演算法受到MAP精英演算法和基於島嶼的種群模型的啟發。分散式運算管道模組使AlphaEvolve能夠作為一個非同步計算管道運行。每個計算在等待另一個尚未完成的計算結果時都會阻塞。整個管道針對吞吐量進行了最佳化,而不是任何特定計算的速度,以最大化在特定總體計算預算內可以提出和評估的想法數量。目前,有興趣的小夥伴可以去GoogleDeepmind官網申請使用AlphaEvolve,尤其是對於科研、數學、設計領域的小夥伴幫助很大。 (AIGC開放社區)