#AlphaEvolve
陶哲軒力推AlphaEvolve:解決67個不同數學問題,多個難題中超越人類最優解
陶哲軒又來安利AlphaEvolve了。在與DeepMind高級工程師Bogdan Georgiev等人合著的新論文中,陶哲軒稱其為數學發現的有力新工具。具體來說,他們用AlphaEvolve研究了67個數學問題,涵蓋組合數學、幾何、數學分析與數論等多個領域。結果發現,AlphaEvolve在可擴展性、魯棒性、可解釋性方面均優於傳統工具。更關鍵的是,AlphaEvolve已經可以自主發現新穎的數學構造,並在部分問題上超越人類已有的最優結果。AI自主發現新數學構造AlphaEvolve在67個問題的測試中,不僅復現了眾多已知最優解,更在多個方面展現了其獨特的發現能力。一個關鍵的成就是AlphaEvolve能夠自主發現人類未曾一窺的新數學構造。例如在處理Nikodym集問題時,系統生成的初步構造雖然尚未達到最優,但它為人類研究者提供了“一個極好的人類直覺跳板” 。基於AI提供的結構,研究人員通過人工簡化和直覺推演,最終找到了一個更優的構造,改進了已知的上界,這一人機協作的成果將作為一篇獨立的數學論文發表。同樣地,在算術Kakeya猜想中,AlphaEvolve也發揮了類似作用。系統不僅將一個已知的下界從1.61226提升至1.668,其構造的解(形態上類似於離散高斯分佈)還啟發人類數學家建立了新的漸近關係,相關成果也即將發表。這種啟發人類研究的能力,與AlphaEvolve輸出結果的可解釋性緊密相關。系統在大多數情況下生成的是結構清晰的程式碼,而非難以理解的黑盒結果,這使得人類專家可以方便地分析、歸納其發現的模式,並提煉出通用的數學公式。積木堆疊問題便是這一特性的絕佳體現。在該問題中,系統最初生成了一個邏輯正確的遞迴程序來計算積木的放置。在隨後的演化中,系統內部的LLM分析了這段程式碼的邏輯,並自主將其重構為一個更簡潔、高效的顯式程序。這個最終程序清晰地揭示了最優解與諧波數(harmonic numbers)之間的數學關係,這與人類已知的理論公式完全一致,展示了系統從複雜解法中提煉數學本質的能力。除了方案的清晰性,AlphaEvolve在不同類型的問題設定下也表現出了強大的魯棒性。它能夠有效處理高維度參數空間、複雜的幾何約束以及基於蒙特卡洛模擬的近似評分函數。比如這裡有一個最小三角形密度問題。研究人員最初設計了一個樸素的評分函數,但系統很快利用了該問題空間的非凸性,通過“欺騙”評分函數獲得了超越理論最優的不可能分數。為瞭解決這個問題,研究人員設計了一個更魯棒的新評分函數,該函數基於問題的利普希茨連續性(Lipschitz type bounds)構造。在切換到這個更複雜的連續評分函數後,AlphaEvolve不再受局部陷阱的迷惑,迅速收斂到了已知的、正確的理論最優解。並且AlphaEvolve具備了出色的泛化能力,來看IMO 2025的第6題。研究人員只在輸入n為完全平方數時才對系統進行評分。這種“資訊限制”反而迫使AlphaEvolve去尋找這些稀疏實例背後的共同結構模式,而不是對每個n進行“過擬合”。最終,系統成功發現並輸出了在所有完全平方數n上均達到最優的通用構造,展現出了歸納能力。在實際應用中,AlphaEvolve的效率極高,僅需少量高品質提示即可驅動。論文指出,來自領域專家的提示(expert guidance)往往能顯著提升最終構造的質量,表明系統對人類輸入具有高度的敏感性。同時,該系統在架構上支援平行化,允許研究人員在多個問題實例或同一問題的不同參數設定上同時運行探索,並能自動遷移成功的搜尋策略,這在處理多參數的幾何類問題時尤其高效。AlphaEvolve工作模式AlphaEvolve並非一個單一流程的系統,而是通過不同“工作模式”適應不同類型的數學問題探索任務。該系統主要在兩種不同的模式下運行——“搜尋模式”(search mode)和“泛化模式”(generalizer mode)。“搜尋模式”是系統最常用的模式,其目標是高效地發現最優的數學構造,而不必關心構造過程是否具有可解釋性或普適性。在這種模式下,AlphaEvolve演化的不是直接生成構造的程序,而是演化用於搜尋構造的程序。每一個被演化的程序本身就是一個“搜尋啟髮式演算法”(search heuristic)。評估器會給予這些啟髮式演算法一個固定的時間預算,演算法的得分取決於它在此預算內能找到的最佳構造的質量。這種方式解決了LLM呼叫(緩慢且昂貴)與傳統局部搜尋(快速且廉價)之間的速度差異——一次緩慢的LLM呼叫用於生成一個高效的搜尋策略,該策略隨後可以觸發大規模的廉價計算,自主探索數百萬個候選構造。系統演化的是一系列“改進器”(improver)函數,它們動態地適應搜尋處理程序,早期可能偏好進行廣泛探索的啟髮式演算法,而當接近最優解時,則會演化出更精細的、針對特定問題進行最佳化的演算法。“泛化模式”則更具挑戰性 。其目標是讓AlphaEvolve編寫一個能夠解決任意給定參數n的問題的通用程序 。系統的評估方式是考察該程序在一系列不同n值上的綜合表現。這種模式的期望是,通過讓系統觀察自己在小規模n上找到的最優解,它能夠自主“發現模式”,並將其歸納推廣為一個適用於所有n的通用公式或演算法 。總之,AlphaEvolve展示了AI引導的演化搜尋如何補充人類的直覺,為數學研究提供了一個強大的新範式。 (量子位)
一周兩破18年數學紀錄!陶哲軒驚嘆:AlphaEvolve帶來久違「加速度」
【新智元導讀】人類數學家與AlphaEvolve攜手,一周內兩次刷新18年未破的數學紀錄!展現AI與人類協作的驚人潛力。AI如偵察兵廣度掃描,人類專家深度最佳化,雙引擎驅動下,科學前沿正在加速推進!AI正在與人類協作加速推進科學前沿。一周之內,一項18年的數學紀錄連續兩次被刷新!先是在5月14日,DeepMind的AlphaEvolve(陶哲軒有參與)發佈白皮書,宣佈在50多個公開難題上刷新紀錄,其中就包括將和差集的θ從1.14465提升到1.1584。接著,在5月22號,人類數學家Robert Gerbicz又在AlphaEvolve的研究基礎上,把θ推進到了1.173050!在數學上,這是相當大的進步。論文地址:https://arxiv.org/abs/2505.16105陶哲軒發帖由衷的感嘆道:「人類與AI不同方法的互補,正是數學快速前進的原因。」這一次,AI的「廣度掃描」與人類的「深度打磨」像雙引擎一樣同時驅動,給數學研究帶來了久違的加速度。和差集問題究竟是什麼?讓我們先來瞭解一下這個讓數學家們痴迷的問題。簡單來說,它關乎整數集合的「和集」(A+B,集合中所有元素兩兩相加得到的集合)與「差集」(A-B,集合中所有元素兩兩相減得到的集合)之間的大小關係。想像你有兩個裝滿了數字的袋子,我們叫它們袋子A和袋子B。和集(A+B),就是你從袋子A裡拿一個數,再從袋子B裡拿一個數,把這兩個數加起來,所有可能的加和結果,就組成了這個「和集」。類似的,差集(A-B),就是從袋子A裡拿一個數,從袋子B裡拿一個數,用第一個數減去第二個數,所有可能的相減結果,就組成了「差集」。比如A={1, 2},B={3, 4},那麼A+B={1+3, 1+4, 2+3, 2+4}={4, 5, 5, 6}={4, 5, 6}(集合裡元素不重複),A-B={1-3, 1-4, 2-3, 2-4}={-2, -3, -1, -2}={-1, -2, -3}。那麼,數學家們在琢磨什麼呢?他們想找到一種特別的袋子A和袋子B(裡面的數字要選得很巧),使得和集裡不同結果的數量相對較少,但同時,差集裡不同結果的數量卻非常非常多。這個「非常非常多」到底能有多大,就用上面提到的那個神秘的指數θ來衡量。2007年,Gyarmati、Hennecart和Ruzsa通過構造一個包含約30,000個元素的集合U,確立了θ=1.14465的下界。這一結果在當時是加法組合學領域的重大進展,但數學家們知道,θ的上界為4/3,意味著仍有很大的改進空間。AlphaEvolve通過無約束搜尋,找到一個包含54,265個元素的集合U,將θ的下界提升至1.1584。這一進步展示了AI在數學研究中的潛力:通過快速掃描大量可能性,AI能夠發現人類可能忽略的構造。這一次Gerbicz的新進展並非打敗了AlphaEvolve,而是站在它提供的新基準上,用經典思路配超大參數(超過10^43546個元素)再進一步。AlphaEvolve的「廣角鏡」AlphaEvolve之所以能在和差集問題上取得突破,得益於其強大的通用演算法設計能力。它的核心機制,是將GoogleGemini解決創造性問題的能力和能驗證答案的自動評估器相結合,然後用進化框架來最佳化最有潛力的想法。論文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf它用48次標量乘法,搞定4x4複數矩陣乘法,改進了1969年Strassen最優演算法。AlphaEvolve不僅僅是矩陣乘法屠龍刀,還是個跨界狂魔。為了測試AlphaEvolve的極限,DeepMind將其投入了數學分析、幾何、組合學和數論中的50多個開放問題。陶哲軒親自出題參與到項目中。在短短幾小時內,AlphaEvolve完成了大多數問題的設定,展現出驚豔的靈活性。更令人震撼的是,它在大約75%情況下,重新發現了最先進的解決方案;在20%情況下,改進了已知的最佳解決方案,並在相應的開放問題上取得了進展。以困擾數學家300多年「親吻數」難題為例,AlphaEvolve在11維空間中,發現了593個外球的配置,刷新了該問題的下限。幾何學中,數學空間的親吻數被定義為一種空間排布下非重疊單位球體的最大數量。其中,所有的單位球體都與一個中心單位球體相切AlphaEvolve並非DeepMind首次用AI做數學:AlphaGeometry 2解決了84%的IMO幾何難題,勝過人類金牌選手。FunSearch則在組合數論難題上找到新構造,被Science評論為「新工具箱」。這不是零和博弈Gerbicz的突破正是陶哲軒所說的「互補」範例——Gerbicz與AlphaEvolve之間並不是一種零和遊戲。「將此簡化為贏家和輸家的零和遊戲是很誘人的,但我認為,不同的方法在這裡能夠相互補充,共同推動數學進步,這非常棒。」陶哲軒寫道。像AlphaEvolve這樣的AI工具,其優勢更在於廣度而非深度。AI能憑藉其強大的計算和模式識別能力,快速給出直覺性的判斷和有潛力的方向。它可以像一個孜孜不倦的「偵察兵」,快速掃描廣闊的戰場(問題的可能性空間),找出那些可能存在寶藏(可以改進的地方)的區域。當AI標出「可疑區域」後,人類專家(或許也需要電腦的輔助進行精細計算)便可以集中火力,進行深度挖掘。這實際上揭示了一種「AI+人類」雙引擎驅動數學乃至科學進步的新範式。在探索未知的前沿,單打獨鬥的時代或許正在過去,AI與人類智慧的協同,將是未來的主旋律。正如一句老話所說:「如果你想走得快,就一個人走;如果你想走得遠,就一起走。」在AI的加持下,科學研究將會走得更遠。 (新智元)
GoogleAlphaEvolve引發OpenAI關注:AI原創演算法,正挑戰人類專家界限
GoogleDeepMind這兩天推出的AlphaEvolve的新系統,因其在演算法設計上展現出的超越人類專家的原創能力,引起了業界的廣泛關注,其中也包括來自OpenAI等頂尖研究機構的目光。該系統不僅成功最佳化了沿用數十年的經典演算法,更在多個實際應用中設計出全新解決方案。AlphaEvolve的核心在於其巧妙地結合了GoogleGemini模型的強大程式碼生成能力與一種進化演算法。通過這種機制,系統能夠自主探索、生成並迭代最佳化演算法程式碼。其最引人注目的成就之一,便是針對已存在56年之久的Strassen矩陣乘法演算法提出了更高效的計算方法,減少了產生結果所需的計算量。此外,DeepMind還運用AlphaEvolve在資料中心任務調度、電腦晶片設計以及大型語言模型(如Gemini自身)的最佳化等領域取得了突破,設計出超越現有已知方案的演算法。DeepMind的研究人員強調,AlphaEvolve所發現的演算法並非對現有知識庫的簡單模仿或重組,而是“可被精確證明是全新的、且正確的”,這些成果在訓練資料中並不存在。這標誌著AI在特定任務上,已從學習和複製邁向了真正的創造和發現這種原創能力正是AlphaEvolve引起業內高度關注的關鍵。OpenAI的研究員Jason Wei坦言對AlphaEvolve的進展感到“震撼”:“判別器-生成器差距”可能是AI驅動科學創新的最重要的理念。AlphaEvolve的成功,正是利用了這一點:只要我們能夠清晰地定義問題並建立有效的評估(測量)體系,AI憑藉其強大的算力和搜尋能力,就能在巨大的可能性空間中找到最優解。Jason Wei甚至提出“測量就是你所需要的一切”(Measurement is all you need),只要問題可以被量化和快速驗證,AI就有潛力在該領域取得突破--jason wei這裡大家可能對判別器-生成器差距 (Discriminator-generator gap) 這個概念比較陌生,這通常指的是生成對抗網路(GANs)中的核心概念。在GANs中,生成器(Generator)嘗試建立逼真的資料(例如圖像、文字),而判別器(Discriminator)則努力區分真實資料和生成器建立的虛假資料。兩者在持續的競爭中共同進化和提升,生成器力求“欺騙”判別器,判別器則不斷提高識別能力。“差距”指兩者能力之間的差異,或者通過這種對抗過程驅動的創新潛力AlphaEvolve並非DeepMind在利用AI探索科學邊界方面的首次嘗試。此前的AlphaTensor項目利用強化學習發現了新的矩陣乘法演算法,而FunSearch則使用進化方法為特定問題生成更高效的程式碼。這些項目的共同點在於,它們都旨在讓AI超越模式識別,進入主動發現和創造的領域Google最近一直在放大招,感覺又重回AI領頭羊的角色了,據說Google會在北美5月20號的I/O大會上放出Gemini 2.5超大杯,我們拭目以待,哈哈,OpenAI放出Codex已經提前狙擊Google了 (AI寒武紀)
史詩時刻! AlphaGo神之一手突現,GoogleAI顛覆科學研究極限?
太瘋狂了,AlphaGo的「第37步」時刻,已經來臨。 Google的AlphaEvolve,讓我們從此進入AI創造科學的時代,人類科學研究將徹底顛覆!背後的研究者也首次接受採訪,揭露研究過程中的一些驚人細節。這周,GoogleDeepMind丟出了重磅炸彈-AlphaEvolve。但許多人,彷彿還未意識到這個AI的意義。可以這麼說,AlphaEvolve,就是數學界AlphaGo的「第37步」時刻,堪稱瘋狂。Google的這個AI,取得了人類未曾發現的數學成果。例如,它改進了改進了4x4矩陣乘法,將運算次數從49次減少到48次,這是自1969年Strassen演算法提出以來,56年內的突破!另外,它還推進了六邊形填充問題的研究,找到了在更大六邊形內排列11個和12個六邊形的更優解法,超越了人類的解決方案(在停滯16年之後)!甚至,它一舉改進了困擾數學家300多年的「接吻數問題」。而這一切,都是靠AI自我進化、訓練自己所使用的LLM而得到的。透過自我對弈,它擁有了超人的編碼能力,甚至讓人預言—十年內,程式設計將迎來自己的AlphaGo時刻。而且,跟AlphaGo的「第37步」不同,AlphaEvolve展現出AI自主優化演算法的能力,或將徹底改變晶片設計與資料中心效率。GoogleCEO Pichai,對「AI訓練AI」進行了生動的解釋:由Gemini驅動的編碼agent,優化了Gemini的訓練,形成了一個資料飛輪跟以往成果不同的是,GoogleDeepMind這次直接弄出一個通用武器。從此,AI不僅能解決問題,還能發現新的前沿領域。這代表著,人類集體智慧發生了一次真正的飛躍!接下來的劇本,或許就是AI橫掃各大科學難題,直接顛覆人類科學研究。GoogleDeepMind引領全人類未來GoogleDeepMind,一直在AI改造世界這個方向引領著前線。可以說,在將近30年裡,他們都在指引人類文明的方向。AlphaGo透過學習人類對弈,甚至自我對弈,擊敗了人類冠軍李世石。AlphaZero通過自我對弈,學會圍棋、國際象棋和日本將棋,被稱為一種人類從未見過的智慧。AlphaFold預測了數百萬種從未經過實驗測量的蛋白質三維結構。AlphaDev則發現了更快的排序演算法。AlphaTensor用於進行科學發現,將尋找更快矩陣乘法演算法的問題建構成一個遊戲,並實現了重大突破。FunSearch則將我們帶到更遠,透過程式碼演化,利用LLM尋找新的數學解決方案。GoogleDeepMind的下一個Alpha,更是令人無比期待。OpenAI研究員Jason Wei就表示,AlphaEvolve對於像我這樣的強化學習鐵桿粉絲來說,確實令人不安所以,這次打造出AlphaEvolve的團隊,究竟有那些人物,經歷了那些探索?就在最近,Youtube上的人氣大V「Machine Learning Street Talk”,就提前獲取了GoogleDeepMind的這篇論文,並採訪了這項工作的研究者。半個世紀矩陣乘法突破,研究者當場驚呆在電腦科學領域,幾乎沒有問題能像矩陣乘法一樣基礎。半個多世紀以來,此領域的一個特定基準,一直被認為難以突破。因為最優演算法的搜尋空間極為龐大,使得窮舉在實務上幾乎不可能,即使對相對較小的矩陣也是如此。1969年,Strassen透過發現一種演算法,徹底改變了這個領域。此演算法僅需七次標量乘法,即可乘以兩個二乘二矩陣。而就在今天,這紀錄被Alpha Evolve打破了!而它能做到一點,連GoogleDeepMind的研究者都沒想到。對於通常情況下的矩陣,仍然沒有比使用四十九次乘法進行兩次Strassen更好的辦法。開始,研究者也壓根沒有期待,它能找到比四十九次更好的結果,因為他們已經用AlphaTensor嘗試了很長時間了。所以,他們只是出於完整性試了一下,因為想在論文中展示這個表格而已。結果,出乎所有人意料,一個更快的演算法,居然被它發現了!這次,演算法使用了48次,而不是49次乘法,徹底打破紀錄。當看到一位同事發消息通知這一結果時,研究者表示自己簡直不敢相信。反複檢查三次後,他們終於確認——AI不斷增強的能力,可以產生全新的、可證明精準的演算法,從而推動科學的邊界!跟第一個版本有何差別?根據論文,AlphaEvolve是一種進化編程智能體,顯著提升了預訓練LLM在復雜任務上的能力。要知道,先前團隊曾有第一篇論文,講的是FunSearch,原理與之非常相似。所以,二者的區別在那裡呢?研究者介紹說,FunSearch只是在搜尋一個單一的函數,但AlphaEvolve,本質上可以作用於整個程式碼庫。它會在程式碼庫中你標記的區域中進行搜尋,甚至優化這些函數之間的互動。Google昂貴的服務器,不用閒置了所以,AlphaEvolve有沒有可能進化出一個方法,來優化Google的計算基礎設施呢?出於嘗試,Google工程師將一個候選方案放進這個AI,令人驚喜的是,它果然進化出了一個更聰明的啟髮式方法!現在,這個方法已經被運用於優化Google內部的計算基礎設施了。要知道,在Google龐大的資料中心,高效率安排計算任務是一項非常複雜的操作。如果操作不當,昂貴的伺服器就會閒置。而現在結果正式,這個全新方法利用了Google服務器群計算資源的0.7%,對於Google來說,這是一項巨大的節省。盜夢空間成真?甚至,在另一個自我改進的實例中,它甚至找到了加速Gemini模型訓練的方法,這,就為AlphaEvolve本身提供了動力。這個實例之所以如此有趣,是因為它不僅產生瞭解決方案,還產生了產生這些方案的程式。也就是說,Alpha Evolve就像《盜夢空間》一樣。甚至研究者表示,在檢查程式碼時,他不僅想到,這看起來完全就是一種數學洞察,或者一種數學假設!事實也證明了,它們確實對改進結果的非常關鍵。而Alpha Evolve另外一個有趣的點,就是它仍然非常依賴「人類參與其中」。過程中,人類負責識別那些內容是有趣的,找到那些有明確評估標準的問題,將候選解決方案納入循環中。然後,Alpha Evolve就會遍歷這個可能性的錐體,在過程中不斷跳躍,將這個循環繼續下去。所以,Alpha Evolve也預示了一種AI的未來──人類和AI之間,有著強大的協作循環。曾經有一個「死掉的互聯網」的理論,指的是在未來,網上大部分內容都將由AI生成,而且非常表面化、非常膚淺。而此時,就需要人類來指導AI、改進結果,進行迭代。而讓Alpha Evolve如此酷炫且強大的,也正是人與機器之間的這種互動。AlphaEvolve,為何如此適合科學發現在訪談中,主持人向研究者提問:究竟是什麼促使你們走上了進化演算法的道路呢?研究者回答說,這就跟科學發現的過程一樣,是非常自然的選擇。進化演算法能為探索過程帶來多樣性,確保你不會在早期就鎖定在某種特定方法上,因為這種方法有可能是次優解。最終,我們仍然需要不斷探索所有的可能性,尤其是在想要做出新的科學發現時。言簡意賅地說,AlphaEvolve就是一個進化演算法,對於系統給出程式碼片段,我們都可以自動測試它好不好,有多好。一方面,它可以把你限制在你可以解決的問題集上,另一方面,它涵蓋的問題範圍又非常廣泛。LLM會為你提出各種想法,透過這個評估器,我們就可以篩選出真正重要的、能做出改變的想法。最有潛力的代碼,將被識別出來,然後專注於改進這些部分。接下來,採訪者就提出了一個重要的問題:我們什麼時候才知道,這個過程要結束?例如,可能我們覺得該終止了,但如果再多等五分鐘,就會得到一個近乎完美的演算法。研究者解答了他的疑惑。從理論上講,的確永遠無法確定如何讓演算法運作更久,以及會得到什麼結果。但在實踐中,這並未造成任何問題。例如可以這樣設定問題:我正在嘗試解決這個數學中的開放性問題,尋找能取得進展的搜尋演算法,但我希望10分鐘內就能取得進展。也就是說,其實我們只探索了能在10分鐘內做出進展的演算法空間。當然的確存在這種可能性:如果運行更長時間,說不定還會有表現更好的演算法。這個可能性永遠無法消除。那一刻,AI發生了想像力驚人的跳躍主持人問道:你可以舉出一些系統做出真正有想像力的跳躍的例子嗎?研究者表示,一個具體的例子,A​​lphaEvolve如何發現矩陣乘法演算法的。實際上,他們只是讓它設計了一個基於梯度的搜尋演算法,也也就是一個能找出來的演算法的演算法,或是元演算法。第一個搜尋演算法,是從一個非常簡單的程式碼框架開始的。研究者並未給它任何東西,只告訴它「用梯度」,然後,它就寫出了這些複雜的損失函數和更新函數,而且以完全出人意料的方式引入了隨機性。就在那一刻,研究者驚呼:太厲害了!當然,這種程式碼也有可能是人類寫的,但他們真的會想到要寫出這段特定程式碼嗎?那一刻,他彷彿頓悟了──AlphaEvolve所做的,是一些類似人類的事情,但又顯然不是人類會嘗試的東西。人類具體是怎樣指導AI的呢?研究者提及了一個實驗,在這個實驗中,他們請幾個人花了30分鍾思考這個問題,記下筆記,然後指導系統完成整個過程。可以理解為,AI榨出了這個想法的全部精華,瞭解它的本質,於是引導LLM得出了這樣的目標,同時做了很多優化。聽起來,這就是智慧的本質──嘗試很多事情,總有一件會成功。最震撼之處:改變世界,就在當下研究者表示,在以往,通常我們很難開發出某種科學研究工具,直接、立刻應用到現實世界的挑戰,並產生巨大影響。而AlphaEvolve的意義就在於,在開箱時就能同時在數學和科學問題上做出新發現,甚至還能發現可以直接部署到Google核心計算架構中的演算法。這,是他們以前從未經歷過的事。AI奇點,或許已經到來了。 (新智元)
GoogleDeepMind發佈AlphaEvolve:AI界的“演算法設計進化大師”誕生
GoogleDeepMind剛剛又往前拱了一大步,宣佈推出 AlphaEvolve智能體 ,目標直指更上游,用於通用演算法的設計發現和最佳化簡單說,AlphaEvolve就像個AI界的“演算法育種大師”。它把自家Gemini大模型(Gemini Flash負責廣撒網,洞察力強的Gemini Pro負責深挖)和一套“自動化考官”(負責驗證演算法靠不靠譜、效率高不高)結合起來,再套上一個“進化論”的框架,讓好演算法能一代更比一代強AlphaEvolve工作流程:工程師設定框架,AI通過“提示採樣器”給LLM喂招,LLM出新招(程序),“考官”打分,好招進“兵器譜”,並用來啟發下一輪出招。去年DeepMind就秀過肌肉,證明LLM能生成程式碼函數來搞定科學問題。但AlphaEvolve的野心是進化一整個程式碼體系,去啃那些更複雜的演算法硬骨頭。AlphaEvolve已經在Google內部“上崗”了AlphaEvolve已經在Google的多個核心業務裡默默發光發熱了:1.改善資料中心調度:AlphaEvolve給Google龐大的資料中心Borg系統發現了一種簡單卻極其有效的啟髮式方法。這套方案上線一年多,平均給Google全球計算資源摳回了0.7%的算力2.設計晶片 (TPU Circuit Design):在Google的AI晶片TPU設計中,AlphaEvolve直接上手改起了Verilog(晶片設計語言)。它最佳化了一個矩陣乘法關鍵電路,去掉了冗餘。改動通過了嚴格的“體檢”,確認功能沒問題,已經被用在了下一代TPU裡3.給AI訓練和推理再提提速:AlphaEvolve找到了更巧妙的方法來拆解大矩陣乘法,讓Gemini架構裡的這個核心“零部件”快了23%,最終給Gemini模型的訓練省了1%的時間。對大模型訓練這種“吞金獸”來說,1%也是肉。工程師們也從幾周的苦哈哈最佳化,變成了幾天的自動化實驗,能更快搞創新了它甚至還能最佳化底層的GPU指令。對於Transformer模型裡常用的FlashAttention,AlphaEvolve給整出了最高32.5%的加速。這塊通常是編譯器啃的硬骨頭,人一般不輕易動不止搞工程,數學前沿它也敢闖AlphaEvolve的目標不只是最佳化現有系統,它還想在更基礎的數學和演算法發現上取得突破:矩陣乘法新演算法:給定一個基礎程式碼框架,AlphaEvolve設計出了一種新穎的基於梯度的最佳化過程,發現了多個矩陣乘法新演算法。例如,它找到了一個用48次標量乘法計算4x4複數矩陣乘積的演算法,優於自1969年以來已知的Strassen演算法。這比DeepMind之前的AlphaTensor(專攻矩陣乘法,但對4x4矩陣只在二元算術上找到改進)又進了一步攻克公開數學難題:DeepMind用AlphaEvolve嘗試了超過50個來自數學分析、幾何、組合學和數論的公開問題,在約 75% 的案例中,它重新發現了當前已知的最優解。在約20%的案例中,它改進了已知的最優解!例如,在困擾了數學家300多年的“接吻數問題”(Kissing Number Problem,即一個中心球最多能同時接觸多少個不重疊的等大球體)上,AlphaEvolve在11維空間中發現了一個包含593個外層球的構型,刷新了該維度下的已知下界對數學成果感興趣的,DeepMind也放了些結果在Google Colab上,地址:https://colab.research.google.com/github/google-deepmind/alphaevolve_results/blob/master/mathematical_results.ipynb寫在最後大語言模型的編碼能力還在進化,AlphaEvolve也會跟著變強。Google目前推出了早期試用計畫,先給學術圈的朋友們嘗嘗鮮,想嘗鮮的可以去DeepMind官網填個表https://docs.google.com/forms/d/e/1FAIpQLSfaLUgKtUOJWdQtyLNAYb3KAkABAlKDmZoIqPbHtwmy3YXlCg/viewform (AI寒武紀)
Google推出AlphaEvolve實現演算法自我進化,將顛覆數學與電腦科學!
演算法自我進化革命已經悄然開始!Google DeepMind剛剛發佈了AlphaEvolve系統,這是一個革命性的Gemini驅動編碼代理,不僅能設計演算法,而且能通過進化框架持續最佳化這些演算法!它已經發現了更快的矩陣乘法演算法,解決了開放性數學問題,並最佳化了Google的資料中心、晶片設計和AI訓練。這不是簡單普通的AI工具發佈,而是演算法發現範式的根本轉變!AlphaEvolve的技術架構:三大核心能力從技術角度解析,AlphaEvolve的突破性在於它獨特的系統架構,結合了三大關鍵元件的協同工作:大語言模型整合:AlphaEvolve利用最先進的Gemini模型組合,包括高效的Gemini Flash用於最大化探索的廣度,以及強大的Gemini Pro提供深度洞察。這些模型負責綜合分析問題資訊、歷史解決方案,並用電腦程式碼形式提出演算法實現。自動化評估系統:AlphaEvolve實現了一套客觀量化的評估指標,能夠自動驗證、運行並評分每個提出的程序。這種方法在所有能夠明確衡量進步的領域(如數學和電腦科學)中表現出色。評估系統為進化過程提供了精確的適應度函數。進化演算法框架:系統實現了一個適應性進化框架,它不僅迭代改進現有最佳演算法,還通過重組不同解決方案中的思路找到更優解。這種進化策略能夠跨越局部最優解,在更大的解空間中搜尋。BensenHsu對論文進行了詳細解讀,指出了AlphaEvolve的關鍵創新:論文介紹了AlphaEvolve,一個使用最先進大語言模型的編碼代理,通過進化過程迭代改進演算法。AlphaEvolve旨在解決科學和計算領域的挑戰性問題。它發現了新穎、可證明正確的演算法,在數學和電腦科學中的一系列問題上超越了現有最先進的解決方案,如找到更快的矩陣乘法演算法並改進各種數學不等式的界限。最佳化Google計算基礎架構的具體實踐過去一年,AlphaEvolve發現的演算法已經部署在Google的整個計算生態系統中,形成了一個多層次的最佳化體系:資料中心調度演算法革新AlphaEvolve在Borg資料中心編排系統中實現了突破性最佳化。它設計了一種新型啟髮式演算法,在全域資源分配決策中引入了動態權重調整機制。這個生產環境中運行超過一年的解決方案,持續回收了Google全球計算資源的平均0.7%。技術上的關鍵在於,AlphaEvolve生成的程式碼不僅性能卓越,還具有可解釋性、可偵錯性和可預測性,這在超大規模分佈式系統中至關重要。與黑盒最佳化方法不同,它生成的解決方案能夠被工程師理解並進一步改進。晶片設計中的電路最佳化在硬體層面,AlphaEvolve提出了矩陣乘法關鍵電路的Verilog程式碼重寫方案。它識別並移除了精心最佳化的算術電路中的冗餘位,同時保證了電路功能的正確性。這種修改已經整合到Google即將推出的 Tensor Processing Unit(TPU) 晶片中。這一應用的技術創新在於,AlphaEvolve能夠使用硬體描述語言(HDL)提出修改,促進了AI系統與硬體工程師之間的協作。每一個建議都必須通過嚴格的驗證方法,以確保修改後的電路維持功能正確性。AI訓練和推理的多層次加速在軟體和演算法層面,AlphaEvolve實現了AI性能和研究速度的雙重提升:矩陣乘法子問題分解最佳化:通過發現更智能的方法將大型矩陣乘法操作分解為可管理的子問題,AlphaEvolve將Gemini架構中的關鍵核心加速了23%,導致Gemini訓練時間減少了1%。考慮到生成式AI模型的計算資源需求,這種最佳化轉化為顯著的資源節約。GPU指令級最佳化:AlphaEvolve還最佳化了底層GPU指令,這是一個通常由編譯器處理而不被工程師直接修改的複雜領域。它在基於Transformer的AI模型中為FlashAttention核心實現了高達32.5%的速度提升。核心最佳化工程時間降低:從工程效率角度看,AlphaEvolve將核心最佳化所需的時間從專家數周的努力縮短到了幾天的自動化實驗,顯著加速了研究創新速度。AI Wave(@aiwaveco)對這一技術突破進行了深刻評價:我們從「提示詞+程式碼」發展到了「開放問題+演算法+最佳化」。AlphaEvolve玩的是完全不同的遊戲。數學和演算法設計的演算法定理機AlphaEvolve在純數學和演算法設計領域的成就同樣驚人,它正在成為一個"演算法定理機",能夠自動發現和證明演算法性質。矩陣乘法演算法的突破性創新AlphaEvolve在矩陣乘法這一電腦科學基礎問題上取得了顯著進展。它設計了一種全新的基於梯度的最佳化過程,能夠發現多種新型矩陣乘法演算法。具體而言:技術上,AlphaEvolve提出了一個小型程式碼框架,然後自主設計了新型梯度最佳化過程的多個元件它找到了使用48個標量乘法計算4×4復值矩陣的演算法,超越了Strassen在1969年提出的演算法(此前被認為是該設定下的最佳演算法)相比之前的AlphaTensor模型,AlphaEvolve採用了更泛化、更高效的方法,在4×4矩陣上實現了超越,而AlphaTensor僅在二進制算術上取得了改進在演算法進化過程中,AlphaEvolve進行了15次變異,跨越了最佳化器、權重初始化、損失函數和超參數掃描等多個元件,顯示出其驚人的演算法設計能力。開放性數學問題的系統化攻克DeepMind團隊將AlphaEvolve應用於超過50個分析、幾何、組合學和數論領域的開放性問題,實驗設定僅花費數小時就完成,充分展示了系統的靈活性。研究成果展示了AlphaEvolve的演算法能力:在約75%的情況下,它獨立重新發現了當前已知的最先進解決方案在20%的情況下,它改進了此前最佳已知解決方案,在相應的開放問題上取得了進展尤為突出的是AlphaEvolve在「親吻數問題」(kissing number problem)上的成就。這個已經困擾數學家300多年的幾何挑戰,研究的是與公共單位球體相切的非重疊球體的最大數量。AlphaEvolve發現了593個外部球體的構型,並在11維空間中建立了新的下界,這是一個重要的數學突破。AI Notkilleveryoneism Memes(@AISafetyMemes)分享了一張表達對AlphaEvolve數學能力複雜感受的圖片:演算法進化的未來:跨領域應用前景從技術角度看,AlphaEvolve展示了演算法發現領域從特定領域解決方案向通用複雜演算法開發的飛躍。其核心技術優勢在於其架構的普適性——只要問題的解決方案能夠被描述為演算法並通過自動化方式驗證,AlphaEvolve就有可能應用。技術架構的未來發展路徑隨著大語言模型能力的不斷提升,特別是編碼能力的增強,AlphaEvolve的進化框架預計會得到相應的提升。研究團隊特別指出,隨著Gemini模型在編碼方面能力的增強,AlphaEvolve的演算法發現能力將同步提升。從軟體工程角度,DeepMind團隊與People + AI Research團隊已經建構了互動介面,使研究人員能夠更直觀地與AlphaEvolve互動。他們計畫推出早期訪問計畫,並探索更廣泛部署的可能性。跨領域應用前景AlphaEvolve的演算法進化方法預計將在多個科學與技術領域產生深遠影響:材料科學:自動設計和最佳化材料配方演算法,加速新型材料的發現過程。藥物發現:最佳化分子對接演算法,加速候選藥物的篩選和評估過程。可持續發展:設計更高效的資源分配演算法,最佳化能源使用和減少碳排放。技術與商業應用:針對特定業務流程自動設計最佳化演算法,提高營運效率。Uncertain Systems(@uncertainsys)提出了一個重要的商業應用問題:它能發現新的SaaS嗎?這一問題暗示了AlphaEvolve可能對軟體服務創新產生的影響,演算法進化可能催生全新類型的軟體服務。jzv(@jzvtrades)則提出了更深層次的技術問題:但它能發明模型突破嗎?這反映了研究界對AI系統能否實現元級創新的思考——能否設計出全新的AI架構和模型,而不僅僅是最佳化現有演算法。演算法進化已經從理論走向實踐,我們正在見證電腦科學和數學研究模式的變革,這預示著人類與AI系統在科學發現領域的新型協作關係。 (AGI Hunt)
破解300年數學難題,智能體大突破!Google發佈超強AI Agent
今天凌晨,GoogleDeepmind在官網發佈了,用於設計高級演算法的程式設計AI Agent——AlphaEvolve。AlphaEvolve與Google的大模型Gemini實現深度整合,用於自動評估通用演算法的發現與最佳化,可以幫助開發人員快速設計出最好、高效的矩陣演算法。簡單來說,大模型擅長生成各種想法和演算法,但是沒人知道這些到底行不行,而AlphaEvolve相當於“質檢員”,能夠按照特定標準來衡量這些想法是否可行。AlphaEvolve超強能力Google在展示AlphaEvolve的能力時,就特意找了一道300多年的數學難題——親吻數問題。這道題的歷史最早可以追溯到1694年,牛頓還和別人辯論、研究過。其難點在於給定維度的空間中,最多可以有多少個相同大小的球體同時接觸一個中心球體,這些球體之間不發生重疊。而AlphaEvolve發現了由593個外層球體組成的結構型,並在11維空間中建立了新的下界,超越之前數學家們創造的記錄。AlphaEvolve還能為複雜的數學問題提出新的解決方法。基於極簡程式碼框架,AlphaEvolve設計了一種基於梯度的新型最佳化程序的諸多元件,並行現了多種用於矩陣乘法的新演算法。AlphaEvolve找到了一種用於4x4復值矩陣乘法的演算法,該演算法僅需48次標量乘法,改進了Strassen在1969年提出的演算法,後者此前被認為是該場景下的最佳演算法。這一發現表明,與Google之前專注於矩陣乘法演算法的研究成果AlphaTensor相比,取得了重大進展。此外,Google使用AlphaEvolve來增強大模型的訓練和推理。AlphaEvolve將大規模矩陣乘法運算拆解為更易於處理的子問題,使Gemini模型架構中的核心計算效率提升了23%,整體訓練時間縮短了1%,節省大量成本。AlphaEvolve還能對GPU底層指令進行最佳化。這是一個極其複雜的領域,通常編譯器已對其進行了深度最佳化,所以,人類工程師一般不會直接對其進行修改。AlphaEvolve實現了基於Transformer的人工智慧模型中FlashAttention核心計算最高達32.5%的加速。這類最佳化有助於專家精準定位性能瓶頸,並能輕鬆地將最佳化成果整合到程式碼庫中,極大提高了工作效率。AlphaEvolve架構簡單介紹任務定義與評估模組是AlphaEvolve的核心之一,主要負責明確使用者的需求,包括評估標準、初始解決方案以及背景知識。通過一個自動化的評估機制來衡量生成的解決方案的質量,這一機制以函數的形式存在,將解決方案對應到一組標量評估指標上。這些指標通常是最大化的目標,例如,在數學問題中,如果目標是找到滿足特定屬性的最大可能圖,評估函數將呼叫進化程式碼生成圖,檢查屬性是否成立,然後返回圖的大小作為得分。大模型整合與提示採樣模組負責建構上下文提示,這些提示包括明確的上下文資訊,例如,問題的詳細描述、方程式、程式碼片段或相關文獻;隨機格式化,通過機率分佈提供人類編寫的替代方案以增加多樣性;渲染的評估結果,包括程序、執行結果以及評估函數分配的分數;以及元提示進化,由大模型本身在額外的提示生成步驟中建議的指令和上下文,這些內容與解決方案程序在單獨的資料庫中共同進化,為大模型提供了豐富的資訊,使其能夠生成更準確和有效的程式碼修改建議。創造性生成與程式碼修改是AlphaEvolve另外一個核心模組,主要利用大模型的能力來生成程式碼修改建議。這些大模型能夠處理豐富的上下文資訊,並根據過去的嘗試和想法提出新的改進方案。當AlphaEvolve要求大模型修改現有程式碼時,它會請求以特定格式的差異塊提供更改,這種格式允許對程式碼的特定部分進行針對性的更新。在某些情況下,如果程式碼非常短,或者需要完全重寫,AlphaEvolve可以配置為直接輸出整個程式碼塊,而不是使用差異格式。評估與反饋模組負責跟蹤AlphaEvolve的進展,並選擇在後續代中傳播那些想法。每個由大模型提出的新解決方案都會被自動評估,這一過程本質上是簡單地在生成的解決方案上執行使用者提供的評估函數。AlphaEvolve支援一些可選機制,使評估更加靈活和高效,例如,評估級聯,使用者可以指定一系列難度遞增的測試用例,只有在所有早期階段都取得足夠有希望的結果時,新解決方案才會進入下一個階段;大模型生成的反饋,用於評估那些難以在使用者提供的評估函數ℎ中精確捕捉的解決方案特性;以及平行化評估,通過非同步呼叫評估叢集來分配這項工作,從而提高評估效率。進化與資料庫管理負責儲存和管理在進化過程中生成的解決方案。這些解決方案儲存在一個進化資料庫中,其主要目標是在後續代中最佳地重新出現先前探索的想法。設計這種資料庫的一個關鍵挑戰是平衡探索和利用,以持續改進最佳程序,同時保持多樣性以鼓勵整個搜尋空間的探索。AlphaEvolve的進化資料庫實現了一種演算法,該演算法受到MAP精英演算法和基於島嶼的種群模型的啟發。分散式運算管道模組使AlphaEvolve能夠作為一個非同步計算管道運行。每個計算在等待另一個尚未完成的計算結果時都會阻塞。整個管道針對吞吐量進行了最佳化,而不是任何特定計算的速度,以最大化在特定總體計算預算內可以提出和評估的想法數量。目前,有興趣的小夥伴可以去GoogleDeepmind官網申請使用AlphaEvolve,尤其是對於科研、數學、設計領域的小夥伴幫助很大。 (AIGC開放社區)