陶哲軒力推AlphaEvolve：解決67個不同數學問題，多個難題中超越人類最優解

2025/11/07

•

陶哲軒又來安利AlphaEvolve了。

在與DeepMind高級工程師Bogdan Georgiev等人合著的新論文中，陶哲軒稱其為數學發現的有力新工具。

具體來說，他們用AlphaEvolve研究了67個數學問題，涵蓋組合數學、幾何、數學分析與數論等多個領域。

結果發現，AlphaEvolve在可擴展性、魯棒性、可解釋性方面均優於傳統工具。

更關鍵的是，AlphaEvolve已經可以自主發現新穎的數學構造，並在部分問題上超越人類已有的最優結果。

AlphaEvolve在67個問題的測試中，不僅復現了眾多已知最優解，更在多個方面展現了其獨特的發現能力。

一個關鍵的成就是AlphaEvolve能夠自主發現人類未曾一窺的新數學構造。

例如在處理Nikodym集問題時，系統生成的初步構造雖然尚未達到最優，但它為人類研究者提供了“一個極好的人類直覺跳板” 。

基於AI提供的結構，研究人員通過人工簡化和直覺推演，最終找到了一個更優的構造，改進了已知的上界，這一人機協作的成果將作為一篇獨立的數學論文發表。

同樣地，在算術Kakeya猜想中，AlphaEvolve也發揮了類似作用。

系統不僅將一個已知的下界從1.61226提升至1.668，其構造的解（形態上類似於離散高斯分佈）還啟發人類數學家建立了新的漸近關係，相關成果也即將發表。

這種啟發人類研究的能力，與AlphaEvolve輸出結果的可解釋性緊密相關。

系統在大多數情況下生成的是結構清晰的程式碼，而非難以理解的黑盒結果，這使得人類專家可以方便地分析、歸納其發現的模式，並提煉出通用的數學公式。

積木堆疊問題便是這一特性的絕佳體現。

在該問題中，系統最初生成了一個邏輯正確的遞迴程序來計算積木的放置。在隨後的演化中，系統內部的LLM分析了這段程式碼的邏輯，並自主將其重構為一個更簡潔、高效的顯式程序。

這個最終程序清晰地揭示了最優解與諧波數（harmonic numbers）之間的數學關係，這與人類已知的理論公式完全一致，展示了系統從複雜解法中提煉數學本質的能力。

除了方案的清晰性，AlphaEvolve在不同類型的問題設定下也表現出了強大的魯棒性。

它能夠有效處理高維度參數空間、複雜的幾何約束以及基於蒙特卡洛模擬的近似評分函數。

比如這裡有一個最小三角形密度問題。

研究人員最初設計了一個樸素的評分函數，但系統很快利用了該問題空間的非凸性，通過“欺騙”評分函數獲得了超越理論最優的不可能分數。

為瞭解決這個問題，研究人員設計了一個更魯棒的新評分函數，該函數基於問題的利普希茨連續性（Lipschitz type bounds）構造。

在切換到這個更複雜的連續評分函數後，AlphaEvolve不再受局部陷阱的迷惑，迅速收斂到了已知的、正確的理論最優解。

並且AlphaEvolve具備了出色的泛化能力，來看IMO 2025的第6題。

研究人員只在輸入n為完全平方數時才對系統進行評分。這種“資訊限制”反而迫使AlphaEvolve去尋找這些稀疏實例背後的共同結構模式，而不是對每個n進行“過擬合”。

最終，系統成功發現並輸出了在所有完全平方數n上均達到最優的通用構造，展現出了歸納能力。

在實際應用中，AlphaEvolve的效率極高，僅需少量高品質提示即可驅動。論文指出，來自領域專家的提示（expert guidance）往往能顯著提升最終構造的質量，表明系統對人類輸入具有高度的敏感性。

同時，該系統在架構上支援平行化，允許研究人員在多個問題實例或同一問題的不同參數設定上同時運行探索，並能自動遷移成功的搜尋策略，這在處理多參數的幾何類問題時尤其高效。

AlphaEvolve並非一個單一流程的系統，而是通過不同“工作模式”適應不同類型的數學問題探索任務。

該系統主要在兩種不同的模式下運行——“搜尋模式”（search mode）和“泛化模式”（generalizer mode）。

“搜尋模式”是系統最常用的模式，其目標是高效地發現最優的數學構造，而不必關心構造過程是否具有可解釋性或普適性。在這種模式下，AlphaEvolve演化的不是直接生成構造的程序，而是演化用於搜尋構造的程序。

每一個被演化的程序本身就是一個“搜尋啟髮式演算法”（search heuristic）。

評估器會給予這些啟髮式演算法一個固定的時間預算，演算法的得分取決於它在此預算內能找到的最佳構造的質量。

這種方式解決了LLM呼叫（緩慢且昂貴）與傳統局部搜尋（快速且廉價）之間的速度差異——一次緩慢的LLM呼叫用於生成一個高效的搜尋策略，該策略隨後可以觸發大規模的廉價計算，自主探索數百萬個候選構造。

系統演化的是一系列“改進器”（improver）函數，它們動態地適應搜尋處理程序，早期可能偏好進行廣泛探索的啟髮式演算法，而當接近最優解時，則會演化出更精細的、針對特定問題進行最佳化的演算法。

“泛化模式”則更具挑戰性。

其目標是讓AlphaEvolve編寫一個能夠解決任意給定參數n的問題的通用程序。系統的評估方式是考察該程序在一系列不同n值上的綜合表現。

這種模式的期望是，通過讓系統觀察自己在小規模n上找到的最優解，它能夠自主“發現模式”，並將其歸納推廣為一個適用於所有n的通用公式或演算法。

總之，AlphaEvolve展示了AI引導的演化搜尋如何補充人類的直覺，為數學研究提供了一個強大的新範式。 (量子位)