DeepMind讓大模型自己寫出多智能體學習新演算法！不靠人類直覺，程式碼級進化直接干翻SOTA

2026/02/27

•

GoogleDeepMind剛剛投下一枚研究炸彈

在不完全資訊博弈領域，多智能體強化學習（MARL）的進步，長期以來都高度依賴人類專家手動去煉丹

但現在，這個極度依賴人類直覺的瓶頸被打破了。

GoogleDeepMind團隊利用AlphaEvolve(基於 Gemini 的編碼代理，用於設計高級演算法)，無需手動調整,無需反覆試驗,無需人類直覺，硬生生從原始碼層面進化出了全新的學習演算法，一舉擊敗了現有的最優基線演算法。

AlphaEvolve 將演算法原始碼視為基因組：
→ LLM 充當變異引擎
→ 提出語義上有意義的程式碼變更
→ 在真實遊戲基準測試中自動評估適配度
→ 保留優勝者，進一步進化

在11項遊戲測試中，VAD-CFR演算法有10項超越當前所有頂尖基準模型。

SHOR-PSRO求解器完勝納什均衡、AlphaRank及PRD等傳統解法

paper：
https://arxiv.org/pdf/2602.16928

以下是論文中的一些值得探討的點:

讓大模型當"基因操作員”

傳統的機器學習自動化發現，要麼侷限於超參數最佳化，要麼採用隨機語法的遺傳程式設計。而DeepMind這次使用的方法更加硬核——把演算法的Python原始碼本身當作“基因組”。

整個框架由Gemini大模型作為底層支撐，運行流程非常直接：

首先初始化一個種群，裡面裝滿標準基線演算法的原始碼（比如標準CFR程式碼或均勻PSRO程式碼）。

接著，系統根據適應度選出父代演算法，直接把程式碼喂給大模型，要求它修改程式碼以降低“可剝削性”（Exploitability，衡量策略漏洞的指標）。

大模型像一個聰明的基因操作員，對程式碼進行語義等級的變異，重寫邏輯、引入新的控制流或注入新的符號操作，生成候選變體。

最後，系統在代理遊戲（如庫恩撲克）中自動評估這些新程式碼，表現好的加入種群，循環往復。

通過這種方式，大模型跳出了簡單的參數微調，直接在程式碼邏輯層面發現了人類很難想到的全新機制。團隊將這一框架應用在了兩大主流不完全資訊博弈求解範式上，並取得了驚豔的成果。

突破一：發現VAD-CFR演算法，干翻預測CFR+

在迭代遺憾最小化領域，團隊開放了累積遺憾和推導當前策略的核心程式碼邏輯讓大模型去進化。

作為種群種子的CFR+演算法，經過多代繁衍，最終進化出了一個名為VAD-CFR（波動自適應折扣CFR）的新變體。

在面對Discounted CFR、預測CFR+（PCFR+）乃至最新的DPCFR+等一眾頂級基線時，VAD-CFR展現出了極強的統治力，特別是在3人庫恩撲克、3人萊杜克撲克和5張牌的各種遊戲中，其收斂速度和極低的可剝削性遠超對手。

大模型到底在程式碼裡寫了什麼神奇邏輯？研究人員分析VAD-CFR的原始碼後，發現了三個極具反直覺的創新機制：

波動自適應折扣： 傳統演算法（如DCFR）對歷史遺憾值採用的是固定折扣因子。而VAD-CFR是動態反應的，它會通過指數加權移動平均線即時追蹤瞬時遺憾的“波動率”。當策略處於劇烈動盪期（波動率高）時，演算法會自動加大折扣力度，快速遺忘不穩定的歷史；當學習趨於穩定時，則保留更多歷史進行微調。

非對稱瞬時提升： 以前的演算法通常對累積歷史做非對稱處理，而VAD-CFR直接對當前的瞬時更新下手。如果某個動作當前表現很好（瞬時遺憾為正），演算法會直接給它乘上1.1的提升因子，實現對有利偏差的即時利用，完全消除了累積帶來的滯後感。

硬熱啟動與遺憾幅度加權： 傳統CFR從第一輪就開始平均策略，而VAD-CFR極其果斷地實施了“硬熱啟動”，在第500輪之前絕對不進行策略平均，只在底層默默更新遺憾。一旦開始平均，它不按線性時間加權，而是按瞬時遺憾的幅度加權。這個機制像一個高級過濾器，徹底阻斷了早期學習噪聲對最終均衡解的污染。

突破二：發現SHOR-PSRO，破解種群訓練難題

在針對大型博弈的PSRO演算法領域，痛點在於如何平衡探索（擴大遊戲圖）和利用（微調均衡）。標準PSRO通常使用固定的元求解器（比如一直用Nash或一直用Uniform），很難適應訓練中不斷變化的經驗遊戲拓撲結構。

大模型針對PSRO的訓練時和評估時元求解器程式碼進行了進化，最終誕生了SHOR-PSRO（平滑混合樂觀遺憾PSRO）。

在極其複雜的6面騙子骰子等多智能體動態環境中，面對PRD、AlphaRank等主流元求解器，SHOR-PSRO展現出了卓越的經驗收斂性和極強的演算法魯棒性。

拆解SHOR-PSRO的程式碼，核心亮點在於它實現了一個完美的動態時間表：

混合融合機制： 在每次求解器內部迭代時，它會將兩種策略線性混合：一部分是保證穩定性的樂觀遺憾匹配（ORM），另一部分是極具侵略性、傾向於高回報模式的平滑最佳純策略（受溫度參數控制的玻爾茲曼分佈）。

動態退火時間表： 混合比例不是固定的。在PSRO的迭代過程中，大模型寫出的程式碼會自動讓混合因子從0.3退火到0.05，自動實現了從早期貪婪利用到後期嚴格尋找均衡的平滑過渡。同時，對收益附加的“多樣性獎勵”也會隨時間衰減，確保早期擴充博弈圖，後期精細化收斂。

訓練與評估的非對稱性： 大模型極其聰明地為訓練和評估設計了不同的配置。訓練求解器使用動態退火並返回內部迭代的平均策略以確保穩定；而評估求解器則採用固定的極低混合因子，並返回最後一次迭代的策略。這種解耦讓演算法在訓練時安全探索，在評估時又能提供低噪聲、高反應速度的結果。

DeepMind的這項研究證明，自動化發現的演算法非對稱性和動態混合時間表，能夠產生人類直覺難以捕捉但極其高效的求解器。未來，博弈論求解器的設計，或許將全面走向人類智慧與AI自動化洞察相融合的新時代 (AI寒武紀)