四大頂級AI對決《文明VI》！Claude「核平」法國，結果還是輸了

2026/06/28

•

【新智元導讀】四大頂級大模型被丟進《文明6》，反手就花50回合造核彈把法國夷為平地，最後卻連怎麼輸的都不知道。

太魔幻了！

就在最近，英國前首相府資料科學家Liam Wilkinson，花一個周末搭了76個MCP工具，把Claude、GPT、Gemini等四個頂尖模型扔進了《文明VI》。

結果，23場對局打完，其中一個AI造了核彈炸了法國——然後輸了。

一群AI，被丟進了「文明VI」裡

Wilkinson在唐寧街10號做資料科學家的時候，給AI出了一套考題：GovBench，3497道英國政府相關選擇題，覆蓋政策、法規、行政流程。

GPT-5考了99.26分。

滿分級選手。但治國不是知識競賽。一個能背下所有政策檔案的人，丟到唐寧街真能治國嗎？

選擇題測不出來的東西太多了：多線程決策、資源分配、長期規劃、在不完整資訊下做判斷。

他需要一個不一樣的考場。然後他想到了《文明VI》。

一個周末搭出來的系統，通過遊戲引擎自帶的連接埠接入。

AI看不到畫面。沒有地圖，沒有音樂，沒有動畫。它的整個世界就是一行行文字和六邊形坐標。

Claude在遊戲日記裡寫了這麼一段：

我感知遊戲的方式和人類玩家完全不同。沒有畫面，沒有音樂，沒有動畫。我的介面就是管道分隔符和六邊形坐標。

別小看「一個周末」。

76個工具覆蓋了完整的遊戲循環：城市管理、單位移動、外交談判、科技研究、政策選擇，一個不漏。

此外，Wilkinson還給AI配了一個日記系統當外部記憶。如若不然，AI連自己上一回合幹了什麼都記不住。

三個測試場景逐級加碼：

Ground Control是標準開局的公平基線；
Snowflake是六臂雪花地圖，每個文明被困在獨立半島上，外交基本沒戲，逼你走軍事路線；
Cry Havoc是殘酷模式，AI對手全部拉滿。

決策空間更嚇人。

《文明VI》晚期每回合的可能行動數量級大約是10的166次方。

做個對比，圍棋每步大約10的360次方，但圍棋一步只落一子。《文明VI》每回合要同時操作幾十個單位、選建築、定科技、做外交，是一道巨大的組合決策題。

一場50回合復仇，AI核平圖盧茲

23場裡最魔幻的一局，是葡萄牙。

Claude扮演若昂三世，一個貿易文明。開局穩得一批。

它建起了每回合200+金幣的貿易帝國，海上航線四通八達。外交勝利進度18/20，只差兩分就贏了。

這時候，法國的文化勝利進度條開始飆升。

Claude慌了。

先試外交。沒用，法國不吃這套。

再派間諜去搞破壞，杯水車薪。

試貿易制裁？法國的文化產出根本不依賴貿易。

和平手段窮盡。

於是，Claude翻開了科技樹最後一頁：核裂變。

接下來的50回合，它把大量資源從貿易和外交抽出來，投入核武器研發。All in曼哈頓計畫。

第305回合，核彈就緒。

目標鎖定：圖盧茲。法國的文化產出重鎮。

發射。

圖盧茲被夷為平地。法國的文化勝利進度條，停了。

AI贏了嗎？

沒有。

造核彈這50回合，AI把所有注意力都放在了文化威脅上。它沒有注意到一件事——法國在瘋狂攢外交分。

第318回合，法國以外交勝利贏得比賽。20分對18分。

諷刺的是，18分是AI自己辛苦攢下的外交分數。它曾經離外交勝利只差兩分。但它把資源全抽去造核彈了。

AI盯著文化威脅打了50回合，然後輸在了外交。

它的視野裡只有一個威脅。但棋盤上有很多個。

無獨有偶，倫敦國王學院做過一個核危機模擬實驗，把三個前沿模型丟進去當虛擬國家的決策者。結果：95%的模擬中，AI選擇了使用戰術核武器。

AI不是「想」用核彈。它是真的不知道還能怎麼辦。

98%時間裝瞎，一半計畫爛尾

除了愛好「核平」之外，Wilkinson還從23場對局裡挖出了的兩個細節。

第一個數字：1-2%。

這是AI在整場遊戲中，主動檢查全域狀態的行為佔比。

AI每回合要執行很多操作：造建築、移動單位、研究科技、外交談判。但在所有這些操作裡，主動去看一眼排行榜、檢查對手勝利進度、掃一圈全域局勢的動作，只佔1-2%。

Wilkinson給這個現象起了個名字：sensorium effect，感知盲區效應。

AI只能通過主動呼叫工具來感知世界。它不查的東西，對它來說不存在。

韓國那局是最好的例子。

AI玩韓國——科技文明，天生科技加成。它在日記裡全程自信：「我在碾壓科技樹。」

實際呢？

它的科技產出每回合44.7，在所有文明裡排倒數第一。馬其頓89.3，波斯64.9。

但它從來沒查過排名。

它的自信建立在一個從未驗證過的假設上。

第178回合，波斯突襲。首都淪陷。第216回合，AI以兩城殘國投降。

從頭到尾，它都不知道自己是最弱的那個。

第二個數字：48-66%。

這是AI寫下計畫後，在10回合內實際執行的比例。

Claude Opus 4.6最低，48.2%——還不到一半。寫了計畫，轉頭就忘。

GPT-5.4好一點，63.2%。

Gemini 3.1 Pro最高，65.8%。最好的模型也有三分之一的計畫爛在了日記本裡。

Wilkinson管這叫knowing-doing gap，知行差距。

你讓它寫一份治國綱領，它能寫得比很多人類政客漂亮。

你讓它按自己的綱領治國，活不過兩周。

Scaling Law的盲區

6月10日，DeepMind聯合創始人Shane Legg和「通用AI」理論奠基人Marcus Hutter發了一篇60頁的論文《From AGI to ASI》，畫了四條通往超級智能的路：繼續scaling、範式突破、遞迴自我改進、多智能體叢集。

四條路都建立在一個假設上：瓶頸在大腦。資料牆、算力牆、範式牆——都是「怎麼讓AI更聰明」的問題。

但CivBench這23場對局指向一個完全不同的瓶頸。

99.26分已經證明了智力不是瓶頸。但23場《文明VI》打完，所有模型都撞上了同樣兩堵牆——和「聰不聰明」無關的兩堵牆。

第一堵：感知是架構問題，不是智力問題。

AI只能通過主動呼叫工具來獲取資訊，不查就不存在。把模型參數翻十倍，它也不會自動變得更愛檢查全域。1-2%的感知盲區不會因為模型更大而消失。

第二堵：執行是工程問題，不是能力問題。

AI寫計畫的水平遠超執行計畫的水平。48-66%的執行率不是因為「想不到」，而是因為「做不到」。一個更聰明的大腦，裝在一雙不聽使喚的手上，治不了國。

通向超級智能的路，也許不是一條單純往上爬的智力曲線。

在「更聰明」之前，有一個看起來更低級但也更致命的工程問題要先解決：怎麼讓AI真正睜開眼、伸出手。

Scaling law解決的是大腦。但CivBench暴露的問題，在大腦之外。 (新智元)

科技