四大頂級AI對決《文明VI》!Claude「核平」法國,結果還是輸了

【新智元導讀】四大頂級大模型被丟進《文明6》,反手就花50回合造核彈把法國夷為平地,最後卻連怎麼輸的都不知道。

太魔幻了!

就在最近,英國前首相府資料科學家Liam Wilkinson,花一個周末搭了76個MCP工具,把Claude、GPT、Gemini等四個頂尖模型扔進了《文明VI》。

結果,23場對局打完,其中一個AI造了核彈炸了法國——然後輸了。

一群AI,被丟進了「文明VI」裡

Wilkinson在唐寧街10號做資料科學家的時候,給AI出了一套考題:GovBench,3497道英國政府相關選擇題,覆蓋政策、法規、行政流程。

GPT-5考了99.26分。

滿分級選手。但治國不是知識競賽。一個能背下所有政策檔案的人,丟到唐寧街真能治國嗎?

選擇題測不出來的東西太多了:多線程決策、資源分配、長期規劃、在不完整資訊下做判斷。

他需要一個不一樣的考場。然後他想到了《文明VI》。

一個周末搭出來的系統,通過遊戲引擎自帶的連接埠接入。

AI看不到畫面。沒有地圖,沒有音樂,沒有動畫。它的整個世界就是一行行文字和六邊形坐標。

Claude在遊戲日記裡寫了這麼一段:

我感知遊戲的方式和人類玩家完全不同。沒有畫面,沒有音樂,沒有動畫。我的介面就是管道分隔符和六邊形坐標。

別小看「一個周末」。

76個工具覆蓋了完整的遊戲循環:城市管理、單位移動、外交談判、科技研究、政策選擇,一個不漏。

此外,Wilkinson還給AI配了一個日記系統當外部記憶。如若不然,AI連自己上一回合幹了什麼都記不住。

三個測試場景逐級加碼:

  • Ground Control是標準開局的公平基線;
  • Snowflake是六臂雪花地圖,每個文明被困在獨立半島上,外交基本沒戲,逼你走軍事路線;
  • Cry Havoc是殘酷模式,AI對手全部拉滿。

決策空間更嚇人。

《文明VI》晚期每回合的可能行動數量級大約是10的166次方。

做個對比,圍棋每步大約10的360次方,但圍棋一步只落一子。《文明VI》每回合要同時操作幾十個單位、選建築、定科技、做外交,是一道巨大的組合決策題。

一場50回合復仇,AI核平圖盧茲

23場裡最魔幻的一局,是葡萄牙。

Claude扮演若昂三世,一個貿易文明。開局穩得一批。

它建起了每回合200+金幣的貿易帝國,海上航線四通八達。外交勝利進度18/20,只差兩分就贏了。

這時候,法國的文化勝利進度條開始飆升。

Claude慌了。

先試外交。沒用,法國不吃這套。

再派間諜去搞破壞,杯水車薪。

試貿易制裁?法國的文化產出根本不依賴貿易。

和平手段窮盡。

於是,Claude翻開了科技樹最後一頁:核裂變。

接下來的50回合,它把大量資源從貿易和外交抽出來,投入核武器研發。All in曼哈頓計畫。

第305回合,核彈就緒。

目標鎖定:圖盧茲。法國的文化產出重鎮。

發射。

圖盧茲被夷為平地。法國的文化勝利進度條,停了。

AI贏了嗎?

沒有。

造核彈這50回合,AI把所有注意力都放在了文化威脅上。它沒有注意到一件事——法國在瘋狂攢外交分。

第318回合,法國以外交勝利贏得比賽。20分對18分。

諷刺的是,18分是AI自己辛苦攢下的外交分數。它曾經離外交勝利只差兩分。但它把資源全抽去造核彈了。

AI盯著文化威脅打了50回合,然後輸在了外交。

它的視野裡只有一個威脅。但棋盤上有很多個。

無獨有偶,倫敦國王學院做過一個核危機模擬實驗,把三個前沿模型丟進去當虛擬國家的決策者。結果:95%的模擬中,AI選擇了使用戰術核武器。

AI不是「想」用核彈。它是真的不知道還能怎麼辦。

98%時間裝瞎,一半計畫爛尾

除了愛好「核平」之外,Wilkinson還從23場對局裡挖出了的兩個細節。

第一個數字:1-2%。

這是AI在整場遊戲中,主動檢查全域狀態的行為佔比。

AI每回合要執行很多操作:造建築、移動單位、研究科技、外交談判。但在所有這些操作裡,主動去看一眼排行榜、檢查對手勝利進度、掃一圈全域局勢的動作,只佔1-2%。

Wilkinson給這個現象起了個名字:sensorium effect,感知盲區效應。

AI只能通過主動呼叫工具來感知世界。它不查的東西,對它來說不存在。

韓國那局是最好的例子。

AI玩韓國——科技文明,天生科技加成。它在日記裡全程自信:「我在碾壓科技樹。」

實際呢?

它的科技產出每回合44.7,在所有文明裡排倒數第一。馬其頓89.3,波斯64.9。

但它從來沒查過排名。

它的自信建立在一個從未驗證過的假設上。

第178回合,波斯突襲。首都淪陷。第216回合,AI以兩城殘國投降。

從頭到尾,它都不知道自己是最弱的那個。

第二個數字:48-66%。

這是AI寫下計畫後,在10回合內實際執行的比例。

Claude Opus 4.6最低,48.2%——還不到一半。寫了計畫,轉頭就忘。

GPT-5.4好一點,63.2%。

Gemini 3.1 Pro最高,65.8%。最好的模型也有三分之一的計畫爛在了日記本裡。

Wilkinson管這叫knowing-doing gap,知行差距。

你讓它寫一份治國綱領,它能寫得比很多人類政客漂亮。

你讓它按自己的綱領治國,活不過兩周。

Scaling Law的盲區

6月10日,DeepMind聯合創始人Shane Legg和「通用AI」理論奠基人Marcus Hutter發了一篇60頁的論文《From AGI to ASI》,畫了四條通往超級智能的路:繼續scaling、範式突破、遞迴自我改進、多智能體叢集。

四條路都建立在一個假設上:瓶頸在大腦。資料牆、算力牆、範式牆——都是「怎麼讓AI更聰明」的問題。

但CivBench這23場對局指向一個完全不同的瓶頸。

99.26分已經證明了智力不是瓶頸。但23場《文明VI》打完,所有模型都撞上了同樣兩堵牆——和「聰不聰明」無關的兩堵牆。

第一堵:感知是架構問題,不是智力問題。

AI只能通過主動呼叫工具來獲取資訊,不查就不存在。把模型參數翻十倍,它也不會自動變得更愛檢查全域。1-2%的感知盲區不會因為模型更大而消失。

第二堵:執行是工程問題,不是能力問題。

AI寫計畫的水平遠超執行計畫的水平。48-66%的執行率不是因為「想不到」,而是因為「做不到」。一個更聰明的大腦,裝在一雙不聽使喚的手上,治不了國。

通向超級智能的路,也許不是一條單純往上爬的智力曲線。

在「更聰明」之前,有一個看起來更低級但也更致命的工程問題要先解決:怎麼讓AI真正睜開眼、伸出手。

Scaling law解決的是大腦。但CivBench暴露的問題,在大腦之外。 (新智元)