【世界盃】AI大模型集體押注世界盃，到底賭的是什麼？

2026/06/12

•

世界盃開哨前， AI 先打了一仗

坦白講， 6 月 12 日凌晨，美加墨世界盃開幕。 48 支球隊， 104 場比賽， 39 天——歷史上第一次三國合辦，第一次擴軍到 48 隊。

但比墨西哥對南非的揭幕戰更早引爆的，是另一場戰爭。

6 月 8 日到 11 日，國內多家大模型密集發佈世界盃預測。 Kimi 調動 300 個 Agent 平行推演全部 104 場，拿出 1 兆 Token 做獎池；千問緊隨其後上線預測活動；豆包、元寶各自站隊西班牙和法國。這都什麼事兒。新華社甚至專門讓六家國內外 AI 模型預測冠軍——答案出奇一致：西班牙。

別急，所有的 AI 都說西班牙會贏。想想都覺得離譜。只有 Kimi 說——等等，德國可能被低估了。

問題是： AI 明知自己賭球大機率虧錢，為什麼還要集體押注世界盃？

這得從一件事說起。

從章魚保羅到 300 個 Agent

2010 年，一隻叫保羅的章魚在德國水族館裡火了。方法很簡單：兩個貼國旗的盒子，各放一隻貽貝，保羅爬進那個就預測那隊贏。 8 次預測，全部命中。機率 0.39%。

保羅死後被封神。沒人追問它的預測邏輯——因為沒有邏輯。它只是一隻章魚選了午飯。

——先說重點。

16 年後， Kimi 調了 300 個 Agent 來幹同樣的事。

Agent Swarm ，智能體叢集。聽起來很科幻，本質上是把 104 （約 104 ，沒精確核實）場比賽拆成十幾個維度——戰術、傷病、賽程、賠率、天氣、輿論、心理因素——每個子 Agent 盯一個維度，主 Agent 彙總整合。

結果呢？ Kimi 發現了一個市場偏差：德國隊的奪冠機率約 11.3%，但博彩市場隱含機率只有 7.4%。差了 3.6 個百分點。

這個偏差在統計學上叫"近因偏差"——德國前兩屆世界盃小組賽出局，市場和模型都慣性看低它。但 Kimi 認為，在納格爾斯曼的體系下，穆西亞拉和維爾茨組成的新攻擊線被嚴重低估了。

不過坦白講， Kimi 做預測本身不奇怪。奇怪的是它，兩件事。

第一， Kimi 在公告裡寫了一句話："AI 技術應當更透明。說實話有點慌。"然後主動邀請其他模型一起公開預測，聲稱"AI 不應該被包裝成永遠正確的系統"。

第二， Kimi 搞了一個 1 兆 Token 的獎池，使用者選隊支援，球隊贏了就能分 Token 。

這不是預測。這是營運。

KellyBench ： AI 賭球的真實戰績

但 AI 預測世界盃到底有多准？有個資料值得一說。

2026 年 4 月，一家叫 General Reasoning 的 AI 安全公司發佈了一個基準測試——KellyBench。他們讓 8 個前沿大模型用 10 萬英鎊虛擬本金，對 2023-24 賽季英超所有比賽進行押注。使用凱利公式（ Kelly Criterion ）做倉位管理——就是賭徒用來最大化長期增長的那套數學公式。

結果呢？沒有一家賺錢。

模型平均回報率Claude Opus 4.6-11.0%GPT-5.4-13.6%Gemini 3.1 Pro-43.3%智譜 GLM-5-58.8%Kimi K2.5 （注意，不是這次用的版本）-68.3%Grok 4.20破產

Claude Opus 4.6 （大概這個數）是最好的——也虧了 11%。最差的 Grok 4.20 ，每把都破產。

說真的，研究團隊發現了一個核心問題："知道-行動差距"（ knowledge-action gap ）。模型能精準說出正確的策略，能寫數學公式，能自我批評——但就是執行不出來。這是關鍵。 GLM-5 寫了三份自我批評文件，精準指出了自己的問題，然後繼續用同樣的錯誤策略直到破產。

問題來了。
足球不是圍棋。圍棋是閉合系統，所有規則已知、狀態可觀測。足球是開放混沌系統——裁判一個爭議判罰、球員一次情緒失控、現場球迷的聲浪——這些變數 AI 根本算不進去。AI 能算清球員的物理狀態，但算不清"0 比 0 的人情世故"。

明知不准，為什麼還要押注？

這就回到了開頭的問題。

如果 AI 知道自己賭球大機率虧錢——KellyBench 已經證明了——為什麼 Kimi 、千問、豆包、元寶還要集體押注世界盃？

更讓人意外的是，答案不在預測本身。

三個層面來看這件事。

第一層：場景秀。

其實吧，這是國產大模型第一次在"全民級公共事件"中集體亮相。世界盃不是技術評測榜單，是地球上觀看人數最多的體育賽事。 Kimi 的 300 個 Agent 、千問的預測活動、豆包的使用者互動——這些不是技術展示，是場景卡位。

AI 行業正在經歷一個轉折：從"比模型參數"到"比誰能在真實場景中被用起來"。世界盃就是這個場景的終極測試場——資料公開、結果可驗證、全民關注。

第二層：透明化宣言。

Kimi 那句"AI 技術應當更透明"值得展開。過去兩年， AI 公司都在展示"最強模型"，沒人願意公開失敗案例。 Kimi 做了一件反常的事：主動說"我們的預測很可能是錯的"。並且把分析過程、預測結果和賽後復盤全部公開。

這不是自曝其短。這是在建立信任。

當使用者習慣了模型永遠說"我無法預測未來"的免責聲明，突然有個模型站出來說"我算出了德國隊被低估，不信我們賽後見分曉"——這本身就構成了差異化。

（細節先不展開，回到主線。）

第三層： Token 作為社交貨幣。

1 萬——資料可能有出入億 Token 獎池。 Kimi 把這屆世界盃的每個進球都變成了流量入口：每進一球，向中國足球事業捐贈 10 億 Token 。

這招很高。 Token 是算力成本，但對使用者來說是"AI 世界的貨幣"。通過世界盃這個全民事件，把 Token 從技術概念變成了社交貨幣——你支援西班牙，贏了就能分 Token 。這不是賭球，這是遊戲化營運。

從"比模型"到"比場景"

把三條線拉在一起看， AI 押注世界盃的本質逐漸清晰了。

這不是關於"AI 能不能猜對冠軍"的命題。

Kimi300 個 Agent 預測德國隊被低估，這個結論對不對不重要——重要的是，它在 6 月這個節點，用一個全民事件，讓幾千萬人第一次感知到"Agent 叢集"這個概念。想想都覺得離譜。千問、豆包、元寶跟進，不是因為它們覺得預測世界盃能賺錢，而是因為不跟進就等於在世界盃這個場景中缺席。

更值得關注的是，這標誌著 AI 競爭進入新階段。

過去兩年， AI 公司比的都是"誰的模型更強"——跑分、榜單、評測集。但從 2026 年 6 月開始，競爭維度變了：誰能在真實場景中被更多使用者用起來。世界盃只是第一個。歐洲盃早有人跟進，奧運會還有兩個月，美國大選也在路上。

AI 從"問答工具"走向"公共事件營運商"——這個轉變，比任何模型跑分都更值得關注。

問題不是"AI 能不能預測世界盃冠軍"。問題是——當 AI 開始成為一個公共事件的參與者，你信它，還是不信它？

或者說，你更願意相信一隻章魚的直覺，還是一個 300 個 Agent 叢集的演算法？ (ETHEREAL AI視界)