世界盃開哨前, AI 先打了一仗
坦白講, 6 月 12 日凌晨,美加墨世界盃開幕。 48 支球隊, 104 場比賽, 39 天——歷史上第一次三國合辦,第一次擴軍到 48 隊。
但比墨西哥對南非的揭幕戰更早引爆的,是另一場戰爭。
6 月 8 日到 11 日,國內多家大模型密集發佈世界盃預測。 Kimi 調動 300 個 Agent 平行推演全部 104 場,拿出 1 兆 Token 做獎池;千問緊隨其後上線預測活動;豆包、元寶各自站隊西班牙和法國。這都什麼事兒。新華社甚至專門讓六家國內外 AI 模型預測冠軍——答案出奇一致:西班牙。
別急,所有的 AI 都說西班牙會贏。想想都覺得離譜。只有 Kimi 說——等等,德國可能被低估了。
問題是: AI 明知自己賭球大機率虧錢,為什麼還要集體押注世界盃?
這得從一件事說起。
從章魚保羅到 300 個 Agent
2010 年,一隻叫保羅的章魚在德國水族館裡火了。方法很簡單:兩個貼國旗的盒子,各放一隻貽貝,保羅爬進那個就預測那隊贏。 8 次預測,全部命中。機率 0.39%。
保羅死後被封神。沒人追問它的預測邏輯——因為沒有邏輯。它只是一隻章魚選了午飯。
——先說重點。
16 年後, Kimi 調了 300 個 Agent 來幹同樣的事。
Agent Swarm ,智能體叢集。聽起來很科幻,本質上是把 104 (約 104 ,沒精確核實)場比賽拆成十幾個維度——戰術、傷病、賽程、賠率、天氣、輿論、心理因素——每個子 Agent 盯一個維度,主 Agent 彙總整合。
結果呢? Kimi 發現了一個市場偏差:德國隊的奪冠機率約 11.3%,但博彩市場隱含機率只有 7.4%。差了 3.6 個百分點。
這個偏差在統計學上叫"近因偏差"——德國前兩屆世界盃小組賽出局,市場和模型都慣性看低它。但 Kimi 認為,在納格爾斯曼的體系下,穆西亞拉和維爾茨組成的新攻擊線被嚴重低估了。
不過坦白講, Kimi 做預測本身不奇怪。奇怪的是它,兩件事。
第一, Kimi 在公告裡寫了一句話:"AI 技術應當更透明。說實話有點慌。"然後主動邀請其他模型一起公開預測,聲稱"AI 不應該被包裝成永遠正確的系統"。
第二, Kimi 搞了一個 1 兆 Token 的獎池,使用者選隊支援,球隊贏了就能分 Token 。
這不是預測。這是營運。
KellyBench : AI 賭球的真實戰績
但 AI 預測世界盃到底有多准?有個資料值得一說。
2026 年 4 月,一家叫 General Reasoning 的 AI 安全公司發佈了一個基準測試——KellyBench。他們讓 8 個前沿大模型用 10 萬英鎊虛擬本金,對 2023-24 賽季英超所有比賽進行押注。使用凱利公式( Kelly Criterion )做倉位管理——就是賭徒用來最大化長期增長的那套數學公式。
結果呢?沒有一家賺錢。
模型平均回報率Claude Opus 4.6-11.0%GPT-5.4-13.6%Gemini 3.1 Pro-43.3%智譜 GLM-5-58.8%Kimi K2.5 (注意,不是這次用的版本)-68.3%Grok 4.20破產
Claude Opus 4.6 (大概這個數)是最好的——也虧了 11%。最差的 Grok 4.20 ,每把都破產。
說真的,研究團隊發現了一個核心問題:"知道-行動差距"( knowledge-action gap )。模型能精準說出正確的策略,能寫數學公式,能自我批評——但就是執行不出來。這是關鍵。 GLM-5 寫了三份自我批評文件,精準指出了自己的問題,然後繼續用同樣的錯誤策略直到破產。
問題來了。
足球不是圍棋。圍棋是閉合系統,所有規則已知、狀態可觀測。足球是開放混沌系統——裁判一個爭議判罰、球員一次情緒失控、現場球迷的聲浪——這些變數 AI 根本算不進去。AI 能算清球員的物理狀態,但算不清"0 比 0 的人情世故"。
明知不准,為什麼還要押注?
這就回到了開頭的問題。
如果 AI 知道自己賭球大機率虧錢——KellyBench 已經證明了——為什麼 Kimi 、千問、豆包、元寶還要集體押注世界盃?
更讓人意外的是,答案不在預測本身。
三個層面來看這件事。
第一層:場景秀。
其實吧,這是國產大模型第一次在"全民級公共事件"中集體亮相。世界盃不是技術評測榜單,是地球上觀看人數最多的體育賽事。 Kimi 的 300 個 Agent 、千問的預測活動、豆包的使用者互動——這些不是技術展示,是場景卡位。
AI 行業正在經歷一個轉折:從"比模型參數"到"比誰能在真實場景中被用起來"。世界盃就是這個場景的終極測試場——資料公開、結果可驗證、全民關注。
第二層:透明化宣言。
Kimi 那句"AI 技術應當更透明"值得展開。過去兩年, AI 公司都在展示"最強模型",沒人願意公開失敗案例。 Kimi 做了一件反常的事:主動說"我們的預測很可能是錯的"。並且把分析過程、預測結果和賽後復盤全部公開。
這不是自曝其短。這是在建立信任。
當使用者習慣了模型永遠說"我無法預測未來"的免責聲明,突然有個模型站出來說"我算出了德國隊被低估,不信我們賽後見分曉"——這本身就構成了差異化。
(細節先不展開,回到主線。)
第三層: Token 作為社交貨幣。
1 萬——資料可能有出入億 Token 獎池。 Kimi 把這屆世界盃的每個進球都變成了流量入口:每進一球,向中國足球事業捐贈 10 億 Token 。
這招很高。 Token 是算力成本,但對使用者來說是"AI 世界的貨幣"。通過世界盃這個全民事件,把 Token 從技術概念變成了社交貨幣——你支援西班牙,贏了就能分 Token 。這不是賭球,這是遊戲化營運。
從"比模型"到"比場景"
把三條線拉在一起看, AI 押注世界盃的本質逐漸清晰了。
這不是關於"AI 能不能猜對冠軍"的命題。
Kimi300 個 Agent 預測德國隊被低估,這個結論對不對不重要——重要的是,它在 6 月這個節點,用一個全民事件,讓幾千萬人第一次感知到"Agent 叢集"這個概念。想想都覺得離譜。千問、豆包、元寶跟進,不是因為它們覺得預測世界盃能賺錢,而是因為不跟進就等於在世界盃這個場景中缺席。
更值得關注的是,這標誌著 AI 競爭進入新階段。
過去兩年, AI 公司比的都是"誰的模型更強"——跑分、榜單、評測集。但從 2026 年 6 月開始,競爭維度變了:誰能在真實場景中被更多使用者用起來。世界盃只是第一個。歐洲盃早有人跟進,奧運會還有兩個月,美國大選也在路上。
AI 從"問答工具"走向"公共事件營運商"——這個轉變,比任何模型跑分都更值得關注。
問題不是"AI 能不能預測世界盃冠軍"。問題是——當 AI 開始成為一個公共事件的參與者,你信它,還是不信它?
或者說,你更願意相信一隻章魚的直覺,還是一個 300 個 Agent 叢集的演算法? (ETHEREAL AI視界)
