#寶可夢
全球頂尖大模型,通關不了“寶可夢”:這些遊戲都是AI的噩夢
世界頂尖的AI模型可以通過醫學執照考試,可以編寫複雜程式碼,甚至能在數學競賽中擊敗人類專家,但是卻在一款兒童遊戲中《寶可夢》屢屢受挫。這場引人矚目的嘗試始於2025年2月,當時Anthropic的一名研究人員推出了“Claude玩《寶可夢紅》”的Twitch直播,以此配合Claude Sonnet 3.7的發佈。2000名觀眾湧入直播間。在公共聊天區,觀眾們為Claude出謀劃策、加油打氣,使這場直播逐漸演變為一場圍繞AI能力展開的公開觀察。Sonet3.7隻能說是“會玩”《寶可夢》了,但“會玩”不等於“能贏”。它會在關鍵節點卡住數十小時,還會做出連兒童玩家都不會犯的低級錯誤。這不是Claude第一次嘗試。早期版本的表現更加災難:有的在地圖中毫無目標地遊蕩,有的陷入無限循環,更多的甚至無法走出新手村。即便是能力顯著提升的Claude Opus 4.5,仍會出現令人費解的失誤。有一次,它在“道館外“繞圈整整四天,卻始終未能進入,原因僅僅是沒意識到需要砍倒擋在路口的一棵樹。一款兒童遊戲,為何成了AI的滑鐵盧?因為《寶可夢》要求的,恰恰是當今AI最缺乏的能力:在沒有明確指令的開放世界中持續推理、記憶數小時前的決策、理解隱含的因果關係、在數百個可能的行動中做出長期規劃。這些事情對8歲孩子來說輕而易舉的事,對標榜"超越人類"的AI模型卻是不可踰越的鴻溝。01工具集差距決定成敗?相比之下,Google的Gemini 2.5 Pro在2025年5月成功通關了一款難度相當的《寶可夢》遊戲。Google首席執行長桑達爾·皮查伊(Sundar Pichai)甚至在公開場合半開玩笑地表示,公司在打造“人工寶可夢智能”方面邁出了一步。然而,這一結果並不能簡單歸因於Gemini模型本身更“聰明”。關鍵差異在於模型所使用的工具集。負責營運Gemini《寶可夢》直播的獨立開發者喬爾·張(Joel Zhang)將工具集比喻為一套“鋼鐵人裝甲”:AI並非赤手空拳進入遊戲,而是被置於一個可呼叫多種外部能力的系統中。Gemini的工具集提供了更多支援,例如將遊戲畫面轉寫為文字,從而彌補模型在視覺理解上的弱點,並提供定製化的解謎與路徑規劃工具。相比之下,Claude所使用的工具集更為簡約,它的嘗試也更直接地反映出模型自身在感知、推理與執行上的真實能力。在日常任務中,這類差異並不明顯。當使用者向聊天機器人提出需聯網查詢的請求時,模型同樣會自動呼叫搜尋工具。但在《寶可夢》這類長期任務中,工具集的差異被放大至足以決定成敗的程度。02回合制暴露AI的“長期記憶”短板由於《寶可夢》採用嚴格的回合制且無需即時反應,它成為了測試 AI 的絕佳“練兵場“。AI 在每一步操作中,只需結合當前畫面、目標提示與可選操作進行推理,即可輸出‘按A鍵’這類明確的指令。這似乎正是大語言模型最擅長的互動形式。癥結恰恰在於時間維度的“斷層”。 儘管 Claude Opus 4.5 已累計運行超 500 小時、執行約 17 萬步,但受限於每一步操作後的重新初始化,模型只能在極窄的上下文窗口中尋找線索。這種機制讓它更像是一個靠便利貼維持認知的失憶者,在碎片化的資訊中循環往復,始終無法像真正的人類玩家那樣,實現從量變到質變的經驗跨越。在國際象棋和圍棋等領域,AI系統早已超越人類,但這些系統是為特定任務高度定製的。相比之下,Gemini、Claude和GPT作為通用模型,在考試、程式設計競賽中頻頻擊敗人類,卻在一款兒童向遊戲中屢屢受挫。這種反差本身便極具啟示性。在喬爾·張看來,AI面臨的核心挑戰在於無法在長時間跨度內持續執行單一明確目標。“如果你希望智能體完成真正的工作,它不能忘記五分鐘前自己做了什麼,”他指出。而這種能力,正是實現認知勞動自動化不可或缺的前提。獨立研究者彼得·惠登(Peter Whidden)給出了更直觀的描述。他曾開源一個基於傳統AI的《寶可夢》演算法。“AI對《寶可夢》幾乎無所不知,”他表示,“它在海量人類資料上訓練,清楚知道正確答案。但一到執行階段,就顯得笨拙不堪。”遊戲中,這種“知道卻做不到”的斷層被不斷放大:模型可能知道需尋找某道具,卻無法在二維地圖中穩定定位;知道應與NPC對話,卻在像素級移動中反覆失敗。03能力演進背後:未跨越的“本能”鴻溝儘管如此,AI的進步仍清晰可見。Claude Opus 4.5在自我記錄和視覺理解上明顯優於前代,得以在遊戲中推進更遠。Gemini 3 Pro在通關《寶可夢藍》後,又完成了難度更高的《寶可夢水晶》,且全程未輸一場戰鬥。這是Gemini 2.5 Pro從未實現的。與此同時,Anthropic推出的Claude Code工具集允許模型編寫並運行自有程式碼,已被用於《過山車大亨》等復古遊戲,據稱能成功管理虛擬主題公園。這些案例揭示了一個不直觀的現實:配備合適工具集的AI,可能在軟體開發、會計、法律分析等知識工作中展現極高效率,即便它們仍難以應對需要即時反應的任務。《寶可夢》實驗還揭示另一耐人尋味的現象:在人類資料上訓練的模型,會表現出近似人類的行為特徵。在Gemini 2.5 Pro的技術報告中,Google指出,當系統模擬“恐慌狀態”,如寶可夢即將昏厥時,模型的推理質量會顯著下降。而當Gemini 3 Pro最終通關《寶可夢藍》時,它為自己留下了一段非任務必需的備註:“為了詩意地結束,我要回到最初的家,與母親進行最後一次對話,讓角色退休。”在喬爾·張看來,這一行為出乎意料,還帶有某種人類式的情感投射。04AI難以踰越的“數字長征”,遠不止《寶可夢》《寶可夢》並非孤例。在追求通用人工智慧(AGI)的道路上,開發者發現,即便AI能在司法考試中名列前茅,在面對以下幾類複雜遊戲時,依然面臨著難以踰越的“滑鐵盧”。《NetHack》:規則的深淵這款80年代的地牢遊戲是AI研究界的“噩夢”。它的隨機性極強且有“永久死亡”機制。Facebook AI Research發現,即便模型能寫程式碼,但在需要常識邏輯和長期規劃的《NetHack》面前,表現甚至遠遜於人類初學者。《我的世界》:消失的目標感雖然AI已能製作木鎬甚至挖掘鑽石,但獨立“擊敗末影龍”仍是幻想。在開放世界裡,AI經常會在長達數十小時的資源收集過程中“忘記”初衷,或在複雜的導航中徹底迷路。《星海爭霸 II》:通用性與專業的斷層儘管定製化模型曾擊敗職業選手,但若讓Claude或Gemini直接通過視覺指令接管,它們便會瞬間崩盤。在處理“戰爭迷霧”的不確定性,以及平衡微操與宏觀建設方面,通用模型依然力不從心。《過山車大亨》:微觀與宏觀的失衡管理樂園需要追蹤數千名遊客的狀態。即便具備初步管理能力的Claude Code,在處理大規模財務崩潰或突發事故時也極易疲態。任何一次推理斷層,都會導致樂園破產。《艾爾登法環》與《隻狼》:物理反饋的鴻溝這類強動作反饋遊戲對AI極不友好。目前的視覺解析延遲意味著,當AI還在“思考”Boss動作時,角色往往已經陣亡。毫秒級的反應要求,構成了模型互動邏輯的天然上限。05為何《寶可夢》成為AI試金石?如今,《寶可夢》正逐漸成為AI評估領域中一種非正式卻極具說服力的測試基準。Anthropic、OpenAI和Google的模型在Twitch上的相關直播累計吸引數十萬條評論。Google在技術報告中詳細記錄Gemini的遊戲進展,皮查伊在I/O開發者大會上公開提及此項成果。Anthropic甚至在行業會議中設立“Claude玩寶可夢”展示區。“我們是一群超級技術愛好者,”Anthropic應用AI負責人大衛·赫爾希(David Hershey)坦言。但他強調,這不僅是娛樂。與一次性問答式的傳統基準不同,《寶可夢》能在極長時間內持續追蹤模型的推理、決策與目標推進過程,這更接近現實世界中人類希望AI執行的複雜任務。截至目前,AI在《寶可夢》中的挑戰仍在繼續。但正是這些反覆出現的困境,清晰勾勒出通用人工智慧尚未跨越的能力邊界。 (騰訊科技)
Google再次創造歷史:Gemini 2.5 Pro 通關《寶可夢:藍色》!
人工智慧寶可夢終於實現了! GoogleGemini 2.5 Pro 模型,剛剛成功通關了經典遊戲《寶可夢:藍色》GoogleCEO桑達爾·皮查伊(Sundar Pichai) 和DeepMind 負責人戴密斯·哈薩比斯(Demis Hassabis) 都發文祝賀,感謝了運行這個直播實驗的工程師Joel Z這事兒怎麼來的?首先得介紹下Joel Z,他是個30歲的軟體工程師,跟Google沒有直接關係。他搞這個實驗,是因為Gemini 2.5 Pro 出了個實驗版,大家就好奇它玩遊戲怎麼樣。於是,就有了這個"Gemini Plays Pokémon" 直播這個項目受到了另一個類似項目"ClaudePlaysPokemon" 的啟發。不過Joel Z 選擇了《寶可夢:藍》,一是因為Claude 已經在玩《紅》了,二是因為《藍色》是他自己玩的第一款寶可夢Gemini 是怎麼玩遊戲的?這才是重點。這個項目不是簡單地讓AI 瞎點,而是建構了一套自主決策系統:連接遊戲: 程式碼透過Socket 連接到mGBA 模擬器,能即時截圖、傳送按鍵指令(A、B、上、下等),還能讀取遊戲記憶體資料,例如玩家位置、寶可夢狀態、地圖資訊等AI 決策: 系統把帶網格線的遊戲截圖,加上從記憶體擷取的遊戲狀態資訊,發給Gemini 2.5 Pro。 Gemini 分析這些資訊,決定下一步操作專業「外援」: 有時候,Gemini 會把特定任務交給專門的「智能體」(Agent)來處理,以提高效率和可靠性執行與循環: 系統解析AI 的指令,轉換成具體的按鍵,傳送給模擬器,等遊戲畫面更新,然後重複這個過程它和Claude 玩寶可夢有啥不同?Joel Z 特別強調,不要把這看成是LLM 玩寶可夢的基準測試。兩者有很多不同:導航方式:  Claude 有自動導航工具。 Gemini 沒有,它需要自主決定目的地,然後要麼自己規劃路線,要麼呼叫一個路徑規劃智能體(Pathfinder Agent,其實是另一個Gemini 實例)來尋找最優路徑。這個智能體能獨立思考,甚至​​用BFS(廣度優先搜尋)這類演算法來規劃資訊獲取: 兩者接收到的遊戲資訊和使用的工具不同思維模式: 每個模型思考方式不同,各有擅長所以,別直接比較誰“更強”,不如都看看,感受下不同AI 的“思路”。 Joel Z 也坦言,他覺得Claude 的框架有些不足,想看看給Gemini 配上合適的工具後能走多遠關於「作弊」的討論直播過程中,有觀眾注意到Joel Z 會進行一些干預,還有那張小地圖,這算不算「作弊」?開發者干預:  Joel Z 解釋說,這不是作弊。項目還在開發階段,他的干預是為了改進Gemini 的通用決策和推理能力,而不是給具體關卡的提示(例如沒告訴它怎麼過月見山)。唯一接近“提示”的是,告知Gemini 需要和某個火箭隊員對話兩次才能拿到電梯鑰匙,這其實是原版遊戲的一個小“坑”,在後續版本修復了。他提到,Claude 項目在直播前也做過類似的幕後最佳化,Gemini 只是把這個開發過程公開了小地圖: 遊戲介面上方那張小地圖,是Gemini 探索區域的可視化。 Gemini 本身看不到圖像,只接收文字形式的地圖資訊。 Joel Z 認為,人類玩遊戲會自然形成心理地圖,目前的LLM 還做不到,小地圖是為了彌補這個能力缺陷,並非作弊限制Escape Rope / Dig:  Gemini 只有在低血量且沒有治療道具時才能使用「穿洞繩」或「挖洞」。這是因為LLM 還不太擅長判斷自己是真卡關了,還是暫時迷路。這個限制強制Gemini 更多依賴地圖記憶和路徑規劃**,能更清晰地展示其推理過程,避免一遇到困難就“抄近道”特色“智能體”除了核心的Gemini 模型,系統還引進了兩個專門的LLM 智能體:路徑規劃智能體(Pathfinder Agent): 如前所述,負責複雜區域(如火箭隊基地的旋轉地板迷宮)和一般場景的尋路推箱子策略師(Boulder Puzzle Strategist, BPS): 專門為「冠軍之路」的推箱子謎題設計。它能模擬推箱子的序列,找出有效的解法,提高了Gemini 應對這類挑戰的可靠性記憶體管理為了控制輸入給模型的Token 數量,系統大約每100 次操作就會對訊息進行一次總結,用總結替換掉原始訊息。未來計畫(暫定)Joel Z 的想法還包括:改進記憶體管理機制讓Gemini 能記筆記,記錄重要資訊給Gemini 更豐富的遊戲狀態資訊(進行中)探索讓觀眾在不劇透的前提下與Gemini 互動的方式等框架穩定後,進行一次完全無干預的通關嘗試嘗試用其他LLM(如Claude 或o3)進行對比實驗 (AI寒武紀)