就在剛剛,Verses團隊研發的Genius智能體,在Pong中超越了人類頂尖玩家!而且它僅僅訓練2小時,用了1/10資料,就秒殺了其他頂級AI模型。
最近,Verses團隊在AI領域投下了一枚重磅炸彈,他們自研的Genius智能體,創造了一個幾乎不可能的奇蹟——
只用10%資料,訓練2小時,就能打造出最強AI智能體!
在經典遊戲Pong中,Genius智能體多次達到完美的20分,一舉超越了苦練數天的其他AI,和頂尖的人類玩家。
更讓人驚掉下巴的是,它的規模只有SOTA模型IRIS的4%(縮小了96%),直接在搭載M1晶片的MacBook上就能跑。
Genius在「狀態好」時,甚至能削電腦一個「禿頭」
這一項目的靈感,來自一個四年前的實驗——科學家們培養的「盤中大腦」,用5分鐘學會了玩Pong遊戲。
這啟發了科學家們思考,如果能夠模仿大腦的工作方式,是不是就能創造出更聰明、更高效的AI。
恰在2023年,這個大膽的想法,在Nature論文中得到了證實。
而現在,Verses團隊正將這種生物學的智慧,轉化為現實。
研究團隊表示,這標誌著首個超高效貝葉斯智能體在複雜多維度遊戲環境中,實現通用解決方案的重要里程碑。
目前,所謂的AI智能體,大多數實際上只是在大模型基礎上,搭建的簡單架構。
正如蘋果研究團隊,在去年10月arXiv論文中,直指現有的LLM,並不具備真正的邏輯推理能力。
它們更像是在「記憶」訓練資料中,所見過的推理步驟。
實際上,這種侷限性嚴重制約了AI智能體的實際應用潛力。
即便是OpenAI推理模型o1,儘管代表著技術發展的重要里程碑,但其本質仍是將BBF/EfficientZero(強化學習)和 IRIS(Transformer)兩種方法結合到CoT推理計算中。
這種方法雖有創新,但其仍未觸及智能體進化的核心痛點。
那麼,什麼才是真正的突破口?
Verses團隊認為答案是,認知引擎。Genius就像是智能體的認知引擎。
它不僅提供了包括認知、推理、規劃、學習和決策在內的執行功能,更重要的是賦予了智能體真正的主動性、好奇心和選擇能力。
其中,主動性正是當前基於LLM建構的智能體,普遍缺失的的特質。
我們現在已經掌握了一種全新的「仿生方法」來實現通用機器智能,這種方法比上述兩種方法(即使是結合在一起)都要明顯更好、更快、更經濟。
為了與SOTA的機器學習技術進行客觀對比,在這些初始測試中,研究者選擇了基於模型的IRIS系統。
該系統基於2017年突破性的Transformer架構。這種方案能夠最快速地完成部署,從而將精力集中在推進自身研究上,而不是複製他人的工作。
值得一提的是,在Atari 100K測試中表現最優的兩個系統——EfficientZero和BBF,都採用了深度強化學習技術,這與Deepmind的AlphaZero、AlphaGo和AlphaFold所使用的方法一脈相承。
研究者在2小時內,用1萬步遊戲資料分別訓練了Geniu和IRIS(記為10k/2h)。
他們將Genius 10k/2h的性能與IRIS進行了對比,後者使用相同的1萬步資料,但訓練時間為2天(記為10k/2d)。
同時,他們還將Genius 10k/2h的性能與使用完整10萬步資料訓練的BBF和EfficientZero的公開結果進行了比較。
性能評估採用人類標準化得分(HNS)來衡量,其中HNS 1.0代表人類水平的表現,具體而言,相當於人類玩家在2小時練習時間後(約等於10萬個樣本)在「Pong」遊戲中對戰電腦時獲得的14.6分平均成績。
與Transformer和深度強化學習不同,Genius無需依賴強大的GPU進行訓練。然而,為確保比較的公平性,所有測試均在AWS雲平台上使用同一張輝達A100 GPU進行。
值得注意的是,無論訓練時長如何,IRIS訓練後的模型包含800萬個參數,而Genius僅需35萬個參數,模型體積減少了96%。
在Pong遊戲中,IRIS 10k/2h的只會在角落裡「抽搐」,而IRIS 10k/2d展現出一定的遊戲能力,HNS在0.0到0.3之間。
相比之下,Genius在2小時1萬步訓練後(10k/2h),就能達到超過HNS 1.0的水平,並在多次測試中獲得20分滿分。(劃到最右即可看到Genius如何從0比6落後一路實現反超)
下圖展示了IRIS和Genius在各自訓練條件下所能達到的最高HNS。
需要說明的是,Genius的得分僅為初步測試結果,尚未經過最佳化
鑑於IRIS 10k/2h未能展現有效的遊戲能力,研究者主要展示了IRIS 10k/2d和Genius與電腦對戰的質性測試樣例。
這局比賽中,IRIS對陣電腦時以6:20落敗,而Genius則以20:6的優勢戰勝了電腦對手。
下面這段視訊,展示了Genius在學習「Pong」遊戲過程中,在漸進式線上學習方面的卓越表現。
在1萬步訓練過程中,它依次取得了20:0、20:0、20:1、20:10、14:15的對戰成績。
特別是在第五局比賽中,當訓練進行到接近9,000步時,儘管電腦以14:3大幅領先,但Genius隨後展現出顯著的學習能力,開始持續得分,直至訓練步數耗盡。
在「Boxing」拳擊遊戲中,玩家控制白色角色,通過擊打黑色對手角色來獲取得分。
可以看到,只經過2小時訓練的IRIS,開局就被電腦各種完虐;而在經過2天的訓練之後,基本上可以和電腦「55開」了。
相比之下,Genius幾乎從一直就處於領先,並在最後以86比63贏得了比賽。
在Freeway遊戲測試中,玩家需要控制小雞穿過馬路,同時避開來自不同方向、以不同速度行駛的汽車。
測試結果顯示,IRIS 10k/2h和IRIS 10k/2d模型均表現出隨機性行為,始終未能成功穿越馬路。
而Genius則展現出對遊戲對象和動態系統的深入理解,能夠持續且成功地在複雜車流中進行穿梭。
當然研究者也強調,雖然Atari 100k/10k、ARC-AGI能提供參考指標,但目前還沒有一個單一的測試,能全面衡量AGI在認知、物理、社交和情感智能等各個維度上的表現。
同時,也需要警惕模型可能出現的過擬合現象,即為了在特定基準測試中取得高分而進行過度最佳化。這種情況下,就並不能說明模型的泛化能力、效率或在現實應用場景中的適用性。
因此,需要通過多樣化的測試來衡量給定模型架構的適用性、可靠性、適應性、可持續性、可解釋性、可擴展性以及其他能力。
之前Atari 100k挑戰排行榜上的SOTA都是以資料為中心,計算複雜度很高的方法,如Transformer、神經網路、深度學習和強化學習。
然而,這些基於深度學習和大模型的AI系統都存在一個共同的弱點:它們大多是通過工程技術手段建構的,缺乏對智能本質的深刻理解。
Genius並非僅僅是對以往SOTA的漸進式改進。研究者應用了Karl Friston教授的自由能量原理、主動推斷框架和貝葉斯推理架構。
Karl Friston近年來致力於自由能原理與主動推理的研究,該理論被認為是「自達爾文自然選擇理論後最包羅萬象的思想」,試圖從物理、生物和心智的角度提供智能體感知和行動的統一規律,從第一性原理出發解釋智能體更新認知、探索和改變世界的機制,對強化學習世界模型、通用AI等前沿方向具有重要啟發意義。
自由能原理認為,所有可變的量,只要作為系統的一部分,都會為最小化自由能而變化。
主動推理框架基於自由能原理提供了一個建模感知、學習和決策的統一框架。將感知和行動都看作是推斷的問題。
其核心觀點是:生物體認知與行為底層都遵循著相同的規則,即感官觀測的「意外」最小化。在這裡,「意外」被用於衡量智能體當前的感官觀測與偏好的感官觀測之間的差異。
這些方法深深植根於生物智能背後的神經科學,它將智能系統視為預測引擎,而非僅僅被動式資料處理機器,這些系統能夠通過測量預期與感知資料之間的差異來實現高效學習。
其核心目標是持續降低對環境的不確定性,具體方式是學習理解所觀察現象背後隱藏的因果動態關係,從而更好地預測結果並選擇最優行動。
這條運用神經科學方法和生物學可行技術來解決Atari問題的另類途徑始於2022年。
當時,Friston教授帶領Cortical Labs開發了一種「微型人類大腦」,並命名為DishBrain(培養皿大腦),這個「大腦」包含了大約80萬個腦細胞,僅僅用了5分鐘就學會了打「乒乓球」的遊戲,而AI學會這一遊戲需要花90分鐘時間。
這一研究證明了神經元確實應用了自由能量原理並通過主動推斷進行運作,並且即使是培養皿中的腦細胞也可以表現出內在的智能,並隨著時間的推移改變行為。
2023年,一篇發表在《自然》上的論文通過體外培養的大鼠皮層神經元網路進行因果推理,也證實了自由能原理的定量預測。
到了2024年初,研究者則更進一步,成功將這些在Dishbrain中展示的主動推斷機制純軟體化地應用於乒乓球遊戲。
主動推理及其對貝葉斯模型和演算法的應用代表了一種根本不同的AI架構,從設計上講,它比SOTA的ML方法更有效和高效。
如今Genius實現的,就是研究者此前開創的貝葉斯推理架構,它不僅提高了樣本效率和持續學習能力,還能優雅地將先驗知識與新資料結合。
這一突破帶來了全新的先進機器智能方法,具有內在的可靠性、可解釋性、可持續性、靈活性和可擴展性。
在統計學、機器學習和AI領域,貝葉斯推理因其在不確定性下的原則性機率推理方法而被視為一個強大而優雅的框架,但迄今為止,其巨大的計算需求一直限制著它在玩具問題之外的應用。
而Genius則代表了對這一障礙的超越,並提供了一個通用架構,使我們能夠在此基礎上建構眾多高效的智能體,讓它們能夠學習並行展專業技能。
在不久的未來,也許我們再回首,就會發現這不僅標誌著貝葉斯革命的開始,更代表著機器智能發展的自然方向。
如下圖所示,虛線和漸變軌跡展現了智能體對已識別對象軌跡的機率預測——可能是球、高速行駛的汽車,或是拳擊手的刺拳。
這些不確定性的量化,結合置信度的計算,首次展示了智能體的預測和決策過程如何實現可解釋性。
這種系統的透明度和可審計性,與ML中不透明、難以解釋且無法量化的內部處理過程形成了鮮明對比。
現代,遊戲已成為衡量機器智能的有效基準。
1996年,IBM的深藍擊敗了國際象棋大師加里·卡斯帕羅夫時,整個世界都為之震撼。
這是一個具有明確規則和離散狀態空間的遊戲。而深藍的成功主要依賴於暴力計算,通過評估數百萬種可能走法做出決策。
2016年,GoogleAlphaGo在圍棋比賽中擊敗了李世石,成為另一個重要的里程碑。
要知道,圍棋的可能棋盤組態數量比宇宙中的原子數量還要多。
AlphaGo展示了深度強化學習和蒙特卡洛樹搜尋的強大能力,標誌著AI從暴力計算向具備模式識別和戰略規劃能力的重大跨越。
雖然AI在棋類遊戲中取得了里程碑式的成就,但這些突破也僅侷限於「靜態規則」的世界。
它們並不能模擬現實世界中的複雜動態,而現實世界中變化是持續的,需要適應不斷變化的條件甚至變化的規則。
由此,電子遊戲已經成為測試智能的新標準,因為它們提供了受控的環境,其規則需要通過互動來學習,而成功的遊戲過程需要戰略規劃。
Atari遊戲已成為評估AI智能體建模和駕馭複雜動態系統能力的最佳評估標準。
2013年,DeepMind發佈了一篇論文,闡述基於強化學習的模型DQN如何能以超越人類水平玩Atari遊戲,但前提是需要數億次環境互動來完成訓練。
2020年,DeepMind發表了另一篇基於DRL的Agent57的論文,該系統在57個Atari遊戲中超越了人類基準水平,但它需要訓練近800億幀。
為了推動更高效的解決方案,Atari 100k挑戰賽應運而生。這一挑戰將訓練互動限制在100k次內,相當於2小時的遊戲訓練,就能獲得類似的遊戲能力。
直到2024年初,Verses團隊創下新紀錄——
展現了由Genius驅動的AI智能體如何能在Atari 100k挑戰賽中,僅用原來1/10訓練資料,匹配或超越最先進方法的表現。
不僅如此,它還顯著減少了計算量,同時生成的模型大小僅為基於DRL或Transformer建構的頂級模型的一小部分。
如果用汽車來打比方,DQN和Agent57就像是耗油的悍馬,Atari 100k的方法就像是節能的普銳斯,而Atari 10k就像是特斯拉,代表著一種高效的革新架構。
Atari 100k基準測試的重要性,體現在那裡?
它旨在測試智能體在有限訓練資料條件,下在三個關鍵領域的表現能力:互動性、泛化性和效率。
1. 互動性
互動性衡量了智能體在動態環境中學習和適應的能力,在這種環境中,智能體的行為直接影響最終結果。
在Atari遊戲中,智能體必須即時行動、響應反饋並調整其行為以取得成功。這種能力正好反映了現實世界中適應性至關重要的場景。
2. 泛化性
泛化性則評估了智能體將學習到的策略,應用於具有不同規則和挑戰的各種遊戲的能力。
也就是確保智能體不會過擬合單一任務,而是能夠在各種不同領域中都表現出色,展現真正的適應性。
3. 效率
效率主要關注智能體在有限資料和計算資源條件下快速學習有效策略的能力。
100k步驟的限制突顯了高效學習的重要性——這對於現實世界中資料通常稀缺的應用場景來說尤為重要。
任何開發者都可以編寫自訂程序,來解決遊戲和邏輯謎題。而Deepmind的原始DQ 方法和Atari 100k都已證明,通過足夠的人工干預和大量的資料與計算資源,傳統機器學習可以被調整和擬合,以掌握像雅達利這樣的遊戲。
而Genius的亮點在於,它能夠自主學習如何玩遊戲,而且僅使用了Atari 100k 10%的資料量!
這,就讓它跟現實世界中的問題更相關了。因為在現實場景中,資料往往是稀疏的、不完整的、帶有噪聲的,而且會即時變化。
近來,行業的動態值得令人深思。
撇開不可靠性和不可解釋性不談,訓練和運行這些超大規模過度參數化(overparameterized)模型的財務成本、能源消耗和碳排放,不僅在經濟和環境上不可持續,更與生物智能的運作方式背道而馳。
要知道,人類大腦僅需要20瓦的能量就能完成複雜的認知任務,相當於一個普通燈泡的功率。
更令業界擔憂的是,高品質訓練資料正在耗盡。而使用合成資料作為替代方案,可能導致「模型崩潰」(model collapse),讓模型性能逐漸退化。
建構有效(可靠)、可信(可解釋)和高效(可持續)的 智能體,如果能夠通過單一的可泛化(靈活)架構來實現,其影響可能將達到改變人類文明處理程序的規模。
未來AI發展方向,或許不應該是由少數科技巨頭控制的幾個龐大的模型,而是部署數兆個低成本、超高效、專業化的自組織智能體。
它們可以在邊緣計算端和雲端協同運作,通過協調與合作,在從個體到集體的各個層面都遵循著一個共同的、表面上看似簡單的內在目標——追求理解,即降低不確定性。
這種新型智能體特別適合處理那些具有持續變化、資料資源受限,同時要求更智能、更安全、更可持續的問題領域。
比如,在金融、醫療、風險分析、自動駕駛、機器人技術等多個領域,應用前景廣闊。
這場關於AI未來的遊戲,才剛剛開始。
參考資料:
https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence (新智元)