#M3-Agent
字節跳動發佈M3-Agent:當AI擁有了“記憶”,世界將如何被重塑?
核心觀點一覽:雙系統認知架構:M3-Agent首創“記憶”與“控制”平行系統,模擬人類認知,讓AI能對流式視聽資訊進行7x24小時不間斷的被動學習和主動推理。人本主義記憶模型: 模仿人腦,不僅記錄“發生了什麼”的情景記憶,更能提煉“這意味著什麼”的語義記憶,實現從原始經驗到結構化知識的昇華。實體為心的知識圖譜:M3-Agent創新地以“實體”為核心建構多模態記憶圖譜,將同一人物的面孔、聲音與事實牢固繫結,從根本上解決了長期身份一致性的核心難題。強化學習驅動的“思考鏈”: 摒棄傳統單輪RAG,通過強化學習訓練出能進行多輪“思考-搜尋”的策略模型,讓AI真正學會如何為解決複雜問題而“思考”。第一部分:思想的源起 —— AI的“金魚記憶”之困想像一下,你家裡的機器人助手,每天清晨都能看到你。第一天,它看到你喝咖啡;第二天,它又看到你喝咖啡;第三天……當你問它“我早上喜歡喝什麼?”時,它卻一臉茫然。這就是當前大多數AI Agent的現狀——它們擁有驚人的瞬時理解能力,卻患有嚴重的“金魚記憶症”。它們的“世界”被一個名為“上下文窗口”(Context Window)的狹窄囚籠所限制。每一次互動都是一次“重啟”,它們無法將今天的“愛麗絲”與昨天的“愛麗絲”聯絡起來,更無法從“每天都喝咖啡”這個重複的行為中,提煉出“愛麗絲喜歡喝咖啡”這一條寶貴的知識。這種無法積累經驗、形成長期記憶的缺陷,是阻礙AI從一個“工具”進化為一個真正“夥伴”的根本瓶頸。這引出了一個直指通用人工智慧核心的終極拷問:我們能否創造一個AI,讓它像人類一樣,擁有一個持續不斷、自動更新的長期記憶系統?讓記憶不再是“塞進去”的資料庫,而是從連續的生命體驗中“生長出來”的知識森林? 這篇來自字節跳動Seed團隊的石破天驚之作——M3-Agent,正是對這一宏偉藍圖的勇敢探索。第二部分:核心洞見 —— 一位會寫“生命日誌”的AI私家偵探M3-Agent的核心洞見,可以用一個精妙絕倫的比喻來詮釋:一位永不疲倦的、會為世界撰寫“生命日誌”的AI私家偵探。這位偵探的桌上,釘著一塊巨大的軟木板,這就是它的長期記憶(Long-Term Memory)。它的工作分為兩個永不間斷的平行流程:1. 日誌記錄員(Memorization Workflow):這位記錄員通過一個微型攝影機和麥克風,持續不斷地觀察著世界。它的工作不是簡單地把錄影帶堆在倉庫裡,而是進行精細的情報整理:撰寫“案件快照”(Episodic Memory):它將每30秒的見聞,寫成一張張詳細的快照卡片。“8:00 AM,目標人物愛麗絲<face_1>拿起咖啡杯,說‘早上沒這個可不行’。”提煉“人物檔案”(Semantic Memory):更重要的是,它會從這些快照中提煉出更高層次的情報,並更新到軟木板上的人物檔案中。“從多日觀察來看,愛麗絲有喝早咖啡的習慣。”;“通過聲音<voice_2>和面孔<face_1>的比對,確認為同一人,進行檔案合併。”2. 案件分析師(Control Workflow):當接到一個指令(“給愛麗絲準備她最喜歡的早餐飲品”)時,這位分析師登場了。他不會大海撈針般地翻閱所有錄影帶,而是:在軟木板上進行“線索串聯”:他首先在軟木板上搜尋關鍵詞“愛麗絲”、“早上”、“飲品”。發現知識缺口並二次搜尋:他找到了“喝早咖啡”的記錄,但“最喜歡”這個詞無法確認。於是他發起第二輪、更精確的搜尋:“愛麗絲”對“咖啡”發表過什麼評論?形成完整推理鏈平行動:他找到了那句“早上沒這個可不行”,推理出咖啡對她至關重要。最終,他得出結論,並下達指令:“準備一杯咖啡”。這個雙流程、雙記憶的系統,其革命性在於,它讓AI的記憶系統從一個被動查詢的“資料庫”,進化成了一個主動建構、持續生長的“知識圖譜”。第三部分:架構解剖:一個記憶與控制的優雅雙循環M3-Agent的架構,如論文圖1所示,是一個優雅的雙循環系統,由記憶和控制兩大核心支柱構成。1. 記憶的基石:實體為心的多模態圖譜M3-Agent的長期記憶,並非簡單的文字儲存,而是一個以實體(Entity)為節點、以關係(Relationship)為邊的多模態知識圖譜。每個節點都擁有如論文表3所示的豐富屬性:這個圖譜的核心在於實體的一致性。通過內建的人臉識別和聲紋識別工具,M3-Agent能將不同時間、不同場景下出現的同一個人的面孔(<face_1>)和聲音(<voice_2>)關聯起來,並在語義記憶中生成一條關鍵的邊:Equivalence: <face_1>, <voice_2>。這解決了困擾多模態Agent最核心的難題:如何知道視訊裡的“他”和音訊裡的“他”是同一個人?2. 控制的核心:迭代式推理策略模型與負責“記錄”的記憶模型(基於Qwen2.5-Omni)不同,負責“思考”的控制模型是一個純語言模型(基於Qwen3),它扮演著策略模型的角色。它的任務是:給定一個問題和從記憶中檢索到的資訊,決定下一步是繼續搜尋([Search])還是直接回答([Answer])。這種迭代式推理的能力,是通過強化學習訓練得來的,使其遠比傳統的單輪RAG更為強大和靈活。第四部分:技術細節與工作流:RL如何賦能“思考”?M3-Agent的“控制”工作流,是其另一個核心創新。它摒棄了傳統RAG(檢索增強生成)的一問一答模式,引入了強化學習(RL)來訓練一個能夠進行多輪迭代式推理的策略模型 。如演算法1所示,當接到一個問題  時,Agent會執行最多  輪的“思考-行動”循環:第一輪:模型接收問題,發現資訊不足,決定輸出一個動作和內容:Action: [Search], Content: "愛麗絲的身份ID是什麼?"。記憶檢索:系統執行搜尋,從記憶圖譜中返回相關資訊:“CLIP_4: 愛麗絲的名字是<character_3>”。第二輪:模型將返回的記憶作為新的上下文,再次進行推理。它發現知道了ID但還不知道答案,於是決定進行下一步搜尋:Action: [Search], Content: "<character_3>早上喜歡喝什麼?"。循環往復:這個過程不斷重複,直到模型認為上下文中已經包含了足夠的資訊來回答最初的問題。最終回答:在最後一輪,模型被強制要求輸出Action: [Answer],並給出最終答案。為了讓模型學會如何進行高效的、有邏輯的連續搜尋,作者採用了DAPO(Direct Advantage Policy Optimization),一種先進的強化學習演算法。其最佳化目標可以被概括為:人話解讀: 這個公式的核心思想是:對於一個完整的、由多輪搜尋組成的推理軌跡 ,我們會先根據最終答案的正確性給予一個總獎勵 (答對為1,答錯為0)。然後,我們將這個獎勵轉化為每一步行動的優勢值 (即,採取這一步搜尋,對最終答對問題有多大“好處”)。最後,通過最佳化這個目標函數,模型會學會更頻繁地採取那些能夠導向高獎勵軌跡的搜尋行為,並抑制那些可能導向錯誤答案的無效搜尋。 這就是RL如何賦能M3-Agent學會“思考”的數學原理。第五部分:試金石:專為長期記憶打造的M3-Bench為了證明M3-Agent的卓越能力,作者們發現現有的長視訊問答(LVQA)基準存在不足:它們大多關注短期的動作識別或時空定位,而缺乏對需要長期記憶積累才能回答的高級認知能力的評測。為此,他們建構了一個全新的、極具挑戰性的評測基準——M3-Bench。它包含兩大部分:M3-Bench-robot:100個從機器人第一視角拍攝的、真實世界長視訊。M3-Bench-web:929個來自網路的、覆蓋更多樣化場景的長視訊。M3-Bench的真正創新之處在於其精心設計的問題類型(如論文表1所示),它們直擊長期記憶的核心能力:多細節推理 (Multi-detail Reasoning):需要從視訊中多個不連續的片段聚合資訊(“五個商品中,那個最貴?”)。多跳推理 (Multi-hop Reasoning):需要像偵探一樣,一步步追溯事件鏈條(“他們去了A店之後,下一站去了那裡?”)。跨模態推理 (Cross-modal Reasoning):需要結合視覺(“他手裡拿著紅色的資料夾”)和聽覺(“他說‘機密檔案放這裡’”),才能得出正確答案。這個基準的建立,本身就是對該領域的一大貢獻,它為評測未來更高級的AI Agent提供了一把精準的“標尺”。第六部分:實驗的雄辯:資料如何證明“記憶”的力量?M3-Agent在M3-Bench以及另一個公開基準VideoMME-long上,與一系列強大的基線模型(包括基於Gemini-1.5-Pro和GPT-4o的Agent)進行了正面交鋒。1. 壓倒性的主體勝利如表5所示,M3-Agent在所有三個基準上都取得了最佳性能。相較於最強的基線模型(Gemini-GPT4o-Hybrid),M3-Agent的精準率在M3-Bench-robot上高出**6.7%,在M3-Bench-web上高出7.7%,在VideoMME-long上高出5.3%**。這定量地證明了其精心設計的架構和RL訓練的優越性。2. 消融研究:揭示成功的秘訣更具洞察的是論文中的消融實驗,它們揭示了M3-Agent成功的核心要素:語義記憶是靈魂:如果從記憶系統中移除“語義記憶”(只保留“情景記憶”),模型的性能會發生斷崖式下跌,在三個基準上分別暴跌17.1%、19.2%和13.1%。這雄辯地證明,簡單的事件記錄遠遠不夠,從經驗中提煉知識才是智能的關鍵。強化學習是“點睛之筆”:如果將RL訓練的控制模型,換成一個簡單用提示工程(Prompting)驅動的模型,性能同樣會大幅下降(在M3-Bench-robot上下降10.0%)。這證明了讓Agent學會如何“思考”和“搜尋”,遠比給它一個好的“範本”要有效得多。多輪推理不可或缺:如果限制Agent只能進行單輪推理,其性能也會顯著降低。這證明了面對複雜問題時,迭代式地逼近答案的能力是至關重要的。第七部分:即插即用的研究思路 (Plug-and-Play Research Ideas)M3-Agent為多模態和Agent研究開闢了一片廣闊的新大陸。以下是幾個可以直接在其基礎上展開的前沿研究方向:“記憶剪輯師”:研究長期記憶的遺忘與壓縮機制Idea: 人類的記憶並非無限。M3-Agent的記憶圖譜會隨著時間無限增長,最終會面臨儲存和檢索效率的瓶頸。可以設計一個“記憶剪輯師”模組,定期對記憶圖譜進行壓縮和遺忘。例如,利用LLM的總結能力,將大量相關的、瑣碎的情景記憶,融合成一條更凝練的、新的語義記憶(“在過去的一個月裡,愛麗絲每周一、三、五早上都喝了咖啡”),然後可以安全地“遺忘”掉那些原始的、低價值的記憶節點。這正是通往可擴展的、真正的“終身學習”Agent的關鍵。“主動提問者”:從被動記憶到主動求知Idea: 當前的M3-Agent是一個被動的觀察者。一個更高級的智能體應該具備主動求知的能力。可以研究一種基於“資訊熵”或“好奇心”的驅動機制。當Agent在建構記憶時,如果發現某個關鍵資訊缺失(例如,知道一個人的臉,但從未聽過他的聲音),它可以主動發起提問:“你好,我們之前見過,但我還不知道你的名字,可以告訴我嗎?”。這將把Agent從一個“記錄員”提升為一個“學習者”。“集體記憶”:建構多Agent共享的記憶網路Idea: 如果一個家庭裡有多個機器人助手,它們是否應該擁有各自獨立的記憶,還是一個共享的“集體記憶”?可以探索分佈式、多Agent的記憶圖譜。挑戰在於如何處理來自不同視角、可能相互矛盾的觀測,以及如何設計一個高效的“記憶同步與衝突解決”協議。一個成功的集體記憶系統,將能讓一組機器人協作完成極其複雜的任務(“你去樓下看看媽媽回來了沒有,她昨天說今天會帶草莓回來”)。第八部分:終章 —— 不僅僅是記憶,更是世界模型的“以小見大”M3-Agent的發佈,其意義遠不止於“讓AI擁有了記憶”。它更深刻的啟示在於,它為我們揭示了一條通往更通用、更持續的世界模型的全新路徑。傳統的視訊世界模型,試圖在一個巨大的神經網路中,端到端地、隱式地對世界進行建模。而M3-Agent則另闢蹊徑,它證明了通過一個顯式的、結構化的、語言與多模態特徵混合的記憶圖譜,我們同樣可以建構一個功能強大的世界模型。這種“以小見大”、“積少成多”的建構方式,可能更具可解釋性、可擴展性,也更接近人類認知世界的真實過程。我們正在見證AI Agent從一個執行指令的“工具人”,向一個能夠與我們共同生活、共同成長、擁有共同記憶的“夥伴”演進的歷史性轉折點。M3-Agent所開啟的,是一個關於機器認知、終身學習和人機共生的全新篇章。第九部分:深入探索與思想碰撞 (Further Exploration & Discussion)這篇文章的解讀僅僅是一個開始。對於任何希望深入探索或將這些思想付諸實踐的研究者,以下資源和問題或許能為您點亮前路。1. 核心資源傳送門 (Essential Resources)論文原文 (ArXiv):https://arxiv.org/abs/2508.09736v1官方程式碼與資料 (GitHub):https://github.com/bytedance-seed/m3-agent項目首頁:https://m3-agent.github.io2. 一個值得深思的開放性問題 (A Lingering Question)M3-Agent的記憶完全建立在其第一人稱的、不完美的感知之上。人類擁有修正錯誤記憶、辨別資訊真偽的能力,但M3-Agent如何處理“記憶污染”的問題?例如,如果Agent錯誤地將愛麗絲的聲音識別為了鮑勃的聲音,並記錄了一條錯誤的Equivalence關係,這個錯誤可能會像病毒一樣,在記憶圖譜中污染所有後續的推理。一個核心的思辨點是:一個擁有長期記憶的AI,是否必須配套一個同樣強大的“事實核查與記憶修正”子系統? 這個子系統應該如何設計?是依靠邏輯一致性自檢,還是需要外部“真相源”的干預?這個問題的答案,將直接決定這類擁有長期記憶的Agent,在真實世界中的可靠性和安全性。 (組會講什麼-AI論文精讀)