能自動操作手機、電腦的智能體新SOTA來了。
通義實驗室推出Mobile-Agent-v3智能體框架,在手機端和電腦端的多個核心榜單上均取得開源最佳。
它不僅能做互動介面的問答、描述、定位,也能一條指令獨立完成複雜任務,甚至可以在多智能體框架中無縫扮演不同角色。
PC+Web演示:在Edge瀏覽器中搜尋阿里巴巴的股價。然後在WPS中建立一個新表格,在第一列填寫公司名稱,在第二列填寫股價。
PC演示:
建立一個新的空白簡報,然後在第一張幻燈片中以藝術字的形式插入一段文字,內容為“阿里巴巴”。
Web演示:
去嗶哩嗶哩看雷軍的視訊,然後給第一個視訊點贊。
手機演示:
請幫我在小紅書上搜尋濟南旅遊攻略,按收藏數排序,並保存第一條筆記。
請幫我在攜程上查詢濟南大明湖風景區的詳細資訊,包括地址、票價等。
自動化操作手機、電腦成為了各家多模態大模型攻堅的主戰場。但是現有的模型,要麼被訓練成一個專用模型,輸入輸出格式固定,沒有多面能力;要麼就是能力不夠強的通用模型,雖然能遵循指令,但實際執行總是磕磕絆絆。
這次來自通義實驗室的Mobile-Agent團隊給出新穎的解決方案,訓練一個兼具基礎能力與推理泛化能力的圖形互動基礎模型(Foundational Agent)。
它既能獨當一面,在AndroidWorld、OSWorld、ScreenSpot等10個主流GUI榜單中均取得了開源SOTA的水平;也能承擔對話、問答、定位、介面描述等基礎任務。
自我進化軌跡生產基建 (Self-Evolving Trajectory Production)
GUI基礎模型的訓練離不開大規模、高品質的軌跡資料。為此,通義MobileAgent團隊依託阿里雲強大的雲能力,建構了一整套覆蓋Android、Ubuntu、macOS、Windows的跨平台雲環境基礎設施。通過PyAutoGUI和ADB等工具,打通了模型輸出到系統執行的障礙,使得模型可以大規模平行地在隔離的雲端沙箱中進行任務執行和軌跡爬取。
在雲環境基礎上,團隊設計了一套名為“Self-Evolving GUI Trajectory Production”的自動化資料生產鏈路,其核心是實現資料採集與模型最佳化的自動化閉環。
它首先通過高品質任務生成模組(High-Quality Query Generation)產出豐富多樣的任務指令,再讓GUI-Owl模型在雲環境中執行(Roll-out)並爬取軌跡。
軌跡正確性判斷模組(Trajectory Correctness Judgment)會對這些軌跡進行打分和篩選。
對於模型難以完成的高難度任務,任務指南生成模組(Query-specific Guidance Generation)會基於成功案例或人工標註,提煉出關鍵步驟提示,幫助模型在下一輪嘗試中提高成功率。
最終,這些經過層層篩選和最佳化的的高品質軌跡被用於模型的迭代訓練,形成一個不斷自我增強的飛輪。
GUI知識 & 推理能力 Are All You Need
Mobile-Agent團隊發現,建構通用的GUI基礎模型(Foundational Agent)的關鍵在於強大的GUI基礎知識以及魯棒的推理能力。前者保證模型有解決問題的基本功,後者保證模型能夠適應各種下游場景,無論是單打獨鬥,還是多智能體協同。
要讓AI真正理解圖形介面,首先得讓它知道“每個元素在那、是什麼、怎麼用”。為此,團隊建構了兩類接地(grounding)任務資料:
1. UI元素定位
資料來源包括三部分:
開源資料集 - 整合了UI-Vision、GUI-R1等多個公開GUI資料集。
基於無障礙樹(A11y Tree)的資料合成 - 利用移動端和桌面端的無障礙資訊,提取UI元素的邊界框及其功能描述,並結合多模態大模型生成外觀與佈局描述。
爬取PC截圖的密集定位 - 針對PC端標註資料稀缺的問題,團隊爬取大量介面截圖,採用SAM模型將圖像分割為多個子區域,再由多模態大模型在每個區域內進行細粒度接地,有效解決了PC介面元素密集、難以分割的痛點。
為保證質量,所有標註結果均與Omniparser V2的UI檢測結果進行比對,過濾掉IoU低於0.5的噪聲框。同時,原始指令經由大模型重寫為更自然、任務導向的表達。
2. 細粒度文字與字元接地(Fine-grained Text Grounding)
針對文件類介面中文字精確定位的需求,團隊收集文件圖像,結合OCR工具提取文字內容及其空間坐標,建構出支援單詞甚至單字元級定位的資料集,使模型能夠準確響應“點選第三段第二行的‘提交’二字”這類精細指令。
面對長周期、跨應用的真實任務,模型不僅需要“看得懂”,更要“想得清”。為此,團隊從兩個維度建構任務規劃資料:
從歷史軌跡中提煉經驗 - 基於已有的成功操作軌跡,對每一步頁面跳轉進行細粒度描述,通過大模型整理成結構化的“任務執行手冊”。
從大規模預訓練語言模型中蒸餾知識 - 收集主流應用列表,由人工或模型生成複雜任務,交由Qwen3-235B等超大規模語言模型生成詳細執行計畫,再經整合清洗,形成高品質的任務規劃資料集。
一個優秀的介面智能體,必須理解“動作”與“狀態變化”之間的因果關係。基於大量真實操作軌跡,團隊建構了“操作前”/“操作後”的截圖對,核心任務是讓模型根據介面變化,反向推斷出中間發生的操作——包括動作類型和具體參數。
這類資料直接來自離線採集的軌跡,真實可靠,幫助模型建立起『視覺差異 → 使用者行為』的因果對應能力。
強化學習進階:讓AI在真實互動中“越練越強”
僅靠離線SFT資料還不夠,模型需要在與環境的真實互動中持續學習,才能解決長尾問題、提升決策魯棒性。
為此,Mobile-Agent團隊引入強化學習(RL),並建構了一套高效、靈活的訓練基礎設施:
1 解耦式、可調控的Rollout機制:將經驗生成與策略更新完全解耦。系統既可嚴格按策略同步運行,也可非同步執行,同時Rollout服務可獨立部署在專用於推理的硬體上,在不犧牲學習質量的前提下,顯著提升訓練吞吐效率。
2 統一的多工介面:無論是單步推理還是多輪互動的複雜任務,都通過統一的外掛介面接入系統,極大降低了新環境的接入成本。
3 獨創的軌跡感知相對策略最佳化(TRPO)演算法:
通過這套先進的RL框架,GUI-Owl在動態環境中的表現得到巨大提升,在OSWorld-Verified基準測試中,成功率從27.1%穩定提升至34.9%。
多智能體協同:讓AI團隊協作完成複雜任務
團隊在GUI-Owl強大能力基礎上,進一步推出Mobile-Agent-v3,一個支援知識演進、任務規劃、子任務執行與反思推理的多智能體協作框架。Mobile-Agent-v3由四位“特工”協同驅動,並且這四個角色均由同一個GUI-Owl模型扮演。
Manager Agent負責全域戰略規劃。接到使用者指令後,它會先呼叫RAG模組檢索外部知識,然後將高階任務拆解為有序的子目標序列。在執行過程中,它持續接收反饋,動態調整計畫。
Worker Agent負責執行操作。面對當前介面狀態,它選擇最合適的動作並執行,輸出包含推理過程、操作指令與意圖說明的完整行動元組(Action Tuple)。
Reflector Agent負責事後復盤。每一步操作後,它都會比對Worker的預期結果與實際介面變化,判斷結果為 成功 或 失敗,並生成詳細的歸因分析。
Notetaker Agent負責記憶沉澱。僅在成功操作後觸發,它會自動提取關鍵資訊——如驗證碼、訂單號等——存入長期記憶,供後續步驟使用。
在Mobile-Agent-v3的架構下,AI不再盲目試錯,而是有計畫地行動、有依據地修正、有記憶地推進。
實驗結果
團隊還開源了全新的全非同步、軌跡級強化學習框架,並提出獨創的軌跡感知相對策略最佳化(TRPO)演算法,在OSWorld動態環境中將成功率提升近8個百分點,展現出自進化潛力。
在遇到複雜任務時,端到端模型往往力不從心,這時就需要多智能體框架來幫大模型理清工作流程。然而GUI專用模型因指令遵循能力弱,很難用於多智能體框架。GUI-Owl通過對推理資料的深度訓練,使其能在一個模型內無縫扮演規劃者、執行者、反思者、記錄員等多種角色。 配合全新的Mobile-Agent-v3框架,在真實環境評測中,帶來了高達7~8個百分點的性能提升。
(量子位)