#SOTA
最新智能體自動操作手機電腦,10個榜單開源SOTA全拿下
能自動操作手機、電腦的智能體新SOTA來了。通義實驗室推出Mobile-Agent-v3智能體框架,在手機端和電腦端的多個核心榜單上均取得開源最佳。它不僅能做互動介面的問答、描述、定位,也能一條指令獨立完成複雜任務,甚至可以在多智能體框架中無縫扮演不同角色。PC+Web演示:在Edge瀏覽器中搜尋阿里巴巴的股價。然後在WPS中建立一個新表格,在第一列填寫公司名稱,在第二列填寫股價。PC演示:建立一個新的空白簡報,然後在第一張幻燈片中以藝術字的形式插入一段文字,內容為“阿里巴巴”。Web演示:去嗶哩嗶哩看雷軍的視訊,然後給第一個視訊點贊。手機演示:請幫我在小紅書上搜尋濟南旅遊攻略,按收藏數排序,並保存第一條筆記。請幫我在攜程上查詢濟南大明湖風景區的詳細資訊,包括地址、票價等。自動化操作手機、電腦成為了各家多模態大模型攻堅的主戰場。但是現有的模型,要麼被訓練成一個專用模型,輸入輸出格式固定,沒有多面能力;要麼就是能力不夠強的通用模型,雖然能遵循指令,但實際執行總是磕磕絆絆。這次來自通義實驗室的Mobile-Agent團隊給出新穎的解決方案,訓練一個兼具基礎能力與推理泛化能力的圖形互動基礎模型(Foundational Agent)。它既能獨當一面,在AndroidWorld、OSWorld、ScreenSpot等10個主流GUI榜單中均取得了開源SOTA的水平;也能承擔對話、問答、定位、介面描述等基礎任務。自我進化軌跡生產基建 (Self-Evolving Trajectory Production)GUI基礎模型的訓練離不開大規模、高品質的軌跡資料。為此,通義MobileAgent團隊依託阿里雲強大的雲能力,建構了一整套覆蓋Android、Ubuntu、macOS、Windows的跨平台雲環境基礎設施。通過PyAutoGUI和ADB等工具,打通了模型輸出到系統執行的障礙,使得模型可以大規模平行地在隔離的雲端沙箱中進行任務執行和軌跡爬取。在雲環境基礎上,團隊設計了一套名為“Self-Evolving GUI Trajectory Production”的自動化資料生產鏈路,其核心是實現資料採集與模型最佳化的自動化閉環。它首先通過高品質任務生成模組(High-Quality Query Generation)產出豐富多樣的任務指令,再讓GUI-Owl模型在雲環境中執行(Roll-out)並爬取軌跡。軌跡正確性判斷模組(Trajectory Correctness Judgment)會對這些軌跡進行打分和篩選。對於模型難以完成的高難度任務,任務指南生成模組(Query-specific Guidance Generation)會基於成功案例或人工標註,提煉出關鍵步驟提示,幫助模型在下一輪嘗試中提高成功率。最終,這些經過層層篩選和最佳化的的高品質軌跡被用於模型的迭代訓練,形成一個不斷自我增強的飛輪。GUI知識 & 推理能力 Are All You NeedMobile-Agent團隊發現,建構通用的GUI基礎模型(Foundational Agent)的關鍵在於強大的GUI基礎知識以及魯棒的推理能力。前者保證模型有解決問題的基本功,後者保證模型能夠適應各種下游場景,無論是單打獨鬥,還是多智能體協同。一、精準的介面元素定位:讓AI“指那打那”要讓AI真正理解圖形介面,首先得讓它知道“每個元素在那、是什麼、怎麼用”。為此,團隊建構了兩類接地(grounding)任務資料:1. UI元素定位資料來源包括三部分:開源資料集 - 整合了UI-Vision、GUI-R1等多個公開GUI資料集。基於無障礙樹(A11y Tree)的資料合成 - 利用移動端和桌面端的無障礙資訊,提取UI元素的邊界框及其功能描述,並結合多模態大模型生成外觀與佈局描述。爬取PC截圖的密集定位 - 針對PC端標註資料稀缺的問題,團隊爬取大量介面截圖,採用SAM模型將圖像分割為多個子區域,再由多模態大模型在每個區域內進行細粒度接地,有效解決了PC介面元素密集、難以分割的痛點。為保證質量,所有標註結果均與Omniparser V2的UI檢測結果進行比對,過濾掉IoU低於0.5的噪聲框。同時,原始指令經由大模型重寫為更自然、任務導向的表達。2. 細粒度文字與字元接地(Fine-grained Text Grounding)針對文件類介面中文字精確定位的需求,團隊收集文件圖像,結合OCR工具提取文字內容及其空間坐標,建構出支援單詞甚至單字元級定位的資料集,使模型能夠準確響應“點選第三段第二行的‘提交’二字”這類精細指令。二、複雜任務規劃:教會AI“先想後做”面對長周期、跨應用的真實任務,模型不僅需要“看得懂”,更要“想得清”。為此,團隊從兩個維度建構任務規劃資料:從歷史軌跡中提煉經驗 - 基於已有的成功操作軌跡,對每一步頁面跳轉進行細粒度描述,通過大模型整理成結構化的“任務執行手冊”。從大規模預訓練語言模型中蒸餾知識 - 收集主流應用列表,由人工或模型生成複雜任務,交由Qwen3-235B等超大規模語言模型生成詳細執行計畫,再經整合清洗,形成高品質的任務規劃資料集。三、動作語義理解:掌握“操作如何改變介面”一個優秀的介面智能體,必須理解“動作”與“狀態變化”之間的因果關係。基於大量真實操作軌跡,團隊建構了“操作前”/“操作後”的截圖對,核心任務是讓模型根據介面變化,反向推斷出中間發生的操作——包括動作類型和具體參數。這類資料直接來自離線採集的軌跡,真實可靠,幫助模型建立起『視覺差異 → 使用者行為』的因果對應能力。強化學習進階:讓AI在真實互動中“越練越強”僅靠離線SFT資料還不夠,模型需要在與環境的真實互動中持續學習,才能解決長尾問題、提升決策魯棒性。為此,Mobile-Agent團隊引入強化學習(RL),並建構了一套高效、靈活的訓練基礎設施:1 解耦式、可調控的Rollout機制:將經驗生成與策略更新完全解耦。系統既可嚴格按策略同步運行,也可非同步執行,同時Rollout服務可獨立部署在專用於推理的硬體上,在不犧牲學習質量的前提下,顯著提升訓練吞吐效率。2 統一的多工介面:無論是單步推理還是多輪互動的複雜任務,都通過統一的外掛介面接入系統,極大降低了新環境的接入成本。3 獨創的軌跡感知相對策略最佳化(TRPO)演算法:直面挑戰:GUI任務的獎勵訊號通常是稀疏且延遲的(Sparse & Delayed),這給傳統的RL帶來了巨大的信用分配難題(Credit Assignment Problem)。解決方案:TRPO演算法在一次任務結束後,對整條軌跡計算一個總獎勵(成功+1,失敗0,格式錯誤-0.5)。然後,通過歸一化的優勢估計(Normalized Advantage Estimate),將這個獎勵訊號穩定且均勻地分配給軌跡中的每一步操作。關鍵創新:**引入了基於任務ID的成功軌跡回放池(Replay Buffer)。 當某個任務的線上探索(Rollout)全部失敗時,系統會從池中取出一個歷史成功軌跡替換掉其中一個失敗樣本,確保每個訓練批次都有正向訊號**,極大提升了學習效率和穩定性。通過這套先進的RL框架,GUI-Owl在動態環境中的表現得到巨大提升,在OSWorld-Verified基準測試中,成功率從27.1%穩定提升至34.9%。多智能體協同:讓AI團隊協作完成複雜任務團隊在GUI-Owl強大能力基礎上,進一步推出Mobile-Agent-v3,一個支援知識演進、任務規劃、子任務執行與反思推理的多智能體協作框架。Mobile-Agent-v3由四位“特工”協同驅動,並且這四個角色均由同一個GUI-Owl模型扮演。Manager Agent負責全域戰略規劃。接到使用者指令後,它會先呼叫RAG模組檢索外部知識,然後將高階任務拆解為有序的子目標序列。在執行過程中,它持續接收反饋,動態調整計畫。Worker Agent負責執行操作。面對當前介面狀態,它選擇最合適的動作並執行,輸出包含推理過程、操作指令與意圖說明的完整行動元組(Action Tuple)。Reflector Agent負責事後復盤。每一步操作後,它都會比對Worker的預期結果與實際介面變化,判斷結果為 成功 或 失敗,並生成詳細的歸因分析。Notetaker Agent負責記憶沉澱。僅在成功操作後觸發,它會自動提取關鍵資訊——如驗證碼、訂單號等——存入長期記憶,供後續步驟使用。四者協同,形成一個閉環增強的自動化流水線:拆解 → 執行 → 檢查 → 記錄 → 調整 → 再執行。在Mobile-Agent-v3的架構下,AI不再盲目試錯,而是有計畫地行動、有依據地修正、有記憶地推進。實驗結果團隊還開源了全新的全非同步、軌跡級強化學習框架,並提出獨創的軌跡感知相對策略最佳化(TRPO)演算法,在OSWorld動態環境中將成功率提升近8個百分點,展現出自進化潛力。在遇到複雜任務時,端到端模型往往力不從心,這時就需要多智能體框架來幫大模型理清工作流程。然而GUI專用模型因指令遵循能力弱,很難用於多智能體框架。GUI-Owl通過對推理資料的深度訓練,使其能在一個模型內無縫扮演規劃者、執行者、反思者、記錄員等多種角色。 配合全新的Mobile-Agent-v3框架,在真實環境評測中,帶來了高達7~8個百分點的性能提升。(量子位)
Qwen新開源,把AI生圖裡的文字SOTA拉爆了
現在,圖像中的文字生成都進化到這種程度了,還是開源的。通義模型家族,剛剛又雙叒開源了,這次是Qwen-Image——一個200億參數、採用MMDiT架構的圖像生成模型。這也是通義千問系列中首個圖像生成基礎模型。看Qwen-Image生成的畫面就知道,它主打的能力之一就是複雜文字渲染。像這張書店暢銷書架的圖片,包含複雜的圖文混合佈局,文字的精準度、契合度,甚至於隨書籍擺放角度形成的變化,都挑不出來什麼錯。生成海報,也是不在話下。照例,通義千問團隊把模型、詳細技術報告一口氣都放了出來,Qwen-Image的能力也第一時間上線QwenChat,現在就能在官網上手體驗。實測Qwen-ImageDemo很優秀,實測效果又會如何?Round 1:情境插畫測試提示詞是:李白站在窗前寫“床前明月光”,窗外明月當空,在屋內投下柔和的光線,書桌上有酒和書籍,整體風格古典好傢伙,感覺可以直接給語文課本用了。“床前明月光”這幾個字不是直愣愣P上去的,跟畫面融合得相當不錯。畫面細節方面,也很有氛圍感。硬要挑刺,就是AI有點分不清屋內屋外了(doge)。Round 2:生成PPT、海報官方Demo中有直接生成PPT的示例,我們也來測試一下,提示詞是:一張企業級高品質PPT頁面圖像,整體採用簡約現代的風格,主題顏色是藍綠色,背景用線條和粒子營造科技感,頁面頂部左側清晰展示QbitAI的標誌。主標題位於畫面中央偏上,文字內容為“量子位AI Coding線下沙龍”,字型規整簡介,突出技術感。主標題下方放兩張圖,一張是線下沙龍現場照片,另一張體現AI程式設計生成結果是這樣的:嚴格來看,右上角有小小的瑕疵,左下角圖中圖的文字也不是那麼準確,但整體效果確實很頂,主體文字、圖中圖都能符合提示詞的要求。那麼如果提示詞更模糊更簡單,Qwen-Image是否還能給出高品質結果?測試提示詞:製作一張海報,主題是:通義千問開源Qwen-Image文字精準,也體現了AI畫畫的元素,沒毛病。Round 3:商品宣傳圖最後,再來測測Qwen-Image的“賣貨”技能。提示詞:面包店的商品宣傳圖,畫面主體是面包和奶油蛋糕。圖中文字展現“美味”、“動物奶油”、“開啟美好一天”,字型採用花體字,整體風格輕鬆活潑。整體採用暖色調有點驚喜的是,Qwen-Image把“動物奶油”這幾個字精準對應到了奶油蛋糕上。需要說明的是,以上實測,均為一次出圖。可以看到,Qwen-Image對提示詞的理解都很到位,提示詞給得越精準,執行的效果細節越豐富,其中文字渲染能力,確如官方所說,能做到高保真輸出。你給這個效果打幾分?性能SOTA文字渲染能力之外,Qwen-Image還具備一致性圖像編輯能力,支援風格遷移、增刪改、細節增強、文字編輯、人物姿態調整等多種操作。總結起來,其主要特性包括:複雜文字渲染能力: Qwen-Image在複雜文字渲染方面表現出色,支援多行佈局、段落級文字生成以及細粒度細節呈現。無論是英語還是中文,均能實現高保真輸出。一致性的圖像編輯能力:通過增強的多工訓練範式,Qwen-Image在編輯過程中能出色地保持編輯的一致性。性能SOTA:在多個公開基準測試中的評估表明,Qwen-Image在各類生成與編輯任務中均獲得SOTA。性能表現方面,通義千問團隊在多個公開基準上對Qwen-Image進行了評估,包括用於通用圖像生成的GenEval、DPG和OneIG-Bench,以及用於圖像編輯的GEdit、ImgEdit和GSO。在所有基準測試中,Qwen-Image都實現了SOTA。在用於文字渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明,Qwen-Image在文字渲染方面表現尤為出色。特別是在中文文字渲染上,大幅領先現有的最先進模型。從技術報告透露的細節來看,為瞭解決複雜文字渲染難題,通義千問團隊在資料處理、訓練策略方面都做出了改進。訓練方面,Qwen-Image採用漸進式訓練策略,從非文字到文字渲染,從簡單到複雜文字輸入,逐步過渡到段落級描述,這種課程學習方法大大增強了模型的原生文字渲染能力。更多細節,可戳文末連結,查看官方技術報告。One More Thing官方放出的示例中,還有這麼一張有意思的PPT。提示詞中的關鍵字是“通義千問視覺基礎模型”。莫非是新的劇透?這個8月真是有意思了~ModelScope:https://modelscope.cn/models/Qwen/Qwen-ImageHugging Face:https://huggingface.co/Qwen/Qwen-ImageGitHub:https://github.com/QwenLM/Qwen-Image技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf實測地址:chat.qwen.ai (量子位)
阿里震撼發佈,32B的Qwen2.5,開發者福音!實測:AI可以幫抓小偷了!阿里撞車DS再次坐實“AI汪峰”;網友:美國模型完了
阿里今天發了Qwen2.5-VL的32B版本,達到同等規模的SOTA模型,堪稱開發者福音!千問接連兩三次的模型發佈時間都不太湊巧。今日與DeepSeek V3的更新撞車,而上次發的QwQ-32B以輕量推理模型擊敗了DeepSeek R1,但風頭完全被Manus搶走了!連網友都直呼阿里是AI屆汪峰。不過話說回來,Qwen2.5-VL-32B這個模型還是很值得關注,作為阿里放出的第二大視覺模型,性能甚至超過了更大規模的 Qwen2-VL-72B-Instruct!主要有以下三方面優勢:回覆更符合人類主觀偏好:調整了輸出風格,使回答更加詳細、格式更規範,並更符合人類偏好。數學推理能力:複雜數學問題求解的精準性顯著提升。圖像細粒度理解與推理:在圖像解析、內容識別以及視覺邏輯推導等任務中表現出更強的精準性和細粒度分析能力。從性能上看,Qwen2.5-VL-32B不僅在專長的視覺能力上一騎絕塵:連純文字能力,都達到了同規模模型的SOTA等級:無論是從開發者的本地部署需求出發,還是32B所做的架構更新,都有可圈可點之處。阿里大佬Binyuan Hui表示這個模型尺寸就是為開發人員準備的。在X上找資料的時候,我們甚至發現網友曾向千問團隊大佬隔空喊話。千問的反饋速度可以啊,網友這波許願成功!海外網友也是對該模型讚美有加,經過實測,該模型在識別物體、分析視覺效果、掃描等方面令人印象深刻!甚至能理解一小時的視訊!現在,Qwen2.5-VL-32B已經開源,大家可以在Qwen網頁版快速試用:網頁版:https://chat.qwen.ai/HF:https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct加上DeepSeek的更新,今天可以說是中國開源模型的Big Day。一位網友在Hacker News上留言說:很快我就不會再使用任何美國模型了,而是 100% 採用中國的開源模型。(美)基礎模型公司完了,只有賣鏟子的(如 Nvidia、基礎設施公司)和產品公司會贏。案例實測:Qwen2.5-VL-32B可以做什麼雖然Qwen2.5-VL-32B並沒有類似R1的長推理能力,但是其視覺推理仍然表現出色!先來看一個阿里blog裡的demo案例:使用者將高速的限速牌拍給了AI,並問到:我駕駛一輛大卡車行駛在這條路上,現在是 12 點鐘。我能在 13 點之前到達 110 公里多遠的地方嗎?這個案例很有生活感了。就是咱們平時需要用的AI能力。然後AI就開始提取圖片的資訊,開始幫人吭哧吭哧地計算了。最後表示:目標是 13:00 之前到達。然而,根據計算,你將在 13:06 抵達,已經超過了 13:00。知乎網友@北方的郎,以超市的智能預警系統為例,對Qwen2.5-VL-32B進行了一把實測。感覺攝影機配個模型就可以出去打工了。先是測試了一個形跡可疑的男人:模型給出了通知安保的建議。然後又用了一張正常的超市圖進行測試,還是做出了正確識別!再來看一下Qwen2.5-VL-32B理解視訊的能力,據網友實測,本地部署後能做長達一小時的視訊理解。不過在網頁端,則支援10分鐘以內的短影片。小編使用之前看華為Pura的發佈會錄屏片段,詢問下智能助手小藝是如何在使用者的語音指令下,為觀看的B站視訊一鍵三連的:Qwen2.5-VL-32B的響應非常絲滑,而且主要的內容都get到了。不過很可惜的是,我希望AI識別出來這是目前AI大熱的智能體方向,並基於此出發談談技術實現,這一點AI稍弱一些。既要又要:更聰明、更輕量的模型是怎樣煉成的?那麼阿里是怎麼做到讓32B模型如此優秀的呢?HF中給出了一些Qwen2.5-VL的技術細節,可以猜測這仍然是32B模型進化的方面。讓 AI 更懂視訊:動態解析度與影格率訓練為了讓 AI 更好地理解視訊,Qwen2.5-VL 不僅能調整解析度,還在時間維度上引入了動態影格率(FPS)採樣。這樣一來,模型可以在不同的採樣速率下分析視訊,適應各種播放速度和場景。與此同時,mRoPE 也在時間維度上進行了升級——通過IDs(識別碼)和絕對時間對齊,模型學會了理解時間序列和速度變化,甚至能精準定位關鍵時刻,讓視訊分析更智能。高效精簡的視覺編碼器,讓推理更快在視覺處理方面,這一版本的 Qwen2.5-VL 也進行了最佳化。它在 ViT(視覺變換器) 中巧妙地加入了窗口注意力機制,顯著提升了訓練和推理的效率。One More Thing:千問即將支援MCP今天打開Qwen的網頁版,還發現千問已經計畫支援MCP!給不太熟悉MCP的朋友科普一句,這個開源協議由Anthropic去年年底提出,旨在統一大型語言模型(LLM)與外部資料來源和工具之間的通訊方式。簡單來說,MCP就像AI界的USB-C介面,讓AI系統能更方便地連接各種資料來源和功能模組,實現即插即用。對於千問來說,接入MCP意味著它們可以更高效地獲取和處理外部資訊,提升理解和決策能力。看來,阿里在智能體方向有了清晰的藍圖!希望阿里下次發重磅更新的時候,能有運氣選到一個好時機,有實力的同時,也能獲得值得的口碑和聲量。 (51CTO技術堆疊)