Mobile-Agent-v3:Foundamental Agents for GUI Automation

发表于2025-08-27|更新于2025-08-27|Agent

|浏览量:

Mobile-Agent-v3: Foundamental Agents for GUI Automation

https://arxiv.org/pdf/2508.15144

以下是对论文《Mobile-Agent-v3: Foundational Agents for GUI Automation》的精读报告，重点关注其实现方式与创新点。

一、研究概述

1.1 研究背景与目标

背景：GUI（图形用户界面）智能代理旨在自动化跨设备（PC、移动端、Web）的用户任务，提升人机交互效率。
问题：现有方法要么依赖闭源模型（泛化差），要么是端到端模型（指令遵循差、多代理兼容性弱）。
目标：提出一个开源、端到端、多模态基础模型（GUI-Owl），并在此基础上构建一个多代理协作框架（Mobile-Agent-v3），实现高效、可扩展的GUI自动化。

二、核心贡献与创新点

2.1 GUI-Owl：统一的多模态基础模型

基础架构：基于 Qwen2.5-VL，通过大规模GUI交互数据后训练，统一了感知、推理、规划、决策与 grounding 能力。
端到端交互：将GUI交互建模为多步决策过程，支持历史上下文压缩、推理-结论分离输出，提升长序列任务处理能力。
多代理兼容：既可独立运行，也可作为专家模块嵌入多代理系统（如Mobile-Agent-v3）。

2.2 自演进轨迹数据生产框架（Self-Evolving Trajectory Production）

🚀 创新点1：大规模云端虚拟环境基础设施

构建跨平台（Android、Ubuntu、macOS、Windows）的云虚拟环境，支持动态、多样化的交互场景。
减少人工标注依赖，实现数据自动生成与质量评估。

🚀 创新点2：高质量查询生成

移动端：基于人工标注的DAG（有向无环图）建模App导航流，结合LLM生成多约束查询。
桌面端：结合人工标注与LLM生成，覆盖原子操作（点击、拖拽）与复杂软件操作路径。

🚀 创新点3：轨迹正确性判断模块

双层级评估：
- Step-Level Critic：分析每步动作的前后状态，输出分析、总结与分类（GOOD/NEUTRAL/HARMFUL）。
- Trajectory-Level Critic：双通道（文本+多模态）评估整条轨迹，通过共识机制判断正确性。

🚀 创新点4：查询特定引导生成

利用成功轨迹生成步骤描述，通过LLM总结关键步骤，形成针对性引导，提升难样本处理能力。

2.3 多样化基础能力构建

🔹 Grounding 能力

从多源数据（开源数据集、A11y树、爬虫图像）构建UI元素定位与细粒度文本定位数据。
使用SAM分割PC图像，提升密集区域定位精度。

🔹 任务规划能力

从历史成功轨迹中提炼页面转换描述，构建任务执行手册。
从大语言模型（如Qwen3-235B）中蒸馏复杂多应用任务规划知识。

🔹 动作语义理解

构建“前后状态-动作”配对数据，要求模型预测动作并描述其效果。
通过多轮投票筛选高质量描述。

2.4 增强的推理能力构建

🔸 Offline Hint-Guided Rejection Sampling

使用提示引导VLM生成推理内容，通过动作一致性筛选有效推理。

🔸 多代理框架蒸馏

收集Mobile-Agent-v3中各代理输出，通过LLM整合为统一推理内容，提升推理多样性。

🔸 迭代在线拒绝采样

模型在两种模式下 rollout：
1. 端到端生成
2. 与Mobile-Agent-v3集成
通过Critic过滤、思维-动作一致性检查、任务重加权等策略提升数据质量。

2.5 可扩展强化学习框架（Scalable RL）

🎯 创新点：Trajectory-aware Relative Policy Optimization (TRPO)

使用轨迹级奖励计算归一化优势估计，解决长序列信用分配问题。
引入成功轨迹回放缓冲区，稳定训练过程。
支持完全异步训练，提升数据利用效率。

2.6 Mobile-Agent-v3：多代理协作框架

🤖 Agent角色分工：

Manager：动态任务分解与规划，使用RAG引入外部知识。
Worker：执行子目标，输出动作三元组（推理、动作、意图）。
Reflector：评估动作结果，提供诊断反馈。
Notetaker：记录关键信息（如验证码、密码），支持长时程任务。

🔁 工作流程：

RAG检索外部知识 → Manager初始化计划
Worker执行 → Reflector评估 → Notetaker记录
Manager动态更新计划，直至任务完成或失败。

三、实验与评估

3.1 基准测试表现

GUI-Owl-7B 在 AndroidWorld 达到 66.4，OSWorld 达到 34.9。
GUI-Owl-32B 在多项测试中超越 GPT-4o、Claude 3.7 等闭源模型。
Mobile-Agent-v3 + GUI-Owl 在 AndroidWorld 达到 73.3，OSWorld 达到 37.7，达到开源模型SOTA。

3.2 消融实验验证

在线过滤+回放机制显著提升训练稳定性与最终性能。
推理数据合成（拒绝采样+多代理蒸馏）逐步提升模型能力。
历史图像数+交互步数增加均能提升长时程任务表现。

四、总结与展望

4.1 主要贡献

GUI-Owl：首个统一感知、推理、规划、执行的端到端GUI基础模型。
自演进数据生产框架：实现高质量轨迹数据的自动生成与评估。
多样化能力构建：涵盖 grounding、规划、动作语义、推理等。
TRPO强化学习策略：解决长序列GUI任务的信用分配问题。
Mobile-Agent-v3：模块化多代理框架，支持角色分工与动态规划。

4.2 未来方向

扩展至更多平台（如AR/VR、车载系统）。
支持多模态输入（语音、手势）。
探索更高效的环境模拟与数据生成方法。

文章作者: Roger-Lv

文章链接: http://example.com/2025/08/27/2025-08-27-Mobile-Agent-v3-Foundamental-Agents-for-GUI-Automation/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Roger-Lv's space！

相关推荐

NeurIPS 2023｜AI Agents先行者CAMEL:第一个基于大模型的多智能体框架转自：https://zhuanlan.zhihu.com/p/671093582 AI Agents是当下大模型领域备受关注的话题，用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中，Agents之间会进行竞争和协作等多种形式的动态交互，进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架（“骆驼”），CAMEL框架是最早基于ChatGPT的autonomous agents知名项目，目前已被顶级人工智能会议NeurIPS 2023录用。 1777dbe9073c4bcd8ab59365481bcafc.png 论文题目： CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 论文链接： https://ghli.org/camel.pdf 代码链接： https://github.com/camel-a...

转自：https://zhuanlan.zhihu.com/p/1913905349284591240 通过蒙特卡洛树搜索、过程监督与结果监督、强化学习来提高 LLM 的推理能力，从本质上来说，都是尽可能榨取 LLM 本身的能力，区别可能在于多次尝试、反馈信号、训练方法而已，这类方法可称之为“求诸内”。而由 scaling law 可知，模型的能力是有限的，那么该如何进一步提高LLM在具体问题上的表现呢？近期的答案是，类似 RAG，Multi-Agent 系统，让 LLM 学会使用工具，毕竟人与动物的关键区别也只是“能制造并使用工具”，这种方式则是“求诸外”。那么本篇就以此为中心，重点讨论以下问题： Agentic LLM 的算法逻辑、具体方法与实际表现？ RL 如何训练 Agentic LLM，其与 tool using 的 SFT 的差异在哪？ Agentic RL 的工程化问题一、Agentic RL 的算法设计 Agent 和 RL 都并非新鲜事物，而使用 RL 训练基于 LLM 的 agent 则是近期的研究的热点，那么，从算法角度来说，如何理解二者结合的动机、场...

InfiGUIAgent:A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection 2025-01-08｜ZJU, DLUT, Reallm Labs, ByteDance Inc, PolyU| 15 http://arxiv.org/abs/2501.04575v1 https://huggingface.co/papers/2501.04575 https://github.com/Reallm-Labs/InfiGUIAgent 研究背景与意义在当今数字化时代，图形用户界面（GUI）智能体的应用愈发广泛，成为自动化任务的重要工具。现有的多模态大语言模型（MLLMs）为GUI智能体的智能化提供了基础，但其在多步骤推理和对文本注释的依赖上仍存在显著局限。本研究提出的InfiGUIAgent旨在解决这些挑战，强调了原生推理能力在提升GUI交互效率中的重要性，为自动化任务的执行提供了新的可能性。当前挑战：现有的MLLM基础的GUI智能体在处理复杂操作时，往往受限于单步推理能力，无法有效利...

GUI Agent综述

GUI Agent综述转自：https://zhuanlan.zhihu.com/p/5934506835 最近在基础模型，特别是大型语言模型（LLMs）和多模态大型语言模型（MLLMs）方面的进步，使得智能体能够执行复杂任务。通过利用（M）LLMs处理和解释图形用户界面（GUIs）的能力，这些智能体可以模拟人类交互，如点击和打字，自主执行用户指令。本调查整合了近期关于（M）LLM基础GUI智能体的研究，突出了数据、框架和应用中的关键创新。我们首先讨论代表性的数据集和基准测试。接下来，我们总结了一个统一框架，涵盖了先前研究中使用的基本组件，并附有分类。此外，我们探索了（M）LLM基础GUI智能体的商业应用。基于现有工作，我们识别了几个关键挑战，并提出了未来的研究方向。我们希望本文能激发（M）LLM基础GUI智能体领域的进一步发展。我们翻译解读最新论文：基于基础模型的图形用户界面智能体，文末有论文信息。 1 引言图形用户界面（GUIs）作为人类与数字设备之间的主要交互点。人们每天都在手机和网站上与GUIs互动，一个设计良好的GUI智能体可以显著提升用户体验。因此，关于GUI...

现有GUI Agent的训练数据、训练方法及实例分析

现有GUI Agent的训练数据、训练方法及实例分析一、主要训练数据来源 1. 公开可用数据集 CogAgent的预训练数据全部来源于公开可用的数据集，包括文本识别、视觉定位(visual grounding)等多方面数据。https://openaccess.thecvf.com/content/CVPR2024/papers/Hong_CogAgent_A_Visual_Language_Model_for_GUI_Agents_CVPR_2024_paper.pdf 具体数据包括：(1)文本识别数据，用于处理GUI中的文字内容；(2)视觉定位数据，帮助模型理解界面元素的位置和关系。 CogAgent的训练策略综合了多种数据源，专门针对GUI特有的挑战进行了优化设计。 2. 用户交互轨迹数据 MobileA3gent框架使用从用户日常手机交互中自动收集的数据来训练移动代理，采用去中心化的自源数据收集方法。https://arxiv.org/html/2502.02982v2 Mobile-Agent-v3的训练数据直接来源于高质量离线交互轨迹中的各个步骤，通过分析用户...

UFO:A UI-Focused Agent for Windows OS Interaction

UFO: A UI-Focused Agent for Windows OS Interaction 转自：https://zhuanlan.zhihu.com/p/685614612 [2402.07939] UFO: A UI-Focused Agent for Windows OS Interaction (arxiv.org) Introduction 大型语言模型（LLMs）的出现展现了在解决类似人类推理、计划和协作的复杂问题上的革命性潜力。这一发展将人类更接近于实现人工通用智能（AGI）的目标，在我们日常生活中的各种任务中提供帮助，并展现了一种之前被认为具有挑战性的强大和全面的能力水平。向更复杂的多模态视觉LLMs发展，以GPT-Vision为例，为LLMs引入了视觉维度，扩展了它们的能力以包括广泛的视觉任务，并拓宽了它们应对需要视觉能力的挑战的范围。视觉大型语言模型（VLM）的应用不断涌现并蓬勃发展。一个值得注意的应用是使用VLMs与软件应用的用户界面（UI）或图形用户界面（GUI）互动，以自然语言表达的用户请求，并将其落实到物理设备中。虽然GUI主要是为了让人...

评论

数据加载中