现有GUI Agent的训练数据、训练方法及实例分析

发表于2025-08-27|更新于2025-08-27|Agent

|浏览量:

现有GUI Agent的训练数据、训练方法及实例分析

一、主要训练数据来源

1. 公开可用数据集

CogAgent的预训练数据全部来源于公开可用的数据集，包括文本识别、视觉定位(visual grounding)等多方面数据。https://openaccess.thecvf.com/content/CVPR2024/papers/Hong_CogAgent_A_Visual_Language_Model_for_GUI_Agents_CVPR_2024_paper.pdf
具体数据包括：(1)文本识别数据，用于处理GUI中的文字内容；(2)视觉定位数据，帮助模型理解界面元素的位置和关系。
CogAgent的训练策略综合了多种数据源，专门针对GUI特有的挑战进行了优化设计。

2. 用户交互轨迹数据

MobileA3gent框架使用从用户日常手机交互中自动收集的数据来训练移动代理，采用去中心化的自源数据收集方法。https://arxiv.org/html/2502.02982v2
Mobile-Agent-v3的训练数据直接来源于高质量离线交互轨迹中的各个步骤，通过分析用户与GUI的实际交互过程来学习操作模式。

3. 合成数据与专家演示

部分GUI Agent使用专家演示数据，即由人类专家执行任务并记录操作步骤，作为训练样本。
有些系统会生成合成GUI交互数据，通过模拟用户行为创建大规模训练集。

二、主要训练方法

1. 监督微调(Supervised Fine-Tuning, SFT)

大多数GUI Agent主要采用监督微调方法，在预训练的多模态大模型基础上进行针对性训练。
训练任务通常包括：视觉问答(VQA)、界面元素定位、操作步骤预测等。
微调过程使用标注好的"状态-动作"对，即特定GUI界面状态下应执行的操作。

2. 强化学习(Reinforcement Learning)

部分高级GUI Agent框架结合了强化学习，通过奖励机制优化长期任务完成能力。
Mobile-Agent-v3在监督微调阶段后，还使用强化学习进一步优化代理性能。

3. 多阶段训练策略

CogAgent采用了全面的训练策略，包括预训练和针对GUI特定任务的微调阶段。
预训练阶段关注基础的视觉语言理解能力，微调阶段则专注于GUI交互的特殊需求。

三、典型GUI Agent实例分析

1. CogAgent

特点：专门训练的视觉语言模型，专为GUI理解和导航设计。
训练数据：
- 文本识别数据：处理GUI中的各种文本元素
- 视觉定位数据：理解界面元素的位置和关系
- 任务执行数据：GUI操作与结果的映射关系
训练方法：采用多阶段训练，首先在大规模数据上预训练，然后在GUI特定任务上进行监督微调。
优势：相比直接使用通用VLM(如GPT-4V)，CogAgent在GUI任务上表现更专业、更高效。

2. MobileAgent/AppAgent

特点：基于GPT-4V的移动设备GUI交互代理，能够自主完成手机上的用户请求。
训练数据：
- 来自真实用户交互的轨迹数据
- 高质量的离线交互步骤序列
训练方法：
- 监督微调：在标注的交互轨迹上训练
- 协作学习框架：多个代理共同学习，共享经验
实例：AppAgent能够基于手机截图理解界面，并执行点击、输入等操作完成任务，如"在微信中发送表情"等。

3. UFO (Windows GUI Agent)

特点：专为Windows操作系统设计的UI聚焦代理，采用双智能体架构。
训练方法：
- 不直接训练新模型，而是利用预训练的GPT-Vision作为基础
- 通过精心设计的框架(HostAgent+AppAgent)和控制交互模块实现GUI操作
- 采用计划反思(Plan Reflection)机制提高适应性 [[3.5.4]]
特殊设计：包括控制过滤、安全卫士等机制，增强在复杂Windows环境中的可靠性。

四、发展趋势

专业化训练：从通用VLM转向针对GUI任务专门优化的模型，如CogAgent所示。
数据多样性：结合真实用户交互数据、合成数据和专家演示，构建更全面的训练集。
安全机制：现代GUI Agent越来越重视安全机制，如UFO中的"安全卫士"功能，对敏感操作请求用户确认。
跨应用能力：新一代GUI Agent(如UFO)开始支持跨应用任务执行，能够处理更复杂的用户请求。

总体而言，GUI Agent的训练正从简单地应用现有VLM转向专门设计的训练策略和数据集，以更好地理解和操作图形用户界面，实现更可靠、更安全的自动化交互。

文章作者: Roger-Lv

文章链接: http://example.com/2025/08/27/2025-08-27-%E7%8E%B0%E6%9C%89GUI-Agent%E7%9A%84%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE%E3%80%81%E8%AE%AD%E7%BB%83%E6%96%B9%E6%B3%95%E5%8F%8A%E5%AE%9E%E4%BE%8B%E5%88%86%E6%9E%90/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Roger-Lv's space！

相关推荐

NeurIPS 2023｜AI Agents先行者CAMEL:第一个基于大模型的多智能体框架转自：https://zhuanlan.zhihu.com/p/671093582 AI Agents是当下大模型领域备受关注的话题，用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中，Agents之间会进行竞争和协作等多种形式的动态交互，进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架（“骆驼”），CAMEL框架是最早基于ChatGPT的autonomous agents知名项目，目前已被顶级人工智能会议NeurIPS 2023录用。 1777dbe9073c4bcd8ab59365481bcafc.png 论文题目： CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 论文链接： https://ghli.org/camel.pdf 代码链接： https://github.com/camel-a...

转自：https://zhuanlan.zhihu.com/p/1913905349284591240 通过蒙特卡洛树搜索、过程监督与结果监督、强化学习来提高 LLM 的推理能力，从本质上来说，都是尽可能榨取 LLM 本身的能力，区别可能在于多次尝试、反馈信号、训练方法而已，这类方法可称之为“求诸内”。而由 scaling law 可知，模型的能力是有限的，那么该如何进一步提高LLM在具体问题上的表现呢？近期的答案是，类似 RAG，Multi-Agent 系统，让 LLM 学会使用工具，毕竟人与动物的关键区别也只是“能制造并使用工具”，这种方式则是“求诸外”。那么本篇就以此为中心，重点讨论以下问题： Agentic LLM 的算法逻辑、具体方法与实际表现？ RL 如何训练 Agentic LLM，其与 tool using 的 SFT 的差异在哪？ Agentic RL 的工程化问题一、Agentic RL 的算法设计 Agent 和 RL 都并非新鲜事物，而使用 RL 训练基于 LLM 的 agent 则是近期的研究的热点，那么，从算法角度来说，如何理解二者结合的动机、场...

InfiGUIAgent:A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection 2025-01-08｜ZJU, DLUT, Reallm Labs, ByteDance Inc, PolyU| 15 http://arxiv.org/abs/2501.04575v1 https://huggingface.co/papers/2501.04575 https://github.com/Reallm-Labs/InfiGUIAgent 研究背景与意义在当今数字化时代，图形用户界面（GUI）智能体的应用愈发广泛，成为自动化任务的重要工具。现有的多模态大语言模型（MLLMs）为GUI智能体的智能化提供了基础，但其在多步骤推理和对文本注释的依赖上仍存在显著局限。本研究提出的InfiGUIAgent旨在解决这些挑战，强调了原生推理能力在提升GUI交互效率中的重要性，为自动化任务的执行提供了新的可能性。当前挑战：现有的MLLM基础的GUI智能体在处理复杂操作时，往往受限于单步推理能力，无法有效利...

GUI Agent综述

GUI Agent综述转自：https://zhuanlan.zhihu.com/p/5934506835 最近在基础模型，特别是大型语言模型（LLMs）和多模态大型语言模型（MLLMs）方面的进步，使得智能体能够执行复杂任务。通过利用（M）LLMs处理和解释图形用户界面（GUIs）的能力，这些智能体可以模拟人类交互，如点击和打字，自主执行用户指令。本调查整合了近期关于（M）LLM基础GUI智能体的研究，突出了数据、框架和应用中的关键创新。我们首先讨论代表性的数据集和基准测试。接下来，我们总结了一个统一框架，涵盖了先前研究中使用的基本组件，并附有分类。此外，我们探索了（M）LLM基础GUI智能体的商业应用。基于现有工作，我们识别了几个关键挑战，并提出了未来的研究方向。我们希望本文能激发（M）LLM基础GUI智能体领域的进一步发展。我们翻译解读最新论文：基于基础模型的图形用户界面智能体，文末有论文信息。 1 引言图形用户界面（GUIs）作为人类与数字设备之间的主要交互点。人们每天都在手机和网站上与GUIs互动，一个设计良好的GUI智能体可以显著提升用户体验。因此，关于GUI...

Mobile-Agent-v3:Foundamental Agents for GUI Automation

Mobile-Agent-v3: Foundamental Agents for GUI Automation https://arxiv.org/pdf/2508.15144 以下是对论文《Mobile-Agent-v3: Foundational Agents for GUI Automation》的精读报告，重点关注其实现方式与创新点。一、研究概述 1.1 研究背景与目标背景：GUI（图形用户界面）智能代理旨在自动化跨设备（PC、移动端、Web）的用户任务，提升人机交互效率。问题：现有方法要么依赖闭源模型（泛化差），要么是端到端模型（指令遵循差、多代理兼容性弱）。目标：提出一个开源、端到端、多模态基础模型（GUI-Owl），并在此基础上构建一个多代理协作框架（Mobile-Agent-v3），实现高效、可扩展的GUI自动化。二、核心贡献与创新点 2.1 GUI-Owl：统一的多模态基础模型基础架构：基于 Qwen2.5-VL，通过大规模GUI交互数据后训练，统一了感知、推理、规划、决策与 grounding 能力。端到端交互：将GUI交互建模为多步决...

UFO:A UI-Focused Agent for Windows OS Interaction

UFO: A UI-Focused Agent for Windows OS Interaction 转自：https://zhuanlan.zhihu.com/p/685614612 [2402.07939] UFO: A UI-Focused Agent for Windows OS Interaction (arxiv.org) Introduction 大型语言模型（LLMs）的出现展现了在解决类似人类推理、计划和协作的复杂问题上的革命性潜力。这一发展将人类更接近于实现人工通用智能（AGI）的目标，在我们日常生活中的各种任务中提供帮助，并展现了一种之前被认为具有挑战性的强大和全面的能力水平。向更复杂的多模态视觉LLMs发展，以GPT-Vision为例，为LLMs引入了视觉维度，扩展了它们的能力以包括广泛的视觉任务，并拓宽了它们应对需要视觉能力的挑战的范围。视觉大型语言模型（VLM）的应用不断涌现并蓬勃发展。一个值得注意的应用是使用VLMs与软件应用的用户界面（UI）或图形用户界面（GUI）互动，以自然语言表达的用户请求，并将其落实到物理设备中。虽然GUI主要是为了让人...

评论

数据加载中