WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化

https://finance.sina.cn/tech/csj/2025-08-08/detail-infkhmtz1833863.d.html?vt=4&cid=206650&node_id=206650

这篇文章是香港理工大学研究人员发表的首篇关于WebAgents的系统性综述,全面梳理了基于大模型的Web自动化智能体研究进展。

核心内容

背景与意义

  • 互联网已深度重塑生活,但网络活动存在大量重复低效的"数字苦力"(如反复填写个人信息、手动比对商品参数)
  • WebAgents能够根据用户自然语言指令自动完成复杂Web任务,实现网络活动的自动化与智能化
  • 例如ChatGPT Agent能独立规划执行任务,无需用户持续监督

WebAgents架构

文章将WebAgents工作流程分为三个关键环节:

  1. 感知:观察环境

    • 基于文本(利用HTML等)
    • 基于视觉(利用截图)
    • 多模态(结合文本与视觉信息)
  2. 规划与推理:分析环境并决策

    • 任务规划(显式/隐式分解任务)
    • 动作推理(反应式/策略性推理)
    • 记忆利用(短期记忆与长期记忆)
  3. 执行:与环境交互

    • 定位(确定交互元素位置)
    • 交互(点击、滚动等操作或使用API工具)

WebAgents训练方法

  • 数据构建:数据预处理(解决多模态差异)与数据增强(数据收集和合成)
  • 训练策略
    • 无训练:通过提示词工程直接使用基础大模型
    • GUI理解能力训练:提升界面理解能力
    • 特定任务微调:针对网页任务技能优化
    • 后训练:通过强化学习等方法使Agent持续适应动态变化的网页环境

可信赖性挑战

  • 安全与鲁棒性:应对噪声和对抗攻击(如BrowserART测试套件发现的安全漏洞)
  • 隐私保护:防止敏感信息泄露(如MEXTRA和EIA攻击揭示的风险)
  • 泛化能力:处理分布外数据和跨领域操作

未来研究方向

  • 公平性与可解释性:确保无偏见决策和行为可解释
  • 评测基准:开发更全面的评估体系
  • 个性化WebAgents:结合RAG和记忆机制提供定制化服务
  • 领域专用WebAgents:针对教育、医疗等专业领域的适配与应用

核心价值

该综述系统性地梳理了WebAgents的技术架构、训练方法和可信性挑战,特别强调了后训练技术对WebAgents持续适应动态网页环境的重要性,为未来研究提供了清晰的方向指引,预示着人机协作新纪元的到来。