ICML’25 Agent Workflow Memory

一、先聊AI的“职场困境”:为啥复杂任务总掉链子?

要理解AWM的价值,得先搞懂现在的AI智能体有多“不靠谱”。咱们以最常见的“网页导航”为例——比如让AI完成“找附近的希尔顿酒店,再查去旁边超市的最短步行路线”,这对人来说不算难,但对AI而言,就像让一个没记过SOP的新人处理复杂业务。

传统AI智能体的问题,总结起来就两个:“记太死”和“忘太快”

先说“记太死”。现在的AI要么靠“死记硬背”训练数据里的例子(比如“查北京希尔顿酒店的步骤”),要么靠“临场翻例子”(做任务时把类似案例调出来参考)。但这些例子都是“定制化”的——比如记的是“点ID为123的‘酒店’按钮”,换个网站按钮ID变了就懵;记的是“查北京的酒店”,换个城市就不会了。就像你教新人“订北京到上海的机票”,他就只会这一个行程,换个目的地全得重新教。

再说“忘太快”。AI每次处理任务都像“第一次上手”,不会从过去的成功或失败里总结经验。比如这次成功找到酒店邮编了,下次遇到同样需求,还是得从头摸索,完全没有“上次我是这么做的”的记忆。这就像一个不记笔记的员工,每天做同样的事却永远不会熟练。

其实人解决复杂任务的关键,是会提炼“通用流程”。比如你不会记“2024年8月订北京到上海机票的具体点击”,而是会总结“订机票通用步骤:选出发地→选目的地→选日期→选舱位→提交订单”——这个流程不管换哪个城市、哪个平台都能用。而AWM,就是让AI学会这种“提炼通用流程”的能力。

二、AWM:给AI一本“可复用的工作手册”

那么AWM到底是怎么运作的?简单说,它就是给AI建了一个“工作流程库”,里面存的不是具体任务的操作记录,而是能反复用的“通用子流程”。我用两个生活比喻,帮你把这个技术原理拆明白。

img

1. 工作流:AI的“菜谱模板”,不是“具体菜名”

AWM里最核心的概念是“工作流(Workflow)”,它不是“做番茄炒蛋的步骤”,而是“炒鸡蛋类菜品的通用模板”——既有“做什么”的描述,又有“怎么做”的步骤。

img

具体来说,每个工作流包含两部分:

  • 描述(d):用大白话写清楚这个流程是干嘛的,比如“根据名称找地点”“查询地点的邮编”。这就像菜谱模板的标题,让AI一眼知道这流程能用在啥场景。
  • 轨迹(步骤序列):记录“当前环境啥样→为啥这么做→具体动作是啥”,而且会把“例子里的具体信息”换成“通用变量”。比如原始任务是“找北京的希尔顿酒店”,AWM会把它提炼成:
  1. 【环境】当前在地图首页,有搜索框;
  2. 【思考】要找{酒店名称},得先在搜索框输入名称;
  3. 【动作】在搜索框(ID:145)输入“{酒店名称}”,点击搜索按钮(ID:147)。

你看,这里把“北京的希尔顿酒店”换成了“{酒店名称}”,把具体的按钮ID保留(因为同一类网站的关键元素ID往往有规律)——这样一来,不管是找“上海的万豪”还是“广州的喜来登”,这个流程都能用。这就解决了传统AI“记太死”的问题。

2. 两种运作模式:“提前学SOP”和“边干边记”

AWM最灵活的地方,是它能应对“有数据”和“没数据”两种场景,对应两种运作模式:离线(Offline)和在线(Online)。

img

  • **离线模式:提前让AI学“公司SOP”**如果有现成的标注数据(比如人类标注的“网页导航正确步骤”),AWM会先把这些数据“嚼碎”,提炼出通用工作流,存到AI的“流程库”里。等测试时,AI就带着这本“SOP手册”干活,遇到类似任务直接调用流程。

这就像新员工入职前,公司先让他学《业务操作手册》,里面写了“客户咨询退款怎么处理”“订单修改步骤”,等正式上岗,遇到这些问题就不用瞎摸索了。

  • **在线模式:AI边干活边记“错题本+经验本”**如果没有标注数据(这在现实中更常见,比如新网站刚上线,没人教AI怎么用),AWM会让AI“边试边学”:

这就像优秀员工会记“工作笔记”:今天成功帮客户改了地址,就把步骤记下来,下次再遇到同样需求,直接按笔记来,又快又准。

    1. AI先尝试解决当前任务(比如“查某地点邮编”),生成一套操作步骤;
    1. 有个“裁判模块”(用另一个语言模型实现)判断这次操作对不对——就像主管检查员工的工作结果;
    1. 如果做对了,就把这次的步骤提炼成通用工作流,加到“流程库”里;下次遇到类似任务,AI就会用这个新流程指导操作。

而且AWM的流程库是“活的”——会随着AI处理的任务越多,积累的流程越丰富,甚至能“叠加工作流”。比如先学了“根据名称找地点”的流程,后来遇到“查地点邮编”的任务,AI会发现“找地点”是“查邮编”的第一步,于是在原有流程基础上,加了“找到地点后提取邮编”的步骤,形成一个更复杂的新流程。这就像员工先学了“打印文件”,后来学“打印+装订文件”,能力一步步叠加。

img

三、AWM的“过人之处”:三个创新点打破传统局限

看论文时,我特别佩服作者团队的设计——他们没有做复杂的模型结构改动,而是从“记忆内容”本身入手,解决了传统方法的三个核心痛点。

1. 不记“全任务”,只记“子任务”:像搭积木一样灵活

传统AI要么记整个大任务的步骤(比如“找酒店+查路线”的完整流程),要么记零散的动作(比如“点击按钮”“输入文字”),前者太死板,后者太琐碎。而AWM专注于“子任务级”的流程——比如把“找酒店+查路线”拆成“找酒店”“查步行路线”两个子流程。

这种设计的好处是“复用性极强”。比如“找酒店”的流程,既能用在“找酒店+查路线”里,也能用在“找酒店+看评价”“找酒店+订房”里,就像乐高积木,一块积木能搭不同造型。我之前做类似研究时,总卡在“流程粒度”的问题上,要么太粗要么太细,AWM这个“子任务粒度”的选择,确实是恰到好处。

2. 零标注也能学:解决“没数据就傻眼”的难题

很多AI技术依赖高质量标注数据,但现实中,新场景、新网站的标注数据很难快速获取。而AWM的在线模式完全不用标注数据——AI自己试错,做对了就记流程,做错了就忽略。

论文里有个细节特别有意思:在WebArena benchmark(一个网页导航数据集)上,AWM在线模式只用了40个测试任务,就实现了显著的性能提升。这意味着AI在“真实工作场景”中,不用等别人教,自己边干活边成长。就像餐馆招了个聪明的学徒,不用师傅天天盯着教,看几次、自己试几次就会了,还能总结出自己的方法。

3. 跨场景泛化:从“购物网站”到“社交平台”也能用

传统AI在“同场景”表现还行,但换个网站、换个领域就歇菜——比如在购物网站学的“筛选商品”流程,到社交网站“筛选帖子”就不会用了。而AWM的流程因为是“通用抽象”的,跨场景能力特别强。

论文里的实验很能说明问题:在Mind2Web数据集的“跨域名”测试中(比如训练数据是购物领域,测试数据是社交领域),AWM比基线方法高14个百分点。这就像一个员工在电商公司学会了“筛选客户需求”,跳槽到互联网公司,也能快速用类似方法“筛选用户反馈”——核心能力是通用的。

四、实验说话:AWM到底有多好用?

光说原理不够,得看实际效果。作者团队在两个主流网页导航 benchmark 上做了测试,结果用“惊艳”形容不为过——我把数据翻译成普通人能懂的“大白话”,帮你感受下:

1. WebArena:成功率提升51%,还少走2步

WebArena包含812个网页任务,覆盖购物、社交论坛、代码管理、地图等场景,最看重“操作正确性”和“效率”。

img

  • 成功率大飞跃:传统最好的自主智能体(BrowserGym),10个任务大概能成2.3个;AWM直接做到了10个成3.5个,相对提升51.1%。更厉害的是,它甚至超过了“人工写死工作流”的方法(SteP)——也就是说,AI自己总结的流程,比人类专家写的还好用一点。
  • 效率更高:AWM完成每个任务平均只用5.9步,比BrowserGym少走2步,比需要反复修改的AutoEval方法少走40多步。这就像两个员工做同样的事,一个要走8步,一个走6步,还做得更对。

2. Mind2Web:跨领域能力碾压,gap越大越厉害

Mind2Web更看重“泛化性”,比如跨不同网站、跨不同领域的任务。

img

  • 基础提升:在“跨任务”测试中(同一网站,不同任务),AWM的步骤成功率比基线高24.6%——简单说,原来10步里对3.6步,现在对4.5步。
  • 跨场景优势:在“跨网站”测试(比如从苹果官网到百思买官网),AWM比基线高8.9个百分点;到“跨领域”测试(比如从购物网站到社交网站),优势扩大到14个百分点。这说明“任务和数据差距越大,AWM的优势越明显”——这正是现实场景最需要的能力。

3. 小数据高效学:40个例子就“开窍”

论文里有张图特别直观(图4):AWM在线模式在处理前40个任务时,成功率飞速上涨,之后逐渐稳定。这意味着AI不需要海量数据,只要几十次“实战经验”,就能总结出好用的流程。对比传统方法“需要几百上千个例子才能勉强学好”,AWM的“学习效率”提升不是一点半点。

五、未来能帮我们做啥?这些场景太实用了

作为研究员,我更关心技术的落地价值。AWM的核心是“让AI积累可复用的流程经验”,这个思路能用到很多场景:

  • 个人AI助手:比如让AI帮你整理邮箱——它会记“归档工作邮件的流程:筛选发件人是同事→标为已读→移到‘工作’文件夹”,下次不管是张三还是李四发的邮件,都能按这个流程处理;帮你订行程时,记“订机票+酒店+约车”的组合流程,换个目的地也不用重新教。
  • 企业AI客服:售后客服AI能记“处理退换货的流程:问清订单号→查商品是否符合退换条件→发送退货地址→跟进退款”,不管客户是电话还是文字咨询,都能按统一流程高效处理,不用每次都“转人工”。
  • 智能家居控制:比如你习惯“回家后先开空调→再开加湿器→最后开净化器”,AI会记这个流程,下次你说“我回来了”,就会自动按这个顺序操作,不用你逐个下令。
  • 工业场景:比如AI监控生产线——记“检测设备异常的流程:看温度是否超过阈值→查转速是否正常→发送警报”,不管是A设备还是B设备,只要出现类似异常,都能快速响应。

当然,AWM现在也有局限:比如有时候会“过度依赖旧流程”——遇到新情况(比如网页弹出意外的验证码),AI还是会按旧流程走,不会灵活调整;另外,如果给流程里加太多网页HTML信息,反而会让AI“信息过载”,效果变差(表8)。这些都是未来可以优化的方向。

六、总结:让AI从“临时工”变成“老员工”

最后回到核心——AWM的本质,不是给AI加了个更复杂的“大脑”,而是给它配了一本“会更新的工作手册”。这本手册让AI从“每次都从零开始的临时工”,变成“会积累经验、越做越熟练的老员工”。

在AI越来越多地进入我们工作和生活的今天,“能否积累经验”是区分“好用的AI”和“鸡肋的AI”的关键。AWM的思路,不仅能提升网页导航的性能,更给“如何让AI处理复杂任务”提供了一个重要方向——未来的AI,或许不需要每次都“重新学习”,而是能像人一样,在实践中不断总结、不断成长。