ICML’25 Agent Workflow Memory

一、先聊AI的“职场困境”：为啥复杂任务总掉链子？

要理解AWM的价值，得先搞懂现在的AI智能体有多“不靠谱”。咱们以最常见的“网页导航”为例——比如让AI完成“找附近的希尔顿酒店，再查去旁边超市的最短步行路线”，这对人来说不算难，但对AI而言，就像让一个没记过SOP的新人处理复杂业务。

传统AI智能体的问题，总结起来就两个：“记太死”和“忘太快”。

先说“记太死”。现在的AI要么靠“死记硬背”训练数据里的例子（比如“查北京希尔顿酒店的步骤”），要么靠“临场翻例子”（做任务时把类似案例调出来参考）。但这些例子都是“定制化”的——比如记的是“点ID为123的‘酒店’按钮”，换个网站按钮ID变了就懵；记的是“查北京的酒店”，换个城市就不会了。就像你教新人“订北京到上海的机票”，他就只会这一个行程，换个目的地全得重新教。

再说“忘太快”。AI每次处理任务都像“第一次上手”，不会从过去的成功或失败里总结经验。比如这次成功找到酒店邮编了，下次遇到同样需求，还是得从头摸索，完全没有“上次我是这么做的”的记忆。这就像一个不记笔记的员工，每天做同样的事却永远不会熟练。

其实人解决复杂任务的关键，是会提炼“通用流程”。比如你不会记“2024年8月订北京到上海机票的具体点击”，而是会总结“订机票通用步骤：选出发地→选目的地→选日期→选舱位→提交订单”——这个流程不管换哪个城市、哪个平台都能用。而AWM，就是让AI学会这种“提炼通用流程”的能力。

二、AWM：给AI一本“可复用的工作手册”

那么AWM到底是怎么运作的？简单说，它就是给AI建了一个“工作流程库”，里面存的不是具体任务的操作记录，而是能反复用的“通用子流程”。我用两个生活比喻，帮你把这个技术原理拆明白。

1. 工作流：AI的“菜谱模板”，不是“具体菜名”

AWM里最核心的概念是“工作流（Workflow）”，它不是“做番茄炒蛋的步骤”，而是“炒鸡蛋类菜品的通用模板”——既有“做什么”的描述，又有“怎么做”的步骤。

具体来说，每个工作流包含两部分：

描述（d）：用大白话写清楚这个流程是干嘛的，比如“根据名称找地点”“查询地点的邮编”。这就像菜谱模板的标题，让AI一眼知道这流程能用在啥场景。
轨迹（步骤序列）：记录“当前环境啥样→为啥这么做→具体动作是啥”，而且会把“例子里的具体信息”换成“通用变量”。比如原始任务是“找北京的希尔顿酒店”，AWM会把它提炼成：

【环境】当前在地图首页，有搜索框；
【思考】要找{酒店名称}，得先在搜索框输入名称；
【动作】在搜索框（ID：145）输入“{酒店名称}”，点击搜索按钮（ID：147）。

你看，这里把“北京的希尔顿酒店”换成了“{酒店名称}”，把具体的按钮ID保留（因为同一类网站的关键元素ID往往有规律）——这样一来，不管是找“上海的万豪”还是“广州的喜来登”，这个流程都能用。这就解决了传统AI“记太死”的问题。

2. 两种运作模式：“提前学SOP”和“边干边记”

AWM最灵活的地方，是它能应对“有数据”和“没数据”两种场景，对应两种运作模式：离线（Offline）和在线（Online）。

**离线模式：提前让AI学“公司SOP”**如果有现成的标注数据（比如人类标注的“网页导航正确步骤”），AWM会先把这些数据“嚼碎”，提炼出通用工作流，存到AI的“流程库”里。等测试时，AI就带着这本“SOP手册”干活，遇到类似任务直接调用流程。

这就像新员工入职前，公司先让他学《业务操作手册》，里面写了“客户咨询退款怎么处理”“订单修改步骤”，等正式上岗，遇到这些问题就不用瞎摸索了。

**在线模式：AI边干活边记“错题本+经验本”**如果没有标注数据（这在现实中更常见，比如新网站刚上线，没人教AI怎么用），AWM会让AI“边试边学”：

这就像优秀员工会记“工作笔记”：今天成功帮客户改了地址，就把步骤记下来，下次再遇到同样需求，直接按笔记来，又快又准。

1. AI先尝试解决当前任务（比如“查某地点邮编”），生成一套操作步骤；
1. 有个“裁判模块”（用另一个语言模型实现）判断这次操作对不对——就像主管检查员工的工作结果；
1. 如果做对了，就把这次的步骤提炼成通用工作流，加到“流程库”里；下次遇到类似任务，AI就会用这个新流程指导操作。

而且AWM的流程库是“活的”——会随着AI处理的任务越多，积累的流程越丰富，甚至能“叠加工作流”。比如先学了“根据名称找地点”的流程，后来遇到“查地点邮编”的任务，AI会发现“找地点”是“查邮编”的第一步，于是在原有流程基础上，加了“找到地点后提取邮编”的步骤，形成一个更复杂的新流程。这就像员工先学了“打印文件”，后来学“打印+装订文件”，能力一步步叠加。

三、AWM的“过人之处”：三个创新点打破传统局限

看论文时，我特别佩服作者团队的设计——他们没有做复杂的模型结构改动，而是从“记忆内容”本身入手，解决了传统方法的三个核心痛点。

1. 不记“全任务”，只记“子任务”：像搭积木一样灵活

传统AI要么记整个大任务的步骤（比如“找酒店+查路线”的完整流程），要么记零散的动作（比如“点击按钮”“输入文字”），前者太死板，后者太琐碎。而AWM专注于“子任务级”的流程——比如把“找酒店+查路线”拆成“找酒店”“查步行路线”两个子流程。

这种设计的好处是“复用性极强”。比如“找酒店”的流程，既能用在“找酒店+查路线”里，也能用在“找酒店+看评价”“找酒店+订房”里，就像乐高积木，一块积木能搭不同造型。我之前做类似研究时，总卡在“流程粒度”的问题上，要么太粗要么太细，AWM这个“子任务粒度”的选择，确实是恰到好处。

2. 零标注也能学：解决“没数据就傻眼”的难题

很多AI技术依赖高质量标注数据，但现实中，新场景、新网站的标注数据很难快速获取。而AWM的在线模式完全不用标注数据——AI自己试错，做对了就记流程，做错了就忽略。

论文里有个细节特别有意思：在WebArena benchmark（一个网页导航数据集）上，AWM在线模式只用了40个测试任务，就实现了显著的性能提升。这意味着AI在“真实工作场景”中，不用等别人教，自己边干活边成长。就像餐馆招了个聪明的学徒，不用师傅天天盯着教，看几次、自己试几次就会了，还能总结出自己的方法。

3. 跨场景泛化：从“购物网站”到“社交平台”也能用

传统AI在“同场景”表现还行，但换个网站、换个领域就歇菜——比如在购物网站学的“筛选商品”流程，到社交网站“筛选帖子”就不会用了。而AWM的流程因为是“通用抽象”的，跨场景能力特别强。

论文里的实验很能说明问题：在Mind2Web数据集的“跨域名”测试中（比如训练数据是购物领域，测试数据是社交领域），AWM比基线方法高14个百分点。这就像一个员工在电商公司学会了“筛选客户需求”，跳槽到互联网公司，也能快速用类似方法“筛选用户反馈”——核心能力是通用的。

四、实验说话：AWM到底有多好用？

光说原理不够，得看实际效果。作者团队在两个主流网页导航 benchmark 上做了测试，结果用“惊艳”形容不为过——我把数据翻译成普通人能懂的“大白话”，帮你感受下：

1. WebArena：成功率提升51%，还少走2步

WebArena包含812个网页任务，覆盖购物、社交论坛、代码管理、地图等场景，最看重“操作正确性”和“效率”。

• 成功率大飞跃：传统最好的自主智能体（BrowserGym），10个任务大概能成2.3个；AWM直接做到了10个成3.5个，相对提升51.1%。更厉害的是，它甚至超过了“人工写死工作流”的方法（SteP）——也就是说，AI自己总结的流程，比人类专家写的还好用一点。
• 效率更高：AWM完成每个任务平均只用5.9步，比BrowserGym少走2步，比需要反复修改的AutoEval方法少走40多步。这就像两个员工做同样的事，一个要走8步，一个走6步，还做得更对。

2. Mind2Web：跨领域能力碾压，gap越大越厉害

Mind2Web更看重“泛化性”，比如跨不同网站、跨不同领域的任务。

• 基础提升：在“跨任务”测试中（同一网站，不同任务），AWM的步骤成功率比基线高24.6%——简单说，原来10步里对3.6步，现在对4.5步。
• 跨场景优势：在“跨网站”测试（比如从苹果官网到百思买官网），AWM比基线高8.9个百分点；到“跨领域”测试（比如从购物网站到社交网站），优势扩大到14个百分点。这说明“任务和数据差距越大，AWM的优势越明显”——这正是现实场景最需要的能力。

3. 小数据高效学：40个例子就“开窍”

论文里有张图特别直观（图4）：AWM在线模式在处理前40个任务时，成功率飞速上涨，之后逐渐稳定。这意味着AI不需要海量数据，只要几十次“实战经验”，就能总结出好用的流程。对比传统方法“需要几百上千个例子才能勉强学好”，AWM的“学习效率”提升不是一点半点。

五、未来能帮我们做啥？这些场景太实用了

作为研究员，我更关心技术的落地价值。AWM的核心是“让AI积累可复用的流程经验”，这个思路能用到很多场景：

个人AI助手：比如让AI帮你整理邮箱——它会记“归档工作邮件的流程：筛选发件人是同事→标为已读→移到‘工作’文件夹”，下次不管是张三还是李四发的邮件，都能按这个流程处理；帮你订行程时，记“订机票+酒店+约车”的组合流程，换个目的地也不用重新教。
• 企业AI客服：售后客服AI能记“处理退换货的流程：问清订单号→查商品是否符合退换条件→发送退货地址→跟进退款”，不管客户是电话还是文字咨询，都能按统一流程高效处理，不用每次都“转人工”。
• 智能家居控制：比如你习惯“回家后先开空调→再开加湿器→最后开净化器”，AI会记这个流程，下次你说“我回来了”，就会自动按这个顺序操作，不用你逐个下令。
• 工业场景：比如AI监控生产线——记“检测设备异常的流程：看温度是否超过阈值→查转速是否正常→发送警报”，不管是A设备还是B设备，只要出现类似异常，都能快速响应。

当然，AWM现在也有局限：比如有时候会“过度依赖旧流程”——遇到新情况（比如网页弹出意外的验证码），AI还是会按旧流程走，不会灵活调整；另外，如果给流程里加太多网页HTML信息，反而会让AI“信息过载”，效果变差（表8）。这些都是未来可以优化的方向。

六、总结：让AI从“临时工”变成“老员工”

最后回到核心——AWM的本质，不是给AI加了个更复杂的“大脑”，而是给它配了一本“会更新的工作手册”。这本手册让AI从“每次都从零开始的临时工”，变成“会积累经验、越做越熟练的老员工”。

在AI越来越多地进入我们工作和生活的今天，“能否积累经验”是区分“好用的AI”和“鸡肋的AI”的关键。AWM的思路，不仅能提升网页导航的性能，更给“如何让AI处理复杂任务”提供了一个重要方向——未来的AI，或许不需要每次都“重新学习”，而是能像人一样，在实践中不断总结、不断成长。