2024-09-18
DL论文
00

目录

1. 论文概述
2. 方法与原理
2.1 工作流表示
2.2 归纳与使用工作流
3. 实验与结果
3.1 WebArena
3.2 Mind2Web
4. 讨论与展望
5. 总结

https://arxiv.org/abs/2409.07429

论文标题: Agent Workflow Memory (AWM): Improving Task Success in Long-Horizon Web Navigation Tasks

1. 论文概述

本文由来自卡内基梅隆大学和麻省理工学院的研究团队提出,旨在解决基于语言模型的代理在解决复杂、长时任务时的表现不佳问题。当前代理主要依赖固定的训练样例或上下文学习,缺乏应对新任务或环境变化的灵活性。论文的主要贡献是提出了一种Agent Workflow Memory (AWM) 方法,通过从过去的任务经验中学习并提取可重用的工作流(workflow),从而指导代理完成新的任务。

论文的核心贡献是:

  • 创新点:AWM 能够从任务经验中归纳出常见的工作流,并将其集成到代理的记忆中,增强代理的任务解决能力,特别是在跨任务、跨网站和跨领域的泛化能力上。
  • 应用领域:本文实验涵盖了两个主要的网络导航基准,Mind2WebWebArena,涉及旅行、购物和社交媒体等多个领域的任务。

2. 方法与原理

AWM的核心思想是从代理执行任务的轨迹中提取可重用的工作流,并将这些工作流存储到代理的记忆中,在未来的任务中提供指导。AWM 的工作流程分为以下几个步骤:

2.1 工作流表示

一个工作流由两部分组成:

  • 文本描述:总结工作流的功能目标。
  • 任务步骤:一系列用于完成任务的步骤。每个步骤包含当前环境的描述、代理的推理过程以及所采取的操作。

2.2 归纳与使用工作流

AWM的归纳模块从代理过去的经验中提取出工作流。具体来说,模型通过从执行任务的轨迹中识别出常见的子任务(如搜索产品或点击按钮),并将这些子任务提取出来形成工作流。例如,一个常见的子任务可以是“在地图上找到一个地点”,这个工作流可以用于多个类似任务中。

AWM支持两种场景:

  • 离线模式:代理在测试前从高质量的标注样例中归纳出工作流,并在推理时使用这些工作流。
  • 在线模式:代理在推理时动态归纳工作流,持续更新其记忆库,适应新的任务和环境。

3. 实验与结果

论文在两个主要基准上验证了AWM的有效性:

3.1 WebArena

WebArena 提供了812个网络导航任务,涵盖电商、社交媒体等领域。实验结果显示,AWM 在没有人工监督的情况下,成功率比当前最佳方法提升了51.1%。相比于仅使用基于经验的方法,AWM通过学习常见的任务模式,显著提高了代理的任务解决效率。此外,AWM还减少了完成任务所需的步骤。

3.2 Mind2Web

Mind2Web 涵盖了跨任务、跨网站和跨领域的广泛任务。AWM在这些任务上的跨域泛化能力表现突出,尤其是在没有训练样例的情况下,AWM依然能够通过在线学习不断提升任务成功率。实验结果表明,AWM在不同测试场景下的成功率提升了8.9到14.0个百分点。

4. 讨论与展望

AWM的优势在于其灵活的工作流归纳机制和强大的泛化能力,适用于多任务、多领域的复杂环境。然而,论文也指出了AWM在某些任务中仍可能遇到挑战,如如何有效地从不准确的经验中学习工作流。未来的研究方向可能包括优化工作流的表示方式,进一步提升代理的自适应能力。

5. 总结

AWM通过归纳可重用的工作流,显著提升了代理在复杂任务中的表现,尤其在任务间的泛化能力上表现突出。该方法为解决长时任务中的复杂轨迹提供了新的思路,并展示了如何通过不断积累任务经验来提高代理的智能性。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!