https://arxiv.org/abs/2409.07429
论文标题: Agent Workflow Memory (AWM): Improving Task Success in Long-Horizon Web Navigation Tasks
本文由来自卡内基梅隆大学和麻省理工学院的研究团队提出,旨在解决基于语言模型的代理在解决复杂、长时任务时的表现不佳问题。当前代理主要依赖固定的训练样例或上下文学习,缺乏应对新任务或环境变化的灵活性。论文的主要贡献是提出了一种Agent Workflow Memory (AWM) 方法,通过从过去的任务经验中学习并提取可重用的工作流(workflow),从而指导代理完成新的任务。
论文的核心贡献是:
AWM的核心思想是从代理执行任务的轨迹中提取可重用的工作流,并将这些工作流存储到代理的记忆中,在未来的任务中提供指导。AWM 的工作流程分为以下几个步骤:
一个工作流由两部分组成:
AWM的归纳模块从代理过去的经验中提取出工作流。具体来说,模型通过从执行任务的轨迹中识别出常见的子任务(如搜索产品或点击按钮),并将这些子任务提取出来形成工作流。例如,一个常见的子任务可以是“在地图上找到一个地点”,这个工作流可以用于多个类似任务中。
AWM支持两种场景:
论文在两个主要基准上验证了AWM的有效性:
WebArena 提供了812个网络导航任务,涵盖电商、社交媒体等领域。实验结果显示,AWM 在没有人工监督的情况下,成功率比当前最佳方法提升了51.1%。相比于仅使用基于经验的方法,AWM通过学习常见的任务模式,显著提高了代理的任务解决效率。此外,AWM还减少了完成任务所需的步骤。
Mind2Web 涵盖了跨任务、跨网站和跨领域的广泛任务。AWM在这些任务上的跨域泛化能力表现突出,尤其是在没有训练样例的情况下,AWM依然能够通过在线学习不断提升任务成功率。实验结果表明,AWM在不同测试场景下的成功率提升了8.9到14.0个百分点。
AWM的优势在于其灵活的工作流归纳机制和强大的泛化能力,适用于多任务、多领域的复杂环境。然而,论文也指出了AWM在某些任务中仍可能遇到挑战,如如何有效地从不准确的经验中学习工作流。未来的研究方向可能包括优化工作流的表示方式,进一步提升代理的自适应能力。
AWM通过归纳可重用的工作流,显著提升了代理在复杂任务中的表现,尤其在任务间的泛化能力上表现突出。该方法为解决长时任务中的复杂轨迹提供了新的思路,并展示了如何通过不断积累任务经验来提高代理的智能性。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!