agent- Claude 3.5计算机使用论文解析

摘要

最近发布的Claude 3.5计算机使用模型脱颖而出，成为首个在公开测试版中提供计算机使用功能的图形用户界面（GUI）代理。作为一个早期测试版，其在复杂的现实环境中的能力仍然未知。在这项探索Claude 3.5计算机使用的案例研究中，我们精心设计并组织了一系列跨越多个领域和软件的任务。通过这些案例的观察，我们展示了Claude 3.5计算机使用在从语言到桌面操作的端到端能力上的前所未有的表现。与此同时，我们还提供了一个开箱即用的代理框架，方便用户部署基于API的GUI自动化模型并轻松实现。本案例研究旨在展示Claude 3.5计算机使用的能力和局限性的基础工作，并通过详细的分析提出关于规划、行动和批判的问题，这些问题必须考虑在内以推动未来的改进。我们希望这项初步探索能激发未来在GUI代理领域的研究。本文中的所有测试案例可以通过以下项目进行尝试：https://github.com/showlab/computer_use_ootb 。

1 引言
桌面任务自动化已成为一个日益热门的研究领域，驱动因素是增强用户在各种应用环境中的生产力和可访问性。从网页导航到专业软件甚至视频游戏，用户经常遇到可以从自动化中受益的重复性任务。虽然像GPT-4和Qwen-2-VL这样的语言模型已经展示了它们通过一般GUI交互自动化任务的潜力，但这些模型在实际桌面任务自动化中的能力仍远远不足。

近期的GUI自动化代理研究已经利用通用的LLM（大语言模型）通过理解GUI状态并生成操作与图形用户界面（GUI）进行交互。然而，Anthropic发布的Claude 3.5计算机使用版标志着该领域的重要进展，它推出了第一个提供公共测试版的前沿AI模型，用于计算机使用。与以前的模型不同，Claude 3.5计算机使用版通过API调用提供端到端的解决方案，操作将根据用户指令和观察到的纯视觉GUI状态生成，而无需进一步的外部知识，如参考计划和GUI解析。

尽管取得了这一进展，社区仍然需要进行全面的分析，深入评估基于API的GUI自动化模型的性能。为首次探索此类模型的能力与局限性，我们提出了一项基于现实桌面环境的全面案例研究，涵盖多个软件领域，包括网页导航、专业工具和游戏。所选案例旨在反映各种用户群体的需求，确保评估涵盖广泛的桌面自动化任务。
为了隔离模型能力的具体方面，我们在三个维度上严格评估基于API的GUI自动化模型的性能：

• 规划：评估模型从用户查询中生成可执行计划的能力。该计划应具有正确的流程，允许软件的整体成功操作，每一步都应明确且可执行。
• 操作：评估模型是否能够准确定位可交互的GUI元素，并从派生的计划中逐步执行操作。
• 批评：衡量模型对环境变化的感知能力，包括其根据操作结果进行调整的能力，例如在任务失败时重试，或者在任务完成时终止执行。

据我们所知，这是首次对Claude 3.5计算机使用版和基于API的GUI自动化模型进行的全面案例研究。我们希望我们的研究能为社区提供有关这些模型的能力和局限性的宝贵见解。我们的案例研究旨在为继续探索和基准测试基于API的GUI自动化奠定基础。此外，为了帮助社区发现并基准测试新发布的模型，我们还推出了一个即插即用的通用框架——计算机使用OOTB，提供一个无缝的解决方案，使用户和研究人员能够在本地环境中部署这些模型，而无需复杂的设置或配置，旨在提高GUI自动化研究领域的可访问性。
本报告的贡献总结如下：

我们提出了Claude 3.5计算机使用版在桌面任务自动化中的全面案例研究，涵盖网页搜索、专业软件和游戏等领域，旨在反映各种用户群体的需求。
我们介绍了一个即插即用的跨平台代理框架，用于部署基于API的GUI自动化模型，提供了一个通用解决方案，便于轻松实现和基准测试。
我们进行了广泛的人类评估并提供了深入分析，展示了新发布的基于API的GUI自动化模型的进展与局限性。

2 相关工作

大型视觉-语言模型（LVLMs）

近年来，研究者们投入了大量精力构建能够联合处理图像和文本的LVLM（Large Vision-Language Models）[1, 2, 3, 4]，通过连接层将视觉编码器与大型语言模型（LLMs）结合，从而继承LLMs的语言能力和推理技能，执行视觉语言任务。一系列研究聚焦于使用LVLM进行对接[5, 6, 7]，例如在生成响应时为物体提供边界框[8, 9]。

GUI代理

由大型语言模型（LLMs）驱动的自主代理（通常称为语言代理）[10, 11]，由于其交互能力，近年来受到了广泛关注[12, 13, 14, 15]。近期的工作使得这些代理能够通过程序[16]或API调用[17, 18]与操作系统进行交互。然而，由于大多数商业软件是闭源的，这对代理的使用造成了显著的限制，因为代理通常无法访问内部API或代码。因此，研究转向了基于GUI的代理，这些代理通过类似人类的鼠标和键盘操作与数字设备进行交互[19, 20, 21]。像WebGPT[22]、Agent-Lumos[23]、CogAgent[20]、AutoWebGLM[24]、Auto-GUI[25]、AppAgent[26]、ScreenAgent[27]和AssistGUI[28]等模型已在多个任务上表现出更好的性能，从网页浏览扩展到一般的GUI自动化。

为了提高这些GUI代理的有效性，研究者们专注于开发能够解释人类意图并以函数调用形式预测行为的系统[29, 30, 31, 32]。然而，由于可用代理数据量有限且种类繁多，进展仍然受限[33, 34]。特别是GUI代理仍未得到充分探索，只有少数尝试训练能够有效对接GUI交互的模型[19, 20, 35]。

此外，SearchAgent[36]引入了一种推理时搜索算法，以增强在交互式网页环境中的多步骤推理和规划。综上所述，这些进展推动了更复杂、更强大的GUI代理的发展，推动了各类数字平台上自动化任务完成的边界。

3 Claude计算机使用情况揭示

为了建立对Claude计算机使用情况的深入分析，我们将全面探讨模型设计，并为社区提供一个可复制的框架。我们的分析将从多个角度展开，强调底层模型及其工具。

3.1 模型设计

Claude计算机使用的主要任务可以表述为：当给定一个自然语言用户指令X instr时，代理需要在桌面上完成一系列操作以完成该指令。从初始状态到最终状态的整个代理与环境交互的过程涉及多个步骤。在每个时间步t，代理将观察到GUI状态I t，然后从其动作空间中选择下一个步骤动作，利用相应的工具执行该动作以完成任务。之后，模型会反思操作结果，从而提高未来的规划能力。接下来，我们将深入探讨Claude计算机使用的详细设计。

3.1.1 系统提示

以下是Claude计算机使用的系统提示，其中特定于环境的变量将用大写字母表示，并用方括号括起来。

3.1.2 状态观察

Claude计算机使用仅通过实时截图获取的视觉信息来观察环境，而不依赖于元数据或HTML。这些截图是在任务操作过程中捕获的，使得模型能够有效模仿人类桌面交互。这种能力对于适应GUI环境的高度动态性至关重要。通过采用“仅视觉”的方法，Claude计算机使用能够在不依赖软件API的情况下完成一般计算机操作，尤其适用于闭源软件的使用。

3.1.3 推理范式

Claude计算机使用推理-行动范式进行推理过程，从而在高度动态的GUI环境中生成更可靠的动作。类似于传统的ReAct[37]，Claude计算机在决定采取某个行动之前会先观察环境，确保该行动适应当前的GUI状态。此外，Claude计算机能够有效识别何时已完成用户需求，从而能够果断行动而不进行不必要的步骤。有趣的是，与传统的ReAct范式（通常涉及在每个步骤中持续观察环境）不同，Claude计算机采用了更具选择性的观察策略。它仅在必要时观察GUI状态，根据其推理决定观察时机。这种方法有效减少了成本，加速了整体过程，避免了不必要的观察。

3.1.4 工具使用

目前，Claude计算机使用了三种Anthropic定义的工具：计算机工具、文本编辑器工具和Bash工具。以下是每个工具的详细描述：

计算机工具：计算机工具帮助Claude计算机使用鼠标和键盘与计算机交互，并拍摄截图。以下是计算机工具的描述：

这是一个桌面GUI接口。你无法访问终端或应用菜单，必须通过点击桌面图标来启动应用程序。
一些应用可能需要时间启动或处理操作，因此你可能需要等待并拍摄连续截图以查看操作结果。例如，如果你点击Firefox，窗口没有打开，尝试拍摄另一个截图。
屏幕分辨率为{display _ width _ px}x{display _ height _ px}。
显示器编号为{display _ number}。
每当你打算将光标移动到点击某个元素（如图标）时，应查看截图确定元素的坐标，然后再移动光标。
如果你点击了程序或链接，但它没有加载，即使等待后仍未打开，尝试调整光标位置，确保光标尖端落在你想点击的元素上。
确保将光标尖端点击任何按钮、链接、图标等，而不是点击框的边缘，除非有特别要求。

目录