编辑
2024-10-30
DL论文
00

https://arxiv.org/abs/2312.13771

https://github.com/mnotgod96/AppAgent

《AppAgent:作为智能手机用户的多模态代理》摘要

摘要与引言:
本文介绍了AppAgent,一种新颖的框架,利用多模态大型语言模型(LLMs)以类似人类用户的方式操作智能手机应用程序。与传统的智能助手(如Siri)不同,后者需要后端系统访问和功能调用,AppAgent 直接通过简化的人类操作(如点击和滑动)与应用界面互动。这种方法增强了安全性,扩大了适用范围,并确保了对用户界面(UI)变化的适应性,无需广泛的再训练或后端集成。

编辑
2024-10-30
DL论文
00

https://arxiv.org/abs/2406.01014

论文总结

论文标题: Mobile-Agent-v2: A Multi-Agent Framework for Enhanced Mobile Device Operation Assistance

研究方向: 多模态大语言模型(MLLMs)在移动设备操作任务中的应用,通过多智能体架构提升导航效率和任务完成率。

1. 研究背景与动机

  • 多模态AI应用场景的兴起: 移动设备操作任务作为多模态AI的重要应用场景,需求日益增长。
  • 单智能体架构的局限性: 现有的基于MLLM的单智能体(如Mobile-Agent)在处理长序列的任务进度导航和焦点内容导航时表现不佳,主要受限于冗长的token序列和交错的文本-图像数据格式,导致任务完成率低(如Mobile-Agent成功率仅为20%)。
编辑
2024-10-30
DL论文
00

mobile-agent : autonomous multi-modal mobile device agent with visual perception

这是v1版本

https://arxiv.org/abs/2401.16158

摘要

基于多模态大语言模型(Multimodal Large Language Models, MLLM)的移动设备代理正在成为一种流行的应用。在本文中,我们介绍了一种自主多模态移动设备代理——Mobile-Agent。Mobile-Agent 首先利用视觉感知工具精确识别并定位应用前端界面中的视觉和文本元素。基于视觉上下文的感知,Mobile-Agent 然后自主规划并分解复杂的操作任务,逐步引导完成移动应用中的操作。不同于依赖应用 XML 文件或移动系统元数据的早期解决方案,Mobile-Agent 采用以视觉为核心的方法,能够在不同的移动操作环境中更具适应性,从而无需特定系统的定制化支持。为了评估 Mobile-Agent 的性能,我们引入了 Mobile-Eval,一个用于评估移动设备操作的基准。基于 Mobile-Eval,我们对 Mobile-Agent 进行了全面的评估。实验结果表明,Mobile-Agent 在操作准确性和完成率方面表现显著,即使面对多应用操作等复杂指令,Mobile-Agent 依然能够完成要求。代码和模型已开源于 https://github.com/X-PLUG/MobileAgent

编辑
2024-10-30
Linux运维
00

在 Ubuntu 中创建用户并配置权限的详细指南

在 Ubuntu 等 Linux 系统中,用户和权限管理对于系统的安全和稳定运行至关重要。本指南将深入介绍如何创建新用户、分配用户组,以及如何通过编辑 /etc/sudoers 文件来配置用户的 sudo 权限,包括免密码执行 sudo 命令的设置。

编辑
2024-10-29
DL论文
00

摘要

本文介绍了一种称为“应用代理(app agents)”的全新移动电话控制架构,用于高效地在各种Android应用之间进行交互和控制。提出的轻量级多模态应用控制(LiMAC)系统,以文本目标和一系列先前的移动观察数据(如截图和对应的UI树)作为输入,生成精确的操作。为了解决智能手机本身的计算限制,LiMAC内引入了一个小型的动作转换器(Action Transformer,简称AcT),并集成了一个微调的视觉语言模型(VLM),以实现实时的决策与任务执行。在两个开源移动控制数据集上的评估结果表明,我们的小型架构在性能上明显优于微调后的开源VLM(如Florence2和Qwen2-VL),并大幅超越了基于封闭源基础模型(如GPT-4o)进行的提示工程基线。具体而言,LiMAC将整体操作精度提高了19%,相比提示工程基线高出42%。