https://arxiv.org/abs/2312.13771
https://github.com/mnotgod96/AppAgent
摘要与引言:
本文介绍了AppAgent,一种新颖的框架,利用多模态大型语言模型(LLMs)以类似人类用户的方式操作智能手机应用程序。与传统的智能助手(如Siri)不同,后者需要后端系统访问和功能调用,AppAgent 直接通过简化的人类操作(如点击和滑动)与应用界面互动。这种方法增强了安全性,扩大了适用范围,并确保了对用户界面(UI)变化的适应性,无需广泛的再训练或后端集成。
https://arxiv.org/abs/2406.01014
论文标题: Mobile-Agent-v2: A Multi-Agent Framework for Enhanced Mobile Device Operation Assistance
研究方向: 多模态大语言模型(MLLMs)在移动设备操作任务中的应用,通过多智能体架构提升导航效率和任务完成率。
mobile-agent : autonomous multi-modal mobile device agent with visual perception
这是v1版本
https://arxiv.org/abs/2401.16158
基于多模态大语言模型(Multimodal Large Language Models, MLLM)的移动设备代理正在成为一种流行的应用。在本文中,我们介绍了一种自主多模态移动设备代理——Mobile-Agent。Mobile-Agent 首先利用视觉感知工具精确识别并定位应用前端界面中的视觉和文本元素。基于视觉上下文的感知,Mobile-Agent 然后自主规划并分解复杂的操作任务,逐步引导完成移动应用中的操作。不同于依赖应用 XML 文件或移动系统元数据的早期解决方案,Mobile-Agent 采用以视觉为核心的方法,能够在不同的移动操作环境中更具适应性,从而无需特定系统的定制化支持。为了评估 Mobile-Agent 的性能,我们引入了 Mobile-Eval,一个用于评估移动设备操作的基准。基于 Mobile-Eval,我们对 Mobile-Agent 进行了全面的评估。实验结果表明,Mobile-Agent 在操作准确性和完成率方面表现显著,即使面对多应用操作等复杂指令,Mobile-Agent 依然能够完成要求。代码和模型已开源于 https://github.com/X-PLUG/MobileAgent。
增加用户:
bash展开代码sudo useradd -m -s /bin/bash zhangsan
将用户 zhangsan 添加到 sudo 组:
bash展开代码sudo usermod -aG sudo zhangsan
让 sudo 组的用户免密码执行 sudo。
在 /etc/sudoers 中找到以下行(通常被注释):
plaintext展开代码# %sudo ALL=(ALL:ALL) NOPASSWD: ALL
去掉注释(删除行首的 #):
plaintext展开代码%sudo ALL=(ALL:ALL) NOPASSWD: ALL
摘要
本文介绍了一种称为“应用代理(app agents)”的全新移动电话控制架构,用于高效地在各种Android应用之间进行交互和控制。提出的轻量级多模态应用控制(LiMAC)系统,以文本目标和一系列先前的移动观察数据(如截图和对应的UI树)作为输入,生成精确的操作。为了解决智能手机本身的计算限制,LiMAC内引入了一个小型的动作转换器(Action Transformer,简称AcT),并集成了一个微调的视觉语言模型(VLM),以实现实时的决策与任务执行。在两个开源移动控制数据集上的评估结果表明,我们的小型架构在性能上明显优于微调后的开源VLM(如Florence2和Qwen2-VL),并大幅超越了基于封闭源基础模型(如GPT-4o)进行的提示工程基线。具体而言,LiMAC将整体操作精度提高了19%,相比提示工程基线高出42%。
该文章已加密,点击 阅读全文 并输入密码后方可查看。
更新日志:
展开代码2024-12-18: dockerpull.org/kevinchina/deeplearning:llamafactory20241218-2 2025-03-10:kevinchina/deeplearning:llamafactory20250311-3 额外安装: pip install opencv-python-headless==4.5.4.58 pip install transformers==4.49.0 训练qwen2.5 vl 没问题 2025-04-18:kevinchina/deeplearning:llamafactory20250418 # cuda12.6 嫌麻烦没安装其他库 kevinchina/deeplearning:llamafactory20250311-3-swanlab # 最新的 带swanlab kevinchina/deeplearning:llamafactory20250601
保持最新的仓库代码:
bash展开代码git clone https://github.com/hiyouga/LLaMA-Factory.git --depth 1
cd LLaMA-Factory