2024-10-30
DL论文
00

https://arxiv.org/abs/2312.13771

https://github.com/mnotgod96/AppAgent

《AppAgent:作为智能手机用户的多模态代理》摘要

摘要与引言:
本文介绍了AppAgent,一种新颖的框架,利用多模态大型语言模型(LLMs)以类似人类用户的方式操作智能手机应用程序。与传统的智能助手(如Siri)不同,后者需要后端系统访问和功能调用,AppAgent 直接通过简化的人类操作(如点击和滑动)与应用界面互动。这种方法增强了安全性,扩大了适用范围,并确保了对用户界面(UI)变化的适应性,无需广泛的再训练或后端集成。

2024-10-30
DL论文
00

https://arxiv.org/abs/2406.01014

论文总结

论文标题: Mobile-Agent-v2: A Multi-Agent Framework for Enhanced Mobile Device Operation Assistance

研究方向: 多模态大语言模型(MLLMs)在移动设备操作任务中的应用,通过多智能体架构提升导航效率和任务完成率。

1. 研究背景与动机

  • 多模态AI应用场景的兴起: 移动设备操作任务作为多模态AI的重要应用场景,需求日益增长。
  • 单智能体架构的局限性: 现有的基于MLLM的单智能体(如Mobile-Agent)在处理长序列的任务进度导航和焦点内容导航时表现不佳,主要受限于冗长的token序列和交错的文本-图像数据格式,导致任务完成率低(如Mobile-Agent成功率仅为20%)。
2024-10-30
DL论文
00

mobile-agent : autonomous multi-modal mobile device agent with visual perception

这是v1版本

https://arxiv.org/abs/2401.16158

摘要

基于多模态大语言模型(Multimodal Large Language Models, MLLM)的移动设备代理正在成为一种流行的应用。在本文中,我们介绍了一种自主多模态移动设备代理——Mobile-Agent。Mobile-Agent 首先利用视觉感知工具精确识别并定位应用前端界面中的视觉和文本元素。基于视觉上下文的感知,Mobile-Agent 然后自主规划并分解复杂的操作任务,逐步引导完成移动应用中的操作。不同于依赖应用 XML 文件或移动系统元数据的早期解决方案,Mobile-Agent 采用以视觉为核心的方法,能够在不同的移动操作环境中更具适应性,从而无需特定系统的定制化支持。为了评估 Mobile-Agent 的性能,我们引入了 Mobile-Eval,一个用于评估移动设备操作的基准。基于 Mobile-Eval,我们对 Mobile-Agent 进行了全面的评估。实验结果表明,Mobile-Agent 在操作准确性和完成率方面表现显著,即使面对多应用操作等复杂指令,Mobile-Agent 依然能够完成要求。代码和模型已开源于 https://github.com/X-PLUG/MobileAgent

2024-10-30
Linux运维
00

增加用户:

bash
展开代码
sudo useradd -m -s /bin/bash zhangsan

将用户 zhangsan 添加到 sudo 组:

bash
展开代码
sudo usermod -aG sudo zhangsan

sudo 组的用户免密码执行 sudo

/etc/sudoers 中找到以下行(通常被注释):

plaintext
展开代码
# %sudo ALL=(ALL:ALL) NOPASSWD: ALL

去掉注释(删除行首的 #):

plaintext
展开代码
%sudo ALL=(ALL:ALL) NOPASSWD: ALL
2024-10-29
DL论文
00

摘要

本文介绍了一种称为“应用代理(app agents)”的全新移动电话控制架构,用于高效地在各种Android应用之间进行交互和控制。提出的轻量级多模态应用控制(LiMAC)系统,以文本目标和一系列先前的移动观察数据(如截图和对应的UI树)作为输入,生成精确的操作。为了解决智能手机本身的计算限制,LiMAC内引入了一个小型的动作转换器(Action Transformer,简称AcT),并集成了一个微调的视觉语言模型(VLM),以实现实时的决策与任务执行。在两个开源移动控制数据集上的评估结果表明,我们的小型架构在性能上明显优于微调后的开源VLM(如Florence2和Qwen2-VL),并大幅超越了基于封闭源基础模型(如GPT-4o)进行的提示工程基线。具体而言,LiMAC将整体操作精度提高了19%,相比提示工程基线高出42%。

2024-10-29
单片机
00

任务

设计和制作一台恒流(CC)工作模式的简易直流电子负载。其原理示意图如图1所示。

图1 直流电子负载原理示意图

2024-10-28
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-26
深度学习
00

更新日志:

展开代码
2024-12-18: dockerpull.org/kevinchina/deeplearning:llamafactory20241218-2 2025-03-10:kevinchina/deeplearning:llamafactory20250311-3 额外安装: pip install opencv-python-headless==4.5.4.58 pip install transformers==4.49.0 训练qwen2.5 vl 没问题 2025-04-18:kevinchina/deeplearning:llamafactory20250418 # cuda12.6 嫌麻烦没安装其他库 kevinchina/deeplearning:llamafactory20250311-3-swanlab # 最新的 带swanlab kevinchina/deeplearning:llamafactory20250601

保持最新的仓库代码:

bash
展开代码
git clone https://github.com/hiyouga/LLaMA-Factory.git --depth 1 cd LLaMA-Factory
2024-10-26
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-26
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。