2024-10-30
DL论文
00

mobile-agent : autonomous multi-modal mobile device agent with visual perception

这是v1版本

https://arxiv.org/abs/2401.16158

摘要

基于多模态大语言模型(Multimodal Large Language Models, MLLM)的移动设备代理正在成为一种流行的应用。在本文中,我们介绍了一种自主多模态移动设备代理——Mobile-Agent。Mobile-Agent 首先利用视觉感知工具精确识别并定位应用前端界面中的视觉和文本元素。基于视觉上下文的感知,Mobile-Agent 然后自主规划并分解复杂的操作任务,逐步引导完成移动应用中的操作。不同于依赖应用 XML 文件或移动系统元数据的早期解决方案,Mobile-Agent 采用以视觉为核心的方法,能够在不同的移动操作环境中更具适应性,从而无需特定系统的定制化支持。为了评估 Mobile-Agent 的性能,我们引入了 Mobile-Eval,一个用于评估移动设备操作的基准。基于 Mobile-Eval,我们对 Mobile-Agent 进行了全面的评估。实验结果表明,Mobile-Agent 在操作准确性和完成率方面表现显著,即使面对多应用操作等复杂指令,Mobile-Agent 依然能够完成要求。代码和模型已开源于 https://github.com/X-PLUG/MobileAgent

2024-10-30
Linux运维
00

在 Ubuntu 中创建用户并配置权限的详细指南

在 Ubuntu 等 Linux 系统中,用户和权限管理对于系统的安全和稳定运行至关重要。本指南将深入介绍如何创建新用户、分配用户组,以及如何通过编辑 /etc/sudoers 文件来配置用户的 sudo 权限,包括免密码执行 sudo 命令的设置。

2024-10-29
DL论文
00

摘要

本文介绍了一种称为“应用代理(app agents)”的全新移动电话控制架构,用于高效地在各种Android应用之间进行交互和控制。提出的轻量级多模态应用控制(LiMAC)系统,以文本目标和一系列先前的移动观察数据(如截图和对应的UI树)作为输入,生成精确的操作。为了解决智能手机本身的计算限制,LiMAC内引入了一个小型的动作转换器(Action Transformer,简称AcT),并集成了一个微调的视觉语言模型(VLM),以实现实时的决策与任务执行。在两个开源移动控制数据集上的评估结果表明,我们的小型架构在性能上明显优于微调后的开源VLM(如Florence2和Qwen2-VL),并大幅超越了基于封闭源基础模型(如GPT-4o)进行的提示工程基线。具体而言,LiMAC将整体操作精度提高了19%,相比提示工程基线高出42%。

2024-10-29
单片机
00

任务

设计和制作一台恒流(CC)工作模式的简易直流电子负载。其原理示意图如图1所示。

图1 直流电子负载原理示意图

2024-10-28
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-26
深度学习
00

更新日志:

展开代码
2024-12-18: dockerpull.org/kevinchina/deeplearning:llamafactory20241218-2 2025-03-10:kevinchina/deeplearning:llamafactory20250311-3 额外安装: pip install opencv-python-headless==4.5.4.58 pip install transformers==4.49.0 训练qwen2.5 vl 没问题 2025-04-18:kevinchina/deeplearning:llamafactory20250418 # cuda12.6 嫌麻烦没安装其他库 kevinchina/deeplearning:llamafactory20250311-3-swanlab # 最新的 带swanlab kevinchina/deeplearning:llamafactory20250601

保持最新的仓库代码:

bash
展开代码
git clone https://github.com/hiyouga/LLaMA-Factory.git --depth 1 cd LLaMA-Factory
2024-10-26
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-26
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-26
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-25
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-25
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-24
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-24
DL论文
00

https://arxiv.org/html/2410.14881v1

强大的内容审核分类器对生成式AI系统的安全至关重要。内容审核,或称为安全分类,一直以来都充满模糊性:安全与不安全输入之间的差异通常非常微妙,使得分类器(甚至是人类)在缺乏进一步上下文或解释的情况下,很难正确地区分违规样本和正常样本。此外,随着这些技术在各种应用和用户群体中不断部署,通过持续的模型微调来扩展风险发现和缓解的难度与成本也越来越大。

为应对这些挑战,我们提出了一种基于Retrieval-Augmented Generation (RAG)的分类方法,即Class-RAG。Class-RAG通过访问可动态更新的检索库,扩展了其基础大语言模型(LLM)的能力,从而实现了语义热修复(semantic hotfixing),以便灵活、即时地缓解风险。与传统的微调模型相比,Class-RAG在决策过程中表现出更大的灵活性和透明性。实证研究表明,Class-RAG在分类任务上表现更为出色,且对对抗性攻击更加鲁棒。此外,我们的研究结果表明,Class-RAG的性能随检索库规模的增长而提升,这意味着增加检索库的规模是一种可行且低成本的提升内容审核能力的方式。

2024-10-22
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-22
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-22
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-21
售卖作品
00

【一定要看附件的内容!】 广 西 大 学 电气类专业动手集中实践课程征集选题 课程名称:高级程序语言课程设计
项目名称:众创空间实验室设备与耗材管理系统(题目1)

2024-10-21
深度学习
00

视觉算法在现代相机中的应用与发展

随着智能手机和数码相机的飞速发展,视觉算法在提升摄影体验和图像质量方面发挥了至关重要的作用。从图像超分辨率到人像美颜,再到复杂的场景识别和防抖系统,视觉算法的进步不断推动着相机技术的革新。本文将详细探讨视觉算法在相机中的多种应用,并分析主要厂商在这一领域的团队架构与最新成果。

2024-10-21
深度学习
00

参考这篇:https://zhuanlan.zhihu.com/p/678590849

https://polaxiong.com/wiki/hou-qi-shu-yu/rui-hua.html

1. 相机成像的流程

1.1 完整的成像系统

一个完整的成像系统主要包括几个部分:

  • 镜头负责成像聚焦。
  • 滤光片根据相机类型选择,彩色相机用可见光带通滤光片,夜视相机用IR-CUT。
  • CMOS图像传感器将光信号转为数字信号。
  • ISP通过数字图像处理算法处理传感器采集的原始图像,编码器则负责压缩和输出图像。
2024-10-21
深度学习
00

主流的CMOS和CCD传感器通常输出Bayer马赛克格式的RAW数据,这种格式的图像数据无法直接被用户观看,必须经过转换才能变为常见的RGB或YUV格式,从而被主流图像处理软件所支持。在相机产品中,通常还需将RGB或YUV格式的图像进一步压缩为JPEG格式,以便于存储。整个图像处理过程被统称为图像信号处理(Image Signal Processing,ISP),其中广义的ISP不仅涵盖JPEG和H.264/265等压缩处理,狭义的ISP则仅指从RAW格式到RGB或YUV格式的转换。

由于图像信号处理需要处理海量数据,并且对实时性要求非常高,因此ISP通常采用硬件实现。有些图像传感器自身集成了部分ISP功能,用户可以根据需求选择启用或禁用。此外,ISP还可能作为独立芯片或SoC IP模块,能够从供应商处采购。下图展示了一个典型的相机系统功能框图,主要包括图像传感器(Image Sensor)、ISP硬件(ISP Hardware)、ISP实时处理模块(ISP Real-Time Loop)等核心组件,以及PC端的ISP调试工具(PC Image Tuning Tools)、用户程序(User Application)、配置文件等。有些ISP硬件还集成了计算机视觉(CV)算法功能,例如镜头畸变校正(Distortion Correction)等。