摘要
本文介绍了一种称为“应用代理(app agents)”的全新移动电话控制架构,用于高效地在各种Android应用之间进行交互和控制。提出的轻量级多模态应用控制(LiMAC)系统,以文本目标和一系列先前的移动观察数据(如截图和对应的UI树)作为输入,生成精确的操作。为了解决智能手机本身的计算限制,LiMAC内引入了一个小型的动作转换器(Action Transformer,简称AcT),并集成了一个微调的视觉语言模型(VLM),以实现实时的决策与任务执行。在两个开源移动控制数据集上的评估结果表明,我们的小型架构在性能上明显优于微调后的开源VLM(如Florence2和Qwen2-VL),并大幅超越了基于封闭源基础模型(如GPT-4o)进行的提示工程基线。具体而言,LiMAC将整体操作精度提高了19%,相比提示工程基线高出42%。
该文章已加密,点击 阅读全文
并输入密码后方可查看。