UI-TARS 论文
2025-12-16
DL论文
00

目录

2.3 数据飞轮简介
2.4 CT和SFT数据准备
2.5 多轮强化学习

https://arxiv.org/pdf/2509.02544

image.png

2.3 数据飞轮简介

如图3所示,我们引入了一个“数据飞轮”,它通过不断重复训练,让模型能力和数据质量互相促进提升。在每一轮训练中,最新的模型会生成新的智能体轨迹数据,这些数据经过筛选后,会被分配到最合适的训练阶段:高质量的进入后面阶段(比如SFT监督微调),质量一般的则回流到前面阶段(比如CT持续预训练)。这样循环下去,每个阶段都能拿到最适合自己的数据,形成一个“好模型产出好数据,好数据又训练出更好模型”的增强循环。

训练阶段
我们从Seed1.6的初始模型出发,飞轮包括三个阶段:CT持续预训练(从海量多样数据中学习广泛知识)、SFT监督微调(用高质量任务数据进行指令调优)和RL强化学习(在可验证的交互任务上优化)。每一轮迭代中,当前的RL模型生成新数据,质量高的加入SFT数据集,较低的进入CT数据集,然后模型用更新后的数据依次重新进行CT、SFT和RL训练。

启动数据来源
飞轮启动时有两批初始数据:CT数据来自网络教程、视频演示、内部数据等,构成基础知识集;SFT数据则来自合成生成和人工标注。在CT和SFT中,我们都混合了通用数据(如对话、推理)和智能体专用数据,但CT以通用知识为主,智能体数据占比较少;SFT则相反,重点使用高质量的智能体任务数据。

迭代数据流
第一轮RL模型训练完成后,它就成为后续迭代的数据生成器。在每一轮迭代中,模型通过拒绝采样或交互标注生成新数据样本,每个样本会经过验证函数V(s)打分。高质量样本(V(s)=1)加入下一轮的SFT数据集,较低质量样本(V(s)=0)则流入CT数据集。这样既保证SFT始终获得最新、已验证的高质量数据,又让CT能持续扩展更广泛但不那么精细的知识,且不影响监督训练信号。需注意,SFT和RL的执行频率高于CT。我们还观察到,每一轮中通用RL能力会大量迁移到智能体任务上。随着迭代进行,模型生成高质量数据的比例越来越高,能力加速成长。由于每个生成的样本都在合适的阶段被重新利用,没有数据被浪费,形成了一个可持续的循环,让模型和数据在共同进化中持续提升。

image.png

2.4 CT和SFT数据准备

当前可用的训练数据里,专门针对“智能体”(能自主推理、使用工具、多轮对话的AI)的数据非常少。特别是那种需要多步推理、操作工具的任务数据,更是稀缺。不像数学、编程数据到处都是。为了解决这个核心瓶颈,我们建立了一套系统化的数据生产流程,结合了人工标注和自动合成两种方法。

2.4.1 用于持续预训练(CT)的现场标注

我们的持续训练涵盖多个智能体领域。这里以图形用户界面(GUI)操作为例说明。

初期数据不足: 我们一开始用了公开的数据集,但很快发现几个大问题:

  1. 数量少,不够用:公开数据本来就少,很快用完了,难以支持大规模训练。尤其是中文应用的数据极其缺乏。
  2. 只有“动作”,没有“思考”:很多现有数据只记录了操作步骤(如点击哪里),却没有背后的思考过程(如“为什么要点击这里”)。模型只学这种数据,容易机械模仿,推理不稳定、不靠谱。

解决方案:建立“边用边记”的大规模标注系统

为了解决上述问题,我们开发了一个以人为中心的大规模标注系统,专门收集真实的思考过程。它的核心特点是“现场部署”:把标注工具直接装到标注员的个人电脑上,在他们日常使用软件时默默运行。这样就能在不干扰正常工作的情况下,持续收集真实场景的数据。

怎么标注的:说出你的想法

我们让标注员在完成电脑操作任务时,把脑海里的想法实时说出来(比如“我现在要找登录按钮…应该在这里…”)。这些语音会被自动转成文字,并与屏幕上的操作精确对齐,最终形成“思考链 + 实际操作”的成对数据。

为了数据更全面,我们招募了两类标注员:

  • 专家:演示复杂任务的标准流程。
  • 新手:让他们去探索、试错完成不熟悉的任务。这能收集到宝贵的、在没有先验知识时如何解决问题的数据。

任务设计与收集: 我们建立了一套可复现的数据采集流程:

  1. 选软件:根据行业覆盖、用户活跃度、市场占有率,选出主流网站和桌面软件。
  2. 设计任务:为每个软件构建任务图谱,根据使用频率、实用性等指标给任务重要性打分。
  3. 生成具体指令:用“人+大模型”协作的方式,为每个软件功能生成从易到难、从单应用到多应用的各种操作指令。

数据加工流程: 所有收集的原始数据都要经过严格处理:

  1. 质量控制:检查操作是否可执行、去重、双人审核。
  2. 优化思考文本:将录音转成文字后,用大模型优化,使其通顺、高质量。
  3. 对齐与增强:将优化后的思考文本与屏幕操作精确同步。最后,用程序化方法增加语言多样性,丰富推理链条,得到最终的高质量数据集。

2.4.2 用于有监督微调(SFT)的交互式标注

用人标注的数据来训练智能体,有一个核心难题:这些数据通常是“离线的”——它不代表模型在实际与环境交互时会采取的行动分布。模型用这种数据训练,可能无法举一反三,因为它从未在“实战”中遇见并纠正自己的错误。

之前的方法(比如让标注员修改预先录制的错误操作)效率低,而且是“马后炮”:只能在任务失败后才发现问题,无法在交互过程中实时干预。智能体训练恰恰是高度交互的,一个错误操作会影响后续所有步骤。缺乏“在线”的监督是一个巨大缺口。

解决方案:人在回路的交互式标注框架 为此,我们提出了一个新框架,让人能够在线、交互式地进行数据标注。核心是让标注员在智能体“实战演练”时直接进行指导。

系统设计: 我们的交互式标注平台有四层结构:

  1. 交互层:用户操作界面。
  2. 服务层:处理标注请求,协调模型命令执行和人工干预。
  3. 平台层:提供具体的执行环境(如电脑操作、手机模拟、工具使用)。
  4. 存储层:安全地保存所有标注数据和完整的交互轨迹。

标注过程:实时指导AI 以操作电脑或玩游戏为例: 标注员在一个受控的虚拟环境(云端虚拟机或浏览器沙箱)中完成任务。在每个决策点,我们的UI-TARS-2模型会给出它建议的行动和理由。标注员可以选择接受其中一个建议,或者用自己的更好想法和操作来覆盖模型的选择。这样,人类专家的知识就能实时地指导整个任务轨迹。

我们还加入了命令自动补全、实时画面流、屏幕坐标可视化等功能,让标注更流畅、准确。

核心优势:真正的“在线”监督 因为标注是在实时环境中进行的,标注员能立刻看到自己干预的结果,避免了事后修改的低效。这确保了所有监督数据都是严格“在线”的,反映了当前模型在实际交互中遇到的状态分布。为了持续提升效率,我们还会定期更新用于标注的模型和任务库,确保数据收集始终针对最新智能体的弱点。

2.5 多轮强化学习

为了训练AI智能体能进行长链条的推理和交互决策,我们采用了一个多轮强化学习框架,它基于RLVR(一种奖励可验证的强化学习技术)。我们为不同领域建立了专门的自动化流程,能自动生成大量、可验证的任务。

训练时,我们的模型会与环境进行实时的多轮互动,不断观察状态变化和环境的反馈,直到任务完成。然后,模型利用可验证的奖励,通过不断改进策略来优化它的决策过程。

虽然我们的强化学习框架能用于多个不同的领域(这些领域由图形界面操作和SDK功能定义),但下面我们只选三个有代表性的例子来说明:

  1. GUI浏览:目标是完成基于图形界面的信息查找任务。
  2. GUI通用任务:覆盖更广泛的网页操作任务。
  3. 小游戏:专注于在浏览器沙盒中运行的轻型网页小游戏。

2.5.1 任务设计

目前,高质量、有足够挑战性且可验证的、用于端到端强化学习的任务数据非常稀缺。下面介绍我们如何设计形式多样且带有可靠验证信号的任务。

  • GUI浏览任务:为了让AI能在复杂场景中自主探索,我们设计了一个自动化流程来生成大量可验证的GUI浏览任务。这类任务概念上类似于深度研究任务,但AI必须仅通过分析屏幕截图来满足信息查找需求,而不能用搜索接口。

我们的生成框架主要有两种方法:

  1. 多条件模糊化:我们从权威知识源(如维基百科)提取核心实体及其属性特征,并用大语言模型给每个特征的辨识度打分。然后,移除那些太明显的特征,并用大语言模型改写剩下的特征,使其更抽象、更不具体。这样就能生成由多个间接条件定义的复杂问题,迫使AI必须结合并推理这些模糊线索才能找到正确答案。
  2. 多跳链式条件:我们从一个实体的网页出发,顺着它的超链接找到结构上相关的实体。对每个链接到的实体,我们提取并模糊化其描述特征,生成以该实体为答案的任务。然后,把这个实体的页面作为新起点,重复这个过程,从而生成更深层次的任务。每一步,上一跳的答案都会被嵌入到新问题中,形成一个连贯的推理链。最后,把这些步骤整合成一个单一的多跳问题,要求AI综合中间答案,这模拟了知识在线传播的层次性,大大增加了对深度、顺序推理的要求。

为确保难度,我们会过滤生成的数据,丢弃那些用现有知识或单次搜索就能轻易解决的简单例子,只保留真正有挑战且可验证的任务用于训练。

  • GUI通用任务:为了评估通用的交互能力,我们利用以通用网站为中心的离线流程,构建了一个GUI通用任务数据集。我们从公开网站集合中筛选候选网站,去掉无法访问、需要登录或过于简单的页面(如静态信息页、休闲游戏)。对每个选定的网站,我们使用视觉语言模型来识别和提取其核心功能。基于这些功能,我们通过一个结构化流程在单页面级别合成任务:去掉过于简单的功能,编写可执行的指令,合并必要的子任务,并优化任务描述,使其清晰、客观、可验证。最终的数据集提供了多样化的、可执行的、聚焦于GUI交互的任务,用作强化学习的训练查询,覆盖了690个不同领域的网站。

  • 游戏任务:对于游戏领域,我们通过两个互补的来源构建强化学习数据集:

    1. 收集可直接在浏览器沙盒中运行的公开HTML5/WebGL小游戏。
    2. 为扩大覆盖范围,用大语言模型合成新游戏,生成轻量级代码实现,保留核心玩法,同时暴露明确的状态接口。 对于真实和合成的游戏,我们都创建简洁的JavaScript验证脚本,用于查询运行时变量(如分数、关卡、剩余生命)并提供时间对齐的状态属性。这些观察结果建立了从AI动作到环境状态变化及奖励信号的可靠映射。最后,所有交互记录都被整合成一个统一的JSON格式,包含标量奖励、终止标志和元数据。

2.5.2 奖励设计

一个可靠的奖励系统对于稳定的策略优化至关重要,它需要在不同环境中提供一致且可信的反馈信号。我们根据AI输出的正确性能否被确定性地验证,将奖励设计分为两类:

  • 可确定性验证的任务:在那些有自动验证器可用的领域(如游戏),我们直接计算二元正确性信号作为奖励。对于GUI浏览任务,答案可以与标准答案对照,我们则使用“大语言模型即评委”的方法,来评估AI的预测是否符合目标答案。

  • 不可确定性验证的任务:在更开放式的场景中,比如GUI通用任务,既没有形式化验证器,也没有标准答案。为此,我们使用UI-TARS-2作为一个“生成式结果奖励模型”,它根据AI的整个交互过程来生成一个标量奖励分数。这个模型以完整的文本历史记录和最后五张截图(以符合上下文长度)作为输入,输出一个表示任务成功度的分数。我们通过针对性的数据标注和单轮强化学习,专门增强了UI-TARS-2作为奖励模型的能力,确保其奖励预测对下游的多轮强化学习是准确、一致和鲁棒的。

2.5.3 通过有状态环境进行异步智能体推演

传统基于批处理的推演方法在处理复杂的、耗时的“长尾”问题时容易成为瓶颈,降低训练效率并导致策略偏移。我们的多轮强化学习训练基础设施解决了这些问题。

  • 基于服务器的异步推理:我们采用一个完全异步的推理系统,利用在线服务器模式进行处理。通过将策略推理封装在异步服务器架构中,我们将智能体推理框架的实现与策略推理的执行解耦。这个设计显著增强了框架的易用性(便于开发新的智能体交互模块),并通过异步推理提高了模型推理效率。

  • 使用部分填充推演池的流式训练:传统的批处理模式推演需要等待整批推理完成才能开始训练,在处理耗时的长尾案例时可能产生瓶颈,延迟后续训练周期。我们的系统维护一个动态的推演池,一旦已完成的交互轨迹达到最小批次大小阈值,训练更新就会开始。未完成的轨迹则留在池中供后续训练迭代使用,确保了学习的连续性。

  • 有状态的智能体环境集成:我们实现了有状态的智能体环境,它能在多次工具调用之间保持执行状态,实现连续的状态转换,并在整个问题解决过程中保持上下文。这种方法支持复杂的、多步骤的推理过程,这些过程需要持久的环境记忆。

2.5.4 强化学习训练算法

我们使用PPO算法来训练UI-TARS-2。它的核心思想是:在更新策略时,既要利用优势函数(Aˆt)来提升表现,又要防止单次更新步子迈得太大,把模型改坏了。公式(4)里的“min”和“clip”操作就是为了实现这个“小步快跑、稳步提升”的目的。

为了在复杂的长期任务中让模型探索得更充分、训练更稳定,我们还借鉴前人方法,做了几项关键改进:

  1. 奖励设计:主要根据任务的最终结果对不对来给奖励。在某些情况下,我们会额外设置格式奖励和长度惩罚,防止模型动不动就摆烂不输出,或者车轱辘话没完没了。

  2. 解耦GAE:在长序列任务中,准确评估状态的价值很难。我们用了解耦GAE方法,让策略模型和价值模型使用不同的衰减系数(λ)。这样可以防止价值估计在长序列上“衰减”得太厉害,训练就更稳了。

  3. 长度自适应GAE:不同长度的任务序列,优势估计的难度不一样。我们采用长度自适应GAE,根据序列长度动态调整策略模型用的λ参数,让估计更一致、更公平。

  4. 价值模型预训练:为了避免价值模型一开始就估不准,我们先对它进行“预训练”:用一个固定策略(比如监督微调后的模型)生成数据,然后用这些数据专门训练价值模型,直到它预测得很准了。这样,后续强化学习开始时,价值估计的起点就更靠谱。

  5. 不对称裁剪:我们给PPO的裁剪范围设置了不对称的上下限。提高上限(εhigh),可以让模型更敢于尝试那些原本概率低但有潜力的动作,扩大探索范围。同时,下限(εlow)保持较低,避免一下子就把某些可能正确的输出给“掐死”了,保护了输出的多样性。

2.6 通过参数融合整合各领域专家模型

UI-TARS-2的一个核心目标是打造一个全能数字助手,能同时处理桌面软件、网页,甚至游戏等不同环境。一个直接的想法是把所有数据和任务混在一起联合训练,但这在实际中很难:不同领域的操作、状态、任务难度差异巨大,一起训练不稳定,计算开销也受不了。

于是,我们用一个更简单有效的策略:分别训练,再融合。我们发现,从同一个初始模型(经过监督微调)出发,在不同领域分别微调得到的模型,它们的参数在空间里几乎是“线性连通”的。这意味着我们可以把这些“领域专家”模型的参数按比例混合起来,得到一个“全能模型”。

具体做法:我们从同一个基础模型出发,针对不同领域(比如:网页信息搜索、通用网页操作、小游戏互动等)分别进行强化学习训练,得到多个专业模型。然后,我们把这些模型的参数按设定好的比例“加权平均”混合起来,如公式(5)所示。

实践证明,这种“融合”方法既能保留各个专家在自己领域的特长,又能让模型获得强大的跨领域泛化能力。在需要综合多个领域技能的复合任务上,融合后的模型表现几乎能和每个领域最好的专家模型媲美,还不需要额外的训练成本。

3 实验

本章详细介绍我们对“UI-TARS-2”模型做的各项测试。虽然模型的训练涉及很多不同领域和工具,但我们这里主要讲两个最有代表性的场景:图形界面操作和游戏环境。这两个场景正好代表了两种不同的挑战:一个是操作有固定结构的界面,另一个则是进行需要长远规划的动态控制。

3.1 实验设置

我们的模型“UI-TARS-2”是在“Seed-thinking-1.6”这个预训练模型的基础上继续开发的,并且用上了它所有的训练后数据。模型结构包括一个5.32亿参数的视觉编码器和一个拥有 23B 总参数(其中活跃参数为230亿)的混合专家大语言模型。在这个基础上,我们进行了多轮训练,包括指令微调、强化学习和递归微调,一步步提升了模型的能力。

我们在一系列不同的测试集上对模型进行了评估,全面考察它的能力:

  • 图形界面测试:我们在三类测试上评估模型:电脑操作、手机操作和浏览器使用。

    • 电脑操作:OSWorld提供了Ubuntu、Windows和macOS系统上的369个任务,有详细的配置和评分脚本。WindowsAgentArena则专注于150多个Windows专属任务。为了测试更底层的系统能力,我们还用了TerminalBench(测试命令行操作)和SWE-Bench(测试软件工程任务)。
    • 手机操作:AndroidWorld在真实的安卓模拟器中,提供了覆盖20个应用的116个任务,任务内容会随机变化。
    • 浏览器使用:Online-Mind2Web包含了136个网站上的300个真实任务。BrowseComp-en和BrowseComp-zh则提供高难度的、需要多步推理的问题。在这些测试中,UI-TARS-2可以使用图形界面操作,也可以使用软件开发工具包。
  • 游戏测试:我们从自己的游戏库中选了15款游戏来测试模型在训练过的领域内的表现。同时,我们还用了一个新领域的基准测试LMGame-Bench,它通过一个统一的接口评估大模型在6款经典游戏中的表现,并提供了一些辅助工具来帮助处理图像和长远规划。测试会报告在有无辅助工具两种情况下的成绩。所有这些游戏测试都在一个浏览器沙盒环境中进行,模型只能看到截图。UI-TARS-2通过模仿人类的操作(点击、按键、滚动)来玩游戏。结果会汇报每款游戏的原始分数,以及所有游戏的平均归一化分数。

  • 对比模型

    • 在图形界面测试中,我们将UI-TARS-2与最先进的商业模型(如Claude 4、OpenAI-o3、OpenAI CUA-o3)以及我们之前的UI-TARS模型进行对比。
    • 在游戏测试中,我们对比了Claude (Computer Use)、OpenAI CUA-o3、OpenAI-o3、Gemini-2.5 Pro和Claude 3.7/4。

3.2 主要结果

  • 图形界面测试结果:如表1所示,UI-TARS-2在各类图形界面测试中都取得了最好的成绩。相比之前的UI-TARS版本以及其他强大的对比模型,我们的模型在电脑、手机和浏览器任务上都有稳定提升。具体来说,UI-TARS-2全面超越了UI-TARS-1.5,在OSWorld上达到47.5%,在WindowsAgentArena上达到50.6%,在AndroidWorld上达到73.3%,在Online-Mind2Web上达到88.2%。这证明了我们的迭代训练和强化学习是有效的。

  • 使用软件工具包的好处:借助扩展的软件工具包,UI-TARS-2能处理比简单图形界面操作更底层的系统任务。在此设置下,模型在Terminal Bench上准确率达到45.3%,在SWE-Bench上达到68.7%,在BrowseComp-zh上达到50.5%,在BrowseComp-en上达到29.6%。作为对比,如果只允许图形界面操作,在BrowseComp-zh和BrowseComp-en上的成绩分别只有32.1%和7.0%。这个明显的差距说明,软件工具包让模型能进行更复杂的推理和工具使用,使其更像一个通用的电脑助手。

  • 向新领域泛化的能力:许多浏览器和通用图形界面任务主要围绕浏览器。经过强化学习训练后,模型展现出了强大的、向新领域泛化的能力。在Online-Mind2Web上,强化学习将准确率从83.7%提升到了88.2%。更令人惊讶的是,经过强化的模型能有效应用到训练时并非主要关注的领域:例如,OSWorld的成绩提升了近10.5%(从43.0%到47.5%),AndroidWorld提升了超过8.7%(从64.6%到73.3%)。这些结果说明,针对特定任务的强化学习能培养出广泛适用的技能,让图形界面助手在从未见过的环境中也能可靠工作。

3.3 详细分析

3.3.1 训练奖励与探索程度 如图7所示,我们的模型在几种任务上的奖励分数在训练中明显上升。这表明强化学习监督是有效的。有意思的是,在探索程度上,我们的结果和近期一些研究不同。那些研究通常越训越“确定”,而我们的模型在GUI和游戏任务训练中,探索程度有时反而会升高(图8)。这说明模型在学新东西,而不是早早地就只用少数几个固定套路。这在视觉丰富、交互多的环境里很重要,因为需要尝试多种方法才能学好。

3.3.2 用视觉模型来评判是否可行? 如图7所示,模型在训练任务上的奖励稳步提升,而且这下游任务的性能提升是同步的。虽然我们用生成式奖励模型或GPT-4o来打分,但并没有发现明显的“刷分”作弊现象。这说明在智能体任务中,用视觉模型当裁判是可行的。可能因为这类任务(比如完成一个网页操作)的结果更具体,更容易客观评判。

为了更定量地看这个问题,我们自己构建了一个有300条人工标注的数据集来测试打分模型。在这个测试上,我们的打分模型F1分数达到了83.8,说明鲁棒性不错。分析错误案例发现,模型“误报”的情况相对多一些。但即便如此,这个不完美的打分模型依然能有效指导训练。我们分析是因为,即使任务最终没完成,智能体中间可能也做了很多正确步骤。在误报时,模型还是能为正确步骤拿到奖励,这些正面贡献盖过了给错误动作的惩罚。

3.3.3 平均“思考”长度 在GUI任务中,随着训练进行,模型平均每一步的“思考”长度在持续变短(图9)。这和“任务越复杂,思考越长”的直觉相反。一个可能原因是,在GUI任务里,进展主要靠与环境互动获得,而不是光靠“想”。所以一旦模型学会了预测正确的操作,就能直接拿到奖励,不需要长时间思考了。

在游戏任务中,我们观察到一个周期性变化:思考长度会先升后降。我们分析这和游戏难度阶梯式上升有关(这是我们设计的课程)。每当进入新难度,需要更多思考和决策才能成功,所以思考变长。等熟悉了当前难度,思考又逐渐缩短,直到难度再次提升,循环往复。

3.3.4 与环境互动的轮数 我们发现,模型完成一个任务所需的环境互动轮数,并不总是和性能正相关。如图10(a),虽然奖励随训练稳步提高,但完成任务所需的步数却在减少。这说明通过训练,模型学到了任务相关知识,减少了不必要的探索,效率提高了。更广泛地说,智能体训练中常出现“给更多步数就走更多步”的现象,这可以通过在奖励设计中明确鼓励效率来缓解。

3.3.5 价值模型预训练的影响 在初步实验中,我们发现直接用PPO训练时,价值估计常常不准。受此启发,我们在训练流程中加入了价值模型预训练阶段。如图10(b)所示,预训练后,价值模型能更好地指导策略学习,从而在整个训练中获得更高的奖励。

3.3.6 推理时扩展性(给更多步数,表现更好吗?) 游戏任务步骤多,很适合测试这一点。如图11所示,随着允许的最大推理步数增加,我们模型的性能曲线几乎呈单调阶梯式稳定上升,没有剧烈波动。相比之下,基线模型很快就到瓶颈了,给更多步数也没用。这说明我们的策略能利用额外步数解锁新的子目标,而不是原地打转或乱走。

在操作系统任务上,我们也观察到了同样强劲的扩展趋势。有趣的是,尽管训练鼓励模型用更少步数完成任务,但在测试时给它更多步数,它依然能有效利用并提高分数。这说明学到的策略很灵活,没有在训练中“过拟合”到只用最少步数的策略。

3.3.7 PPO 与 GRPO 对比 GRPO 算法在多种推理任务上表现不错。但在我们的初步评估中,PPO的表现明显更好。如图12所示,PPO在整个训练中奖励更高,波动更小。为了保证学习稳定和获得更强性能,我们最终在主要实验中选择使用PPO。

3.3.8 游戏RL中的行为分析 在图13中,我们展示了每个游戏的训练奖励。有部分游戏在训练结束时达到或接近了人类参考水平。另一些游戏则是“从零学起”:基础模型一开始根本不会玩,经过训练也能拿到不错的分数,这说明模型是真的学会了通用的游戏推理能力,而不是只记住了几个固定操作。

同时,也有一部分游戏出现了明显的平台期或短暂倒退,之后恢复缓慢。这说明性能瓶颈可能是模型本身的能力上限,而不是训练步数不够。很多曲线呈“阶梯状”,意味着进步是突发的:当某个子目标变得可靠可达时,表现就跃升一个台阶;掌握之后,学习就稳定下来,直到解锁下一个阈值。

总的来说,这些曲线说明增加算力和优化课程能继续提升性能,但要突破剩下的瓶颈,可能需要模型具备更强的长程推理和规划能力(比如更好的功劳分配、子目标课程、改进的搜索或记忆模块),这为未来的扩展指明了方向。

3.3.9 GUI-SDK的RL分析 如图14所示,在GUI-SDK的RL训练中,训练分数整体呈上升趋势。这表明模型逐渐熟练运用外部工具来解决复杂问题。同时,训练过程中的探索度持续下降,说明模型对其预测的信心稳步增强,推理路径的稳定性提高,不确定性降低。

3.3.10 混合智能体RL 参数插值是我们整合专用智能体的主要方法,但我们也研究了另一种基于混合强化学习的方法。我们聚焦于一个可以通过两种不同界面解决的任务:纯图形界面和图形界面加SDK。混合模型被训练为能使用任一界面,而基线模型只训练使用单一界面。

如图15所示,混合训练产生了更强的交互扩展趋势。尽管每个界面的训练数据量相比单界面基线减半,但混合模型在纯图形界面任务上的评估表现仍优于纯图形界面基线。这表明通过功能更强的GUI-SDK界面学到的知识,能有效迁移到纯图形界面交互中。我们还观察到,使用共享的价值模型提升了训练稳定性和奖励估计:通过从两个界面的经验中联合学习,价值模型能泛化到更广泛的模式,其解释方差也高于针对单一界面的基线。

与无需额外优化、直接合并专家的参数插值法相比,混合训练能实现更直接的跨界面知识迁移,但训练成本更高。这些结果共同突出了统一不同交互模式能力的两种互补策略:插值法效率高,而混合RL能提供更强的迁移能力。

3.3.11 量化以降低延迟 我们研究了W4A8量化对端到端效率的影响。这种量化将模型权重精度降至4位,激活值精度降至8位,能以较小的精度损失实现更快的推理。对UI-TARS-2来说,量化将令牌生成速度从29.6提升到47个/秒,并将每轮交互的平均端到端延迟从4.0秒降低到2.5秒。在OSWorld基准上,准确率从47.5略微下降到44.4,表明效率与性能的权衡是有利的。这些结果表明,W4A8量化是在延迟敏感的场景中部署GUI智能体的一种实用策略,同时能保持有竞争力的任务性能。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!