LLaVA-o1 论文解析

个人总结

LLaVA-o1把问题的回答拆解为这四个阶段：

总结阶段：简要概述问题和任务
描述阶段：详细描述图像中的相关部分
推理阶段：系统化地分析问题并进行推理
结论阶段：给出最终答案

比如对这个问题的推理：

为了帮助 LLaVA-o1 执行每个阶段的推理过程，模型使用特定的标签来标记每个阶段的开始和结束。

训练时，LLaVA-o1 使用监督微调（SFT）方法，采用 LLaVA-o1-100k 数据集对现有的视觉语言模型（如Llama-3.2-11B-Vision-Instruct）进行微调。训练过程在多个GPU上进行，确保模型可以自主地执行结构化的多阶段推理。

为了提升推理过程的效率和准确性，LLaVA-o1 引入了一种新的阶段级束搜索方法（Stage-wise Beam Search）。这一方法的基本步骤如下：

为第一阶段生成多个候选响应：根据总结阶段、描述阶段和推理阶段的输出，生成多个候选答案。
随机采样和验证：从多个候选响应中随机采样两个，并让模型选择其中一个更优的响应。重复这一过程，直到保留最好的候选。
为后续阶段重复该过程：每个阶段都会重复上述采样和验证过程，直到推理完成。这种方法使得模型能够在推理时更灵活地进行候选选择，从而确保最终答案的准确性。

论文原文

以下是每个作者的单位和机构：

Guowei Xu：清华大学跨学科信息科学研究院（Institute for Interdisciplinary Information Sciences, Tsinghua University）
Peng Jin：清华大学跨学科信息科学研究院、鹏城实验室（Peng Cheng Laboratory）、北京大学深圳研究生院AI for Science (AI4S)-Preferred Program
Li Hao：北京大学电子与计算机工程学院（School of Electronic and Computer Engineering, Peking University）、鹏城实验室、AI for Science (AI4S)-Preferred Program
Yibing Song：阿里巴巴达摩院（Alibaba DAMO Academy）
Lichao Sun：美国Lehigh大学计算机科学与工程系（Computer Science and Engineering, Lehigh University）
Li Yuan：北京大学电子与计算机工程学院、鹏城实验室、AI for Science (AI4S)-Preferred Program

摘要

大语言模型在推理能力上取得了显著进展，特别是在推理时的规模化方面，像OpenAI的o1模型就是其中的典型例子。然而，当前的视觉语言模型（VLMs）在进行系统化和结构化推理时往往面临困难，特别是在处理复杂的视觉问答任务时。本文提出了LLaVA-o1，一种新型的视觉语言模型，旨在进行自主的多阶段推理。与链式思维提示方法不同，LLaVA-o1能够独立地进行总结、视觉解释、逻辑推理和结论生成等多个阶段的推理。这种结构化的方法使得LLaVA-o1在推理密集型任务上取得了显著的精度提升。为此，我们编制了LLaVA-o1-100k数据集，整合了来自不同视觉问答来源的样本，并提供了结构化的推理注释。此外，我们提出了一种推理时的阶段级束搜索方法，有效支持推理时的规模化。值得注意的是，仅凭100k训练样本以及一种简单而有效的推理时规模化方法，LLaVA-o1不仅在广泛的多模态推理基准测试中超越了其基础模型8.9%，而且还超越了如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct等更大、甚至是封闭源模型的表现。

1. 引言

以 OpenAI 的 o1 模型为代表的大型语言模型展现了强大的系统化和深入推理能力，验证了推理时扩展语言模型效能的有效性。然而，视觉同样重要，因为它使模型能够更全面地理解世界，拓展其认知能力。因此，开发一个集成语言和视觉的多模态模型，以促进有效、系统化、深度推理，具有重要意义。

早期的开源视觉语言模型（VLMs）主要采用直接预测的方法 [21, 30, 32]，即在收到问题后立即生成简短的回答。直接响应模式的主要局限性在于缺乏结构化的推理过程，这使得它在需要逻辑推理的任务中效果较差 [62]。近期研究表明，结合思维链（CoT）推理可以促使模型逐步推理，从而显著提升其问答能力 [52]。然而，即便采用 CoT 推理，大多数 VLMs 在推理过程中依然会频繁产生错误或虚假输出 [24, 31, 50]。

我们的研究发现，这些问题的一个主要原因是现有 VLMs 推理过程缺乏足够的系统化和结构化。具体而言，系统化指的是模型不是直接生成推理链，而是进行多阶段推理。结构化则指的是模型能够清晰地识别当前所处的推理阶段，并理解每个阶段要解决的主要任务。我们观察到，VLMs 经常在没有充分组织问题和已知信息的情况下就开始响应。此外，它们往往会偏离逻辑推理，提前给出结论，之后再试图为其辩解。由于语言模型是逐词生成回应的，一旦引入了错误的结论，模型通常会沿着错误的推理路径继续生成。

OpenAI o1 模型有效地解决了这些问题，使模型能够通过语言独立进行系统化和结构化推理。基于这一思路，我们设计了 LLaVA-o1。尽管社区对 OpenAI o1 [42, 54] 的基本机制进行了初步探索，但该模型仍然是一个黑箱，其技术细节仍然大多未知。本研究展示了一种潜在的方法，通过监督微调增强模型执行自主、阶段性推理的能力。具体而言，LLaVA-o1 能生成四个 distinct 阶段：总结、描述、推理和结论。每个阶段在推理过程中都有独特的作用。

总结：简要概述模型将要执行的任务。
描述：描述图像中与问题相关的部分（如果存在），重点关注与问题相关的元素。
推理：详细分析，模型系统化地考虑问题。
结论：简洁总结答案，基于前述推理给出最终回应。

为了增强对 LLM 中 CoT 过程的理解，LLaVA-o1 在每个阶段标记一个专门的标签（例如 <SUMMARY>...</SUMMARY>），标示每个阶段的开始和结束。这些标签使得模型在推理过程中保持清晰性。与传统的 CoT 推理不同，我们的方法通过首先组织问题和已知信息，然后进行详细的思考过程，最后得出结论，促进了结构化的思维。

为了实现这一目标，我们通过使用 GPT-4o [3] 生成逐阶段的响应构建了 LLaVA-o1-100k 数据集，并通过监督微调训练模型。

LLaVA-o1 中的结构化推理也有助于高效的推理时间扩展。与传统的扩展方法（如最优 N 次采样 [4, 51] 和基于句子的束搜索 [16, 49]）不同，LLaVA-o1 采用了一种新的阶段级束搜索方法，在每个阶段生成多个候选结果，并选择最佳结果继续生成过程。

我们在多个多模态推理基准测试上进行实验，包括 MMStar [9]、MMBench [33]、MMVet [60]、MathVista [35]、AI2D [23] 和 Hallusion-Bench [17]，并观察到 LLaVA-o1 提供了两个主要优势：首先，使模型能够独立执行结构化推理，显著优于传统的 CoT 提示，尤其是在需要系统分析的复杂推理任务中；其次，我们的阶段级束搜索方法是可扩展的，能够提升性能的可靠性，使其在获得更多计算资源时能够在更复杂的任务和场景中有效应用。

我们的贡献总结如下：

我们提出了 LLaVA-o1，一种设计用于系统化推理的视觉语言模型，在需要结构化思维和推理的任务上表现出色。
我们证明了 LLaVA-o1 使用阶段级束搜索方法是可推理时间扩展的，这意味着随着计算资源的增加，我们的方法的性能可以进一步提升，从而适用于更复杂的任务和场景。
在多个基准测试上的广泛实验表明，我们的方法在相对于大型闭源模型时，取得了优越的性能，突显了 LLaVA-o1 在多模态推理中的有效性。

2. 相关工作

2.1. 大型语言模型中的视觉推理

视觉推理要求模型具备视觉感知能力和高层次的认知能力 [22, 37]。已有多项任务用于评估 VLMs 的视觉推理能力，包括 VQA [20, 26]（要求模型根据视觉内容和文本问题作答）和视觉蕴含 [48]（要求模型判断文本描述和视觉内容的一致性）等。传统的视觉语言模型采用神经符号方法 [5, 11] 来显式建模视觉推理过程。随着 LLMs 的发展，视觉语言模型借助 LLMs 的先进推理能力来解释视觉任务 [32, 59]。一些视觉语言模型通过优化视觉编码策略来增强视觉推理能力 [21, 29, 32]，以产生专注于认知的视觉标记。一些 VLMs（如 VISPROG [18]）将 LLM 定位为决策代理，通过调用多种特定任务的视觉模块来增强在复杂视觉任务中的视觉推理。此外，语言模型的指导学习技术，包括提示微调 [61]、上下文学习和监督微调 [46]，也有助于提升视觉推理能力。

2.2. 大型语言模型中的思维链（CoT）

思维链提示为 LLM 提供了逐步的推理轨迹，用于处理诸如常识推理 [44]、逻辑推理 [27, 55] 等难题。具体而言，CoT 提示将问题分解为一组推理步骤，并构建链条，指导模型逐步生成复杂问题的解答 [12]。最近的研究表明 [15, 52]，CoT 提示显著提高了 LLM 在推理和可解释性方面的能力。

2.3. 推理时间扩展

现有的推理时间扩展方法主要分为两类：依赖外部验证器进行选择的方法 [25, 56] 和不依赖外部验证器的方法 [19, 53]。外部验证器选择方法可以应用于常见方法中。另一方面，不依赖外部验证器的推理时间扩展方法主要包括多数投票 [19]、最优 N 次搜索 [4, 51] 和句子级束搜索 [16, 49]。多数投票适用于有标准答案的某些问题，但不适用于开放式任务。最优 N 次搜索生成 N 个完整的答案，并允许模型选择最佳响应。然而，生成完整的答案以进行选择可能会使准确性评估变得复杂。句子级束搜索生成多个候选句子，选择最佳一个，并迭代进行。尽管如此，这种方法的粒度过细，难以有效评估每个句子响应的质量。

3. 提出的方法

LLaVA-o1 促进了逐步推理过程，增强了视觉语言模型（VLMs）的推理能力，并实现了有效的推理时间扩展 [47]。通过结构化思维，LLaVA-o1 实现了系统化和高效的推理过程。其推理时间框架使其在推理时间扩展性上优于现有方法。该设计确保了在复杂任务中所需的推理具有鲁棒性和准确性，从而与传统方法区分开来。图 1 展示了我们推理过程的总体框架。

3.1. 通过结构化思维增强推理能力

我们在训练期间的目标是开发一种能够进行扩展推理链的视觉语言模型，使其能够参与系统化和深入的推理。

3.1.1. 推理阶段

我们提出的模型 LLaVA-o1 将答案生成过程分解为四个结构化的推理阶段：

总结阶段：在此初始阶段，LLaVA-o1 提供问题的高层次总结，概述其打算解决的主要方面。
描述阶段：如果存在图像，LLaVA-o1 提供与问题相关的视觉元素的简要概述，帮助理解多模态输入。
推理阶段：在初步总结的基础上，LLaVA-o1 进行结构化、逻辑推理，以得出初步答案。
结论阶段：在最后阶段，LLaVA-o1 综合推理结果，给出最终的答案。在此阶段，输出的结论是直接回应用户的内容，而前三个阶段是内部的“隐藏阶段”，表示 LLaVA-o1 的推理过程。此阶段的输出会根据用户的需求进行调整：例如，如果用户要求简洁的回答，结论会简短；若需要详细解释，结论会提供全面的响应。

每个阶段的启动由模型自行判断，而非依赖外部提示工程框架或额外提示。具体来说，我们为模型提供了四对特殊标签：<SUMMARY></SUMMARY>、<CAPTION></CAPTION>、<REASONING></REASONING> 和 <CONCLUSION></CONCLUSION>，分别对应总结回应方式、描述相关图像内容、进行推理和准备最终答案。

训练后，模型会根据自身判断自主选择这些标签，激活每个阶段。与 OpenAI o1 [63] 类似，所有阶段由模型在一次推理过程中完成。这种结构化方法使模型能够独立管理推理过程，提高其在复杂推理任务中的适应性和性能。

3.1.2. 数据准备和模型训练

大多数现有的 VQA 数据集缺乏训练 LLaVA-o1 模型所需的详细推理过程。因此，我们编制了一个新数据集，将多个广泛使用的 VQA 数据集的样本整合在一起，形成了总共 99k 对图像 QA（每对可能包含多个问题轮次）。如图 3 所示，由于目前没有多模态模型可以直接生成系统化、结构化的推理过程，我们使用 GPT-4o [3] 生成详细的推理过程，包括总结、描述、推理和结论，并将这些整理为 LLaVA-o1-100k 数据集，计划公开发布。数据集包含来自通用 VQA 数据集和针对科学问题的 VQA 数据集的数据，具体如下：

通用 VQA 数据集：包括多个具有不同重点的通用 VQA 数据集。ShareGPT4V [8] 提供了来自 GPT-4V [57] 互动的多轮问答数据。ChartQA [38] 侧重于图表和图形的解释。A-OKVQA [45] 强调超出可见内容的外部知识。DocVQA [39] 涉及基于文档的文本理解问题。还包括 PISC [28] 用于理解社会关系，和 CLEVR [22] 用于解决物体属性、空间关系和计数任务。
科学针对性 VQA 数据集：这些数据集包括用于几何推理的 GeoQA+ [7]，以及针对科学问题的 AI2D [23] 和 ScienceQA [34]，CLEVR-Math [13] 是 CLEVR 的扩展，专注于视觉情境中的算术分析。表 1 显示了从每个数据集选取的 QA 对数。

模型训练

我们构建的 LLaVA-o1-100k 数据集可以进一步用于对任何现有模型进行监督微调（SFT），以增强其推理能力。在本研究中，我们选择 Llama-3.2-11B-Vision-Instruct [40] 模型作为基础模型，并使用 LLaVA-o1-100k 数据集进行全参数微调。训练在一个配备 8 个 H100 GPU 的单节点上进行。

3.2. 使用阶段级束搜索实现有效的推理时间扩展

训练后，我们的目标是在推理过程中进一步增强模型的推理能力。具体而言，我们利用 LLaVA-o1 的阶段性输出，这为推理时间扩展提供了理想的粒度。我们的方法按以下步骤进行：

为解决方案的第一阶段采样 N 个响应。
随机采样 2 个响应，让模型确定哪个更好，保留更好的响应。
重复步骤 2，直到保留 N-1 次，最终保留最好的响应。
为下一阶段采样 N 个响应，然后重复步骤 2-4，直到所有阶段都处理完毕。

值得注意的是，LLaVA-o1 的结构化输出设计使得这种方法可行，能够在每个阶段进行有效且精确的验证。这验证了结构化输出在提高推理时间扩展中的有效性。图 4 显示了三种方法的示意图。

我们在图 5 中提供了一个示例。当不应用推理时间扩展时，尽管模型生成了正确的推理步骤，但在推理过程中无法得出具体答案。这导致模型在结论阶段做出猜测，从而得出错误的结果。相反，通过应用推理时间扩展，模型保留了导致最终结果的推理步骤，确保了答案的正确性。

4. 训练后的性能

在本节中，我们将 LLaVA-o1 与基础模型 Llama-3.2-11B-Vision-Instruct 在六个常用的多模态基准上进行比较，以展示我们方法在训练阶段的有效性。比较之后，我们还进行了一些消融实验，评估方法中各个组件的贡献，主要回答以下三个关键问题：

LLaVA-o1-100k 数据集相比直接使用原始数据集的问答对更有效吗？
结构化标签对性能的影响是什么？具体而言，我们探讨了 LLaVA-o1 是否可以在没有标签的情况下运行，通过隐式分割不同阶段的响应。
我们的模型在与基础模型相比时在哪些特定领域表现出最多的改进，它是否真正增强了推理能力？

4.1. 实验设置

我们选择了六个广泛使用且具有挑战性的基准进行实验：MMStar [9]、MMBench V1.1 [33]、MMVet [60]、MathVista [35]、AI2D [23] 和 Hallusion-Bench [17]。MMStar、MMBench 和 MMVet 主要评估模型的通用视觉问答能力，而 MathVista 和 AI2D 则专注于模型在数学和科学推理方面的表现。HallusionBench 专门评估模型处理语言幻觉和视觉错觉的能力。对于 MMBench，我们使用的是 V1.1 版本的测试集，MathVista 使用的是 testmini 集，其他数据集各自有单独的测试集。为确保公平性和可重复性，所有评估都使用 VLMEvalKit [14] 进行，这是一个开源的大型视觉语言模型评估工具包。所有基准模型的性能指标均来源于 VLMEvalKit 的测试结果 [1]。

4.2. 基准结果

我们发现，尽管只使用了 10 万个数据，LLaVA-o1 仍实现了显著的性能提升。根据表 2，LLaVA-o1 相比基础模型 Llama-3.2-11B-Vision-Instruct，在通用 VQA、数学推理、科学 VQA 和幻觉控制任务上均表现出显著的改进，基准分数平均提高了 6.9%，验证了我们方法的有效性。

4.3. 消融研究

LLaVA-o1-100k 相比原始数据集的有效性

为了验证我们改进后的 LLaVA-o1-100k 数据集的有效性，我们在表 2 中呈现了 LLaVA-o1 与基于原始问答对训练的模型的比较。虽然直接基于原始问答对训练的模型在整体上有所提升，但其平均性能仍明显低于 LLaVA-o1。特别是在 MMVet 基准上，该基准要求更详细的回答，其性能甚至比基础模型还要差。这一结果凸显了 LLaVA-o1-100k 数据集的多阶段格式对训练具备高级推理能力模型的重要性。

结构化标签对性能的提升

为了检查我们引入的四个标签是否提高了模型的性能，我们将 LLaVA-o1 与基于 LLaVA-o1-100k 数据集但去除标签的模型进行了比较。正如表 2 所示，去除标签后，模型性能显著下降，表明结构化标签有助于推理并提高模型性能。据我们所知，LLaVA-o1 是首次通过结构化推理与标签成功增强模型的推理能力和整体性能。

性能提升主要集中在推理密集型领域

为了分析 LLaVA-o1 相比基础模型在哪些具体领域表现出最显著的改进，我们对模型在 MMStar 基准上不同技能的表现进行了详细评估。MMStar 旨在评估六项关键能力：粗略感知、精细感知、实例推理、逻辑推理、数学和科学技术。如表 3 所示，我们比较了基础模型与 LLaVA-o1。我们的分析表明，LLaVA-o1 在需要系统推理的任务（如实例推理、逻辑推理、数学和科学技术）上表现出显著的改进，而在粗略感知和精细感知方面的提升较小。这表明我们的方法主要能够提升模型的推理能力。

5.3. 阶段级束搜索的扩展趋势

为了更好地说明阶段级束搜索在推理时间计算增加时的有效性，我们在 MMVet 基准上评估了不同束大小的 LLaVA-o1。正如表 6 所示，我们通过生成 1（即无推理时间扩展）、2、3 和 4 个候选响应，允许模型从这些选项中选择最佳答案来测试模型的表现。我们的研究表明，随着候选响应数量的增加，模型性能持续提升，确认了我们的阶段级束搜索方法具有良好的可扩展性。由于计算资源的限制，我们只在所有基准上测试了束大小为 2 的情况，但预计增加束大小将带来更显著的性能提升。

6. 与最先进的 VLMs 的比较

如表 7 所示，我们将 LLaVA-o1 与其他最先进的开源和闭源视觉语言模型（VLM）在六个需要高级推理能力的基准上进行了比较：MMStar-R、MMBench-R、MMVet-R、MathVista、AI2D 和 Hallusion-Bench。MMStar-R、MMBench-R 和 MMVet-R 是从 MMStar、MMBench V1.1 和 MMVet 中衍生出来的定制基准，移除了只需要粗略感知、精细感知和 OCR 的任务。这些过滤后的基准保留了需要复杂推理的任务。MathVista、AI2D 和 HallusionBench 本身就专注于高级推理，因此我们保留了这些基准中的所有任务。

我们的结果表明，LLaVA-o1 在许多开源模型中表现优异，甚至超过了一些闭源模型，如 GPT-4o-mini [41] 和 Gemini-1.5-pro [43]，证明了我们的结构化推理方法的有效性。这一比较验证了我们方法的优势，尤其是在那些高度依赖推理能力的基准中，并突出了 LLaVA-o1 在推理密集型 VLM 任务中的竞争力。

7. 结论

本文提出了 LLaVA-o1，一种新型的视觉语言模型，通过在多个阶段进行结构化、自主推理。通过引入总结、字幕、推理和结论四个不同阶段，LLaVA-o1 实现了系统化的推理过程。我们的贡献有两个方面：首先，创建了具有详细推理注释的 LLaVA-o1-100k 数据集，支持在系统化、结构化响应上进行训练；其次，提出了阶段级束搜索方法，有效地扩展了推理时间。总体而言，LLaVA-o1 为多模态推理在 VLM 中设立了新的标准，特别是在推理时间方面，提供了强大的性能和可扩展性。我们的工作为未来在 VLM 中的结构化推理研究奠定了基础，包括使用外部验证器和强化学习等方法，以进一步提升复杂多模态推理能力。

目录