https://arxiv.org/pdf/2305.15717
近年来,随着ChatGPT等商业大语言模型的崛起,开源社区兴起了一股"模型模仿"浪潮。许多研究者试图通过让开源模型学习商业模型的输出来快速提升性能,诞生了Alpaca、Vicuna等知名项目。然而,加州大学伯克利分校的最新研究表明,这种看似经济高效的方法可能是一个"虚假承诺"。
模型模仿是指使用商业模型(如ChatGPT)的API输出作为训练数据,对开源模型进行微调,以期达到与商业模型相似的性能。这种方法的吸引力在于:
研究团队将模型模仿分为两类:
研究团队构建了多个模仿ChatGPT的模型,使用不同的基座模型(GPT-2 1.5B到LLaMA 13B)和不同规模的训练数据(30万到1.5亿个token)。他们从三个数据源收集了训练数据:
初始的人工评估结果令人振奋。众包工作者认为模仿模型的输出质量与ChatGPT相当,约70%的输出被评为等同或优于ChatGPT。这些模型在指令跟随方面表现出色,输出风格与ChatGPT高度相似。
然而,当研究团队进行更严格的自动化评估时,结果截然不同:
更关键的是,随着模仿数据量的增加,模型在这些客观评估中的表现没有显著改善,甚至出现退化。
研究揭示了一个重要现象:模仿模型擅长学习ChatGPT的表达风格,但缺乏其内在的事实准确性。
论文中的一个典型例子显示,当被问及"Actor-Critic如何改进REINFORCE算法"时:
这解释了为什么人工评估与自动化评估存在巨大差异——人类评估者容易被自信、结构化的表达风格误导,而忽略了内容的准确性。
研究的一个重要发现是:提升基座模型的能力比增加模仿数据更有效。
值得注意的是,研究发现任务特定的模仿效果显著。当他们专门为Natural Questions任务收集模仿数据时,模型在该任务上的表现大幅提升,接近ChatGPT的水平。这说明:
这项研究对开源大语言模型的发展具有深远影响:
从商业角度看,研究结果表明:
研究团队也承认了一些局限性:
这项研究提出了几个重要问题:
"模型模仿"看似是开源大语言模型快速发展的捷径,但实际上可能是一个"虚假承诺"。真正缩小开源与闭源模型差距的关键在于:
对于开源社区而言,与其追求表面的风格模仿,不如将资源投入到更具挑战性但更有价值的基础能力建设中。只有这样,开源大语言模型才能真正在与商业模型的竞争中立于不败之地。
这项研究为我们敲响了警钟:在人工智能快速发展的时代,我们需要更加审慎地评估新技术的真实效果,避免被表面现象迷惑,始终专注于技术的本质改进。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!