从信息论角度看Chain-of-Thought
2025-10-09
DL论文
00

目录

Understanding Chain-of-Thought in LLMs through Information Theory
核心问题
理论框架
1. 信息增益量化
2. 失败模式识别
3. 理论优势
实验验证
方法论意义

https://arxiv.org/pdf/2411.11984

Understanding Chain-of-Thought in LLMs through Information Theory

arXiv:2411.11984 | ByteDance Seed & UC Santa Cruz


核心问题

现有CoT评估方法的两大缺陷:

  • 依赖人工标注数据
  • 无法准确评估中间推理步骤,高误报率

理论框架

1. 信息增益量化

将CoT推理形式化为信息论问题,定义每个推理步骤 sis_i 的信息增益:

I(si;Ys<i,X)=H(Ys<i,X)H(Ysi,X)I(s_i; Y | s_{<i}, X) = H(Y | s_{<i}, X) - H(Y | s_{\leq i}, X)

其中:

  • XX: 输入问题
  • YY: 目标答案
  • sis_i: 第 ii 个推理步骤
  • s<is_{<i}: 前 i1i-1 个步骤
  • H()H(\cdot): 条件熵

物理意义:量化步骤 sis_i 对减少答案不确定性的贡献

2. 失败模式识别

通过信息增益阈值判定:

  • I(si;Ys<i,X)<ϵI(s_i; Y | s_{<i}, X) < \epsilon,则步骤 sis_i 为失效步骤
  • 无需ground truth标注,仅需模型自身概率分布

3. 理论优势

相比outcome-based方法,该框架能够:

  • 细粒度诊断:定位具体失败的子任务
  • 无监督评估:利用 P(Ysi,X)P(Y|s_{\leq i}, X) 自动计算
  • 可解释性:信息论度量提供直观物理解释

实验验证

数据集:Arithmetic, GSM8K, PRM800k

关键结果

  • 准确识别无效推理步骤(低信息增益)
  • 显著优于传统outcome-based方法
  • 与人工标注结果高度一致

方法论意义

提供了首个无需标注的CoT推理步骤评估框架,通过信息论工具实现:

  1. 推理过程的定量分析
  2. 模型能力的细粒度刻画
  3. 训练数据质量的自动筛选

Key Insight: 将推理评估从结果层面推进到过程层面,用信息增益量化每步贡献

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!