2025-09-29
DL论文
00

https://arxiv.org/pdf/2509.21193

🎯 核心思路

这个系统就是让AI像人类专家一样自然地思考,而不是像机器人那样机械地操作。

💡 三个关键创新

1️⃣ 边想边查(监控器系统)

  • 老办法:做题→卡住了→停下来→打开Google→搜索→回来继续(思路全断了)
  • 新办法:一边做题,脑子后台自动提醒"诶这里好像不太确定",相关信息自然浮现出来

就像你考试时突然想起老师讲过的知识点,不需要真的翻书。

2️⃣ 互相帮改(层次化精炼)

  • 老办法:5个人做题,最后投票或平均答案
  • 新办法
    • 拿小明的答案当底稿
    • 小红说"第3步算错了"→改
    • 小刚说"中间漏了一步"→补
    • 小花说"这句话说得不清楚"→润色
    • 轮流当"底稿",每个答案都被改进
2025-09-26
深度学习
00

Emergent Abilities of Large Language Models

https://arxiv.org/abs/2206.07682

大语言模型的涌现能力:理解智能的跃迁

论文背景

2022年,来自Google Research、Stanford University等机构的研究团队发布了《Emergent Abilities of Large Language Models》,这篇论文探讨了大语言模型中一个令人着迷的现象——涌现能力。与之前关注的平滑缩放定律不同,这篇论文揭示了模型能力的不可预测的跃迁

2025-09-26
深度学习
00

https://arxiv.org/pdf/2001.08361

神经语言模型缩放定律:核心观点解读

论文背景

2020年,OpenAI发布了《Scaling Laws for Neural Language Models》,这篇论文通过大规模实验研究了语言模型性能与模型规模、数据大小、计算量之间的关系,为大语言模型的发展奠定了科学基础。

核心观点一:三大幂律关系

论文最重要的发现是模型性能与三个关键因素呈现精确的幂律关系

1. 模型参数规律

展开代码
损失 ∝ (参数量)^(-0.076)
  • 模型参数量每增加一倍,性能提升约5%
  • 这个关系在768个参数到15亿参数范围内都成立

2. 数据规模规律

展开代码
损失 ∝ (数据量)^(-0.095)
  • 训练数据每增加一倍,性能提升约6.5%
  • 跨越了从2200万到230亿tokens的范围

3. 计算预算规律

展开代码
损失 ∝ (计算量)^(-0.05)
  • 训练计算量每增加一倍,性能提升约3.5%
  • 提供了性能提升的"价格表"
2025-09-26
GRPO
00

https://arxiv.org/pdf/2509.13232

Single-stream Policy Optimization 论文总结

基本信息

  • 论文标题: Single-stream Policy Optimization
  • 研究领域: 大语言模型(LLM)策略优化

研究背景与动机

现有方法的局限性

当前大语言模型的策略梯度优化主要采用基于组的方法(group-based methods),如GRPO(Group-based Reinforcement Policy Optimization)。这些方法虽然通过即时基线(on-the-fly baselines)来减少方差,但存在以下关键缺陷:

  1. 退化组问题: 频繁出现的退化组会抹除学习信号,影响模型训练效果
  2. 同步障碍: 同步屏障阻碍了系统的可扩展性,限制了大规模部署的效率
2025-09-25
深度学习
00

取决于问题复杂度。

要做通用模型,sft的问答对很丰富很复杂,那么蒸馏是有意义的。

如果是专用模型,蒸馏代价太大作用还不大,不如直接用专用sft数据去直接sft小模型。

2025-09-25
深度学习
00

COT是"Chain of Thought"(思维链)的缩写,指的是让AI模型逐步展示推理过程,而不是直接给出答案。

你提出的核心问题确实很有意思:如果模型无法准确判断自己是否真正"知道"某件事,那COT为什么还能提升效果?

我觉得可能的解释是:

关于"知道"的判断: 模型确实很难区分"真知道"和"看起来知道"。它可能基于训练数据中的模式匹配给出看似合理但实际错误的答案,而且对此很有信心。这是个根本性的认知限制。

COT的作用机制: 但COT之所以有效,可能不是因为它帮助模型"自我纠偏",而是因为:

  1. 激活更多相关信息:逐步推理过程中,模型会调用更多相关的训练记忆和模式,增加答对的概率

  2. 结构化思考:强制模型按步骤展开,减少了"跳跃式"错误,就像人类列提纲一样

  3. 多次"采样"机会:每个推理步骤都是一次重新"采样",增加了碰到正确路径的可能性

  4. 暴露推理过程:虽然模型本身可能意识不到错误,但推理步骤暴露给了人类,让人类可以发现问题

所以COT可能不是真正的"自我纠偏",而是一种提高答案质量的工程技巧。

2025-09-25
DL论文
00

https://arxiv.org/pdf/2305.15717

模型模仿的虚假承诺:开源大语言模型的发展困境与出路

近年来,随着ChatGPT等商业大语言模型的崛起,开源社区兴起了一股"模型模仿"浪潮。许多研究者试图通过让开源模型学习商业模型的输出来快速提升性能,诞生了Alpaca、Vicuna等知名项目。然而,加州大学伯克利分校的最新研究表明,这种看似经济高效的方法可能是一个"虚假承诺"。

什么是模型模仿?

模型模仿是指使用商业模型(如ChatGPT)的API输出作为训练数据,对开源模型进行微调,以期达到与商业模型相似的性能。这种方法的吸引力在于:

  • 成本低廉:无需从头训练大模型或标注大量数据
  • 技术门槛低:只需收集API输出并进行监督学习
  • 效果显著:初步评估显示模型质量大幅提升

研究团队将模型模仿分为两类:

  • 任务特定模仿:针对特定领域或任务进行模仿
  • 广泛覆盖模仿:试图全面复制目标模型的各种能力
2025-09-25
DL论文
00
2025-09-25
深度学习
00

基于大模型的外卖词槽提取完整方案

1. 方案概述

你的词槽提取任务属于典型的**意图识别+槽位填充(Intent Detection & Slot Filling)**问题。这是NLP中的核心任务,目标是从用户对话中识别不同的槽位,对应用户查询的不同参数。对于外卖场景,需要处理复杂的商业逻辑和多轮对话。

核心挑战

  • 店铺名与商品名混淆:如"乡村的小鸡"中"乡村"是店铺,"小鸡"是商品
  • 多意图场景:外卖下单、再来一单、搜索店铺等不同意图需要不同词槽
  • 归一化要求:地址标签、配送方式等需要统一格式
  • 业务逻辑复杂:必选词槽、默认值、校验规则等
2025-09-25
深度学习
00

https://arxiv.org/pdf/2507.05934

BlueLM-2.5-3B: 边缘设备上的多模态推理突破

核心创新与技术亮点

BlueLM-2.5-3B代表了多模态大语言模型(MLLM)在边缘设备部署方面的重要突破。作为首个支持thinking和non-thinking双模式切换的3B级别MLLM,该模型在保持紧凑性的同时实现了卓越的推理能力。