https://arxiv.org/pdf/2509.21193
这个系统就是让AI像人类专家一样自然地思考,而不是像机器人那样机械地操作。
就像你考试时突然想起老师讲过的知识点,不需要真的翻书。
Emergent Abilities of Large Language Models
https://arxiv.org/abs/2206.07682
2022年,来自Google Research、Stanford University等机构的研究团队发布了《Emergent Abilities of Large Language Models》,这篇论文探讨了大语言模型中一个令人着迷的现象——涌现能力。与之前关注的平滑缩放定律不同,这篇论文揭示了模型能力的不可预测的跃迁。
https://arxiv.org/pdf/2001.08361
2020年,OpenAI发布了《Scaling Laws for Neural Language Models》,这篇论文通过大规模实验研究了语言模型性能与模型规模、数据大小、计算量之间的关系,为大语言模型的发展奠定了科学基础。
论文最重要的发现是模型性能与三个关键因素呈现精确的幂律关系:
展开代码损失 ∝ (参数量)^(-0.076)
展开代码损失 ∝ (数据量)^(-0.095)
展开代码损失 ∝ (计算量)^(-0.05)
https://arxiv.org/pdf/2509.13232
当前大语言模型的策略梯度优化主要采用基于组的方法(group-based methods),如GRPO(Group-based Reinforcement Policy Optimization)。这些方法虽然通过即时基线(on-the-fly baselines)来减少方差,但存在以下关键缺陷:
取决于问题复杂度。
要做通用模型,sft的问答对很丰富很复杂,那么蒸馏是有意义的。
如果是专用模型,蒸馏代价太大作用还不大,不如直接用专用sft数据去直接sft小模型。
COT是"Chain of Thought"(思维链)的缩写,指的是让AI模型逐步展示推理过程,而不是直接给出答案。
你提出的核心问题确实很有意思:如果模型无法准确判断自己是否真正"知道"某件事,那COT为什么还能提升效果?
我觉得可能的解释是:
关于"知道"的判断: 模型确实很难区分"真知道"和"看起来知道"。它可能基于训练数据中的模式匹配给出看似合理但实际错误的答案,而且对此很有信心。这是个根本性的认知限制。
COT的作用机制: 但COT之所以有效,可能不是因为它帮助模型"自我纠偏",而是因为:
激活更多相关信息:逐步推理过程中,模型会调用更多相关的训练记忆和模式,增加答对的概率
结构化思考:强制模型按步骤展开,减少了"跳跃式"错误,就像人类列提纲一样
多次"采样"机会:每个推理步骤都是一次重新"采样",增加了碰到正确路径的可能性
暴露推理过程:虽然模型本身可能意识不到错误,但推理步骤暴露给了人类,让人类可以发现问题
所以COT可能不是真正的"自我纠偏",而是一种提高答案质量的工程技巧。
https://arxiv.org/pdf/2305.15717
近年来,随着ChatGPT等商业大语言模型的崛起,开源社区兴起了一股"模型模仿"浪潮。许多研究者试图通过让开源模型学习商业模型的输出来快速提升性能,诞生了Alpaca、Vicuna等知名项目。然而,加州大学伯克利分校的最新研究表明,这种看似经济高效的方法可能是一个"虚假承诺"。
模型模仿是指使用商业模型(如ChatGPT)的API输出作为训练数据,对开源模型进行微调,以期达到与商业模型相似的性能。这种方法的吸引力在于:
研究团队将模型模仿分为两类:
你的词槽提取任务属于典型的**意图识别+槽位填充(Intent Detection & Slot Filling)**问题。这是NLP中的核心任务,目标是从用户对话中识别不同的槽位,对应用户查询的不同参数。对于外卖场景,需要处理复杂的商业逻辑和多轮对话。
https://arxiv.org/pdf/2507.05934
BlueLM-2.5-3B代表了多模态大语言模型(MLLM)在边缘设备部署方面的重要突破。作为首个支持thinking和non-thinking双模式切换的3B级别MLLM,该模型在保持紧凑性的同时实现了卓越的推理能力。