Q:如何训练超长上下文的大模型?显存不够用怎么办,现在的技术手段是如何让这个训练超长上下文大模型的事情变得可行的?
随着大语言模型的快速发展,处理超长文档、长对话历史和复杂推理任务的需求日益增长。从最初的512 token到现在的百万token级别上下文,这一技术突破不仅改变了模型的应用边界,也带来了前所未有的技术挑战。
本文将深入探讨超长上下文大模型的训练技术,从基础概念到前沿方法,带你了解这个激动人心的研究领域。
标准Transformer的自注意力机制计算复杂度为O(N²),其中N是序列长度。当上下文长度从4K增加到1M时,计算量增长了约62,500倍:
展开代码计算复杂度对比: 4K tokens: O(4,096²) ≈ 16.8M 操作 1M tokens: O(1,048,576²) ≈ 1.1T 操作 增长倍数: ~65,536倍
对于一个具有h个注意力头、d维隐藏状态的模型,KV缓存的内存需求为:
KV Cache内存公式:
展开代码Memory_KV = N × d × 2 × h × precision_bytes × batch_size
以70B参数模型为例(假设d=4096, h=32, precision=FP16):
python展开代码def calculate_kv_memory(seq_len, hidden_dim=4096, num_heads=32,
precision_bytes=2, batch_size=1):
"""计算KV缓存内存需求"""
memory_gb = (seq_len * hidden_dim * 2 * num_heads *
precision_bytes * batch_size) / (1024**3)
return memory_gb
# 不同序列长度的内存需求
lengths = [4096, 16384, 65536, 262144, 1048576]
for length in lengths:
memory = calculate_kv_memory(length)
print(f"{length:>7} tokens: {memory:>6.2f} GB")
输出结果显示内存需求的急剧增长:
展开代码4096 tokens: 2.00 GB 16384 tokens: 8.00 GB 65536 tokens: 32.00 GB 262144 tokens: 128.00 GB 1048576 tokens: 512.00 GB
https://arxiv.org/abs/2505.21549
CLIP模型在零样本分类方面表现优异,但在需要细粒度跨模态理解的检索任务中存在局限性,主要因为其依赖固定图像分辨率和有限上下文。DCLIP旨在解决这一问题,既要提升多模态图像-文本检索性能,又要保持原始CLIP模型强大的零样本分类能力。
DCLIP采用元教师-学生蒸馏框架:
元教师设计:
学生模型:
非对称架构:
https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
LongCat-Flash-Thinking 是美团LongCat团队开发的560亿参数开源混合专家(MoE)推理模型,平均激活参数为270亿。该模型专门为增强推理能力而设计,在数学、编程、智能代理和形式化推理等领域表现出色。
Qwen团队在X post中解释停止使用混合思维模式的原始帖子地址是:https://x.com/Alibaba_Qwen/status/1947344511988076547
上nature了: https://www.nature.com/articles/s41586-025-09422-z
我之前的一个文章介绍: https://www.dong-blog.fun/post/2014
DeepSeek-R1-Zero 也是一个重要成果,纯强化学习路线也是可以走的。
基础:直接基于DeepSeek-V3 Base模型 核心特点:
结果:
这问题困扰我很久,在评论管理页面无法看到管理。
最终才发现我登录Waline不是管理员身份导致的。需要修改数据库的表是最佳最快的解决办法。
bash展开代码docker ps # 查看mongo数据库的容器ID
# 进入 MongoDB 容器
docker exec -it <mongo容器ID> mongosh
# 切换到 waline 数据库
use waline
# 查看有哪些集合
waline> show collections
Comment
Users
https://mp.weixin.qq.com/s/3t4PjpZcMVU1wCO0ThUs2A
本文系统阐述了AI Agent开发中新兴的“上下文工程”(Context Engineering)概念及其核心方法论。随着Agent在实际运行中产生海量工具调用和长程推理(long horizon reasoning),管理冗长上下文成为影响性能、成本和模型能力的关键瓶颈。
核心挑战:
五大核心策略:
核心启示与未来方向: 文章引用Hyung Won Chung的“The Bitter Lesson”指出,AI进步的根本驱动力是计算规模(Scaling Law)而非人工设计的复杂结构(归纳偏置)。随着模型能力持续指数级提升(如Claude 3.5的发布),最佳策略是构建灵活、通用、少结构化的系统,而非嵌入过多当前有效的假设,以便更好地适应未来模型的能力。企业应用应倾向于采用透明、可组合的底层编排框架(如Shopify Roast),而非黑箱化的Agent抽象,从而在模型能力追上时释放最大价值。AI Native产品(如Cursor、Windsurf)从零构建的优势正于此显现。
https://arxiv.org/pdf/2509.14786
这篇论文《无限算力下的预训练》(Pre-training under infinite compute)由斯坦福大学的研究者撰写,核心探讨了在高质量训练数据有限但计算资源无限的未来场景下,如何通过算法改进来极大提升语言模型预训练的数据效率。以下是全文的核心总结: