DeepSeek-OCR:光学压缩技术开辟文本处理新范式
2025-10-21
DL论文
00

目录

DeepSeek-OCR:光学压缩技术开辟文本处理新范式
引言
核心创新点
1. 视觉-文本压缩范式的突破
2. DeepEncoder架构设计
3. 多分辨率支持机制
卓越的实践表现
1. 领先的性能与效率
2. 工业级数据生成能力
3. 深度解析能力
数据工程的精细化设计
多维度数据构建
合理的数据配比
理论意义与未来展望
记忆遗忘机制的启示
可扩展的超长上下文处理
结论

https://huggingface.co/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR:光学压缩技术开辟文本处理新范式

引言

在大语言模型(LLM)处理长文本时面临的计算挑战日益凸显,DeepSeek-AI团队提出了一个创新性的解决方案——DeepSeek-OCR。这项研究探索了通过视觉模态实现文本信息高效压缩的可行性,为解决长上下文处理问题开辟了全新的技术路径。

核心创新点

1. 视觉-文本压缩范式的突破

DeepSeek-OCR的首要创新在于系统性地量化了视觉-文本token压缩比率。研究表明,在9-10倍的文本压缩率下,模型可以达到96%以上的OCR解码精度;在10-12倍压缩率下,精度约为90%;即使在20倍压缩率下,精度仍能保持约60%。这一发现证明,紧凑型语言模型能够有效学习解码压缩的视觉表征,为大规模LLM的长上下文处理提供了实证基础。

2. DeepEncoder架构设计

DeepEncoder是该系统的核心引擎,通过串联窗口注意力和全局注意力编码器组件,并使用16倍卷积压缩器连接两者,实现了在高分辨率输入下保持低激活内存和最小视觉token数量的目标。

具体而言,DeepEncoder主要由两个组件构成:以窗口注意力为主的视觉感知特征提取组件(采用80M参数的SAM-base)和具有密集全局注意力的视觉知识特征提取组件(采用300M参数的CLIP-large)。在两个组件之间,使用2层卷积模块进行16倍的视觉token下采样。这种设计确保窗口注意力组件处理大量视觉token时激活内存可控,而压缩器在token进入密集全局注意力组件前大幅减少token数量。

3. 多分辨率支持机制

为测试不同压缩比下的模型性能,DeepEncoder设计了多种分辨率模式,包括原生分辨率(Tiny、Small、Base、Large)和动态分辨率(Gundam、Gundam-M)模式。原生分辨率支持从512×512(64 tokens)到1280×1280(400 tokens)的多种配置,而动态分辨率模式可以组合多个原生分辨率以处理超高分辨率输入。这种灵活的架构设计使单一模型能够适应不同的压缩需求和应用场景。

卓越的实践表现

1. 领先的性能与效率

在OmniDocBench基准测试中,DeepSeek-OCR仅使用100个视觉token就超越了使用256 token的GOT-OCR2.0,并且在使用少于800个视觉token的情况下,性能优于需要平均6000+token的MinerU2.0。这种极致的token效率不仅降低了计算成本,还显著提升了推理速度。

2. 工业级数据生成能力

在生产环境中,DeepSeek-OCR单台A100-40G GPU每天可以生成超过20万页的训练数据,为LLM和VLM的预训练提供了强大的数据引擎支持。

3. 深度解析能力

DeepSeek-OCR具备布局识别和OCR 2.0能力,能够通过二次模型调用对文档内图像进行深度解析。模型可以解析图表、几何图形、化学分子式甚至自然图像,且仅需统一的提示词。这种"深度解析"功能极大地扩展了模型的应用范围。

数据工程的精细化设计

多维度数据构建

DeepSeek-OCR的训练数据包括三大类:OCR 1.0数据(传统OCR任务,如场景图像OCR和文档OCR)、OCR 2.0数据(复杂人工图像解析,如图表、化学分子式和平面几何)以及通用视觉数据(用于注入一般图像理解能力)。

文档数据收集了3000万页多样化的PDF数据,涵盖约100种语言,其中中英文约占2500万页。针对这些数据,团队创建了粗标注和细标注两种类型的真值标签。这种精细化的数据策略确保了模型在不同语言和场景下的鲁棒性。

合理的数据配比

在训练DeepSeek-OCR时,OCR数据占70%,通用视觉数据占20%,纯文本数据占10%。这种配比既保证了核心OCR能力,又维持了必要的语言理解和通用视觉接口。

理论意义与未来展望

记忆遗忘机制的启示

研究团队指出,上下文光学压缩方法可以模拟人类记忆遗忘机制。通过将历史文本渲染为图像进行初始压缩,然后逐步缩小旧图像以实现多级压缩,token数量逐渐减少,文本变得越来越模糊,从而实现文本遗忘。这种设计借鉴了人类记忆随时间衰减与视觉感知随空间距离退化的相似模式。

可扩展的超长上下文处理

这种方法为可扩展的超长上下文处理提供了可能,其中近期上下文保持高分辨率,而旧上下文消耗更少资源。这一范式为构建理论上无限的上下文架构指明了方向。

结论

DeepSeek-OCR不仅是一个高性能的OCR模型,更是对"一图胜千言"这一理念的技术性验证。通过紧凑型语言模型有效学习解码压缩视觉表征的能力,研究表明更大规模的LLM可以通过适当的预训练设计轻松获得类似能力。

该研究为解决LLM长上下文挑战提供了7-20倍的token压缩方案,不仅在技术上具有突破性,在工业应用中也展现出巨大价值。虽然当前研究聚焦于OCR作为概念验证,但这一范式为重新思考视觉和语言模态如何协同增强大规模文本处理和智能体系统的计算效率开辟了新的可能性。

随着数字-光学文本交错预训练、针插稻草测试等进一步评估的开展,光学上下文压缩技术有望成为下一代多模态大模型的关键技术基础,推动人工智能在处理海量信息时实现质的飞跃。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!