DeepSeek-OCR是什么
DeepSeek-OCR 是 DeepSeek 团队推出的视觉语言模型,专注于通过光学压缩技术高效处理长文本内容。模型由 DeepEncoder 编码器和 DeepSeek3B-MoE 解码器组成,能在保持高分辨率输入的同时,显著降低激活内存和视觉标记数量。模型在 10 倍压缩比下 OCR 精度可达 97%,在 20 倍压缩比下仍能保持 60% 的准确率。DeepSeek-OCR 支持多种分辨率模式,适用多语言文档处理,能解析图表、化学公式等复杂内容,为大规模文档处理提供高效解决方案。

DeepSeek-OCR的主要功能
- 视觉文本压缩:将长文本内容通过视觉模态进行高效压缩,实现7-20倍的压缩比。
- 多语言OCR:支持近100种语言的文档识别,包括中文、英文、阿拉伯文、僧伽罗文等。
- 深度解析:能解析图表、化学公式、几何图形等复杂内容。
- 多格式输出:支持带布局的Markdown格式和无布局的自由OCR格式。
DeepSeek-OCR的技术原理
- 核心架构:DeepSeek-OCR 由两部分组成:
- DeepEncoder:负责将输入的图像(文档)编码为视觉令牌。
- DeepSeek-3B-MoE-A570M:作为解码器,负责将视觉令牌解码为文本。
- DeepEncoder:DeepEncoder 是 DeepSeek-OCR 的核心组件,设计目标是在高分辨率输入下保持低激活内存,同时实现高压缩比。由以下几部分组成:
- 双塔结构:
- SAM-base (80M):基于窗口注意力(window attention),主要用在感知局部特征,处理高分辨率输入时内存占用低。
- CLIP-large (300M):基于全局注意力(global attention),用在提取全局语义信息。由于输入经过压缩,全局注意力部分的内存占用能得到有效控制。
- 16× 卷积压缩层:在 SAM 和 CLIP 之间,DeepEncoder 用一个 16× 的卷积压缩模块。模块通过两层卷积(每层 stride=2)将视觉令牌的数量从 4096 减少到 256。这种设计在不丢失重要信息的前提下,显著减少视觉令牌的数量,降低内存占用。
- 多分辨率支持:DeepEncoder 支持多种分辨率模式,包括 Tiny、Small、Base、Large 和 Gundam 等。每种模式对应不同的输入分辨率和视觉令牌数量。例如:
- Tiny:512×512 分辨率,输出 64 个视觉令牌。
- Small:640×640 分辨率,输出 100 个视觉令牌。
- Base:1024×1024 分辨率,输出 256 个视觉令牌。
- Large:1280×1280 分辨率,输出 400 个视觉令牌。
- Gundam:动态分辨率,支持更高的分辨率输入,通过分块处理进一步减少激活内存。
- 双塔结构:
- 解码器:DeepSeek-3B-MoE-A570M:解码器基于 DeepSeek-3B-MoE 架构,具有 570M 激活参数。负责将压缩后的视觉令牌解码为文本。解码器通过非线性映射将视觉令牌转换为文本表示,具体公式为: 其中 是视觉令牌的数量, 是文本令牌的数量, 和 分别是视觉令牌和文本令牌的维度。
DeepSeek-OCR的项目地址
- GitHub仓库:https://github.com/deepseek-ai/DeepSeek-OCR
- HuggingFace模型库:https://huggingface.co/deepseek-ai/DeepSeek-OCR
- 技术论文:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
DeepSeek-OCR的应用场景
- 大规模训练数据生成:每天自动处理数十万页文档,为大型语言模型和视觉语言模型提供海量高质量的训练数据。
- 企业级文档数字化:快速、准确地将企业内部的纸质合同、报告等各类文档转换为可搜索、可编辑的数字化格式。
- 学术研究与文献处理:精准解析学术论文中的复杂内容,如数学公式、化学式和图表,转换为结构化的机器可读格式。
- 多语言国际化文档处理:轻松应对跨国企业或组织在全球化业务中遇到的多语言文档处理需求。
- 金融与商业智能分析:能深度解析研究报告中的图表,将其转换为结构化数据,为财务分析和投资决策提供自动化支持。