多模态文档解析开源新进展-DeepSeek-OCR2.0架构、数据、训练方法

余俊晖

783人浏览 · 2026-01-31 12:38:22

余俊晖 · 2026-01-31 12:38:22 发布

DeepSeek-OCR2.0是DeepSeek-OCR（《端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法》）的后续，其是一个端到端的多模态文档解析模型，也是Vary、GOT-OCR2.0的后续，前期也有详细介绍《【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节》。DeepSeek-OCR 2 对上一代的优化主要是编码器上的改进，如下图：用 LLM 式架构替换了 DeepEncoder 中的 CLIP 模块。通过定制化注意力掩码，视觉 token 采用双向注意力机制，而可学习查询则采用因果注意力机制。因此，每个查询 token 既能关注所有视觉 token，也能关注之前的查询，从而实现对视觉信息的渐进式因果重排序，初步验证了LLM-style 架构作为 VLM 编码器的可行性。

模型架构

DeepSeek-OCR-1.0

DeepSeek-OCR-2.0

DeepSeek-OCR 2 继承了 DeepSeek-OCR 的【编码器-解码器】架构，但对核心的编码器进行了升级（DeepEncoder → DeepEncoder V2），解码器不变：

编码器（DeepEncoder V2）：在DeepEncoder V1中，DeepEncoder专门解决现有VLMs视觉编码器（如Vary、InternVL2.0）的痛点：高分辨率输入时token过多、激活内存大、不支持多分辨率。DeepEncoder V2在功能上仍然继承了DeepEncoder V1，但引入了【图像离散化+语义重排序】——将输入图像转化为视觉token，并通过因果推理机制按图像语义重新排列token顺序，而非固定的“左上到右下”栅格顺序。
解码器（DeepSeek-MoE Decoder）：基于重新排序后的视觉token和文本提示（Prompt），生成最终的OCR输出（文本、公式、表格等内容）。

DeepEncoder V2

DeepEncoder V2 是核心改进，下面具体看下各个组件：

1 Vision tokenizer

沿用 DeepEncoder 的基础结构，由【80M参数的 SAM-base 模型 + 两层卷积层】组成。有一点细微的改动：

输出维度调整：最终卷积层的输出维度从 DeepEncoder 的 1024 降至 896，适配LLM-style 编码器输入维度。
16倍token压缩比：通过窗口注意力（window attention）实现，在仅用80M参数的情况下，将图像patch压缩16倍，大幅降低后续全局注意力模块的计算成本和激活内存。

2 Language model as vision encoder

用紧凑LLM架构替换初代 DeepEncoder 中的 CLIP ViT 模块，实现“视觉因果建模”。
采用 Qwen2-0.5B（500M参数）作为视觉编码器，参数规模与 CLIP ViT（300M）接近，无额外计算开销。

双流注意力机制：
1. 视觉token流：采用双向注意力（类似ViT），保留CLIP的全局建模能力（每个视觉token可关注所有其他视觉token）。
2. 因果流查询（causal flow tokens）：采用「因果注意力」（类似LLM解码器），新增的可学习查询（learnable queries）被作为“后缀”拼接在视觉token之后，每个查询仅能关注【所有视觉token + 之前的查询】，实现渐进式的token重排序。

仅将因果流查询的输出（编码器输出的后n个token）传入LLM解码器，视觉token不直接参与后续解码，确保解码过程基于“语义排序后的token”。

3 Causal flow query（因果流查询）

作为“语义排序的载体”，通过可学习查询捕捉图像的因果逻辑，动态调整视觉token顺序。

数量计算：查询数量 = 视觉token数量，计算公式为：
$ \text{查询数} = \frac{W \times H}{16^2 \times 16} $
其中 $ W、H $ 为输入编码器的图像宽高，16²对应SAM-base的patch分割，额外的16倍来自卷积层压缩。
多裁剪策略：为适配不同分辨率图像，避免为每种分辨率设计单独查询集，采用“全局+局部”双视图裁剪：
1. 全局视图：分辨率 1024×1024，对应 256 个查询（$ query_{global} $）。
2. 局部视图：分辨率 768×768，对应 144 个查询（$ query_{local} $），裁剪数量 $ k \in [0,6] $（图像宽高均小于768时不裁剪）。

最终传入LLM的token数 = $ k \times 144 + 256 $，范围为 256~1120：