“如果一句话代表一个 token,那么一张图能代表多少记忆?”
——DeepSeek 团队


一、长上下文的痛点:模型记不住太多,但人类可以“看图回忆”

每个用过大语言模型(LLM)的人,都遇到过一个痛点:
当你让模型总结上万字的会议记录或学术论文时,它开始“健忘”。
因为无论是 GPT、Gemini 还是 Claude,本质上都受限于 序列长度的平方复杂度——输入越长,算力就爆炸。

可人类不是这样。
我们能翻一眼笔记、瞄一页图表,就能瞬间回忆整段内容。
于是 DeepSeek 团队提出了一个大胆的假设:

如果让模型“看图”而不是“看字”,能否让它在不丢信息的前提下压缩十倍上下文?

这就是 DeepSeek-OCR 背后的故事。


二、从OCR到“光学压缩”:DeepSeek的奇思妙想

传统的 OCR(Optical Character Recognition)模型做的,是把图变成字。
而 DeepSeek-OCR 想的,是反过来——

用图去压缩字,让图成为模型的“记忆容器”。

这听起来像一句玄学箴言,但它的逻辑很科学:

  • 文本是一维的序列,信息密度低;
  • 图像是二维的载体,空间利用率高;
  • 如果能把长文本“光学化”成图片,模型在视觉空间中处理,就能用更少的 token 表示更多信息。

于是,DeepSeek 把这套理念落地成了一个完整系统:
DeepSeek-OCR = DeepEncoder + DeepSeek3B-MoE 解码器

它不是在造一个新OCR,而是在探索一种新的上下文压缩范式


三、架构全景:从图像到文本的“光学压缩通道”

DeepSeek-OCR 架构图

DeepSeek-OCR 的结构看起来像一个典型的视觉语言模型(VLM),但它的每个细节都围绕“压缩”设计。

🧩 DeepEncoder:压缩的灵魂

DeepEncoder 是整个系统的心脏。
它串联了两个组件:

  • SAM-base(局部感知,负责低层视觉特征)
  • CLIP-large(全局注意力,负责语义压缩)

两者之间由一个 16× 卷积压缩模块 连接。
这意味着一张 1024×1024 的图片经过处理后,只会留下不到 1/16 的视觉 token。

更妙的是,DeepSeek 还支持多分辨率模式:

模式 分辨率 Vision Tokens 特点
Tiny 512×512 64 极限轻量推理
Small 640×640 100 性能/精度平衡
Base 1024×1024 256 主力模式
Large 1280×1280 400 高精场景
Gundam 动态分块 + 全局图 <800 超高分辨率文档

在实验中,它的压缩比最高达到 20×
而精度仍能维持 60% OCR 准确率
10× 压缩比 下,解码准确率接近 97%——几乎无损。

这意味着什么?
意味着如果一页文档原本需要 1000 个文本 token,现在只需 100 个视觉 token。
模型可以“看图理解整页”,却只消耗十分之一的上下文长度。


四、MoE解码器:在压缩的末端,还原文字的灵魂

Encoder 压缩了图像,那 Decoder 的任务,就是从这些被压缩的视觉 token 里“读出文字”。
DeepSeek 使用的是自家的 DeepSeek-3B-MoE(Mixture of Experts) 架构。

解码时仅激活 6 个专家模块(外加 2 个共享专家),
总参数量约 3B,但实际推理只用到 570M 激活参数
这种结构既快又省,正好契合 OCR 任务的高吞吐需求。

在论文中,他们提出了一个非常启发性的等式:

这表达了“从压缩视觉表征 ( Z ) 还原文本表示 ( \hat{X} )”的过程。
看似是 OCR,其实是视觉编码的上下文重建问题
未来这种能力,可能会被直接用来压缩 LLM 的长对话记忆。


五、数据的秘密:从文档到图表、化学式、几何图

DeepSeek-OCR 的数据工程同样惊人。
它不只是训练“文字识别”,而是构建了一套覆盖视觉语义全谱的数据体系:

📚 OCR 1.0:传统文档识别

  • 30M+ 页 PDF,涵盖近 100 种语言
  • 同时生成粗标注(快速OCR)与细标注(布局+文字坐标);
  • 中文与英文各 2M 页的高质量标注,辅以 layout + detection 联合训练。

📊 OCR 2.0:结构化解析任务

  • 图表 → HTML 表格(来自 OneChart/Pyecharts 渲染)
  • 化学式 → SMILES 文本(PubChem + RDKit 生成)
  • 几何图形 → 结构字典(Slow Perception 方法)

这些任务的背后逻辑是:
让模型不仅识字,还能读懂结构。
这也是未来“视觉文档理解”的关键。


六、一步步跑起来:本地部署 DeepSeek-OCR

现在,来点实战。
如果你想在自己的机器上体验 DeepSeek-OCR 的威力,只需三步。

🧰 Step 1. 环境准备

环境要求:Python 3.12.9 + CUDA 11.8 + torch 2.6.0

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install flash-attn==2.7.3 --no-build-isolation
pip install -r requirements.txt

⚡ Step 2. 加载模型并推理(Transformers方式)

from transformers import AutoModel, AutoTokenizer
import torch, os

os.environ["CUDA_VISIBLE_DEVICES"] = "0"
model_name = "deepseek-ai/DeepSeek-OCR"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name,
                                  _attn_implementation="flash_attention_2",
                                  trust_remote_code=True,
                                  use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = "your_image.jpg"
output_path = "output_dir"

res = model.infer(tokenizer,
                  prompt=prompt,
                  image_file=image_file,
                  output_path=output_path,
                  base_size=1024,
                  image_size=640,
                  crop_mode=True,
                  save_results=True,
                  test_compress=True)

运行后,你会得到一个 Markdown 格式的文档结构化输出,包括标题、表格、公式、段落布局等。


🚀 Step 3. 高性能推理(vLLM)

如果你追求极限速度,可使用官方提供的 vLLM 支持:

cd DeepSeek-OCR-vllm
python run_dpsk_ocr_pdf.py   # 解析 PDF

在单张 A100-40G 上,推理速度可达 2500 tokens/s


七、实验结果:一场压缩率的胜利

DeepSeek 在论文中展示了惊人的对比数据:

模型 Vision Tokens OCR精度 压缩比
DeepSeek-OCR (Tiny) 64 96.5% 10.5×
DeepSeek-OCR (Small) 100 98.5% 6.7×
DeepSeek-OCR (Base) 256 91.5% 10.6×
DeepSeek-OCR (Large) 400 89.8% 11.3×
DeepSeek-OCR (Gundam) <800 87.1% 12.6×

与之对比,MinerU2.0 需要 7000+ tokens 才能达到相似效果。
也就是说,DeepSeek-OCR 用不到十分之一的token完成相同任务。

OmniDocBench 上,它全面超越 GOT-OCR2.0、InternVL3、Qwen2.5-VL 等顶级模型。
尤其在结构化文档解析上,编辑距离指标提升高达 30%+


八、从OCR到“视觉记忆”:DeepSeek的未来野心

DeepSeek 团队在论文最后提出了一个让人兴奋的设想:

如果我们能把对话历史、文档摘要等长上下文转化为“光学记忆图”,
模型是否能在视觉空间中模拟人类的记忆衰退机制

他们甚至画出了一个模拟图(Figure 13),展示了不同“时间距离”的视觉模糊程度——
越久远的记忆,图像分辨率越低,信息越模糊。

这或许是未来 LLM 处理无限上下文的答案:
让模型学会“看图回忆”。


九、常见问题解答(FAQ)

Q:DeepSeek-OCR 能离线运行吗?
A:可以。模型与权重均可从 GitHub 或 Hugging Face 下载,本地推理无需联网。

Q:支持哪些语言?
A:官方数据覆盖约 100 种语言,包括中、英、阿拉伯语、泰米尔语、僧伽罗语等。

Q:它能解析哪些类型的图?
A:文档、图表、化学式、几何图、自然图片等均可处理,支持 Markdown 输出。

Q:它和 GPT-4V 这类多模态模型有何区别?
A:GPT-4V 追求通用多模态理解,而 DeepSeek-OCR 更聚焦于视觉压缩效率与结构化文本还原


十、结语:一张图的未来

DeepSeek-OCR 不仅仅是一个 OCR 模型。
它更像是一次“语言模型进化方向”的实验。
通过视觉通道来压缩文字,通过空间表征来管理记忆——
这不仅提升了效率,也为“AI的思考方式”提供了新的隐喻。

或许未来的大模型,不再是“记忆一切的文书”,
而是一个能看见自己的记忆、管理自己的模糊的智能体。

当我们用一张图承载十倍文字,
我们其实在教机器学会——
“如何忘记,才是记忆真正的开始。”


参考与资源: