视觉压缩革命：DeepSeek-OCR 如何用一张图压缩十倍上下文

“

“如果一句话代表一个 token，那么一张图能代表多少记忆？”
——DeepSeek 团队

一、长上下文的痛点：模型记不住太多，但人类可以“看图回忆”

每个用过大语言模型（LLM）的人，都遇到过一个痛点：
当你让模型总结上万字的会议记录或学术论文时，它开始“健忘”。
因为无论是 GPT、Gemini 还是 Claude，本质上都受限于 序列长度的平方复杂度——输入越长，算力就爆炸。

可人类不是这样。
我们能翻一眼笔记、瞄一页图表，就能瞬间回忆整段内容。
于是 DeepSeek 团队提出了一个大胆的假设：

“

如果让模型“看图”而不是“看字”，能否让它在不丢信息的前提下压缩十倍上下文？

这就是 DeepSeek-OCR 背后的故事。

二、从OCR到“光学压缩”：DeepSeek的奇思妙想

传统的 OCR（Optical Character Recognition）模型做的，是把图变成字。
而 DeepSeek-OCR 想的，是反过来——

“

用图去压缩字，让图成为模型的“记忆容器”。

这听起来像一句玄学箴言，但它的逻辑很科学：

文本是一维的序列，信息密度低；
图像是二维的载体，空间利用率高；
如果能把长文本“光学化”成图片，模型在视觉空间中处理，就能用更少的 token 表示更多信息。

于是，DeepSeek 把这套理念落地成了一个完整系统：
DeepSeek-OCR = DeepEncoder + DeepSeek3B-MoE 解码器

它不是在造一个新OCR，而是在探索一种新的上下文压缩范式。

三、架构全景：从图像到文本的“光学压缩通道”

DeepSeek-OCR 的结构看起来像一个典型的视觉语言模型（VLM），但它的每个细节都围绕“压缩”设计。

🧩 DeepEncoder：压缩的灵魂

DeepEncoder 是整个系统的心脏。
它串联了两个组件：

SAM-base（局部感知，负责低层视觉特征）
CLIP-large（全局注意力，负责语义压缩）

两者之间由一个 16× 卷积压缩模块 连接。
这意味着一张 1024×1024 的图片经过处理后，只会留下不到 1/16 的视觉 token。

更妙的是，DeepSeek 还支持多分辨率模式：

模式	分辨率	Vision Tokens	特点
Tiny	512×512	64	极限轻量推理
Small	640×640	100	性能/精度平衡
Base	1024×1024	256	主力模式
Large	1280×1280	400	高精场景
Gundam	动态分块 + 全局图	<800	超高分辨率文档

在实验中，它的压缩比最高达到 20×，
而精度仍能维持 60% OCR 准确率。
在 10× 压缩比 下，解码准确率接近 97%——几乎无损。

这意味着什么？
意味着如果一页文档原本需要 1000 个文本 token，现在只需 100 个视觉 token。
模型可以“看图理解整页”，却只消耗十分之一的上下文长度。

四、MoE解码器：在压缩的末端，还原文字的灵魂

Encoder 压缩了图像，那 Decoder 的任务，就是从这些被压缩的视觉 token 里“读出文字”。
DeepSeek 使用的是自家的 DeepSeek-3B-MoE（Mixture of Experts） 架构。

解码时仅激活 6 个专家模块（外加 2 个共享专家），
总参数量约 3B，但实际推理只用到 570M 激活参数。
这种结构既快又省，正好契合 OCR 任务的高吞吐需求。

在论文中，他们提出了一个非常启发性的等式：

$f_{d ec} : R^{n \times d_{l a t e n t}} \to R^{N \times d_{t e x t}}, \hat{X} = f_{d ec} (Z)$

这表达了“从压缩视觉表征 ( Z ) 还原文本表示 ( \hat{X} )”的过程。
看似是 OCR，其实是视觉编码的上下文重建问题。
未来这种能力，可能会被直接用来压缩 LLM 的长对话记忆。

五、数据的秘密：从文档到图表、化学式、几何图

DeepSeek-OCR 的数据工程同样惊人。
它不只是训练“文字识别”，而是构建了一套覆盖视觉语义全谱的数据体系：

📚 OCR 1.0：传统文档识别

30M+ 页 PDF，涵盖近 100 种语言；
同时生成粗标注（快速OCR）与细标注（布局+文字坐标）；
中文与英文各 2M 页的高质量标注，辅以 layout + detection 联合训练。

📊 OCR 2.0：结构化解析任务

图表 → HTML 表格（来自 OneChart/Pyecharts 渲染）
化学式 → SMILES 文本（PubChem + RDKit 生成）
几何图形 → 结构字典（Slow Perception 方法）

这些任务的背后逻辑是：
让模型不仅识字，还能读懂结构。
这也是未来“视觉文档理解”的关键。

六、一步步跑起来：本地部署 DeepSeek-OCR

现在，来点实战。
如果你想在自己的机器上体验 DeepSeek-OCR 的威力，只需三步。

🧰 Step 1. 环境准备

“

环境要求：Python 3.12.9 + CUDA 11.8 + torch 2.6.0

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install flash-attn==2.7.3 --no-build-isolation
pip install -r requirements.txt

⚡ Step 2. 加载模型并推理（Transformers方式）

from transformers import AutoModel, AutoTokenizer
import torch, os

os.environ["CUDA_VISIBLE_DEVICES"] = "0"
model_name = "deepseek-ai/DeepSeek-OCR"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name,
                                  _attn_implementation="flash_attention_2",
                                  trust_remote_code=True,
                                  use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = "your_image.jpg"
output_path = "output_dir"

res = model.infer(tokenizer,
                  prompt=prompt,
                  image_file=image_file,
                  output_path=output_path,
                  base_size=1024,
                  image_size=640,
                  crop_mode=True,
                  save_results=True,
                  test_compress=True)

运行后，你会得到一个 Markdown 格式的文档结构化输出，包括标题、表格、公式、段落布局等。

🚀 Step 3. 高性能推理（vLLM）

如果你追求极限速度，可使用官方提供的 vLLM 支持：

cd DeepSeek-OCR-vllm
python run_dpsk_ocr_pdf.py   # 解析 PDF

“

在单张 A100-40G 上，推理速度可达 2500 tokens/s。

七、实验结果：一场压缩率的胜利

DeepSeek 在论文中展示了惊人的对比数据：

模型	Vision Tokens	OCR精度	压缩比
DeepSeek-OCR (Tiny)	64	96.5%	10.5×
DeepSeek-OCR (Small)	100	98.5%	6.7×
DeepSeek-OCR (Base)	256	91.5%	10.6×
DeepSeek-OCR (Large)	400	89.8%	11.3×
DeepSeek-OCR (Gundam)	<800	87.1%	12.6×

与之对比，MinerU2.0 需要 7000+ tokens 才能达到相似效果。
也就是说，DeepSeek-OCR 用不到十分之一的token完成相同任务。

在 OmniDocBench 上，它全面超越 GOT-OCR2.0、InternVL3、Qwen2.5-VL 等顶级模型。
尤其在结构化文档解析上，编辑距离指标提升高达 30%+。

八、从OCR到“视觉记忆”：DeepSeek的未来野心

DeepSeek 团队在论文最后提出了一个让人兴奋的设想：

“

如果我们能把对话历史、文档摘要等长上下文转化为“光学记忆图”，
模型是否能在视觉空间中模拟人类的记忆衰退机制？

他们甚至画出了一个模拟图（Figure 13），展示了不同“时间距离”的视觉模糊程度——
越久远的记忆，图像分辨率越低，信息越模糊。

这或许是未来 LLM 处理无限上下文的答案：
让模型学会“看图回忆”。

九、常见问题解答（FAQ）

Q：DeepSeek-OCR 能离线运行吗？
A：可以。模型与权重均可从 GitHub 或 Hugging Face 下载，本地推理无需联网。

Q：支持哪些语言？
A：官方数据覆盖约 100 种语言，包括中、英、阿拉伯语、泰米尔语、僧伽罗语等。

Q：它能解析哪些类型的图？
A：文档、图表、化学式、几何图、自然图片等均可处理，支持 Markdown 输出。

Q：它和 GPT-4V 这类多模态模型有何区别？
A：GPT-4V 追求通用多模态理解，而 DeepSeek-OCR 更聚焦于视觉压缩效率与结构化文本还原。

十、结语：一张图的未来

DeepSeek-OCR 不仅仅是一个 OCR 模型。
它更像是一次“语言模型进化方向”的实验。
通过视觉通道来压缩文字，通过空间表征来管理记忆——
这不仅提升了效率，也为“AI的思考方式”提供了新的隐喻。

或许未来的大模型，不再是“记忆一切的文书”，
而是一个能看见自己的记忆、管理自己的模糊的智能体。

当我们用一张图承载十倍文字，
我们其实在教机器学会——
“如何忘记，才是记忆真正的开始。”

参考与资源：