“
“如果一句话代表一个 token,那么一张图能代表多少记忆?”
——DeepSeek 团队
一、长上下文的痛点:模型记不住太多,但人类可以“看图回忆”
每个用过大语言模型(LLM)的人,都遇到过一个痛点:
当你让模型总结上万字的会议记录或学术论文时,它开始“健忘”。
因为无论是 GPT、Gemini 还是 Claude,本质上都受限于 序列长度的平方复杂度——输入越长,算力就爆炸。
可人类不是这样。
我们能翻一眼笔记、瞄一页图表,就能瞬间回忆整段内容。
于是 DeepSeek 团队提出了一个大胆的假设:
“
如果让模型“看图”而不是“看字”,能否让它在不丢信息的前提下压缩十倍上下文?
这就是 DeepSeek-OCR 背后的故事。
二、从OCR到“光学压缩”:DeepSeek的奇思妙想
传统的 OCR(Optical Character Recognition)模型做的,是把图变成字。
而 DeepSeek-OCR 想的,是反过来——
“
用图去压缩字,让图成为模型的“记忆容器”。
这听起来像一句玄学箴言,但它的逻辑很科学:
-
文本是一维的序列,信息密度低; -
图像是二维的载体,空间利用率高; -
如果能把长文本“光学化”成图片,模型在视觉空间中处理,就能用更少的 token 表示更多信息。
于是,DeepSeek 把这套理念落地成了一个完整系统:
DeepSeek-OCR = DeepEncoder + DeepSeek3B-MoE 解码器
它不是在造一个新OCR,而是在探索一种新的上下文压缩范式。
三、架构全景:从图像到文本的“光学压缩通道”

DeepSeek-OCR 的结构看起来像一个典型的视觉语言模型(VLM),但它的每个细节都围绕“压缩”设计。
🧩 DeepEncoder:压缩的灵魂
DeepEncoder 是整个系统的心脏。
它串联了两个组件:
-
SAM-base(局部感知,负责低层视觉特征) -
CLIP-large(全局注意力,负责语义压缩)
两者之间由一个 16× 卷积压缩模块 连接。
这意味着一张 1024×1024 的图片经过处理后,只会留下不到 1/16 的视觉 token。
更妙的是,DeepSeek 还支持多分辨率模式:
在实验中,它的压缩比最高达到 20×,
而精度仍能维持 60% OCR 准确率。
在 10× 压缩比 下,解码准确率接近 97%——几乎无损。
这意味着什么?
意味着如果一页文档原本需要 1000 个文本 token,现在只需 100 个视觉 token。
模型可以“看图理解整页”,却只消耗十分之一的上下文长度。
四、MoE解码器:在压缩的末端,还原文字的灵魂
Encoder 压缩了图像,那 Decoder 的任务,就是从这些被压缩的视觉 token 里“读出文字”。
DeepSeek 使用的是自家的 DeepSeek-3B-MoE(Mixture of Experts) 架构。
解码时仅激活 6 个专家模块(外加 2 个共享专家),
总参数量约 3B,但实际推理只用到 570M 激活参数。
这种结构既快又省,正好契合 OCR 任务的高吞吐需求。
在论文中,他们提出了一个非常启发性的等式:
这表达了“从压缩视觉表征 ( Z ) 还原文本表示 ( \hat{X} )”的过程。
看似是 OCR,其实是视觉编码的上下文重建问题。
未来这种能力,可能会被直接用来压缩 LLM 的长对话记忆。
五、数据的秘密:从文档到图表、化学式、几何图
DeepSeek-OCR 的数据工程同样惊人。
它不只是训练“文字识别”,而是构建了一套覆盖视觉语义全谱的数据体系:
📚 OCR 1.0:传统文档识别
-
30M+ 页 PDF,涵盖近 100 种语言; -
同时生成粗标注(快速OCR)与细标注(布局+文字坐标); -
中文与英文各 2M 页的高质量标注,辅以 layout + detection 联合训练。
📊 OCR 2.0:结构化解析任务
-
图表 → HTML 表格(来自 OneChart/Pyecharts 渲染) -
化学式 → SMILES 文本(PubChem + RDKit 生成) -
几何图形 → 结构字典(Slow Perception 方法)
这些任务的背后逻辑是:
让模型不仅识字,还能读懂结构。
这也是未来“视觉文档理解”的关键。
六、一步步跑起来:本地部署 DeepSeek-OCR
现在,来点实战。
如果你想在自己的机器上体验 DeepSeek-OCR 的威力,只需三步。
🧰 Step 1. 环境准备
“
环境要求:Python 3.12.9 + CUDA 11.8 + torch 2.6.0
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install flash-attn==2.7.3 --no-build-isolation
pip install -r requirements.txt
⚡ Step 2. 加载模型并推理(Transformers方式)
from transformers import AutoModel, AutoTokenizer
import torch, os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
model_name = "deepseek-ai/DeepSeek-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name,
_attn_implementation="flash_attention_2",
trust_remote_code=True,
use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = "your_image.jpg"
output_path = "output_dir"
res = model.infer(tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=640,
crop_mode=True,
save_results=True,
test_compress=True)
运行后,你会得到一个 Markdown 格式的文档结构化输出,包括标题、表格、公式、段落布局等。
🚀 Step 3. 高性能推理(vLLM)
如果你追求极限速度,可使用官方提供的 vLLM 支持:
cd DeepSeek-OCR-vllm
python run_dpsk_ocr_pdf.py # 解析 PDF
“
在单张 A100-40G 上,推理速度可达 2500 tokens/s。
七、实验结果:一场压缩率的胜利
DeepSeek 在论文中展示了惊人的对比数据:
与之对比,MinerU2.0 需要 7000+ tokens 才能达到相似效果。
也就是说,DeepSeek-OCR 用不到十分之一的token完成相同任务。
在 OmniDocBench 上,它全面超越 GOT-OCR2.0、InternVL3、Qwen2.5-VL 等顶级模型。
尤其在结构化文档解析上,编辑距离指标提升高达 30%+。
八、从OCR到“视觉记忆”:DeepSeek的未来野心
DeepSeek 团队在论文最后提出了一个让人兴奋的设想:
“
如果我们能把对话历史、文档摘要等长上下文转化为“光学记忆图”,
模型是否能在视觉空间中模拟人类的记忆衰退机制?
他们甚至画出了一个模拟图(Figure 13),展示了不同“时间距离”的视觉模糊程度——
越久远的记忆,图像分辨率越低,信息越模糊。
这或许是未来 LLM 处理无限上下文的答案:
让模型学会“看图回忆”。
九、常见问题解答(FAQ)
Q:DeepSeek-OCR 能离线运行吗?
A:可以。模型与权重均可从 GitHub 或 Hugging Face 下载,本地推理无需联网。
Q:支持哪些语言?
A:官方数据覆盖约 100 种语言,包括中、英、阿拉伯语、泰米尔语、僧伽罗语等。
Q:它能解析哪些类型的图?
A:文档、图表、化学式、几何图、自然图片等均可处理,支持 Markdown 输出。
Q:它和 GPT-4V 这类多模态模型有何区别?
A:GPT-4V 追求通用多模态理解,而 DeepSeek-OCR 更聚焦于视觉压缩效率与结构化文本还原。
十、结语:一张图的未来
DeepSeek-OCR 不仅仅是一个 OCR 模型。
它更像是一次“语言模型进化方向”的实验。
通过视觉通道来压缩文字,通过空间表征来管理记忆——
这不仅提升了效率,也为“AI的思考方式”提供了新的隐喻。
或许未来的大模型,不再是“记忆一切的文书”,
而是一个能看见自己的记忆、管理自己的模糊的智能体。
当我们用一张图承载十倍文字,
我们其实在教机器学会——
“如何忘记,才是记忆真正的开始。”
参考与资源: