3步部署DeepSeek-OCR实现PDF秒转Markdown，用强化学习构建盈利交易代理（实战全解）

本文欲回答的核心问题

如何部署DeepSeek-OCR实现PDF到Markdown的高效转换？如何利用Stable-Baselines3构建自定义交易环境并训练强化学习代理？本文将详细讲解这两项技术的实践步骤、应用场景及常见问题解决方法。

第一部分：DeepSeek-OCR——PDF到Markdown的转换利器

1.1 什么是DeepSeek-OCR，为何选择它？

核心问题：DeepSeek-OCR能解决什么问题，相比其他OCR工具它有哪些优势？

DeepSeek-OCR是一款强大的OCR解决方案，专注于将PDF文档精准转换为Markdown格式，同时支持图像OCR识别。它基于深度学习模型构建，结合FastAPI后端提供高效的批量处理和REST API服务，适用于需要结构化处理文档的场景——无论是学术研究中的论文整理、企业中的合同数字化，还是个人的资料归档，都能通过它实现文档内容的快速提取与格式化。

与传统OCR工具相比，它的核心优势在于：

支持结构化输出为Markdown，保留文档原有的标题、列表、表格等格式
提供灵活的部署方式，可通过Docker快速搭建生产级服务
包含多种处理脚本，满足不同场景下的定制化需求（如纯文本提取、带图像的富文本转换）
支持GPU加速，处理大量文档时效率显著提升

OCR文档转换示意图
图片来源：Unsplash

1.2 快速开始：两种使用方式任选

核心问题：零基础用户如何快速上手DeepSeek-OCR？有哪些即学即用的方法？

DeepSeek-OCR提供两种便捷的入门方式，无论你是习惯脚本处理的开发者，还是需要API集成的应用开发者，都能找到适合自己的路径。

方式一：批量处理脚本

如果你有一批PDF文件需要一次性转换，批量处理脚本是最佳选择：

将所有待处理的PDF文件放入项目的data/目录下
确保DeepSeek-OCR API服务已启动（具体启动方法见1.3节）
运行基础转换脚本：

python pdf_to_markdown_processor.py

转换完成后，在data/目录下会生成以-MD.md为后缀的Markdown文件

方式二：REST API服务

如果需要将OCR功能集成到自己的应用中，API服务更适合：

按照1.3节的步骤构建并启动Docker容器
通过HTTP请求调用API接口（示例见1.5节）
直接获取JSON格式的转换结果，轻松集成到业务流程中

反思：在实际使用中，我发现两种方式各有侧重。批量脚本适合本地一次性处理，而API服务更适合需要长期提供OCR能力的场景。建议根据文件数量和使用频率选择——处理10个以内的文件用脚本更直接，处理频繁或需要跨系统调用时用API更高效。

1.3 环境准备：硬件与软件要求

核心问题：运行DeepSeek-OCR需要什么样的硬件和软件支持？如何确认自己的环境是否达标？

DeepSeek-OCR基于深度学习模型，对硬件有一定要求，提前确认环境达标能避免后续部署中的各种问题。

硬件要求

GPU：需支持CUDA 11.8+的NVIDIA显卡（如RTX 3090、A100等）
GPU内存：最低12GB VRAM（模型本身约占用9GB）
系统内存：至少32GB（推荐64GB以上，处理大型PDF时更流畅）
存储空间：50GB以上空闲空间（用于存放模型和容器）

软件要求

Python：3.8及以上版本（本地脚本运行需安装）
Docker：20.10及以上版本，且已配置GPU支持
Docker Compose：2.0及以上版本
NVIDIA Container Toolkit：确保Docker能调用GPU
CUDA驱动：需与CUDA 11.8兼容的版本

检查环境的实用命令：

# 检查GPU是否支持CUDA
nvidia-smi

# 检查Docker版本
docker --version

# 检查Docker是否能使用GPU
docker run --rm --gpus all nvidia/cuda:11.8-base-ubuntu20.04 nvidia-smi

如果运行nvidia-smi能看到GPU信息，且Docker命令能正常输出GPU信息，说明基础环境已满足。

1.4 Docker部署：从模型下载到服务启动

核心问题：如何通过Docker快速部署DeepSeek-OCR服务？完整的步骤是什么？

Docker部署是推荐的方式，它能简化环境配置，确保服务在不同系统上的一致性。以下是详细步骤：

步骤1：下载模型权重

模型是OCR功能的核心，需要先下载到本地：

# 创建存放模型的目录
mkdir -p models

# 方法一：使用Hugging Face CLI下载（推荐）
pip install huggingface_hub
huggingface-cli download deepseek-ai/DeepSeek-OCR --local-dir models/deepseek-ai/DeepSeek-OCR

# 方法二：使用git克隆
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR models/deepseek-ai/DeepSeek-OCR

步骤2：构建并启动容器

根据操作系统选择对应的命令：

Windows用户：

REM 构建Docker镜像
build.bat

REM 启动服务
docker-compose up -d

REM 查看日志，确认服务启动成功
docker-compose logs -f deepseek-ocr

Linux/macOS用户：

# 构建Docker镜像
docker-compose build

# 启动服务
docker-compose up -d

# 查看日志
docker-compose logs -f deepseek-ocr

步骤3：验证服务是否正常运行

服务启动后，通过健康检查接口确认：

curl http://localhost:8000/health

正常响应如下，说明服务已准备就绪：

{
  "status": "healthy",
  "model_loaded": true,
  "model_path": "/app/models/deepseek-ai/DeepSeek-OCR",
  "cuda_available": true,
  "cuda_device_count": 1
}

反思：模型下载过程可能耗时较长（视网络情况），建议在网络稳定时进行。如果下载中断，可以重复执行命令续传。另外，首次启动容器时，会进行模型加载，可能需要几分钟，日志中出现”Server started”字样才表示服务真正可用。

1.5 多样化PDF处理脚本：选择最适合你的工具

核心问题：DeepSeek-OCR提供了哪些PDF处理脚本？它们各自适合什么场景？如何使用？

项目提供了5种不同的处理脚本，每种脚本针对特定需求优化，下表清晰展示它们的差异：

处理器脚本	使用的提示词	后处理功能	图像提取	输出文件后缀	适用场景
pdf_to_markdown_processor.py	标准Markdown转换提示	❌	❌	`-MD.md`	快速将PDF转为结构化Markdown
pdf_to_markdown_processor_enhanced.py	标准Markdown转换提示	✅	✅	`-MD.md`	需要保留图像和精细格式的转换
pdf_to_ocr_enhanced.py	纯OCR提取提示	✅	✅	`-OCR.md`	只需要提取文本内容，不关注格式
pdf_to_custom_prompt.py	自定义提示（来自YAML）	❌	❌	`-CUSTOM.md`	测试自定义提示词效果
pdf_to_custom_prompt_enhanced.py	自定义提示（来自YAML）	✅	✅	`-CUSTOM.md`	需要自定义处理逻辑并保留图像

详细使用指南

1. 基础Markdown转换（pdf_to_markdown_processor.py）
适合快速将PDF转为带格式的Markdown，不包含图像提取：

# 将PDF放入data目录
cp your_document.pdf data/

# 运行转换
python pdf_to_markdown_processor.py

# 查看结果
ls data/*-MD.md

2. 增强版Markdown转换（pdf_to_markdown_processor_enhanced.py）
适合需要保留图像和精细格式的场景（如含图表的报告）：

# 转换文件
python pdf_to_markdown_processor_enhanced.py

# 查看结果（包括提取的图像）
ls data/*-MD.md
ls data/images/  # 提取的图像存放在这里

3. 纯文本OCR提取（pdf_to_ocr_enhanced.py）
适合只需要文本内容，不需要格式的场景（如内容检索）：

python pdf_to_ocr_enhanced.py
cat data/your_document-OCR.md  # 查看纯文本结果

4. 自定义提示处理
适合特殊需求，如只提取表格、转换为CSV等。先配置提示词：

# 编辑custom_prompt.yaml
prompt: '<image>\n<|grounding|>只提取文档中的表格，并转换为CSV格式。'

然后运行对应的脚本：

# 基础版（无后处理）
python pdf_to_custom_prompt.py

# 增强版（含图像提取和格式化）
python pdf_to_custom_prompt_enhanced.py

应用场景示例：学术研究者处理大量论文时，可用pdf_to_markdown_processor_enhanced.py保留公式和图表位置；企业档案管理员批量数字化合同，可用pdf_to_ocr_enhanced.py提取关键条款文本；数据分析师需要从报告中提取表格，可通过自定义提示词的脚本直接得到CSV格式数据。

1.6 API接口详解：从单文件到批量处理

核心问题：DeepSeek-OCR提供哪些API接口？如何通过代码调用这些接口实现文档转换？

API服务提供了灵活的接口，支持图像、PDF和批量文件处理，方便集成到各类应用中。

主要接口说明

1. 健康检查接口
用于确认服务状态，无需参数：

GET http://localhost:8000/health

2. 单图像处理接口
处理PNG、JPG等图像文件：

curl -X POST "http://localhost:8000/ocr/image" \
  -H "accept: application/json" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@your_image.jpg"

3. PDF处理接口
处理PDF文件并返回每页的转换结果：

curl -X POST "http://localhost:8000/ocr/pdf" \
  -H "accept: application/json" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@your_document.pdf"

4. 批量处理接口
同时处理多个文件（支持混合图像和PDF）：

curl -X POST "http://localhost:8000/ocr/batch" \
  -H "accept: application/json" \
  -H "Content-Type: multipart/form-data" \
  -F "files=@image1.jpg" \
  -F "files=@document.pdf" \
  -F "files=@image2.png"

客户端代码示例

Python客户端：

import requests

class DeepSeekOCRClient:
    def __init__(self, base_url="http://localhost:8000"):
        self.base_url = base_url
    
    def process_pdf(self, pdf_path):
        with open(pdf_path, 'rb') as f:
            response = requests.post(
                f"{self.base_url}/ocr/pdf",
                files={"file": f}
            )
        return response.json()

# 使用示例
client = DeepSeekOCRClient()
result = client.process_pdf("document.pdf")

if result["success"]:
    for page_result in result["results"]:
        print(f"第{page_result['page_count']}页：")
        print(page_result["result"])
        print("---")

JavaScript客户端（浏览器环境）：

class DeepSeekOCR {
    constructor(baseUrl = 'http://localhost:8000') {
        this.baseUrl = baseUrl;
    }
    
    async processPDF(file) {
        const formData = new FormData();
        formData.append('file', file);
        
        const response = await fetch(`${this.baseUrl}/ocr/pdf`, {
            method: 'POST',
            body: formData
        });
        
        return await response.json();
    }
}

// 页面中使用
const ocr = new DeepSeekOCR();
document.getElementById('fileInput').addEventListener('change', async (e) => {
    const file = e.target.files[0];
    const result = await ocr.processPDF(file);
    
    if (result.success) {
        result.results.forEach(page => {
            console.log(`第${page.page_count}页：`, page.result);
        });
    }
});

响应格式说明

单图像响应：

{
  "success": true,
  "result": "# 图像中的标题\n\n这是图像中的文本内容...",
  "page_count": 1
}

PDF响应：

{
  "success": true,
  "results": [
    {
      "success": true,
      "result": "# 第1页内容\n...",
      "page_count": 1
    },
    {
      "success": true,
      "result": "# 第2页内容\n...",
      "page_count": 2
    }
  ],
  "total_pages": 2,
  "filename": "document.pdf"
}

1.7 配置与优化：让服务更贴合需求

核心问题：如何调整DeepSeek-OCR的配置参数？如何根据硬件条件优化性能？

通过修改配置参数，可以平衡服务的性能和资源占用，满足不同场景的需求。

主要环境变量

在docker-compose.yml中修改以下环境变量：

environment:
  - CUDA_VISIBLE_DEVICES=0  # 指定使用的GPU设备（多GPU时可设为"0,1"）
  - MODEL_PATH=/app/models/deepseek-ai/DeepSeek-OCR  # 模型存放路径
  - MAX_CONCURRENCY=50  # 最大并发请求数
  - GPU_MEMORY_UTILIZATION=0.85  # GPU内存使用率（0.1-1.0）

性能优化策略

1. 高吞吐量场景（如批量处理大量文档）
适合GPU性能较强（如A100）的情况：

environment:
  - MAX_CONCURRENCY=100  # 提高并发数
  - GPU_MEMORY_UTILIZATION=0.95  # 更高的GPU内存使用率

2. 内存受限场景（如GPU内存12GB左右）
降低资源占用，避免内存溢出：

environment:
  - MAX_CONCURRENCY=10  # 减少并发数
  - GPU_MEMORY_UTILIZATION=0.7  # 降低GPU内存使用率

3. 多GPU部署
在有多张GPU的服务器上，可拆分服务实例：

services:
  deepseek-ocr-1:
    extends:
      file: docker-compose.yml
      service: deepseek-ocr
    environment:
      - CUDA_VISIBLE_DEVICES=0
    ports:
      - "8000:8000"
  
  deepseek-ocr-2:
    extends:
      file: docker-compose.yml
      service: deepseek-ocr
    environment:
      - CUDA_VISIBLE_DEVICES=1
    ports:
      - "8001:8000"

反思：配置参数的调整需要结合实际硬件和业务负载。我曾在处理一批500页的PDF时，将MAX_CONCURRENCY设为50导致GPU内存溢出，后来降低到20并将GPU_MEMORY_UTILIZATION调至0.7，既保证了速度又避免了崩溃。建议先从小规模测试开始，逐步调整到最佳配置。

1.8 常见问题与解决方法

核心问题：使用DeepSeek-OCR时可能遇到哪些问题？如何快速排查和解决？

1. 内存溢出错误

症状：服务突然崩溃，日志中出现”Out of memory”相关信息。
解决方法：

# 编辑docker-compose.yml，降低资源占用
environment:
  - MAX_CONCURRENCY=10
  - GPU_MEMORY_UTILIZATION=0.7

然后重启服务：docker-compose restart deepseek-ocr

2. 模型加载失败

症状：健康检查显示model_loaded: false。
解决方法：

# 检查模型目录结构
ls -la models/deepseek-ai/DeepSeek-OCR/

# 确认容器内模型路径正确
docker-compose exec deepseek-ocr ls -la /app/models/deepseek-ai/DeepSeek-OCR/

确保模型文件完整，必要时重新下载模型。

3. CUDA相关错误

症状：日志中出现”CUDA out of memory”或”CUDA device not found”。
解决方法：

# 检查GPU是否可用
nvidia-smi

# 确认Docker能访问GPU
docker run --rm --gpus all nvidia/cuda:11.8-base-ubuntu20.04 nvidia-smi

如果命令失败，需重新安装NVIDIA Container Toolkit。

4. API连接失败

症状：调用API时返回”连接拒绝”或超时。
解决方法：

# 检查服务是否运行
docker-compose ps

# 查看服务日志找错误原因
docker-compose logs deepseek-ocr

# 重启服务
docker-compose restart deepseek-ocr

5. 提示词参数错误（已修复）

症状：服务启动失败，日志中出现TypeError: tokenize_with_images() missing 1 required positional argument: 'prompt'。
解决方法：
项目已通过自定义脚本修复此问题，只需确保使用最新的Docker构建：

docker-compose down
docker-compose build --no-cache
docker-compose up -d

第二部分：用Stable-Baselines3构建强化学习交易代理

2.1 强化学习在交易中的应用：为何需要自定义环境？

核心问题：强化学习如何应用于交易场景？为什么需要构建自定义交易环境？

强化学习（RL）通过智能体与环境的交互学习最优策略，非常适合交易决策这类需要连续决策且结果依赖历史行为的场景。在交易中，智能体需要根据市场状态决定买入、卖出或持有，目标是最大化收益——这与RL中”最大化累积奖励”的目标高度契合。

然而，通用的RL环境无法模拟真实的交易场景（如资金管理、价格波动、手续费等），因此需要构建自定义环境。自定义环境能准确模拟交易中的关键要素，让智能体学到更贴近实际的策略。例如，我们可以在环境中加入交易成本、资金限制、价格波动规律等，使训练出的策略更具实用价值。

强化学习交易决策示意图
图片来源：Unsplash

2.2 构建自定义交易环境：核心组件与实现

核心问题：一个完整的交易环境需要包含哪些部分？如何用代码实现？

一个自定义交易环境需定义状态空间、动作空间、奖励机制和状态转换规则。以下是基于Gymnasium的实现：

环境核心代码

import numpy as np
import gymnasium as gym
from gymnasium import spaces

class TradingEnv(gym.Env):
    def __init__(self, max_steps=200):
        super().__init__()
        # 动作空间：0=持有，1=买入，2=卖出
        self.action_space = spaces.Discrete(3)
        # 观测空间：5个特征（资金、持股数、当前价格、价格趋势、当前步数）
        self.observation_space = spaces.Box(low=-np.inf, high=np.inf, shape=(5,), dtype=np.float32)
        self.max_steps = max_steps
        self.reset()  # 初始化环境
    
    def reset(self, seed=None, options=None):
        """重置环境到初始状态"""
        super().reset(seed=seed)
        self.current_step = 0
        self.balance = 1000.0  # 初始资金
        self.shares = 0  # 初始持股数
        self.price = 100.0  # 初始价格
        self.price_history = [self.price]  # 价格历史
        return self._get_obs(), {}
    
    def _get_obs(self):
        """生成当前观测状态"""
        # 计算价格趋势（最近5步的平均价格）
        price_trend = np.mean(self.price_history[-5:]) if len(self.price_history) >=5 else self.price
        return np.array([
            self.balance / 1000.0,  # 资金（归一化）
            self.shares / 10.0,     # 持股数（归一化）
            self.price / 100.0,     # 当前价格（归一化）
            price_trend / 100.0,    # 价格趋势（归一化）
            self.current_step / self.max_steps  # 进度比例
        ], dtype=np.float32)
    
    def step(self, action):
        """执行动作并返回新状态、奖励、是否结束等信息"""
        self.current_step += 1
        
        # 模拟价格波动（含趋势和随机噪声）
        trend = 0.001 * np.sin(self.current_step / 20)  # 周期性趋势
        self.price *= (1 + trend + np.random.normal(0, 0.02))  # 加入随机波动
        self.price = np.clip(self.price, 50, 200)  # 限制价格范围
        self.price_history.append(self.price)
        
        reward = 0  # 初始奖励
        
        # 执行买入动作（资金足够时）
        if action == 1 and self.balance >= self.price:
            shares_to_buy = int(self.balance / self.price)
            cost = shares_to_buy * self.price
            self.balance -= cost
            self.shares += shares_to_buy
            reward = -0.01  # 买入有微小惩罚（模拟手续费）
        
        # 执行卖出动作（持有股票时）
        elif action == 2 and self.shares > 0:
            revenue = self.shares * self.price
            self.balance += revenue
            self.shares = 0
            reward = 0.01  # 卖出有微小奖励
        
        # 计算总资产（资金+持股价值）并更新奖励
        portfolio_value = self.balance + self.shares * self.price
        reward += (portfolio_value - 1000) / 1000  # 奖励与资产增长挂钩
        
        # 判断是否结束（达到最大步数）
        terminated = self.current_step >= self.max_steps
        truncated = False
        
        return self._get_obs(), reward, terminated, truncated, {"portfolio": portfolio_value}
    
    def render(self):
        """打印当前状态（调试用）"""
        print(f"步骤: {self.current_step}, 资金: ${self.balance:.2f}, 持股数: {self.shares}, 价格: ${self.price:.2f}")

环境核心组件解析

动作空间：离散空间（3个动作），对应持有、买入、卖出
观测空间：连续空间（5个特征），包含当前资金、持股数、价格等关键信息
状态重置：reset()方法初始化环境，确保每次训练/测试的起点一致
状态转换：step()方法定义价格波动规则和动作对状态的影响
奖励机制：奖励与总资产增长挂钩，并加入买卖的微小奖惩（模拟交易成本）

应用场景：这个环境可用于测试不同交易策略的效果。例如，通过对比不同RL算法在该环境中的表现，找到更适合震荡市或趋势市的策略。

2.3 训练与评估：比较PPO和A2C算法

核心问题：如何用Stable-Baselines3训练交易代理？PPO和A2C两种算法哪种更适合交易场景？

Stable-Baselines3提供了多种现成的RL算法，我们可以直接使用并比较它们的性能。以下是训练和评估PPO（Proximal Policy Optimization）和A2C（Advantage Actor-Critic）的步骤：

步骤1：准备环境和回调函数

回调函数用于监控训练进度：

from stable_baselines3.common.callbacks import BaseCallback
import numpy as np

class ProgressCallback(BaseCallback):
    def __init__(self, check_freq=1000, verbose=1):
        super().__init__(verbose)
        self.check_freq = check_freq
        self.rewards = []  # 记录每个检查点的平均奖励
    
    def _on_step(self):
        # 每隔check_freq步记录一次平均奖励
        if self.n_calls % self.check_freq == 0:
            mean_reward = np.mean([ep_info["r"] for ep_info in self.model.ep_info_buffer])
            self.rewards.append(mean_reward)
            if self.verbose:
                print(f"步数: {self.n_calls}, 平均奖励: {mean_reward:.2f}")
        return True

初始化并验证环境：

from stable_baselines3.common.env_checker import check_env
from stable_baselines3.common.monitor import Monitor
from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize

# 创建环境并验证
env = TradingEnv()
check_env(env, warn=True)  # 检查环境是否符合规范
print("✓ 环境验证通过！")

# 包装环境（监控和归一化）
env = Monitor(env)  # 记录训练数据
vec_env = DummyVecEnv([lambda: env])  # 向量化环境（支持并行）
vec_env = VecNormalize(vec_env, norm_obs=True, norm_reward=True)  # 归一化观测和奖励

步骤2：训练两种算法

from stable_baselines3 import PPO, A2C

# 定义要训练的算法
algorithms = {
    "PPO": PPO("MlpPolicy", vec_env, verbose=0, learning_rate=3e-4, n_steps=2048),
    "A2C": A2C("MlpPolicy", vec_env, verbose=0, learning_rate=7e-4),
}

results = {}  # 存储训练结果

# 训练每个算法
for name, model in algorithms.items():
    print(f"\n训练{name}...")
    callback = ProgressCallback(check_freq=2000, verbose=0)  # 每2000步记录一次
    model.learn(total_timesteps=50000, callback=callback, progress_bar=True)  # 总训练步数50000
    results[name] = {"model": model, "rewards": callback.rewards}
    print(f"✓ {name}训练完成！")

步骤3：评估算法性能

from stable_baselines3.common.evaluation import evaluate_policy

# 创建评估环境
eval_env = Monitor(TradingEnv())

# 评估每个模型
for name, data in results.items():
    mean_reward, std_reward = evaluate_policy(
        data["model"], eval_env, n_eval_episodes=20, deterministic=True
    )
    results[name]["eval_mean"] = mean_reward
    results[name]["eval_std"] = std_reward
    print(f"{name}: 平均奖励 = {mean_reward:.2f} +/- {std_reward:.2f}")

结果分析

通过评估，我们可以比较两种算法的表现：

PPO通常更稳定，适合需要精细调整的场景
A2C训练速度更快，适合快速迭代测试

反思：在实际训练中，我发现PPO的收敛速度较慢但最终性能更优，而A2C虽然训练快但结果波动较大。这可能是因为交易决策需要考虑长期收益，PPO的”近端策略优化”机制更能平衡探索和利用，适合这类场景。

2.4 结果可视化：从学习曲线到策略分析

核心问题：如何通过可视化理解强化学习代理的学习过程和决策策略？有哪些关键的可视化指标？

可视化是分析RL代理性能的重要手段，能帮助我们理解代理的学习过程和决策逻辑。

关键可视化代码

import matplotlib.pyplot as plt

# 创建2x2的图表
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. 训练进度曲线（学习曲线）
ax = axes[0, 0]
for name, data in results.items():
    ax.plot(data["rewards"], label=name, linewidth=2)
ax.set_xlabel("训练检查点（x1000步）")
ax.set_ylabel("平均回合奖励")
ax.set_title("训练进度对比")
ax.legend()
ax.grid(True, alpha=0.3)

# 2. 评估性能柱状图
ax = axes[0, 1]
names = list(results.keys())
means = [results[n]["eval_mean"] for n in names]
stds = [results[n]["eval_std"] for n in names]
ax.bar(names, means, yerr=stds, capsize=10, alpha=0.7, color=['#1f77b4', '#ff7f0e'])
ax.set_ylabel("平均奖励")
ax.set_title("评估性能（20个回合）")
ax.grid(True, alpha=0.3, axis='y')

# 3. 最佳模型的资产变化曲线
ax = axes[1, 0]
# 找到最佳模型
best_model = max(results.items(), key=lambda x: x[1]["eval_mean"])[1]["model"]
obs = eval_env.reset()[0]
portfolio_values = [1000]  # 初始资产
for _ in range(200):
    action, _ = best_model.predict(obs, deterministic=True)
    obs, reward, done, truncated, info = eval_env.step(action)
    portfolio_values.append(info.get("portfolio", portfolio_values[-1]))
    if done:
        break
ax.plot(portfolio_values, linewidth=2, color='green')
ax.axhline(y=1000, color='red', linestyle='--', label='初始资产')
ax.set_xlabel("步骤")
ax.set_ylabel("资产价值（$）")
ax.set_title(f"最佳模型（{max(results.items(), key=lambda x: x[1]['eval_mean'])[0]}）的资产变化")
ax.legend()
ax.grid(True, alpha=0.3)

# 4. 最佳模型的动作分布
ax = axes[1, 1]
obs = eval_env.reset()[0]
actions = []
for _ in range(200):
    action, _ = best_model.predict(obs, deterministic=True)
    actions.append(action)
    obs, _, done, truncated, _ = eval_env.step(action)
    if done:
        break
action_names = ['持有', '买入', '卖出']
action_counts = [actions.count(i) for i in range(3)]
ax.pie(action_counts, labels=action_names, autopct='%1.1f%%', startangle=90, colors=['#ff9999', '#66b3ff', '#99ff99'])
ax.set_title("最佳模型的动作分布")

plt.tight_layout()
plt.savefig('trading_results.png', dpi=150, bbox_inches='tight')
plt.show()

可视化指标解读

学习曲线：展示训练过程中平均奖励的变化，反映模型是否在持续学习（曲线上升说明在进步）
评估性能：通过柱状图对比不同算法的平均奖励和波动，直观显示哪种算法更优
资产变化曲线：展示最佳模型在一个完整回合中的资产变化，判断策略是否能稳定盈利
动作分布：通过饼图了解模型的决策倾向（如是否频繁交易或倾向于长期持有）

应用价值：这些可视化结果能帮助我们改进策略。例如，如果模型的”买入”动作占比过高，可能说明它过度交易，增加了成本；如果资产曲线波动过大，可能需要调整奖励机制，鼓励更稳定的收益。

2.5 模型保存与加载：部署与复用训练成果

核心问题：如何保存训练好的强化学习模型？如何在后续使用中加载并复用这些模型？

保存训练好的模型能避免重复训练，方便后续测试和部署。以下是保存和加载的方法：

# 找到最佳模型
best_name = max(results.items(), key=lambda x: x[1]["eval_mean"])[0]
best_model = results[best_name]["model"]

# 保存模型和环境归一化参数
best_model.save(f"best_trading_model_{best_name}")
vec_env.save("vec_normalize.pkl")

# 加载模型（后续使用时）
from stable_baselines3 import PPO  # 根据最佳模型类型选择对应的类

loaded_model = PPO.load(f"best_trading_model_{best_name}")
print(f"✓ 最佳模型（{best_name}）已保存并成功加载！")

使用场景：保存的模型可用于：

后续在新的市场数据上测试
与其他新算法的模型对比
集成到交易模拟系统中，观察长期表现

实用摘要与操作清单

DeepSeek-OCR实用操作清单

环境准备
- 确认GPU满足12GB+ VRAM，安装CUDA 11.8兼容驱动
- 安装Docker、Docker Compose和NVIDIA Container Toolkit
部署步骤
- 克隆模型：git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR models/deepseek-ai/DeepSeek-OCR
- 构建容器：docker-compose build
- 启动服务：docker-compose up -d
- 验证健康：curl http://localhost:8000/health
文件处理
- 快速转换：python pdf_to_markdown_processor.py（适合简单需求）
- 带图像转换：python pdf_to_markdown_processor_enhanced.py（适合复杂文档）
- 自定义处理：编辑custom_prompt.yaml，运行python pdf_to_custom_prompt_enhanced.py
性能优化
- 高负载：MAX_CONCURRENCY=100 + GPU_MEMORY_UTILIZATION=0.95
- 低内存：MAX_CONCURRENCY=10 + GPU_MEMORY_UTILIZATION=0.7

强化学习交易代理操作清单

环境构建
- 实现TradingEnv类，定义动作空间、观测空间和奖励机制
- 用check_env()验证环境合法性
训练流程
- 定义ProgressCallback监控训练进度
- 初始化PPO和A2C模型，设置学习率等参数
- 训练模型：model.learn(total_timesteps=50000, callback=callback)
评估与可视化
- 用evaluate_policy()评估模型性能
- 绘制学习曲线、资产变化和动作分布，分析模型表现
模型管理
- 保存最佳模型：best_model.save("best_trading_model")
- 加载模型：loaded_model = PPO.load("best_trading_model")

一页速览（One-page Summary）

DeepSeek-OCR：基于深度学习的PDF转Markdown工具，支持Docker部署和API调用，提供多种处理脚本满足不同需求，适合文档数字化和内容提取场景。
核心优势：结构化输出、GPU加速、灵活部署、自定义提示词支持。
强化学习交易代理：使用Stable-Baselines3构建，通过自定义交易环境训练PPO和A2C算法，用于探索最优交易策略。
核心价值：模拟真实交易场景，比较不同算法的决策效果，为实际交易策略提供参考。
关键步骤：环境准备→部署/构建→训练/处理→评估→优化→保存复用。

常见问题（FAQ）

DeepSeek-OCR支持哪些文件格式？
支持PDF、JPG、PNG等常见图像格式，其中PDF处理支持多页文档，输出每页的转换结果。
没有GPU能运行DeepSeek-OCR吗？
不推荐。模型需要大量计算资源，没有GPU会导致处理速度极慢，甚至无法加载模型。最低要求12GB VRAM的NVIDIA GPU。
如何选择合适的PDF处理脚本？
简单转换用pdf_to_markdown_processor.py；需要图像和精细格式用增强版；只需要文本用pdf_to_ocr_enhanced.py；特殊需求用自定义提示词脚本。
训练交易代理时，奖励机制如何影响策略？
奖励机制直接决定模型的学习方向。例如，若奖励与短期收益挂钩，模型可能倾向于频繁交易；与长期收益挂钩则可能更注重趋势判断。
PPO和A2C哪种算法更适合交易场景？
通常PPO表现更稳定，适合需要长期策略的交易场景；A2C训练更快，适合快速测试不同环境设置。
DeepSeek-OCR处理大型PDF时出现超时怎么办？
可拆分PDF为 smaller 文件，或调整MAX_CONCURRENCY降低并发数，增加服务超时时间。
如何确认交易环境的设计是否合理？
可先让随机策略在环境中运行，观察资产变化是否符合预期；再对比不同算法的表现，若差异明显则说明环境设计有效。
能否将训练好的交易代理用于实际交易？
不建议直接用于实际交易。模拟环境与真实市场存在差异，需经过充分的实盘测试和风险评估后，才能谨慎应用。