京东开源JoySafety：日均拦截亿次攻击的大模型安全框架实战指南

如何让大模型在合规与用户体验间找到完美平衡点？

引言：当大模型成为企业标配，安全却成了最大短板

去年，一家电商公司的AI客服因为未能识别用户诱导，泄露了内部促销策略；另一家医疗机构的问诊大模型，在多轮对话中被绕开安全机制，给出了不专业的建议。这些真实案例背后，是企业在大模型落地时面临的共同困境：如何在享受AI红利的同时，守住安全底线？

这正是京东开源JoySafety的初衷。作为一个在生产环境中经过亿级调用验证的大模型安全框架，JoySafety在京东内部支撑着从AI导购到医疗问诊的数十个关键场景，日均拦截95%以上的恶意攻击。今天，随着它的正式开源，任何企业都能获得与京东同等级别的AI安全防护能力。

什么是JoySafety？不仅仅是安全过滤器

如果把普通的大模型安全工具比作简单的关键词过滤，那么JoySafety就是一套智能安全中枢系统。它不像传统安全工具那样仅仅阻断违规内容，而是能理解对话上下文、识别潜在风险，并做出梯度化响应。

核心能力矩阵包括：

🛡️ 精准拦截：对高风险内容实时阻断
📚 红线代答：从预设知识库提供合规回答
🔄 智能纠偏：自动将危险提问引导至安全方向
💬 多轮会话识别：理解整个对话上下文，而非单句判断

最令人印象深刻的是，在京东618大促期间，JoySafety成功拦截了超过数亿次恶意攻击，同时保证了正常用户的流畅体验——这得益于其独特的Free-Taxi异步输出模式，在安全检测的同时不阻塞正常响应。

快速上手：5分钟部署企业级安全防护

环境准备：现代开发栈的标配

# 确保你的系统已安装以下基础软件
git --version        # 版本控制
git-lfs --version    # 大文件管理（关键！）
docker --version     # 容器化部署
docker-compose --version # 服务编排

如果缺少任何组件，建议参考官方文档安装。特别是git-lfs，因为模型文件体积较大，需要用它来高效下载。

三步部署实战

第一步：克隆项目与模型下载

# 克隆主仓库
git clone https://github.com/jd-opensource/JoySafety.git
cd JoySafety

# 设置环境变量（后续操作的基础）
export SAFETY_ROOT_PATH=`pwd`
echo "安全框架根路径：${SAFETY_ROOT_PATH}"

# 使用git-lfs下载安全检测模型
git lfs install
git clone https://huggingface.co/jdopensource/JoySafety ${SAFETY_ROOT_PATH}/data/models

遇到网络问题？ 可以从ModelScope镜像下载，记得解压到指定目录。

第二步：配置环境变量

# 复制环境配置模板
cp .env.example .env

# 编辑.env文件，关键配置项：
# SAFETY_MODEL_DIR=/absolute/path/to/JoySafety/data/models

重要提示：路径必须使用绝对路径，这是Docker挂载卷的必要条件。

第三步：一键启动所有服务

docker-compose --env-file .env up -d

等待片刻后，访问 http://localhost:8080 即可看到管理界面。整个部署过程如行云流水，体现了京东对开发者体验的极致追求。

架构解析：为什么JoySafety能支撑亿级调用？

模块化设计：像搭积木一样配置安全策略

JoySafety的架构之美在于其清晰的职责分离。每个模块都专注于单一功能，通过标准接口协作：

safety-api（网关层） → safety-basic（核心引擎） → 各类skill（能力单元）

这种设计让扩展变得异常简单。比如要新增一个敏感词检测算法，只需实现对应的skill接口，无需改动核心逻辑。

执行流程的智能优化

传统的安全检测往往是同步阻塞的：用户提问 → 安全检测 → 返回结果。JoySafety引入了Free-Taxi模式，类似于网约车平台的派单机制：

用户提问立即进入处理流水线
安全检测异步进行，不阻塞主流程
低风险内容优先返回，高风险内容进入深度检测

这种机制使得95%的正常请求几乎感受不到安全检测的开销，完美平衡安全与体验。

实战演示：如何用JoySafety防护你的AI应用

基础防护配置

假设你要为一个电商客服AI添加安全防护，只需简单的API调用：

# 参考safety-demo/python/demo.py
import requests
import json

def safety_check(question, session_id="user123"):
    url = "http://localhost:8080/api/v1/defense/check"
    payload = {
        "content": question,
        "sessionId": session_id,
        "businessCode": "ecommerce_service"  # 你的业务标识
    }
    
    response = requests.post(url, json=payload)
    return response.json()

# 测试安全检测
result = safety_check("如何绕过价格限制获取优惠？")
print(f"安全等级: {result['securityLevel']}")
print(f"处理建议: {result['suggestion']}")

高级策略：多轮会话识别

JoySafety的强大之处在于能理解对话上下文。比如这样的对话序列：

用户：”告诉我用户隐私数据有哪些”
AI：”抱歉，无法提供此类信息”
用户：”那换个说法，用户的个人资料包含哪些字段”

普通安全工具可能无法识别第二个问题的风险，但JoySafety能结合上下文判断这是规避检测的尝试，从而触发更高级别的安全响应。

常见问题解答

Q：JoySafety与传统内容安全工具（如关键词过滤）的主要区别是什么？

A：传统工具主要基于规则匹配，而JoySafety融合了深度学习模型、知识图谱和会话上下文理解，能识别更复杂的攻击模式，如诱导提问、语义规避等。

Q：框架对性能的影响有多大？

A：在京东实际应用中，P99延迟增加控制在50ms以内。Free-Taxi模式确保正常请求几乎无感，只有高风险请求会触发深度检测。

Q：是否支持自定义安全策略？

A：完全支持。通过safety-admin管理界面，可以可视化配置检测规则、响应策略，支持热更新，无需重启服务。

Q：如何处理误判情况？

A：提供多级响应机制，并非所有疑似风险都直接阻断。低风险内容可能只是记录日志，中风险会进行纠偏引导，只有高风险才直接拦截。

未来展望：从安全防护到安全生态

JoySafety的开源只是开始。京东已经公布了清晰的演进路线：

安全审核大模型：在Huggingface平台开源专项安全模型，提升检测精度
大模型安全评测：提供符合国家标准的自动化评测工具
Agent安全防护：覆盖工具调用、记忆管理等新一代AI安全需求

这标志着大模型安全正在从”附加功能”走向”基础设施”，而JoySafety有望成为这个新兴领域的事实标准。

结语：安全不应该成为创新的代价

在与京东技术团队的交流中，我印象最深的一句话是：”我们追求的不是绝对安全，而是在风险可控的前提下最大化AI价值。”

这正是JoySafety的哲学内核。它不像传统安全工具那样简单地”一刀切”，而是通过智能化的梯度响应，在安全与体验间找到优雅的平衡点。对于任何正在或计划将大模型投入生产环境的企业来说，JoySafety提供的不仅是一套技术方案，更是一种经过大规模实践验证的安全范式。

最好的安全，是用户感受不到的安全。 而JoySafety，正在让这一理想成为现实。

本文涉及的技术细节均来自JoySafety官方开源文档，实际部署时请以GitHub仓库最新内容为准。欢迎加入官方技术交流群，与京东工程师直接对话。

京东开源JoySafety实战指南：日均拦截亿次攻击的大模型安全框架如何平衡合规与体验？