小智后端服务(xiaozhi-esp32-server):开源 ESP32 智能硬件的全栈解决方案
华南理工大学刘思源教授团队研发的智能硬件后端系统,支持语音识别、声纹认证与多模态交互
项目概述
小智后端服务(xiaozhi-esp32-server
)是基于 人机共生智能理论 开发的智能终端系统,专为开源硬件项目 xiaozhi-esp32 提供后端支持。通过 Python、Java 和 Vue 实现,项目遵循 小智通信协议,集成 声纹识别、MCP 接入点 和 多模态交互 等核心功能,为智能硬件开发者提供完整的开源解决方案。
适用人群 👥
-
硬件开发者:已部署 ESP32 硬件并需独立搭建后端服务的用户 -
技术研究者:对人机交互、语音识别或 IoT 协议感兴趣的团队 -
开源贡献者:希望参与智能硬件生态建设的开发者
🎥 功能演示:
查看 15 个功能演示视频,涵盖语音交互、家电控制、粤语支持等场景。
安全警告 ⚠️
-
第三方服务风险: -
项目对接的语音识别/合成等 API 服务商均无商业合作 -
建议优先选择持牌服务商并仔细阅读其隐私政策
-
-
生产环境限制: -
项目尚未通过网络安全测评,禁止用于生产环境 -
公网部署需自行加固防护措施
-
部署方案 🚀
两种部署模式对比
类型 | 功能模块 | 适用场景 | 资源配置要求 |
---|---|---|---|
最简化安装 | 智能对话/IOT/声纹识别 | 低配置环境 | 2核2G(全API) |
全模块安装 | OTA/智控台/视觉感知/数据库 | 完整功能体验 | 4核8G(含FunASR) |
部署指南:
💡 免费测试平台:
智控台: https://2662r3426b.vicp.fun Websocket: wss://2662r3426b.vicp.fun/xiaozhi/v1/
核心功能清单 ✨
已实现 ✅
模块 | 技术特性 |
---|---|
语音交互 | 流式 ASR/TTS、多语言识别、实时 VAD 检测 |
声纹认证 | 多用户声纹注册管理,实时身份识别 |
视觉感知 | 支持 GLM-4V、Qwen-VL 等视觉大模型 |
智能对话 | 集成 10+ LLM 平台(智谱/火山/阿里等) |
扩展协议 | 客户端 IOT 控制、MCP 接入点协议、自定义插件开发 |
开发中 🚧
-
多设备协同调度 -
动态插件热加载系统 -
详细开发路线图
技术生态支持 📋
多平台兼容性
功能 | 免费方案 | 高性能方案 |
---|---|---|
语音识别 | FunASR(本地) | 火山豆包流式 ASR |
大模型 | 智谱 GLM-4-Flash | 火山豆包-1.5-Pro-32K |
语音合成 | 灵犀流式 TTS | 火山双流式 TTS |
视觉模型 | 智谱 GLM-4V-Flash | 千问 Qwen2.5-VL-3B |
🔧 性能测试工具:
python performance_tester.py # 核心模块响应速度测试 python performance_tester_vllm.py # 视觉模型专项测试
产品生态 👬
项目 | 语言 | 功能描述 |
---|---|---|
安卓/IOS 客户端 | Flutter | 跨平台语音对话应用 |
电脑客户端 | Python | 无硬件环境模拟体验 |
Java 服务端 | Java | 企业级后端替代方案 |
鸣谢 🙏
机构 | 贡献领域 |
---|---|
十方融海 | 通信协议标准制定 & 高并发实践 |
玄凤科技 | 函数调用框架 & MCP 协议实现 |
汇远设计 | 用户体验与视觉方案设计 |
关键词列表
-
ESP32 后端服务 -
开源智能硬件 -
声纹识别系统 -
MCP 接入点协议 -
多模态交互框架 -
华南理工大学人机智能 -
LLM 集成方案 -
IoT 控制协议
TL;DR 总结
小智后端服务(xiaozhi-esp32-server)是由华南理工大学研发的开源智能硬件后端系统,支持语音交互、声纹认证和视觉感知,提供 Docker/源码两种部署方案。项目兼容 10+ AI 平台,含免费与高性能配置选项,适用于智能家居和物联网开发,但暂未通过安全测评,禁止用于生产环境。
参考文献: