小智后端服务（xiaozhi-esp32-server）：开源 ESP32 智能硬件的全栈解决方案

华南理工大学刘思源教授团队研发的智能硬件后端系统，支持语音识别、声纹认证与多模态交互

项目概述

小智后端服务（xiaozhi-esp32-server）是基于 人机共生智能理论 开发的智能终端系统，专为开源硬件项目 xiaozhi-esp32 提供后端支持。通过 Python、Java 和 Vue 实现，项目遵循小智通信协议，集成 声纹识别、MCP 接入点 和 多模态交互 等核心功能，为智能硬件开发者提供完整的开源解决方案。

适用人群 👥

硬件开发者：已部署 ESP32 硬件并需独立搭建后端服务的用户
技术研究者：对人机交互、语音识别或 IoT 协议感兴趣的团队
开源贡献者：希望参与智能硬件生态建设的开发者

🎥 功能演示：
查看 15 个功能演示视频，涵盖语音交互、家电控制、粤语支持等场景。

安全警告 ⚠️

第三方服务风险：
- 项目对接的语音识别/合成等 API 服务商均无商业合作
- 建议优先选择持牌服务商并仔细阅读其隐私政策
生产环境限制：
- 项目尚未通过网络安全测评，禁止用于生产环境
- 公网部署需自行加固防护措施

部署方案 🚀

两种部署模式对比

类型	功能模块	适用场景	资源配置要求
最简化安装	智能对话/IOT/声纹识别	低配置环境	2核2G（全API）
全模块安装	OTA/智控台/视觉感知/数据库	完整功能体验	4核8G（含FunASR）

部署指南：

💡 免费测试平台：

智控台: https://2662r3426b.vicp.fun  
Websocket: wss://2662r3426b.vicp.fun/xiaozhi/v1/

核心功能清单 ✨

已实现 ✅

模块	技术特性
语音交互	流式 ASR/TTS、多语言识别、实时 VAD 检测
声纹认证	多用户声纹注册管理，实时身份识别
视觉感知	支持 GLM-4V、Qwen-VL 等视觉大模型
智能对话	集成 10+ LLM 平台（智谱/火山/阿里等）
扩展协议	客户端 IOT 控制、MCP 接入点协议、自定义插件开发

开发中 🚧

多设备协同调度
动态插件热加载系统
详细开发路线图

技术生态支持 📋

多平台兼容性

功能	免费方案	高性能方案
语音识别	FunASR（本地）	火山豆包流式 ASR
大模型	智谱 GLM-4-Flash	火山豆包-1.5-Pro-32K
语音合成	灵犀流式 TTS	火山双流式 TTS
视觉模型	智谱 GLM-4V-Flash	千问 Qwen2.5-VL-3B

🔧 性能测试工具：

python performance_tester.py       # 核心模块响应速度测试  
python performance_tester_vllm.py  # 视觉模型专项测试

产品生态 👬

项目	语言	功能描述
安卓/IOS 客户端	Flutter	跨平台语音对话应用
电脑客户端	Python	无硬件环境模拟体验
Java 服务端	Java	企业级后端替代方案

鸣谢 🙏

机构	贡献领域
十方融海	通信协议标准制定 & 高并发实践
玄凤科技	函数调用框架 & MCP 协议实现
汇远设计	用户体验与视觉方案设计

关键词列表

ESP32 后端服务
开源智能硬件
声纹识别系统
MCP 接入点协议
多模态交互框架
华南理工大学人机智能
LLM 集成方案
IoT 控制协议

TL;DR 总结

小智后端服务（xiaozhi-esp32-server）是由华南理工大学研发的开源智能硬件后端系统，支持语音交互、声纹认证和视觉感知，提供 Docker/源码两种部署方案。项目兼容 10+ AI 平台，含免费与高性能配置选项，适用于智能家居和物联网开发，但暂未通过安全测评，禁止用于生产环境。

参考文献：

ESP32后端服务开源项目全解析：打造智能硬件生态新标杆