小智后端服务(xiaozhi-esp32-server):开源 ESP32 智能硬件的全栈解决方案

华南理工大学刘思源教授团队研发的智能硬件后端系统,支持语音识别、声纹认证与多模态交互


项目概述

小智后端服务(xiaozhi-esp32-server)是基于 人机共生智能理论 开发的智能终端系统,专为开源硬件项目 xiaozhi-esp32 提供后端支持。通过 Python、Java 和 Vue 实现,项目遵循 小智通信协议,集成 声纹识别MCP 接入点多模态交互 等核心功能,为智能硬件开发者提供完整的开源解决方案。


适用人群 👥

  • 硬件开发者:已部署 ESP32 硬件并需独立搭建后端服务的用户
  • 技术研究者:对人机交互、语音识别或 IoT 协议感兴趣的团队
  • 开源贡献者:希望参与智能硬件生态建设的开发者

🎥 功能演示
查看 15 个功能演示视频,涵盖语音交互、家电控制、粤语支持等场景。


安全警告 ⚠️

  1. 第三方服务风险

    • 项目对接的语音识别/合成等 API 服务商均无商业合作
    • 建议优先选择持牌服务商并仔细阅读其隐私政策
  2. 生产环境限制

    • 项目尚未通过网络安全测评,禁止用于生产环境
    • 公网部署需自行加固防护措施

部署方案 🚀

两种部署模式对比

类型 功能模块 适用场景 资源配置要求
最简化安装 智能对话/IOT/声纹识别 低配置环境 2核2G(全API)
全模块安装 OTA/智控台/视觉感知/数据库 完整功能体验 4核8G(含FunASR)

部署指南

💡 免费测试平台

智控台: https://2662r3426b.vicp.fun  
Websocket: wss://2662r3426b.vicp.fun/xiaozhi/v1/  

核心功能清单 ✨

已实现 ✅

模块 技术特性
语音交互 流式 ASR/TTS、多语言识别、实时 VAD 检测
声纹认证 多用户声纹注册管理,实时身份识别
视觉感知 支持 GLM-4V、Qwen-VL 等视觉大模型
智能对话 集成 10+ LLM 平台(智谱/火山/阿里等)
扩展协议 客户端 IOT 控制、MCP 接入点协议、自定义插件开发

开发中 🚧


技术生态支持 📋

多平台兼容性

功能 免费方案 高性能方案
语音识别 FunASR(本地) 火山豆包流式 ASR
大模型 智谱 GLM-4-Flash 火山豆包-1.5-Pro-32K
语音合成 灵犀流式 TTS 火山双流式 TTS
视觉模型 智谱 GLM-4V-Flash 千问 Qwen2.5-VL-3B

🔧 性能测试工具

python performance_tester.py       # 核心模块响应速度测试  
python performance_tester_vllm.py  # 视觉模型专项测试  

产品生态 👬

项目 语言 功能描述
安卓/IOS 客户端 Flutter 跨平台语音对话应用
电脑客户端 Python 无硬件环境模拟体验
Java 服务端 Java 企业级后端替代方案

鸣谢 🙏

机构 贡献领域
十方融海 通信协议标准制定 & 高并发实践
玄凤科技 函数调用框架 & MCP 协议实现
汇远设计 用户体验与视觉方案设计
Star 历史

关键词列表

  • ESP32 后端服务
  • 开源智能硬件
  • 声纹识别系统
  • MCP 接入点协议
  • 多模态交互框架
  • 华南理工大学人机智能
  • LLM 集成方案
  • IoT 控制协议

TL;DR 总结

小智后端服务(xiaozhi-esp32-server)是由华南理工大学研发的开源智能硬件后端系统,支持语音交互、声纹认证和视觉感知,提供 Docker/源码两种部署方案。项目兼容 10+ AI 平台,含免费与高性能配置选项,适用于智能家居和物联网开发,但暂未通过安全测评,禁止用于生产环境。


参考文献

  1. 小智通信协议
  2. ESP32 硬件项目
  3. 部署文档