站点图标 高效码农

告别 Wispr Flow:开源免费、中文友好的下一代语音输入工具「蛐蛐(QuQu)」深度体验

你有没有过这样的经历?灵光一闪,想赶紧记下想法,但打字太慢,思路都断了;或者写代码时,变量名拼得手酸,还容易出错。这时候,如果能像说话一样自然地输入文字,该多好?

市面上确实有像 Wispr Flow 这样的优秀工具,它能让你用语音高效写作,甚至自动润色。但问题来了:它要 $12/月 的订阅费 ,你的语音数据还得上传到云端 ,而且对中文的支持,怎么说呢,总感觉差点意思。

如果你也在寻找一个免费、开源、本地运行、专为中文优化的替代方案,那么今天要介绍的这款工具——「蛐蛐(QuQu)」,很可能就是你要找的答案。

为什么我们需要「蛐蛐」?

在深入介绍之前,我们先聊聊痛点。Wispr Flow 确实强大,它支持 100 多种语言,能自动编辑文本,甚至能理解你的写作风格 。但它的核心逻辑是云端服务。这意味着:

  1. 成本问题:长期订阅是一笔不小的开销。
  2. 隐私顾虑:你的所有语音内容,无论是工作机密还是个人想法,都要经过第三方服务器。
  3. 中文体验:虽然支持中文,但其核心模型并非为中文语境(比如网络用语、特定口音)深度优化。

「蛐蛐」的诞生,正是为了解决这些问题。它不是一个简单的模仿者,而是一个站在巨人肩膀上,为中文用户量身定制的下一代语音工作流。

蛐蛐 vs Wispr Flow:核心对比

核心对比 🎯 蛐蛐 (QuQu) 💰 Wispr Flow
价格 ✅ 完全免费 ❌ $12/月订阅
隐私 ✅ 数据本地处理,不上云 ❌ 云端处理
中文支持 ✅ 专为中文优化 ⚠️ 通用支持,非深度优化
AI模型 ✅ 支持国产AI(通义千问、Kimi等) ❌ 仅支持国外模型

这个表格清晰地展示了「蛐蛐」的核心价值主张:免费、私有、本土化

「蛐蛐」到底是什么?它能做什么?

简单来说,「蛐蛐」是一个运行在你电脑上的桌面应用。你按下快捷键(默认 F2),对着麦克风说话,它就能:

  1. 精准地把你说的中文转成文字。
  2. 聪明地帮你润色、纠错、过滤掉“嗯”、“啊”等口头禅。
  3. 无缝地把最终结果粘贴到你当前正在使用的任何软件里(比如 VS Code、微信、Word)。

想象一下这个场景:

你说:“把那个函数名改成 getUserProfileData,不对,应该是 fetchUserProfile。”

传统语音输入工具可能会输出一串包含错误和修正过程的混乱文字。而「蛐蛐」,得益于其独特的“两段式引擎”,会直接输出干净利落的:

fetchUserProfile

这种体验,是不是很像有个贴心的助手在帮你实时整理思路?

技术亮点:它是如何做到的?

「蛐蛐」的强大并非凭空而来,它巧妙地融合了两个领域的顶尖技术。

1. 顶尖中文识别,隐私至上:FunASR Paraformer

语音识别(ASR)是整个流程的第一步,也是最关键的一步。如果第一步就错了,后面再怎么润色也白搭。

「蛐蛐」选择了阿里巴巴达摩院开源的 FunASR 工具包,并内置了其核心模型 Paraformer。这个模型可不是小打小闹,它是基于数万小时的工业级中文语音数据训练而成 ,专门针对中文的发音、语调、网络用语进行了优化。

更重要的是,整个识别过程完全在你的电脑本地完成。你的声音数据不会离开你的设备,从根本上解决了隐私泄露的风险。Paraformer 作为一种非自回归模型,在保证高精度的同时,还拥有非常快的推理速度 ,即使在普通电脑上也能流畅运行。

2. 会思考的“两段式引擎”:ASR + LLM

这才是「蛐蛐」的灵魂所在。

  • 第一段:ASR(语音识别)。由本地的 FunASR Paraformer 负责,将你的语音高精度地转换为原始文本。
  • 第二段:LLM(大语言模型)。将 ASR 输出的原始文本,发送给你自己配置的 AI 模型(比如通义千问、Kimi),让它进行智能优化

这个 LLM 阶段能做什么?可能性几乎是无限的,取决于你给它的指令。默认情况下,它会:

  • 自动纠错:如前面例子中的“周三开会,不对,是周四” → “周四开会”。
  • 过滤废话:去掉“那个”、“然后”、“就是说”等无意义的填充词。
  • 添加标点:让输出的文本结构清晰,可读性强。
  • 格式化:根据上下文,自动调整格式。

3. 为国内优化的开放AI生态

「蛐蛐」没有把自己绑死在某一家 AI 服务商上。它采用了兼容 OpenAI API 的设计。这意味着,只要一个模型服务提供了标准的 OpenAI 接口,「蛐蛐」就能用。

好消息是,目前国内几乎所有主流的大模型,包括通义千问(Qwen)Kimi(Moonshot)智谱AI(GLM) 等,都提供了 OpenAI 兼容的 API。这带来了三大好处:

  1. 响应更快:服务器在国内,网络延迟低。
  2. 成本更低:国产模型的调用价格通常更具竞争力。
  3. 合规性好:数据处理符合国内法规。

4. 开发者与效率专家挚爱

如果你是个程序员,「蛐蛐」还有一个让你惊喜的功能:它能准确识别并格式化编程术语

无论是 camelCase(驼峰命名)还是 snake_case(下划线命名),你只要清晰地说出来,它就能正确地转换成代码格式。再也不用担心语音输入把 userName 变成 user name 了。

更进一步,通过自定义 LLM 的指令,你可以让它感知上下文。比如,当你在 VS Code 里使用时,它可以自动以代码注释的格式输出;当你在写邮件时,它又能自动调整为更正式的书信体。

快速上手:手把手教你安装和使用

心动不如行动!下面我将带你一步步安装并配置「蛐蛐」。整个过程并不复杂,只要你有一点点命令行基础。

第一步:检查环境要求

在开始之前,请确保你的电脑满足以下条件:

  • 操作系统:macOS 10.15+ / Windows 10+ / Linux
  • Node.js:18 或更高版本(用于运行 Electron 应用)
  • pnpm:一个现代化的 JavaScript 包管理器(可以使用 npm install -g pnpm 安装)
  • Python:3.8 或更高版本(用于运行本地的 FunASR 服务)

第二步:安装与配置

打开你的终端(Terminal 或 CMD),依次执行以下命令:

# 1. 克隆项目到本地
git clone https://github.com/yan5xu/ququ.git
cd ququ

# 2. 安装前端和桌面端依赖
pnpm install

# 3. 安装 FunASR 环境(这是本地语音识别的核心)
pip install funasr modelscope

# 4. 启动应用!
pnpm run dev

执行完 pnpm run dev 后,「蛐蛐」的主界面应该就会弹出来了。

第三步:配置你的 AI 模型

应用启动后,你会看到一个设置页面。在这里,你需要填入你选择的 AI 服务商提供的三个关键信息:

  1. API Key:你的身份凭证。
  2. Base URL:API 的请求地址。例如,通义千问的可能是 https://dashscope.aliyuncs.com/compatible-mode/v1,Kimi 的是 https://api.moonshot.cn/v1
  3. 模型名称:比如 qwen-maxmoonshot-v1-8k 等。

填好后,点击保存。配置信息会安全地存储在你的本地电脑上。

第四步:开始使用!

现在,一切准备就绪。在任何需要输入文字的地方,按下 F2 键(你也可以在设置里修改这个快捷键),对着麦克风说出你的想法。说完后,「蛐蛐」会自动将处理好的文本粘贴到光标处。

常见问题与故障排除(FAQ)

在安装和使用过程中,你可能会遇到一些小问题,这里列出最常见的几个:

Q1: 首次运行时,FunASR 模型下载很慢怎么办?
A: 这是因为模型文件较大(几百MB到1GB)。请确保你的网络连接稳定。首次下载完成后,以后启动就会非常快了。

Q2: 在 macOS 上遇到 SSL 警告,导致模型加载缓慢?
A: 这是一个已知的兼容性问题。你可以通过降级 urllib3 库来解决:

python3 -m pip install "urllib3<2.0"

Q3: 提示 Python 环境或权限错误?
A: 请确保你使用的是 Python 3.8+。如果遇到权限问题,可以尝试在 pip install 命令后面加上 --user 参数,将包安装到用户目录下。

Q4: 我没有国产大模型的 API Key,可以用吗?
A: 可以!「蛐蛐」支持任何兼容 OpenAI API 的服务。如果你有 OpenAI 的 API Key,同样可以配置使用。不过,为了获得最佳的中文体验和更低的延迟,强烈推荐使用国产模型。

技术栈一览

对于技术爱好者,这里简单介绍一下「蛐蛐」背后的技术选型:

  • 前端: React 19, TypeScript, Tailwind CSS (构建现代、响应式的用户界面)
  • 桌面端: Electron (让你的 Web 应用变成一个真正的桌面程序)
  • 语音技术 (本地): FunASR (集成了 Paraformer-large 语音识别、FSMN-VAD 语音端点检测、CT-Transformer 标点恢复)
  • AI模型 (可配置): 兼容 OpenAI, Anthropic, 以及阿里云通义千问、Kimi、智谱AI 等
  • 数据库: better-sqlite3 (用于本地存储配置和历史记录)

总结:一个值得尝试的未来

「蛐蛐(QuQu)」不仅仅是一个工具,它代表了一种新的可能性:将强大的 AI 能力,以开源、免费、尊重隐私的方式,交还给用户

它解决了 Wispr Flow 等商业软件在中文场景下的痛点,利用本地 ASR 保证了隐私和基础识别的准确性,又通过开放的 LLM 生态,赋予了文本无限的智能优化潜力。

无论你是需要高效写作的内容创作者,还是追求极致效率的开发者,亦或是对数据隐私有极高要求的专业人士,「蛐蛐」都值得一试。更重要的是,它是一个活跃的开源项目,社区欢迎任何形式的贡献。如果你有更好的想法,完全可以参与到它的建设中来。

现在就去 GitHub 克隆项目,体验一下用语音“所想即所得”的流畅写作吧!

退出移动版