你有没有过这样的经历?灵光一闪,想赶紧记下想法,但打字太慢,思路都断了;或者写代码时,变量名拼得手酸,还容易出错。这时候,如果能像说话一样自然地输入文字,该多好?
市面上确实有像 Wispr Flow 这样的优秀工具,它能让你用语音高效写作,甚至自动润色。但问题来了:它要 $12/月 的订阅费 ,你的语音数据还得上传到云端 ,而且对中文的支持,怎么说呢,总感觉差点意思。
如果你也在寻找一个免费、开源、本地运行、专为中文优化的替代方案,那么今天要介绍的这款工具——「蛐蛐(QuQu)」,很可能就是你要找的答案。
为什么我们需要「蛐蛐」?
在深入介绍之前,我们先聊聊痛点。Wispr Flow 确实强大,它支持 100 多种语言,能自动编辑文本,甚至能理解你的写作风格 。但它的核心逻辑是云端服务。这意味着:
-
成本问题:长期订阅是一笔不小的开销。 -
隐私顾虑:你的所有语音内容,无论是工作机密还是个人想法,都要经过第三方服务器。 -
中文体验:虽然支持中文,但其核心模型并非为中文语境(比如网络用语、特定口音)深度优化。
「蛐蛐」的诞生,正是为了解决这些问题。它不是一个简单的模仿者,而是一个站在巨人肩膀上,为中文用户量身定制的下一代语音工作流。
蛐蛐 vs Wispr Flow:核心对比
核心对比 | 🎯 蛐蛐 (QuQu) | 💰 Wispr Flow |
---|---|---|
价格 | ✅ 完全免费 | ❌ $12/月订阅 |
隐私 | ✅ 数据本地处理,不上云 | ❌ 云端处理 |
中文支持 | ✅ 专为中文优化 | ⚠️ 通用支持,非深度优化 |
AI模型 | ✅ 支持国产AI(通义千问、Kimi等) | ❌ 仅支持国外模型 |
这个表格清晰地展示了「蛐蛐」的核心价值主张:免费、私有、本土化。
「蛐蛐」到底是什么?它能做什么?
简单来说,「蛐蛐」是一个运行在你电脑上的桌面应用。你按下快捷键(默认 F2),对着麦克风说话,它就能:
-
精准地把你说的中文转成文字。 -
聪明地帮你润色、纠错、过滤掉“嗯”、“啊”等口头禅。 -
无缝地把最终结果粘贴到你当前正在使用的任何软件里(比如 VS Code、微信、Word)。
想象一下这个场景:
你说:“把那个函数名改成
getUserProfileData
,不对,应该是fetchUserProfile
。”
传统语音输入工具可能会输出一串包含错误和修正过程的混乱文字。而「蛐蛐」,得益于其独特的“两段式引擎”,会直接输出干净利落的:
fetchUserProfile
这种体验,是不是很像有个贴心的助手在帮你实时整理思路?
技术亮点:它是如何做到的?
「蛐蛐」的强大并非凭空而来,它巧妙地融合了两个领域的顶尖技术。
1. 顶尖中文识别,隐私至上:FunASR Paraformer
语音识别(ASR)是整个流程的第一步,也是最关键的一步。如果第一步就错了,后面再怎么润色也白搭。
「蛐蛐」选择了阿里巴巴达摩院开源的 FunASR 工具包,并内置了其核心模型 Paraformer。这个模型可不是小打小闹,它是基于数万小时的工业级中文语音数据训练而成 ,专门针对中文的发音、语调、网络用语进行了优化。
更重要的是,整个识别过程完全在你的电脑本地完成。你的声音数据不会离开你的设备,从根本上解决了隐私泄露的风险。Paraformer 作为一种非自回归模型,在保证高精度的同时,还拥有非常快的推理速度 ,即使在普通电脑上也能流畅运行。
2. 会思考的“两段式引擎”:ASR + LLM
这才是「蛐蛐」的灵魂所在。
-
第一段:ASR(语音识别)。由本地的 FunASR Paraformer 负责,将你的语音高精度地转换为原始文本。 -
第二段:LLM(大语言模型)。将 ASR 输出的原始文本,发送给你自己配置的 AI 模型(比如通义千问、Kimi),让它进行智能优化。
这个 LLM 阶段能做什么?可能性几乎是无限的,取决于你给它的指令。默认情况下,它会:
-
自动纠错:如前面例子中的“周三开会,不对,是周四” → “周四开会”。 -
过滤废话:去掉“那个”、“然后”、“就是说”等无意义的填充词。 -
添加标点:让输出的文本结构清晰,可读性强。 -
格式化:根据上下文,自动调整格式。
3. 为国内优化的开放AI生态
「蛐蛐」没有把自己绑死在某一家 AI 服务商上。它采用了兼容 OpenAI API 的设计。这意味着,只要一个模型服务提供了标准的 OpenAI 接口,「蛐蛐」就能用。
好消息是,目前国内几乎所有主流的大模型,包括通义千问(Qwen) 、Kimi(Moonshot) 、智谱AI(GLM) 等,都提供了 OpenAI 兼容的 API。这带来了三大好处:
-
响应更快:服务器在国内,网络延迟低。 -
成本更低:国产模型的调用价格通常更具竞争力。 -
合规性好:数据处理符合国内法规。
4. 开发者与效率专家挚爱
如果你是个程序员,「蛐蛐」还有一个让你惊喜的功能:它能准确识别并格式化编程术语。
无论是 camelCase
(驼峰命名)还是 snake_case
(下划线命名),你只要清晰地说出来,它就能正确地转换成代码格式。再也不用担心语音输入把 userName
变成 user name
了。
更进一步,通过自定义 LLM 的指令,你可以让它感知上下文。比如,当你在 VS Code 里使用时,它可以自动以代码注释的格式输出;当你在写邮件时,它又能自动调整为更正式的书信体。
快速上手:手把手教你安装和使用
心动不如行动!下面我将带你一步步安装并配置「蛐蛐」。整个过程并不复杂,只要你有一点点命令行基础。
第一步:检查环境要求
在开始之前,请确保你的电脑满足以下条件:
-
操作系统:macOS 10.15+ / Windows 10+ / Linux -
Node.js:18 或更高版本(用于运行 Electron 应用) -
pnpm:一个现代化的 JavaScript 包管理器(可以使用 npm install -g pnpm
安装) -
Python:3.8 或更高版本(用于运行本地的 FunASR 服务)
第二步:安装与配置
打开你的终端(Terminal 或 CMD),依次执行以下命令:
# 1. 克隆项目到本地
git clone https://github.com/yan5xu/ququ.git
cd ququ
# 2. 安装前端和桌面端依赖
pnpm install
# 3. 安装 FunASR 环境(这是本地语音识别的核心)
pip install funasr modelscope
# 4. 启动应用!
pnpm run dev
执行完 pnpm run dev
后,「蛐蛐」的主界面应该就会弹出来了。
第三步:配置你的 AI 模型
应用启动后,你会看到一个设置页面。在这里,你需要填入你选择的 AI 服务商提供的三个关键信息:
-
API Key:你的身份凭证。 -
Base URL:API 的请求地址。例如,通义千问的可能是 https://dashscope.aliyuncs.com/compatible-mode/v1
,Kimi 的是https://api.moonshot.cn/v1
。 -
模型名称:比如 qwen-max
、moonshot-v1-8k
等。
填好后,点击保存。配置信息会安全地存储在你的本地电脑上。
第四步:开始使用!
现在,一切准备就绪。在任何需要输入文字的地方,按下 F2 键(你也可以在设置里修改这个快捷键),对着麦克风说出你的想法。说完后,「蛐蛐」会自动将处理好的文本粘贴到光标处。
常见问题与故障排除(FAQ)
在安装和使用过程中,你可能会遇到一些小问题,这里列出最常见的几个:
Q1: 首次运行时,FunASR 模型下载很慢怎么办?
A: 这是因为模型文件较大(几百MB到1GB)。请确保你的网络连接稳定。首次下载完成后,以后启动就会非常快了。
Q2: 在 macOS 上遇到 SSL 警告,导致模型加载缓慢?
A: 这是一个已知的兼容性问题。你可以通过降级 urllib3
库来解决:
python3 -m pip install "urllib3<2.0"
Q3: 提示 Python 环境或权限错误?
A: 请确保你使用的是 Python 3.8+。如果遇到权限问题,可以尝试在 pip install
命令后面加上 --user
参数,将包安装到用户目录下。
Q4: 我没有国产大模型的 API Key,可以用吗?
A: 可以!「蛐蛐」支持任何兼容 OpenAI API 的服务。如果你有 OpenAI 的 API Key,同样可以配置使用。不过,为了获得最佳的中文体验和更低的延迟,强烈推荐使用国产模型。
技术栈一览
对于技术爱好者,这里简单介绍一下「蛐蛐」背后的技术选型:
-
前端: React 19, TypeScript, Tailwind CSS (构建现代、响应式的用户界面) -
桌面端: Electron (让你的 Web 应用变成一个真正的桌面程序) -
语音技术 (本地): FunASR (集成了 Paraformer-large 语音识别、FSMN-VAD 语音端点检测、CT-Transformer 标点恢复) -
AI模型 (可配置): 兼容 OpenAI, Anthropic, 以及阿里云通义千问、Kimi、智谱AI 等 -
数据库: better-sqlite3 (用于本地存储配置和历史记录)
总结:一个值得尝试的未来
「蛐蛐(QuQu)」不仅仅是一个工具,它代表了一种新的可能性:将强大的 AI 能力,以开源、免费、尊重隐私的方式,交还给用户。
它解决了 Wispr Flow 等商业软件在中文场景下的痛点,利用本地 ASR 保证了隐私和基础识别的准确性,又通过开放的 LLM 生态,赋予了文本无限的智能优化潜力。
无论你是需要高效写作的内容创作者,还是追求极致效率的开发者,亦或是对数据隐私有极高要求的专业人士,「蛐蛐」都值得一试。更重要的是,它是一个活跃的开源项目,社区欢迎任何形式的贡献。如果你有更好的想法,完全可以参与到它的建设中来。
现在就去 GitHub 克隆项目,体验一下用语音“所想即所得”的流畅写作吧!