当前位置: 首页 > news >正文

Voicebox,开源了!

想要克隆自己的声音做配音ElevenLabs 当属首选它这个功能做的的确不错。但每月几十刀的费用加上音频数据要上传到他们服务器对不少人来说都是个门槛。对于语音输入也有不错的工具比如 WisprFlow可同样要付费隐私同样存疑。今天在 GitHub 上发现一个名叫Voicebox的开源项目狂揽了 28000 Star。它的核心定位是 ElevenLabs 和 WisprFlow 的开源平替以本地优先的 AI 语音工作室。在语音市场上ElevenLabs 主攻语音输出WisprFlow 主攻语音输入它两算是各占一边。这一次 Voicebox 把两边都做了额外还用一个本地 LLM 把中间的改写、人格化环节串了起来。也就是说我们克隆出来的声音、录下的语音片段全程不会离开自己的电脑数据隐私安全。先来说说工具的声音克隆这块。只需要我们提供几秒钟的参考音频就能生成一个属于我们自己的声音模型。覆盖 23 种语言从英语、中文到阿拉伯语、印地语、斯瓦希里语主流语言都支持。内置 7 个 TTS 引擎包括 Qwen3-TTS、Chatterbox、LuxTTS、Kokoro 等。不同引擎各有作用比如 Chatterbox Turbo 支持[laugh]、[sigh]这类情绪标签能让生成的语音带笑声、叹气等真实情绪。而 Qwen3-TTS 则擅长多语言克隆还能听懂「慢一点说」「用耳语」这种自然语言指令。至于没有独立显卡的同学可以选 Kokoro模型只有 82MCPU 也能跑得动。如果不想克隆自己的声音项目也内置了 50 多个预设音色可以直接开箱可用。生成出来的音频还能进行编辑调音、混响、延迟、压缩这些参数都能实时预览。接下来要说的这个项目另一个让我觉得挺有意思的功能那就是可以给 Agent 工具配音。Voicebox 提供一个 MCP 服务器协议任何支持 MCP 的 Agent 工具都能调用它来发声。比如将其接入到 Claude Code只需要一行命令claude mcp add voicebox \ --transport http \ --url http://127.0.0.1:17493/mcp \ --headerX-Voicebox-Client-Id: claude-code添加完成后Claude Code 就能直接用我们克隆的声音说一句「测试通过可以合并」。我们还能在设置里给不同的 Agent 绑定不同的声音听声音就能分辨是哪个 Agent 在报告。这样我们在写代码的间隙就能听到熟悉的声音报告进度让我们的开发体验更上一个台阶。另外 Voicebox 还有一个更进阶的玩法叫人格化。我们可以给每个声音绑一段自由格式的人设描述比如「冷静的工程师」「毒舌的代码审查官」。之后无论是手动生成还是 Agent 通过 MCP 调用文本都会先经过本地 LLM 按人设改写再合成语音。也就是说Agent 说出来的话不只是声音由你定的连说话风格也可以自由设定。不止于此还提供一个全局快捷键听写功能按住热键说话松开后文字会自动粘贴到当前聚焦的输入框。在 macOS 上的体验做得不错会通过辅助功能 API 精确识别目标文本框粘贴过程不会污染剪贴板。至于安装项目提供了 macOS、Windows 的安装包可到官网或 Releases 页面下载。首次使用会自动下载模型权重Kokoro 只有 82MQwen3-TTS 要几个 G可按需下载。再提一句在苹果 M 芯片上跑速度比通用方案快不少NVIDIA 显卡则会自动走 CUDA。至于 REST API 和 MCP Server 默认监听本地 17493 端口文档地址在http://127.0.0.1:17493/docs对接自己的脚本和工具非常方便。写在最后讲真的在我看来语音 I/O 的本地化是一件迟早要发生的事。但也不得不承认云端在便利性上确实有优势可订阅成本和数据隐私这两道坎一直在。我们的声音特征数据真要是被泄露或者被滥用后果可能跟密码泄露差不多严重。这也是为什么语音本地方案的需求越来越被重视的原因之一。好在这两年开源模型的不断迭代更新基本是肉眼可见地速度在追平闭源模型的效果。再加上也可在苹果 MLX、NVIDIA CUDA 这些消费级硬件本地跑 TTS、STT、LLM。而 Voicebox 的价值我觉得不止在功能上的实用更给我们提供一个新的可能。以后使用 Agen我们不一定非得对着一个冰冷的对话框也可以让它说话、有情绪、有名字。未来很快 AI Agent 即将从纯文本输出工具逐渐演化成有声音、有人设的协作伙伴。至于会不会成为主流我们就拭目以待吧。GitHub 项目地址https://github.com/jamiepine/voicebox今天的分享到此结束感谢大家抽空阅读我们下期再见Respect
http://www.zskr.cn/news/1393397.html

相关文章:

  • 基于双编码器VAEGAN与XGBoost的信用卡欺诈检测实战
  • 定制化小程序开发公司哪家好?2026年国内十大靠谱小程序制作设计服务商详解 - 新闻快传
  • 收藏!2026年AI Coding全面爆发,程序员如何升级为AI价值创造者?
  • 揭秘FanControl:重新定义Windows风扇控制的智能解决方案
  • 导师认可的AI论文网站势力榜(2026 最新实测)
  • 5步掌握U-Net图像分割:如何用Keras实现深度学习医学影像分析?
  • 别再只会调包了!用Python和NumPy手搓PCA,彻底搞懂协方差矩阵与特征值分解
  • 游戏社区冷启动失败率高达83%?揭秘Lovable认证级搭建标准与5个致命避坑清单
  • 从安装到卸载:我的macOS Big Sur雷蛇驱动折腾记(附完整避坑指南)
  • 书匠策AI翻车现场?不,这是2025年写毕业论文的正确打开方式
  • 为什么你的ChatGPT总“编”数据?揭秘结构化提示工程:5类SQL/CSV/JSON场景的精准指令模板
  • 融合道德情感与语义分析的文本激进化检测系统设计与实现
  • Linux开机动画进阶:手把手教你用psplash源码自定义进度条和背景图(附常见编译错误解决)
  • 突破AI网站设计同质化:从默认美学到独特视觉的实践指南
  • 什么是蜘蛛池?免费蜘蛛池搭建软件全面科普
  • 基于SBERT与多任务学习的轻量级日志异常检测技术解析
  • 基于RoBERTa与Bi-LSTM的新闻情感分析模型:RBTM架构详解与工程实践
  • LwIP内存管理三选一:malloc、内存池还是自带堆?在STM32上实测对比与选型指南
  • 紧急更新!OpenAI API v4.5对邮件生成策略的影响:5套即插即用模板已适配(含审计日志追踪功能)
  • 【RT-DETR实战】076、自监督学习预训练:让RT-DETR在无标签数据上“自学成才”
  • Unity InputSystem 跨平台输入实战:一套代码搞定PC、手机、手柄的角色控制(含虚拟摇杆集成)
  • H5P交互式视频:3步打造沉浸式学习体验的终极指南
  • 基于结构化状态空间模型与自监督学习的ECG分析精度提升实践
  • 【独家首发】2026年AI市场存活率预警:TOP100初创公司仅12家跨过商业化死亡谷
  • 告别卡顿:我是如何用Profiler给模拟器里的Unity游戏做‘深度体检’的
  • 从Prompt工程到物理仿真精度提升300%,Sora 2正式版功能详解,2024 Q2视频AI项目立项前必读决策手册
  • 避坑指南:Unity打包后TextMeshPro字体失效?可能是你的AssetBundle没放对位置
  • Image-Downloader终极指南:三步搞定海量图片批量下载
  • 用Python和Pygame复刻经典消消乐:从零到一,我踩过的坑和优化心得
  • 理解了微机原理,才能理解操作系统,理解了操作系统,才能理解好编程