当前位置: 首页 > news >正文

开源免费!这款 AI 语音工作室让 ElevenLabs 都感到压力

想象一下,如果你能克隆任何人的声音,只需几秒钟的音频样本,就能让 AI 用这个声音说出任何语言的内容——而这一切都运行在你自己的电脑上,完全免费,数据永远不会离开你的机器。

这不是科幻小说,而是今天我要分享的开源项目Voicebox能做到的事情。

🎯 为什么要关注 Voicebox?

如果你用过 ElevenLabs 的语音合成,或者体验过 WisprFlow 的语音输入,你会发现它们各有短板:一个擅长语音输出,一个专注语音输入,但都需要付费,而且数据都要上传到云端。

Voicebox 把这两项功能合二为一,加上本地运行的隐私优势,直接成为了 ElevenLabs 的开源平替版本。

🔥 末尾可获取该项目的下载地址,继续往下看!

核心功能一览

1️⃣ 零样本语音克隆

上传 3-5 秒的音频样本,Voicebox 就能捕捉到声音特征,然后用这个"克隆声音"朗读你提供的任何文本。支持 23 种语言,从英语、中文到阿拉伯语、日语、印地语,覆盖全球主要语种。

2️⃣ 七大 TTS 引擎任你选

Voicebox 内置了 7 个不同的语音合成引擎,每个都有自己的专长:

  • Qwen3-TTS

    :高质量多语言克隆,支持"说慢点"、"耳语"等语气指令

  • Qwen CustomVoice

    :9 个精选预设声音,无需参考音频就能用

  • LuxTTS

    :超轻量级,仅占 1GB 显存,CPU 上也能跑 150 倍实时速度

  • Chatterbox Multilingual

    :支持语言最广,23 种语言全覆盖

  • Chatterbox Turbo

    :支持 [笑]、[叹气]、[喘息] 等情感标签

  • HumeAI TADA

    :能生成 700 秒以上的连贯音频

  • Kokoro

    :82M 超小模型,提供 50 个精选预设声音

3️⃣ 全局语音输入

设置一个快捷键,在任何应用中都能按住说话,松开后自动转录成文字粘贴到当前输入框。Mac 上通过了无障碍认证,体验非常流畅。

如果你是开发者,这个功能特别实用——在 VS Code 里写代码时,直接按快捷键说出需求,文字自动出现,继续编辑就行。

4️⃣ AI 语音助手集成

Voicebox 内置了 MCP 服务器,任何支持 MCP 协议的 AI 客户端(Claude Code、Cursor、Cline 等)都能直接调用它的语音功能。

想象一下这个场景:你让 AI 帮你写代码,AI 不是用文字回复,而是用你克隆的声音直接"说"给你听。

5️⃣ 个性化语音角色

为每个语音配置绑定一个"性格"描述,然后用绑定的本地 LLM 进行文本重写。开启"角色扮演"模式后,AI 会用符合这个角色的语气和风格改写你的输入,再用对应的声音读出来。

创作对话、游戏配音、播客制作时,这个功能太强大了。

技术架构亮点

Voicebox 不是用 Electron 做的,而是用Tauri (Rust)构建原生应用,这意味着更小的内存占用和更好的性能。

后端采用 FastAPI (Python),前端用 React + TypeScript,状态管理用 Zustand 和 React Query。整个技术栈非常现代,开源社区友好。

平台支持

  • macOS (Apple Silicon)

    :使用 MLX 框架,通过 Neural Engine 加速,速度提升 4-5 倍

  • Windows / Linux (NVIDIA)

    :PyTorch + CUDA,应用内自动下载 CUDA 运行时

  • Linux (AMD)

    :PyTorch + ROCm,自动配置 HSA_OVERRIDE_GFX_VERSION

  • Windows (任意 GPU)

    :DirectML,通用支持

  • Intel Arc

    :IPEX/XPU 加速

  • 纯 CPU 模式

    :任何设备都能运行,就是慢点

实际应用场景

内容创作者

录制播客、有声书、视频配音,用克隆的声音保持一致性,配合 8 种音频后处理效果(音调偏移、混响、延迟、合唱等),专业度直接拉满。

开发者

给 AI Agent 加上语音输出,用户提问后,AI 用自然语音回答,不再是冷冰冰的文字。Voicebox 提供了完整的 REST API,集成到自己的应用非常方便。

辅助功能

对于有语言障碍的用户,Voicebox 可以帮助他们用自己的声音重新"说话"。预先录制好自己的声音样本,就能用文字输入生成语音输出。

开源协议

MIT License,完全免费,商业使用也没问题。项目在 GitHub 上已有 1.6k+ Stars,社区活跃,更新频繁。

竞争对手对比

功能

Voicebox

ElevenLabs

WisprFlow

价格

完全免费

按使用量付费

订阅制

数据隐私

本地运行

云端处理

云端处理

语音输入

✅ 支持

❌ 不支持

✅ 支持

语音输出

✅ 支持

✅ 支持

❌ 不支持

开源

✅ MIT

❌ 闭源

❌ 闭源

离线使用

✅ 支持

❌ 不支持

❌ 不支持

未来规划

根据项目的 Roadmap,这些功能正在开发中:

  • Windows / Linux 自动粘贴功能(追平 macOS 体验)

  • 更多语音识别引擎(Parakeet v3、Qwen3-ASR),支持 50+ 语言

  • 流式实时转录(WebSocket 接口)

  • 端到端语音 LLM(Moshi、GLM-4-Voice、Qwen2.5 Omni)

  • 文字描述生成声音(Voice Design)

  • 双流录制器(麦克风 + 系统音频)

  • 插件架构(支持自定义模型和转换器)

安装使用

macOS 用户

# Apple Silicon 下载 DMG 文件直接安装 # Intel Mac 也有对应的 DMG 安装包

Windows 用户

# 下载 MSI 安装包 双击运行即可

Docker 部署

docker compose up

开发者本地构建

git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # 创建 Python 虚拟环境,安装依赖 just dev # 启动后端 + 桌面应用

小结

Voicebox 是目前最完整的开源 AI 语音解决方案之一。它不仅提供了商业级的功能(语音克隆、多语言支持、情感标签),更重要的是坚持本地优先的隐私理念,所有数据都在你的机器上处理。

如果你在寻找 ElevenLabs 的免费替代品,或者想给 AI 项目加上语音功能,Voicebox 值得一试。

http://www.zskr.cn/news/1396099.html

相关文章:

  • Unity动画师必备:用Aim和Look At Constraint快速实现角色眼神追踪与武器瞄准
  • 深度进化:AI告别野蛮生长,迈入价值落地新时代
  • Taotoken的Token Plan套餐为个人开发者带来的成本体感变化
  • Unity生存游戏底层逻辑:代谢引擎与环境交互约束系统
  • 人类的科技不断向前发展并带动经济的启示
  • 复盘】2026年5月26日(周二)
  • 2026 中国智慧文旅解决方案行业深度研究:湖南途记互联综合实力排名第一 - 资讯快报
  • 2026年10款降AIGC平台亲测:最高AI率100%直降至0.12%
  • 机器学习结合NB515窄带测光:高效区分M型矮星与红巨星
  • 机器学习增强RANS与降阶建模:高效高精度湍流参数化模拟
  • 2026年西湖边热门公寓_文鸿金座_值得选择 - 资讯快报
  • Qwen3.6-27B以7%参数量超越397B旗舰:MoE稀疏化路由机制与专家平衡损失函数深度解析
  • ViGEmBus终极指南:Windows游戏控制器虚拟化的完整解决方案
  • Linux搭建DHCP服务器全教程:原理+四步握手+固定IP绑定实操
  • Unity迁移到Godot:3天极限重构实战指南
  • RIR-Mega:五万房间脉冲响应数据集,赋能音频AI算法开发与评估
  • .NET 8 运行时深度解析:20个新特性,Native AOT 和动态PGO 是重点
  • 如何发起微信投票活动三分钟教会你 - 投票小程序
  • 机器学习赋能太阳能氢燃料电池小车:数据驱动的性能评估与工程实践
  • Lovable翻译平台API网关设计:QPS从1.2万飙升至8.6万的关键11行代码优化实录
  • Thief摸鱼神器:3分钟学会使用这款跨平台办公助手,工作效率提升50%
  • Unity TextMeshPro中文显示乱码终极解决方案
  • 2026年音视频笔记工具横评:通义听悟、讯飞听见、Get笔记、Ai好记
  • 基于网络表示学习与SVR的关键节点识别算法NRL_KNI详解
  • 如何永久免费使用IDM下载管理器?开源激活脚本完整指南
  • 为什么92%的独立游戏团队放弃自建社区?Lovable开源栈替代方案深度评测(含性能压测数据)
  • 没有团队怎么创业?OPC模式:一个人完成过去一个公司的商业闭环
  • 从零到上线仅需1天,AI Agent低代码平台选型对比:8大厂商实测数据深度曝光
  • 高校如何建设OPC产业学院?海南师范大学案例深度复盘
  • ARM PMU性能监控寄存器详解与编程实践