当前位置: 首页 > news >正文

【Python】免费的中文 AI 配音方案

免费高质量免密钥需联网edge_tts是一个利用Microsoft Edge 浏览器在线 TTS文本转语音服务的非官方 Python 库。它无需微软 API 密钥即可调用 Edge 内置的高质量神经网络语音合成引擎将文本转换为自然语音并保存为音频文件。核心特点特性说明免费无密钥直接调用 Edge 的在线 TTS 接口无需 Azure 订阅或 API Key语音质量高基于微软最新的神经网络 TTS中文如 Xiaoxiao、Yunyang发音自然流畅支持 SSML可使用语音合成标记语言精细控制语速、音调、停顿、多语音切换多种输出格式支持 MP3、WEBM、OGG 等格式实际为流媒体封装异步设计基于asyncio和aiohttp适合批量处理或集成到异步应用安装pipinstalledge-tts依赖极少主要需要aiohttp会自动安装。基础用法1. 命令行快速使用无需写代码安装后自带edge-tts和edge-playback命令# 查看所有可用语音edge-tts --list-voices# 中文语音合成并保存edge-tts--voicezh-CN-XiaoxiaoNeural--text你好这是微软 Edge 的文本转语音演示。--write-media output.mp3# 调整语速50%和音量10%edge-tts--voicezh-CN-YunyangNeural--rate50%--volume10%--text加速播放测试--write-media fast.mp32. Python 代码使用importasyncioimportedge_tts TEXT你好欢迎使用 edge_tts 库。这是由微软 Edge 提供的高质量中文语音合成。VOICEzh-CN-XiaoxiaoNeural# 中文女声OUTPUT_FILEtest.mp3asyncdefmain():communicateedge_tts.Communicate(TEXT,VOICE)awaitcommunicate.save(OUTPUT_FILE)if__name____main__:asyncio.run(main())进阶功能使用 SSML 精细控制SSMLSpeech Synthesis Markup Language可以控制停顿、语气、多角色对话importasyncioimportedge_tts SSML speak version1.0 xmlnshttp://www.w3.org/2001/10/synthesis xml:langzh-CN voice namezh-CN-XiaoxiaoNeural 你好break time500ms/ 这是带停顿的语音。 prosody rateslow pitch10%这句话语速较慢音调较高。/prosody /voice /speak asyncdefmain():communicateedge_tts.Communicate(SSML,voicezh-CN-XiaoxiaoNeural)awaitcommunicate.save(ssml_output.mp3)asyncio.run(main())流式获取音频数据适合边下载边播放无需等待完整文件importasyncioimportedge_ttsasyncdefstream_tts():communicateedge_tts.Communicate(流式播放测试,zh-CN-YunyangNeural)asyncforchunkincommunicate.stream():ifchunk[type]audio:# chunk[data] 是音频字节流可实时写入播放器print(f收到音频块:{len(chunk[data])}bytes)elifchunk[type]WordBoundary:# 获取每个词的时间边界信息可用于字幕同步print(f词:{chunk[text]}, 偏移:{chunk[offset]}ms)asyncio.run(stream_tts())批量处理与语音切换importasyncioimportedge_tts voices[zh-CN-XiaoxiaoNeural,zh-CN-YunyangNeural,zh-CN-XiaohanNeural]text同样的文本不同的声音。asyncdefbatch():tasks[]forvoiceinvoices:communicateedge_tts.Communicate(text,voice)tasks.append(communicate.save(f{voice}.mp3))awaitasyncio.gather(*tasks)asyncio.run(batch())常用中文语音列表语音 ID性别/风格特点zh-CN-XiaoxiaoNeural女自然、温暖最常用zh-CN-YunyangNeural男新闻播报风格沉稳zh-CN-XiaohanNeural女抒情风格柔和zh-CN-XiaomoNeural女多种情感风格可选zh-CN-YunxiNeural男年轻、活泼zh-CN-XiaoruiNeural女成熟、专业zh-CN-YunjianNeural男老年、叙事风格完整列表通过edge-tts --list-voices | grep zh-CN查看。注意事项网络依赖需要能访问微软 Edge TTS 在线服务speech.platform.bing.com相关域名国内通常可直接访问。非官方 API这是逆向 Edge 浏览器接口实现的微软可能随时调整服务端逻辑存在失效风险。商业使用音频生成自微软服务商用前建议确认微软服务条款或考虑官方 Azure Speech Service。长文本限制单段文本过长时建议分段处理避免超时。典型应用场景有声书/播客制作快速将长文本文档转为音频视频配音为短视频、教程生成旁白辅助阅读为视障用户或学习场景提供语音朗读AI 对话机器人为 ChatBot 添加语音输出能力自动化测试生成语音素材用于测试
http://www.zskr.cn/news/1351380.html

相关文章:

  • JavaWeb从0到1-DAY10-JDBC
  • MMU初始化与预测执行:避免系统崩溃的关键细节
  • 超低功耗语音识别加速器:SNN与硬件协同设计
  • 跨网段耦合器节省近万元设备更换成本让老旧SmartIE触摸屏重获新生
  • AI大模型在哲学史表述中的系统性西方中心主义偏差——以“人类哲学之父”叙事为例的批判性分析
  • 气动黄油机核心技术解析:泵的选择与厂家评估方法论
  • 量子优化算法ITEMC:原理、实现与应用
  • Vue/React/Svelte通用Lovable实践框架(内部首发):1套配置+4个插件=自动注入用户喜爱度
  • 量子PSO与机器学习在天线小型化设计中的应用
  • 深入理解关系数据库三范式
  • graph-autofusion:算子自动融合框架,让模型性能提升30%
  • Gemini3.1Pro构建神经符号系统实战
  • Sunshine游戏串流实战指南:构建跨平台私人云游戏服务器完整方案
  • 使用curl命令直接测试Taotoken大模型API的连通性与返回格式
  • Anthropic率先盈利:大模型商业化曙光初现,IPO竞争谁能笑到最后?
  • 通信电源系统架构解析与运维实战:从核心原理到故障排查
  • 2026年项目交付排期系统选型指南:10款主流工具深度测评
  • 宁波添元水泥制品有限公司荣膺2026年连锁片钢模综合服务商首 - 2026年企业推荐榜
  • Pacemaker + PostgreSQL 16 + 仲裁模式高可用集群部署指南
  • 程序员如何平衡工作与生活?我的“时间块”管理法
  • 5分钟上手京东自动抢购工具:Python脚本让限量商品轻松到手
  • 《墨香情》手游官网入口:限时BOSS攻略,蹲点打法与掉落福利解析
  • harmonyos-ai-skill:让 Cursor 按 ArkTS 规范写鸿蒙,不再瞎编 API
  • Rust宏编程详解:从声明式到过程宏的完整指南
  • GEO获客工具如何选择?
  • 量子退火与经典优化算法性能对比研究
  • AI Agent开发工具大爆发:Claude、OpenAI、Google三强争霸
  • Java类高级特性详解(泛型、类加载、反射、枚举、注解)
  • 2026毕设求生指南:用产品思维交付你的“第一份作品”
  • AI 应用开发到底在开发什么?