当前位置：首页 > news >正文

【Python】免费的中文 AI 配音方案

news 2026/6/11 4:58:00

免费高质量免密钥需联网edge_tts是一个利用Microsoft Edge 浏览器在线 TTS文本转语音服务的非官方 Python 库。它无需微软 API 密钥即可调用 Edge 内置的高质量神经网络语音合成引擎将文本转换为自然语音并保存为音频文件。核心特点特性说明免费无密钥直接调用 Edge 的在线 TTS 接口无需 Azure 订阅或 API Key语音质量高基于微软最新的神经网络 TTS中文如 Xiaoxiao、Yunyang发音自然流畅支持 SSML可使用语音合成标记语言精细控制语速、音调、停顿、多语音切换多种输出格式支持 MP3、WEBM、OGG 等格式实际为流媒体封装异步设计基于asyncio和aiohttp适合批量处理或集成到异步应用安装pipinstalledge-tts依赖极少主要需要aiohttp会自动安装。基础用法1. 命令行快速使用无需写代码安装后自带edge-tts和edge-playback命令# 查看所有可用语音edge-tts --list-voices# 中文语音合成并保存edge-tts--voicezh-CN-XiaoxiaoNeural--text你好这是微软 Edge 的文本转语音演示。--write-media output.mp3# 调整语速50%和音量10%edge-tts--voicezh-CN-YunyangNeural--rate50%--volume10%--text加速播放测试--write-media fast.mp32. Python 代码使用importasyncioimportedge_tts TEXT你好欢迎使用 edge_tts 库。这是由微软 Edge 提供的高质量中文语音合成。VOICEzh-CN-XiaoxiaoNeural# 中文女声OUTPUT_FILEtest.mp3asyncdefmain():communicateedge_tts.Communicate(TEXT,VOICE)awaitcommunicate.save(OUTPUT_FILE)if__name____main__:asyncio.run(main())进阶功能使用 SSML 精细控制SSMLSpeech Synthesis Markup Language可以控制停顿、语气、多角色对话importasyncioimportedge_tts SSML speak version1.0 xmlnshttp://www.w3.org/2001/10/synthesis xml:langzh-CN voice namezh-CN-XiaoxiaoNeural 你好break time500ms/ 这是带停顿的语音。 prosody rateslow pitch10%这句话语速较慢音调较高。/prosody /voice /speak asyncdefmain():communicateedge_tts.Communicate(SSML,voicezh-CN-XiaoxiaoNeural)awaitcommunicate.save(ssml_output.mp3)asyncio.run(main())流式获取音频数据适合边下载边播放无需等待完整文件importasyncioimportedge_ttsasyncdefstream_tts():communicateedge_tts.Communicate(流式播放测试,zh-CN-YunyangNeural)asyncforchunkincommunicate.stream():ifchunk[type]audio:# chunk[data] 是音频字节流可实时写入播放器print(f收到音频块:{len(chunk[data])}bytes)elifchunk[type]WordBoundary:# 获取每个词的时间边界信息可用于字幕同步print(f词:{chunk[text]}, 偏移:{chunk[offset]}ms)asyncio.run(stream_tts())批量处理与语音切换importasyncioimportedge_tts voices[zh-CN-XiaoxiaoNeural,zh-CN-YunyangNeural,zh-CN-XiaohanNeural]text同样的文本不同的声音。asyncdefbatch():tasks[]forvoiceinvoices:communicateedge_tts.Communicate(text,voice)tasks.append(communicate.save(f{voice}.mp3))awaitasyncio.gather(*tasks)asyncio.run(batch())常用中文语音列表语音 ID性别/风格特点zh-CN-XiaoxiaoNeural女自然、温暖最常用zh-CN-YunyangNeural男新闻播报风格沉稳zh-CN-XiaohanNeural女抒情风格柔和zh-CN-XiaomoNeural女多种情感风格可选zh-CN-YunxiNeural男年轻、活泼zh-CN-XiaoruiNeural女成熟、专业zh-CN-YunjianNeural男老年、叙事风格完整列表通过edge-tts --list-voices | grep zh-CN查看。注意事项网络依赖需要能访问微软 Edge TTS 在线服务speech.platform.bing.com相关域名国内通常可直接访问。非官方 API这是逆向 Edge 浏览器接口实现的微软可能随时调整服务端逻辑存在失效风险。商业使用音频生成自微软服务商用前建议确认微软服务条款或考虑官方 Azure Speech Service。长文本限制单段文本过长时建议分段处理避免超时。典型应用场景有声书/播客制作快速将长文本文档转为音频视频配音为短视频、教程生成旁白辅助阅读为视障用户或学习场景提供语音朗读AI 对话机器人为 ChatBot 添加语音输出能力自动化测试生成语音素材用于测试

查看全文

http://www.zskr.cn/news/1351380.html