当前位置: 首页 > news >正文

语音合成技术从1秒样本学习表达风格

语音合成器从一秒语音样本学习表达风格

用户评价显示,具有转移表达风格的合成语音比标准合成语音自然度高出9%。

技术突破

文本转语音(TTS)系统将文本转换为合成语音。近年来,大多数TTS系统已从拼接方法转向神经网络方法,后者从头开始合成语音。

神经网络TTS的最大优势是能够更有效地适应新的语音或说话模式。在国际声学、语音与信号处理会议上发表的研究表明,这种适应可以非常高效。论文描述的系统仅凭约一秒的示例就能改变其表达风格——即合成语音中的兴奋程度。

技术架构

该系统基于最先进的TTS系统进行改进,使用了一种称为变分自编码器(VAE)的神经网络。VAE有两个组件:编码器和解码器。编码器学习生成表示给定输入特征的概率分布,从该分布中抽取的样本传递给解码器,解码器使用它们生成输出。

在典型的TTS应用中,VAE的输入是语音样本。系统还有第二个编码器,以文本字符串作为输入。在运行时,文本字符串的编码表示与VAE编码器的样本连接起来,组合后的表示传递给解码器。解码器的输出是合成语音。

创新技术

研究中向VAE编码器添加了另一个组件。为了降低计算复杂度,编码器学习到的分布通常是对角高斯分布。对角高斯表示分布中每个变量的可能值,但不表示变量对之间的关系(即协方差)。因此,它是对语音样本特征真实分布的近似。

为了将对角高斯扩展为完整协方差高斯,使用了称为户主流的技术。户主流是一系列操作,填补了协方差高斯的空白。

测试了三种户主流实现方案:

  • 原始实现中,第一个操作依赖于参考(语音样本)编码器的输入;后续操作是初始操作的数学(仿射)变换产物
  • 第二种实现中,序列中的所有操作都直接依赖于VAE的输入
  • 第三种实现中,所有操作都独立于输入,网络学习如何一般性地转换语音表示,而不是以不同方式转换每个语音样本

实验证明,第三种实现最为成功。

实验结果

根据测量两个概率分布之间距离的Kullback-Leibler散度,该系统在发现语音生成过程的独立潜在因素方面比基线好22%。

论文还报告了用户研究结果,该研究依赖于隐藏参考和锚点的多刺激方法。受试者认为该系统生成的语音比基线自然度高9%。

技术优势

这些结果表明,应该能够以最小的开发开销大大扩展语音代理的表达范围。

未来展望

在未来的工作中,将把这种方法扩展到语音的其他表达特征,看看是否能够保持甚至改进自然度和表现力的结合。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.zskr.cn/news/21754.html

相关文章:

  • 我的高敏感和家人
  • 对称多项式
  • usb储存之BOT/UAS内核驱动
  • 软件研发 --- 汇编 之 初体验
  • 风控评分卡
  • 20232409 2025-2026-1 《网络与系统攻防技术》实验二实验报告
  • 图 生成树
  • 资料拿取表
  • 2025年太阳能板终极指南:选择、趋势与品牌推荐
  • svn 忽略选项还原
  • JarvisIR
  • 2025 印尼物流专线公司推荐榜:聚焦合规高效,深圳恒翔物流凭实力登榜
  • 国金证券 QMT 云服务器上 重启后 无法自动登录,如何解决?
  • 人文创新研究:在意义的边界探寻新境
  • mysql版本升级 8.0.22升级到8.0.34
  • 智能物联网的实时通信之钥——WebSocket
  • 卷积神经网络读书报告
  • 完成一个商城购物车的程序.
  • RTX低成本迁移方案,支持国产环境
  • 2025年10月权威信息公布:西安买房新楼盘口碑推荐榜单Top10~地建嘉信臻境领衔
  • 2025 年北京律师事务所推荐:北京汇都律师事务所 —— 综合实力强、业务覆盖广且服务高效的专业法律机构
  • 精确高效的API风险监测产品,筑牢运营商数据安全防线
  • 《从数组到动态顺序表:数据结构与算法如何优化内存管理?》 - 教程
  • 2025 年墙体广告公司最新推荐排行榜:聚焦下沉市场优质服务,助力品牌精准触达目标受众大型/ 户外/专业墙体广告公司推荐
  • 创新:在张力中寻找新的平衡
  • 全景式 精准识别 动态防护的金融数据安全管理方案 ——全知科技助力光大证券构建智能化、可视化、合规可控的数据安全体系
  • antdx 如何接入dify
  • 递归函数的精确时间统计
  • [HZOI]CSP-S模拟32
  • Introduction: Why Optimization?