当前位置：首页 > news >正文

语音合成技术从1秒样本学习表达风格

news 2026/6/10 5:27:11

语音合成器从一秒语音样本学习表达风格

用户评价显示，具有转移表达风格的合成语音比标准合成语音自然度高出9%。

技术突破

文本转语音（TTS）系统将文本转换为合成语音。近年来，大多数TTS系统已从拼接方法转向神经网络方法，后者从头开始合成语音。

神经网络TTS的最大优势是能够更有效地适应新的语音或说话模式。在国际声学、语音与信号处理会议上发表的研究表明，这种适应可以非常高效。论文描述的系统仅凭约一秒的示例就能改变其表达风格——即合成语音中的兴奋程度。

技术架构

该系统基于最先进的TTS系统进行改进，使用了一种称为变分自编码器（VAE）的神经网络。VAE有两个组件：编码器和解码器。编码器学习生成表示给定输入特征的概率分布，从该分布中抽取的样本传递给解码器，解码器使用它们生成输出。

在典型的TTS应用中，VAE的输入是语音样本。系统还有第二个编码器，以文本字符串作为输入。在运行时，文本字符串的编码表示与VAE编码器的样本连接起来，组合后的表示传递给解码器。解码器的输出是合成语音。

创新技术

研究中向VAE编码器添加了另一个组件。为了降低计算复杂度，编码器学习到的分布通常是对角高斯分布。对角高斯表示分布中每个变量的可能值，但不表示变量对之间的关系（即协方差）。因此，它是对语音样本特征真实分布的近似。

为了将对角高斯扩展为完整协方差高斯，使用了称为户主流的技术。户主流是一系列操作，填补了协方差高斯的空白。

测试了三种户主流实现方案：

原始实现中，第一个操作依赖于参考（语音样本）编码器的输入；后续操作是初始操作的数学（仿射）变换产物
第二种实现中，序列中的所有操作都直接依赖于VAE的输入
第三种实现中，所有操作都独立于输入，网络学习如何一般性地转换语音表示，而不是以不同方式转换每个语音样本

实验证明，第三种实现最为成功。

实验结果

根据测量两个概率分布之间距离的Kullback-Leibler散度，该系统在发现语音生成过程的独立潜在因素方面比基线好22%。

论文还报告了用户研究结果，该研究依赖于隐藏参考和锚点的多刺激方法。受试者认为该系统生成的语音比基线自然度高9%。

技术优势

这些结果表明，应该能够以最小的开发开销大大扩展语音代理的表达范围。

未来展望

在未来的工作中，将把这种方法扩展到语音的其他表达特征，看看是否能够保持甚至改进自然度和表现力的结合。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码