当前位置: 首页 > news >正文

Alexa语音合成新突破:上下文感知的说话风格适配

今天,某中心设备高级副总裁在西雅图发布了其组织的最新产品与服务系列。在演示过程中,某中心副总裁兼Alexa首席科学家描述了Alexa科学团队的三项新进展。其中之一便是说话风格适配。

Alexa的语音由文本到语音模型生成,这些模型将Alexa自然语言理解模型和对话管理器的文本输出转换为合成语音。

近年来,Alexa一直在使用神经TTS,即基于神经网络的TTS,这不仅使语音听起来更加自然,也大大提升了其多功能性。神经TTS使得Alexa能够改变其说话风格——例如新闻播报风格或音乐风格——并且使得能够将韵律或语调模式从一个声音转移到另一个声音。

在人类言语中,说话风格和韵律通常取决于上下文,为了使Alexa与用户的互动尽可能自然,对她而言也应是如此。例如,设想以下交流:

用户:Alexa,播放Village People。
Alexa:你指的是乐队、专辑还是歌曲?

人类说话者会很自然地强调“乐队”、“专辑”和“歌曲”这些与缺失信息最相关的词语。

借助说话风格适配,Alexa将开始以同样的方式改变韵律模式,以适应对话上下文。同样,她也会改变语气:在某些情境下,欢快、活泼的语气可能很合适,但如果Alexa刚刚未能成功完成一个请求,这种语气可能会令人反感。

说话风格适配的模型之一会以感知上下文的方式生成替代措辞,这样Alexa就不会反复问同一个问题。在一轮对话中,她可能会说:“你指的是歌曲吗?”,在另一轮中,则可能是:“那我应该播放歌曲吗?”,依此类推。

因此,说话风格适配标志着向“概念到语音”方向迈出了一步,这是文本到语音技术的预想后继者,它以概念的高级表示为输入,并基于上下文和其他信号,在如何传达该概念方面拥有相当大的自由度。例如,有时相同的概念内容可以通过语音语调、明确的语言表达,或两者结合来传达。

说话风格适配依赖于来自对话管理器的状态信息。这些信息包括用户的意图——用户想要执行的动作,例如播放一首歌曲——以及槽位值——动作涉及的具体实体,例如歌曲名称。

它还包括当前的对话状态——开始、展开或结束——以及对话管理器对其当前对话状态理解的置信度。

首先,状态信息传递给语音生成器的措辞重构模块,这是一个基于Transformer架构的神经网络,在一个大型的、领域特定的语言语料库上进行训练。基于状态信息,该模型生成一个替代措辞列表。

然后,这些重构的措辞传递给另一个神经网络,该网络经过训练,用于识别每个句子中的“焦点词”,这些词是语音中特别强调的良好候选对象。

对话状态信息、措辞重构模块提出的重构方案以及焦点词模型的输出,全部传递给另一个神经网络——发音器——它生成最终的输出语音。

焦点词信息与槽位信息一起,告诉发音器应该强调输入句子中的哪些词。来自对话管理器的置信度得分则决定了语音风格,范围从低到高的兴奋程度。

然而,这仍然是第一天,我们正在试验利用其他上下文信息来进一步定制Alexa的回应。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.zskr.cn/news/179174.html

相关文章:

  • ABB变频器故障解析:从代码识别到解决方案
  • VMware Unlocker终极指南:5分钟搞定macOS虚拟化
  • 深度剖析 USB 3.2 Gen 2x2 实现机制与优势
  • NVIDIA显卡色彩校准终极指南:3分钟实现专业级色彩还原
  • 深岩银河存档编辑器:5分钟速成完整实战指南
  • Calibre豆瓣插件完全手册:轻松实现电子书元数据自动化管理
  • Windows苹果设备驱动完整配置指南:彻底解决连接与网络共享问题
  • ROFL-Player:5分钟掌握英雄联盟回放分析技巧
  • PyTorch-CUDA-v2.9镜像能否用于SLAM建图?深度学习vs传统方法
  • 终极解决方案:轻松修复Windows软件运行问题
  • Video2X:革命性AI视频增强技术的深度解析与应用指南
  • PyTorch-CUDA-v2.9镜像是否预装git?已预装,方便克隆项目
  • Chaldea游戏助手:终极FGO效率工具,让你的从者养成事半功倍
  • Beyond Compare 5 使用指南:本地授权管理方案
  • ScratchJr桌面版:开启儿童编程启蒙的创意之门
  • DoubleQoL模组完全指南:解锁《工业队长》10倍速游戏体验
  • 如何快速获取网盘直链:LinkSwift下载助手完整指南
  • 5分钟掌握PPTist导入魔法:让PowerPoint文件在Web端完美重生
  • WindowResizer:彻底解决窗口尺寸限制的终极方案
  • PyTorch-CUDA-v2.9镜像支持RLHF吗?大模型人类反馈强化学习
  • Magistral 1.2本地部署教程:24B多模态AI轻松跑
  • PyTorch-CUDA-v2.9镜像支持Active Learning主动学习吗?标注成本降低策略
  • TTS-Backup:Tabletop Simulator终极备份解决方案
  • 如何快速掌握Universal-Updater:3DS自制应用管理完整指南
  • ComfyUI ControlNet Auxiliary Preprocessors突破性使用指南:从零到精通的完整教程
  • Conda环境冲突频发?切换到PyTorch-CUDA-v2.9镜像彻底解决
  • QMC音频解密工具:简单快速解锁加密音乐文件
  • 终极Hearthstone-Script指南:轻松掌握炉石传说自动化对战技巧
  • B站缓存视频终极解锁:一键将m4s转成MP4的完整指南
  • 2025年评价高的高压力快开盲板/GD快开盲板用户好评厂家推荐 - 行业平台推荐