一、三个缩写全称+大白话解释
1. ASR
全称:Automatic Speech Recognition 自动语音识别
作用:把声音 → 文字。
例子:对着麦克风说话,软件把你的语音转换成文本。
一句话总结:听声音,转成字。
2. NLU
全称:Natural Language Understanding 自然语言理解
作用:读懂文字的意图。
拿到ASR转出来的文字,AI要明白你想干什么:
比如你说“明天早上7点叫我起床”,NLU识别出:意图=设置闹钟,时间=早7点。
一句话总结:读懂这句话想干什么。
3. TTS
全称:Text To Speech 文本转语音
作用:把文字 → 人声音频。
AI想好回答文案,再把文字朗读成语音播放出来。
一句话总结:把文字念出声。
二、完整对话链路(智能音箱/语音助手标准流程)
- 你开口说话 →ASR:语音转文字
- 拿到文字句子 →NLU:解析你的指令意图
- 后台业务逻辑生成回复文本
- 回复文字 →TTS:合成人声播放给你
整条流水线:
语音 → ASR文字 → NLU理解意图 → 生成回答 → TTS语音播报
三、通俗类比
- ASR = 耳朵,负责听见并写成字
- NLU = 大脑,负责听懂你的诉求
- TTS = 嘴巴,负责把答案说出来