语音交互设计


从智能音箱工作流程看AI产品经理/运营职责

还记得那句熟悉的“若琪,帮我设置明天早上8点的闹钟”吗? 这句话背后,隐藏着智能音箱复杂的工作流程以及AI产品经理/运营的重要职责。本文将以此为起点,带你层层深入,揭开智能语音交互的神秘面纱。

语音交互

2018年全球智能音箱销量突破1.2亿台,其中中国市场占据2200万台。语音交互,作为最自然的交互方式之一,正随着智能音箱的普及而崛起。其高效率、低门槛、解放双手及情感交流的优势,使其市场规模在2020年预计达到近100亿美元 (数据来源: BBC)。

如下图所示,一次完整的语音交互包含:唤醒→ASR→NLP→TTS→Skill 五个关键环节。

语音交互

一、唤醒:智能音箱的“耳朵”
与智能手机不同,智能音箱需要先被唤醒。常见方式有两种:
按键激活: 例如锤子的大卫和希瑞音箱,通过外设按钮进行激活。
语音唤醒: 这是目前业界主流方式,通过预设的唤醒词,例如“天猫精灵”、“小爱同学”、“若琪”等,来激活音箱。
1.1 为什么唤醒词通常是4音节?
音节越短,误唤醒的概率越高。而误唤醒,即设备被环境音错误激活,是行业难题。
1.2 如何压制误唤醒?
除了持续优化算法模型,常见的解决方案还有:
云端二次校验: 将用户语音上传云端进行二次确认,再决定本地是否响应。缺点是会延长唤醒响应时间。
产品策略调整: 例如,用户对夜间误唤醒的容忍度极低,因此可以通过技术手段压制夜间误唤醒,尽管会降低夜间唤醒的灵敏度,但整体利大于弊。
1.3 声纹检测:识别你的声音
唤醒词的另一个功能是声纹检测,即通过分析用户声音特征来判断用户身份。但受限于技术成熟度,目前声纹识别准确率不高,应用场景有限。
1.4 进阶知识点:
智能仲裁: 当家庭中存在多台设备时,如何确保只有一台设备响应用户的指令?这就需要智能仲裁功能,根据用户所在空间和距离设备的远近,选择最合适的设备进行响应。
算法产品经理职责: 了解算法能力和边界,提出产品解决方案,例如:设置夜间模式压制误唤醒、支持用户自定义唤醒词等,提升用户体验。
唤醒指标: 唤醒率、误唤醒率、唤醒响应时长,并细分到不同环境 (安静、噪音、AEC等) 和不同唤醒方式 (正常、快速、One-shot) 下进行评估。
二、ASR:让机器“听懂”你说的话
ASR,即自动语音识别,将语音信号转换为文字信息。
2.1 ASR工作原理
语音识别系统一般分为训练和解码两个阶段:
训练: 利用大量标注的语音和文本数据,训练声学模型和语言模型。
解码: 利用训练好的模型,将语音数据识别成文字。
2.2 提高识别准确率
为了提高特定内容的识别准确率,通常会使用热词服务,对配置的热词赋予更高的识别权重。
2.3 进阶知识点:
寻向/声源定位: 多麦克风阵列设计,通过判断用户方向,使用对应方向的麦克风采集语音数据,保证语音清晰度。
降噪: 消除环境噪音,提高识别准确率。
AEC (回音消除): 消除设备自身播放声音对拾音的影响。
VAD (语音端点检测): 确定人声的起始和结束时间点。
算法运营职责: 负责ASR改写,将识别错误的结果强制纠正,并收集相关语料用于算法迭代。
词错误率 (WER): 语音识别系统常用的评估标准。
三、NLP:理解你的意图
NLP,即自然语言处理,将用户的指令转换为结构化的、机器可理解的语言。
3.1 NLP工作逻辑
NLP 将用户的指令进行 Domain (领域) → Intent (意图) → Slot (词槽) 三级拆分。例如,指令 “帮我设置一个明天早上8点的闹钟” 中,领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。
3.2 算法运营职责:
NLP说法和词表扩充
评估指标:词错误率 (WER)
四、TTS:让机器“开口说话”
TTS,即语音合成,将文本信息转换为语音输出。
4.1 TTS主流方法:
拼接法: 从预先录制的大量语音库中,选择所需的基本发音单位进行拼接。优点是自然度高,缺点是成本高。
参数法: 使用统计模型生成语音参数,并将其转换为波形。优点是成本低,缺点是自然度相对较差。但随着技术进步,参数法的效果已大幅提升,成为业界主流。
五、Skill:AI时代的“APP”
Skill,即技能,用于处理 NLP 识别出的用户意图,并做出符合预期的反馈。
5.1 语音 Skill 设计原则:
回复多样性: 高频指令尽可能提供多种回复语句,避免重复单调。
重要信息后置: 将重要信息放在句子后面,符合“时近效应”心理,加深用户印象。
合理简洁: 用户可感知的操作,回复简洁;用户不可感知的操作,回复完整,例如设置闹钟,需要完整确认信息,确保用户安心。
5.2 Skill 建立流程:
1. 定义用户特征及使用场景
2. 定义产品人设
总结
智能音箱的背后,是 AI 技术与产品设计的完美融合。从唤醒、语音识别,到自然语言处理、语音合成,再到技能设计,每一个环节都充满挑战和机遇。 了解智能音箱的工作流程,以及 AI 产品经理/运营的职责和考核指标,将帮助我们更好地把握智能语音交互的未来趋势。

步骤 3:收集用户意图并制定语义协议,其中包括意图和槽位的定义。例如,建立一个“添加闹钟”的意图,其中一个槽位是“DateTime”,用于表示具体时间点。

步骤 4:撰写文本到语音 (TTS) 文案,以在用户指令处理后提供适当的反馈。例如,反馈文本可以是“好的,我将在明天早上 8 点准时叫醒你”。

步骤 5:设计业务逻辑。例如,当用户在午夜过后的时间说“帮我设置明天 12 点的闹钟”时,很有可能意图是设置当天上午 8 点的闹钟。可以直接将其设置为上午 8 点的闹钟,但需要明确告知用户。

步骤 6:进行开发和实现,并观察数据。

  • 技能的设计应尽可能涵盖所有可能的意图和表达方式,并提供最恰当的响应。
  • 技能的活跃率和留存率是技能产品的核心评估指标。

以上。

作者:Jason(微信号 Smart_Byte),Rokid AI 产品经理,前阿里资深产品经理。

本文由 @Jason 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议