语音交互设计

曙光号 2024-07-30 00:03:29 15浏览

从智能音箱工作流程看AI产品经理/运营职责

还记得那句熟悉的“若琪，帮我设置明天早上8点的闹钟”吗？这句话背后，隐藏着智能音箱复杂的工作流程以及AI产品经理/运营的重要职责。本文将以此为起点，带你层层深入，揭开智能语音交互的神秘面纱。

2018年全球智能音箱销量突破1.2亿台，其中中国市场占据2200万台。语音交互，作为最自然的交互方式之一，正随着智能音箱的普及而崛起。其高效率、低门槛、解放双手及情感交流的优势，使其市场规模在2020年预计达到近100亿美元 (数据来源: BBC)。

如下图所示，一次完整的语音交互包含：唤醒→ASR→NLP→TTS→Skill 五个关键环节。

一、唤醒：智能音箱的“耳朵”
与智能手机不同，智能音箱需要先被唤醒。常见方式有两种：
按键激活: 例如锤子的大卫和希瑞音箱，通过外设按钮进行激活。
语音唤醒: 这是目前业界主流方式，通过预设的唤醒词，例如“天猫精灵”、“小爱同学”、“若琪”等，来激活音箱。
1.1 为什么唤醒词通常是4音节？
音节越短，误唤醒的概率越高。而误唤醒，即设备被环境音错误激活，是行业难题。
1.2 如何压制误唤醒？
除了持续优化算法模型，常见的解决方案还有：
云端二次校验: 将用户语音上传云端进行二次确认，再决定本地是否响应。缺点是会延长唤醒响应时间。
产品策略调整: 例如，用户对夜间误唤醒的容忍度极低，因此可以通过技术手段压制夜间误唤醒，尽管会降低夜间唤醒的灵敏度，但整体利大于弊。
1.3 声纹检测：识别你的声音
唤醒词的另一个功能是声纹检测，即通过分析用户声音特征来判断用户身份。但受限于技术成熟度，目前声纹识别准确率不高，应用场景有限。
1.4 进阶知识点：
智能仲裁: 当家庭中存在多台设备时，如何确保只有一台设备响应用户的指令？这就需要智能仲裁功能，根据用户所在空间和距离设备的远近，选择最合适的设备进行响应。
算法产品经理职责: 了解算法能力和边界，提出产品解决方案，例如：设置夜间模式压制误唤醒、支持用户自定义唤醒词等，提升用户体验。
唤醒指标: 唤醒率、误唤醒率、唤醒响应时长，并细分到不同环境 (安静、噪音、AEC等) 和不同唤醒方式 (正常、快速、One-shot) 下进行评估。
二、ASR：让机器“听懂”你说的话
ASR，即自动语音识别，将语音信号转换为文字信息。
2.1 ASR工作原理
语音识别系统一般分为训练和解码两个阶段：
训练: 利用大量标注的语音和文本数据，训练声学模型和语言模型。
解码: 利用训练好的模型，将语音数据识别成文字。
2.2 提高识别准确率
为了提高特定内容的识别准确率，通常会使用热词服务，对配置的热词赋予更高的识别权重。
2.3 进阶知识点：
寻向/声源定位: 多麦克风阵列设计，通过判断用户方向，使用对应方向的麦克风采集语音数据，保证语音清晰度。
降噪: 消除环境噪音，提高识别准确率。
AEC (回音消除): 消除设备自身播放声音对拾音的影响。
VAD (语音端点检测): 确定人声的起始和结束时间点。
算法运营职责: 负责ASR改写，将识别错误的结果强制纠正，并收集相关语料用于算法迭代。
词错误率 (WER): 语音识别系统常用的评估标准。
三、NLP：理解你的意图
NLP，即自然语言处理，将用户的指令转换为结构化的、机器可理解的语言。
3.1 NLP工作逻辑
NLP 将用户的指令进行 Domain (领域) → Intent (意图) → Slot (词槽) 三级拆分。例如，指令 “帮我设置一个明天早上8点的闹钟” 中，领域是“闹钟”，意图是“新建闹钟”，词槽是“明天8点”。
3.2 算法运营职责：
NLP说法和词表扩充
评估指标：词错误率 (WER)
四、TTS：让机器“开口说话”
TTS，即语音合成，将文本信息转换为语音输出。
4.1 TTS主流方法:
拼接法: 从预先录制的大量语音库中，选择所需的基本发音单位进行拼接。优点是自然度高，缺点是成本高。
参数法: 使用统计模型生成语音参数，并将其转换为波形。优点是成本低，缺点是自然度相对较差。但随着技术进步，参数法的效果已大幅提升，成为业界主流。
五、Skill：AI时代的“APP”
Skill，即技能，用于处理 NLP 识别出的用户意图，并做出符合预期的反馈。
5.1 语音 Skill 设计原则：
回复多样性: 高频指令尽可能提供多种回复语句，避免重复单调。
重要信息后置: 将重要信息放在句子后面，符合“时近效应”心理，加深用户印象。
合理简洁: 用户可感知的操作，回复简洁；用户不可感知的操作，回复完整，例如设置闹钟，需要完整确认信息，确保用户安心。
5.2 Skill 建立流程：
1. 定义用户特征及使用场景
2. 定义产品人设
总结
智能音箱的背后，是 AI 技术与产品设计的完美融合。从唤醒、语音识别，到自然语言处理、语音合成，再到技能设计，每一个环节都充满挑战和机遇。了解智能音箱的工作流程，以及 AI 产品经理/运营的职责和考核指标，将帮助我们更好地把握智能语音交互的未来趋势。

步骤 3：收集用户意图并制定语义协议，其中包括意图和槽位的定义。例如，建立一个“添加闹钟”的意图，其中一个槽位是“DateTime”，用于表示具体时间点。

步骤 4：撰写文本到语音 (TTS) 文案，以在用户指令处理后提供适当的反馈。例如，反馈文本可以是“好的，我将在明天早上 8 点准时叫醒你”。

步骤 5：设计业务逻辑。例如，当用户在午夜过后的时间说“帮我设置明天 12 点的闹钟”时，很有可能意图是设置当天上午 8 点的闹钟。可以直接将其设置为上午 8 点的闹钟，但需要明确告知用户。

步骤 6：进行开发和实现，并观察数据。

技能的设计应尽可能涵盖所有可能的意图和表达方式，并提供最恰当的响应。
技能的活跃率和留存率是技能产品的核心评估指标。

以上。

作者：Jason（微信号 Smart_Byte），Rokid AI 产品经理，前阿里资深产品经理。

本文由 @Jason 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

语音交互设计

上一篇: JVC耳机

猜你喜欢

注册

上一篇: JVC耳机

猜你喜欢

登录

注册