一文看懂语音交互技术的前世今生
-
面议
让机器人像人一样与人对话,是人类一直以来的梦想。虽说在不少科幻电影里,机器人可以和人自然交流,甚至能谈情说爱了,但现实与理想的差距还是很大的。
01
语音交互的定义
在没有机器之前,人类早的交互方式就是语言和动作。在现如今自然交互的趋势下,人类又回到了语音这种交互形式上。语音交互可以理解为,人类与设备通过自然语言完成了信息的传递。
在载体上,有电脑、手机,以及音箱、电视、汽车、具有语音交互功能的可穿戴设备等硬件载体。电话机器人就是以电脑&手机为载体的语音交互系统,完成对用户声音的拾取、识别、理解及反馈。
02
语音交互的发展历史
语音交互系统发展的历史不短,早在1952年,贝尔实验室就开发了能够识别阿拉伯数字的系统Audrey。IBM在1962年发明了台可以用语音进行简单数学计算的机器Shoebox。
上世纪70年代后,小词汇量、孤立词的识别取得了实质性的进展。
1987年12月,李开复开发出世界上个“非特定人连续语音识别系统”。
1997年,IBMViavoice语音听写产品问世。
2011年初,微软的深度神经网络(DNN)模型在语音搜索任务上获得成功。同年,科大讯飞在国内将DNN技术运用到语音云平台,并提供给使用。
2011年10月,苹果发布手机助理Siri,人机交互翻开新篇章。
2014年11月,亚马逊智能音箱Echo发布。
现今,语音识别技术已经实现了自由说识别,从算法到模型都有了质的发展,语音技术陆续进入工业、家电、通信、车载导航、医疗、客服、家庭服务、消费电子产品等各个领域中。
03
语音交互系统的组成板块
典型的语音交互系统模块主要分三块,语音识别(ASR)将声音转化成文字,第二步经过自然语言处理(NLP),将文字的含义解读出来,处理并给出反馈,后是语音合成(TTS),将输出信息转化成声音。
语音交互原理:用户说话,系统识别并
理解,之后再转换成声音反馈出来。
04
影响语音交互应用的几大问题
语音交互从开发到使用,虽然历经了半个多世纪,一些困难始终阻扰着它的应用。
①语音收集问题:远场识别难,环境噪音、说话习惯等影响语音质量。
语音质量高,语音识别结果才好。理想的语音收集环境是——距离声源很近、环境安静、发音人的普通话非常标准,而真实的应用环境是非常复杂的。
根据距离的远近,语音识别分近场识别和远场识别,手机上的语音交互就是典型的近场:距离声源近,语音信号的质量较高。用户会通过点击开始和结束进行信号采集,可以录到用户说的话。但远场的难度很大,声源远,不知道声源具体位置,环境中存在噪声、混响和反射,干扰语音的收集。
②语音识别正确率:识别效果受多重因素影响,不同维度下波动大。
语音识别不只是将语音翻译成文字那么简单,还包括语音中的识错、纠错。如果说话人本身就是正确率高的人,他的准确率数据必然好看。
拿同一份演讲来说,标准普通话的演讲、夹带方言、中英文穿插、英文演讲,不同的演讲语言、方式,在不同的场所,都会出现不同结果。
语音识别需将连续的讲话分解为词、音素等单位,对自然语音的识别和理解、语音信息量大、语音的模糊性、单个字母或者字的语音特性受上下文影响,音速、音量、音调等变化,含义也会不同。
识别词错误率(WordErrorRate),过去四十年里语音识别已取得了很大进展。一是依靠技术,包括隐马尔可夫模型、机器学习和各种信号处理方法,二是庞大的计算资源和训练数据,由于互联网存在,现在可以获得大量日常语音,包含各种材料和环境。
误字率改进情况
③语义理解:不同的场景与背景下,语义不同。
机器知道你说了什么还不够,他还得理解意义,才能做出相应的反应。理解语言是一个从词语逐渐递进到事件的过程,中文语义理解技术更为复杂,有分词、歧义与未知语言处理等问题。
英语的每个单词都能被机器读取出来,但是中文很困难,例如“乒乓球拍卖完了”对于机器来说,就有三种意思:乒乓球|拍卖|完了、乒乓|球拍|卖完了、乒乓球拍|卖完了。对于人来说很简单,根据前后文就能马上知道,但是对于机器来说则极为艰难。
④多轮对话自然度:次数越多,难度倍增。
人类的对话是很巧妙的,对话内容会根据背景信息调整,会预设对方知道哪些事情,而机器人没有。对话轮数越多,语音交互任务难度增加。缺少关联性人机对话,看似是多轮对话,实际上却是多个单轮对话。
比如:
“明天的天气怎么样?”
“明天下雨“
“后天呢?”
“......”
完整的问题是“后天的天气怎么样”,如果省略了,机器人就不能明白后天是指后天的天气了。
05
AI语音技术的落地佳场景
语音交互系统是一项非常复杂的工程,当前AI语音技术的发展还不足以理解所有场景,但能完成特定场景、特定的任务中的对话要求。客服行业服务具有内容标准、重复度高、可移植性高等特点,因此是AI语音技术落地的佳场景。
06
语音交互设计的流程
良好的话术设计是语音交互赖以实现的基础,由于语言尤其口语的形式不固定,变化很大,这给话术设计带来不小的挑战。
语音交互设计大致分为三步:建立功能目的;其次撰写脚本,即客户和系统如何对话;第三步是制定流程、客户服务路径。
Yeta的训机师们从用户视角出发,遵循“需求调研→可行性评估→产品设计→投入研发→批量测试→灰度上线→正式发布→数据分析→持续优化”设计流程,深入了解业务场景及目标用户,不断调整、提炼,再结合真实外呼情况持续优化,话术质量。
07
语音交互话术设计原则
好的话术要兼顾理性和感性原则,既对客户有用,也要令人愉悦。
①保持简洁,尊重客户时间。
②给予客户信任,遵循自然、拒绝生硬。
③以目标为中心,回应客户的核心意图,达成客户心中所想。
④考虑对话的场景,随需求及环境的变化而变化。
⑤听起来愉悦,但又不分散客户注意力。
⑥轮流交谈,当轮到客户说话时,不要贸然强行打断。
⑦提供事实信息,让客户自己做决策。