【一文看懂语音交互技术的前世今生】-供应-黄页88网

商品详情

更新：2024-10-30
地区：陕西西安
名称：耶塔
联系：李彩雪 13227791207

让机器人像人一样与人对话，是人类一直以来的梦想。虽说在不少科幻电影里，机器人可以和人自然交流，甚至能谈情说爱了，但现实与理想的差距还是很大的。

01
语音交互的定义

在没有机器之前，人类早的交互方式就是语言和动作。在现如今自然交互的趋势下，人类又回到了语音这种交互形式上。语音交互可以理解为，人类与设备通过自然语言完成了信息的传递。

在载体上，有电脑、手机，以及音箱、电视、汽车、具有语音交互功能的可穿戴设备等硬件载体。电话机器人就是以电脑&手机为载体的语音交互系统，完成对用户声音的拾取、识别、理解及反馈。

02
语音交互的发展历史
语音交互系统发展的历史不短，早在1952年，贝尔实验室就开发了能够识别阿拉伯数字的系统Audrey。IBM在1962年发明了台可以用语音进行简单数学计算的机器Shoebox。

上世纪70年代后，小词汇量、孤立词的识别取得了实质性的进展。
1987年12月，李开复开发出世界上个“非特定人连续语音识别系统”。
1997年，IBMViavoice语音听写产品问世。
2011年初，微软的深度神经网络（DNN）模型在语音搜索任务上获得成功。同年，科大讯飞在国内将DNN技术运用到语音云平台，并提供给使用。
2011年10月，苹果发布手机助理Siri，人机交互翻开新篇章。

2014年11月，亚马逊智能音箱Echo发布。
现今，语音识别技术已经实现了自由说识别，从算法到模型都有了质的发展，语音技术陆续进入工业、家电、通信、车载导航、医疗、客服、家庭服务、消费电子产品等各个领域中。

03
语音交互系统的组成板块

典型的语音交互系统模块主要分三块，语音识别（ASR）将声音转化成文字，第二步经过自然语言处理（NLP），将文字的含义解读出来，处理并给出反馈，后是语音合成（TTS），将输出信息转化成声音。

语音交互原理：用户说话，系统识别并
理解，之后再转换成声音反馈出来。

04
影响语音交互应用的几大问题

语音交互从开发到使用，虽然历经了半个多世纪，一些困难始终阻扰着它的应用。
①语音收集问题：远场识别难，环境噪音、说话习惯等影响语音质量。

语音质量高，语音识别结果才好。理想的语音收集环境是——距离声源很近、环境安静、发音人的普通话非常标准，而真实的应用环境是非常复杂的。
根据距离的远近，语音识别分近场识别和远场识别，手机上的语音交互就是典型的近场：距离声源近，语音信号的质量较高。用户会通过点击开始和结束进行信号采集，可以录到用户说的话。但远场的难度很大，声源远，不知道声源具体位置，环境中存在噪声、混响和反射，干扰语音的收集。

②语音识别正确率：识别效果受多重因素影响，不同维度下波动大。

语音识别不只是将语音翻译成文字那么简单，还包括语音中的识错、纠错。如果说话人本身就是正确率高的人，他的准确率数据必然好看。
拿同一份演讲来说，标准普通话的演讲、夹带方言、中英文穿插、英文演讲，不同的演讲语言、方式，在不同的场所，都会出现不同结果。
语音识别需将连续的讲话分解为词、音素等单位，对自然语音的识别和理解、语音信息量大、语音的模糊性、单个字母或者字的语音特性受上下文影响，音速、音量、音调等变化，含义也会不同。
识别词错误率（WordErrorRate），过去四十年里语音识别已取得了很大进展。一是依靠技术，包括隐马尔可夫模型、机器学习和各种信号处理方法，二是庞大的计算资源和训练数据，由于互联网存在，现在可以获得大量日常语音，包含各种材料和环境。

误字率改进情况

③语义理解：不同的场景与背景下，语义不同。

机器知道你说了什么还不够，他还得理解意义，才能做出相应的反应。理解语言是一个从词语逐渐递进到事件的过程，中文语义理解技术更为复杂，有分词、歧义与未知语言处理等问题。
英语的每个单词都能被机器读取出来，但是中文很困难，例如“乒乓球拍卖完了”对于机器来说，就有三种意思：乒乓球|拍卖|完了、乒乓|球拍|卖完了、乒乓球拍|卖完了。对于人来说很简单，根据前后文就能马上知道，但是对于机器来说则极为艰难。

④多轮对话自然度：次数越多，难度倍增。

人类的对话是很巧妙的，对话内容会根据背景信息调整，会预设对方知道哪些事情，而机器人没有。对话轮数越多，语音交互任务难度增加。缺少关联性人机对话，看似是多轮对话，实际上却是多个单轮对话。
比如：
“明天的天气怎么样？”
“明天下雨“
“后天呢？”
“......”
完整的问题是“后天的天气怎么样”，如果省略了，机器人就不能明白后天是指后天的天气了。
05
AI语音技术的落地佳场景

语音交互系统是一项非常复杂的工程，当前AI语音技术的发展还不足以理解所有场景，但能完成特定场景、特定的任务中的对话要求。客服行业服务具有内容标准、重复度高、可移植性高等特点，因此是AI语音技术落地的佳场景。

06
语音交互设计的流程

良好的话术设计是语音交互赖以实现的基础，由于语言尤其口语的形式不固定，变化很大，这给话术设计带来不小的挑战。
语音交互设计大致分为三步：建立功能目的；其次撰写脚本，即客户和系统如何对话；第三步是制定流程、客户服务路径。
Yeta的训机师们从用户视角出发，遵循“需求调研→可行性评估→产品设计→投入研发→批量测试→灰度上线→正式发布→数据分析→持续优化”设计流程，深入了解业务场景及目标用户，不断调整、提炼，再结合真实外呼情况持续优化，话术质量。

07
语音交互话术设计原则

好的话术要兼顾理性和感性原则，既对客户有用，也要令人愉悦。

①保持简洁，尊重客户时间。
②给予客户信任，遵循自然、拒绝生硬。
③以目标为中心，回应客户的核心意图，达成客户心中所想。
④考虑对话的场景，随需求及环境的变化而变化。
⑤听起来愉悦，但又不分散客户注意力。
⑥轮流交谈，当轮到客户说话时，不要贸然强行打断。
⑦提供事实信息，让客户自己做决策。

一文看懂语音交互技术的前世今生

商品详情

热门搜索

电话机器人信息