郝欧亚,吴 璇,刘荣凯
(1.华北理工大学电气工程学院,河北 唐山 063210;2.华北理工大学理学院,河北 唐山 063210)
语言最开始是人与人之间所特有的交流与沟通的工具,随着科学技术的不断发展,语音并不只是人与人之间的交流工具,也成为人与机器之间的交流工具[1]。人类可以通过语言与机器进行沟通,并传达自己的指令,并且机器会根据指令去做相应的工作[2]。近些年,智能家居发展势头迅猛,日常生活中与机器的交流也越来越多,语音识别技术是智能家居的重要组成部分,它能够使得人与机器更好地交流[3]。目前,科技正在改善着我们的生活方式,电视中加入了人工智能的语音识别功能,可以不用使用遥控器,对着屏幕讲话就可以对电视机进行控制,使得生活更加智能化。
智能语音交互是以语音输入为基础的新型交互模式,通过与机器进行语音交流就能够接收到反馈的结果,其系统主要由语音的采集与识别、语义的理解以及语音的合成组成。语音采集主要是对音频进行录入和采样以及对音频进行编码;语音的识别主要是利用对语音识别的引擎来把采集的语音按照特定的场景与语音识别数据库中的数据进行对比匹配,待匹配成功后,把匹配成功获得的结果转变为文本或者命令进行输出;语义的理解主要是把语音识别所转出的文本或命令完成对应的操作;语音合成是将对应的文本或命令转化为声音输出。语音识别数据库既可以放在终端也可以放在云端上,由于目前所使用的语音识别数据库的算法比较复杂并且数据量巨大,所以大都选择放在云端。语义理解数据库同语音识别数据库一样既能放在终端也能放在云端,由于这个数据库需要与操作系统或应用进行耦合绑定,所以通常会放在终端。
3.1.1 应用背景
目前广播电视行业发展迅速,电视的频道以及节目源也越来越多,传统的电视使用遥控器来操作,其中的弊端日益显现出来,比如,用户需要记住大量的电视频道来调台,太过繁琐,所以开发能够进行语音操控的电视机非常有必要,从而智能语音识别技术为了满足需求也被慢慢地应用到电视中去。
3.1.2 应用场景
将智能语音识别技术应用到电视中,是对过去使用遥控器方式来控制电视方式的创新,主要包含语音输入、语音处理以及语音执行三个方面。将智能语音识别技术应用到电视中,需要具备下列条件:网络连接、本地识别、通过命令方式执行。下面将对目前市面上智能语音识别技术在电视上的应用场景进行介绍:
(1)语音遥控开关、选台。智能语音识别技术在电视中最典型的应用就是语音遥控。电视中有一个微型计算机系统,这个系统通过智能技术可用声音来激活,它能够识别人的语言,然后来控制电视机的程序运行。另一种语音控制方式是在智能手机上安装控制电视的软件,然后指令再发送到遥控器中,遥控器吧指令转换为红外信号实现对电视的控制。当前市面上在售的智能选台系统,其中包含了智能语音芯片,它在保留原本遥控功能的基础上,还可以实现开关、选台、调节音量等功能。
(2)音乐图谱检索。想要用电视听音乐时,可以语音输入“林俊杰的歌曲”,现在的电视厂家一般都与音乐软件商有合作,所以在听到语音后会在电视上呈现一个林俊杰歌曲的播放界面,有的可能以图片形式展示,有的可能以歌单形式展示。
(3)视频图谱检索与多轮对话。在视频图谱检索方面的应用已经非常常见,主要来说一下多轮对话。例如,想看“综艺节目”,然后电视上会先出来一系列的比较热门的综艺节目,如果上面没有符合要求的就继续说“谢娜的”,智能语音就会根据这两次的语义进行筛选,最终筛选出符合要求的综艺节目。
(4)图像识别。此功能就是对电视上呈现的图像进行识别,主要是对人脸、花草、建筑物等进行识别。比如,当你在看电视时,电视上出现一种你不认识的植物,可以对着电视机说“这是什么植物”,电视就会对图像进行识别,最终反馈出来。
3.1.3 智能语音识别技术对电视产业的影响
现在在电视中加入智能语音识别技术主要是为了代替遥控器的功能,使用语音来控制电视,可以直接通过说话就能调出电视机的菜单以及电视节目等,同样还能够进行文字的输入,直接查询到以文字信息当作索引的“非标准菜单”内容。也就是说现在的智能语音识别技术不仅能替代传统遥控器的所以功能,还有一些遥控器所不具有的新的功能。未来电视产品的发展将会通过智能语音识别技术打开一片新的应用市场。传统的电视机内容的传导只能是单向传输,而现在的智能语音电视可以实现双向的交互,从而使得电视机能够成为一个语音交互与信息处理的机器,能够控制其他智能家居产品。从某种意义上来说,具有智能语音识别功能的智能电视是我们步入人工智能这个时代的窗口,并且把这个当作引线,涵盖的是整个家居生活、家庭以及个人的“智能应用”体系网络,还有这个体系网络背后所依赖的云存储与计算体系。
现在很多家庭买的空调一般都不需要连接网络就可以操控运行,所以就不能实现语音功能,因为缺少网络这个必备的条件。这样就需要对空调进行本地操作,让其具有语音识别处理功能,用户能够朗读命令来控制空调本身所具有的词库,空调识别自身词库中的命令来完成用户的指令。
(1)环境中的噪声干扰
语音的信号多种多样,而且在一些嘈杂的环境中,语音很难被识别,目前所公布的语音识别准确率为97%这只是在室内环境相对安静的情况下才可以达到,实际中这样安静的情况很少存在,而且现在仍然没有一个行之有效的方法来解决环境中的噪音干扰。
(2)不标准的语音识别率比较低
智能语音识别技术在机器学习的推动之下进步了许多,但是仍然存在一些不足。目前的语音识别技术大都针对的普通话用户,对于掺杂着方言的语音识别起来可能会比较困难。但是,现在很多人的普通话都不是很标准,多多少少会掺杂一些地方口音,这就使得语音识别软件在识别时会出现差错,与预期的结果不一致。
(3)容错率的处理
由于语音的发布者有时会说错字,这就会使得软件在识别时无法正确识别其语义,最终使得准确率受到影响,这时需要进行手动修改或者重新输入语音。先在,一些企业也正在研发将不通顺的语句理解过来的语音识别软件。
现在,我国的智能语音识别技术已经进入到一个瓶颈期,环境中的噪声干扰问题,方言识别问题以及容错率问题都不能得到很好地解决,限制了语音识别技术的向前发展。而且智能语音识别技术在未来智能设备的发展中有着巨大的市场,能够吸引更多的商业巨头来加入。目前,国内的互联网巨头都在进军语音市场,比如百度的小度语音助手、小米的小爱音箱等都陆续问世。
截至目前,我国在语音识别技术方面的研究也取得了一定的进步,智能手机是目前应用语音识别功能最多的,可以实现语音打字,语音聊天等功能。未来我国的智能语音识别技术将会随着科技的发展逐渐进步,最终应用到生活的方方面面。