厦门视尔沃电子科技有限公司 杨爱祥
随着云计算和大数据快速发展,人工智能兴起,继苹果手机Siri语音控制功能, 亚马逊ECHO智能音箱上市后,智能语音已经成为风靡全球的一项应用,作为网络技术快速发展的中国,相继出现智能语音产品,如代表性的京东与科大讯飞联合推出的叮咚音箱,科大讯飞发布的灵犀语音助手和讯飞语音云产品,继而在中国成长了一批智能语音的科技公司。Siri是近场语音,而ECHO则是远场语音的应用。
智能设备与人交互有三大方式:触控、手势和语音,语音交互在家居场景中,更符合自然合理的特性,可以以更少的操作步骤来完成需要的工作,应该逐渐走入主流的是语音的交互方式,近场语音依赖于近距离的使用终端,而远场语音的应用更具有开放性和便利性,智能液晶电视具有普及面广,使用频率高,可视化屏幕大优势,智能电视上搭载远场语音智能方案,对于培养用户习惯有着得天独厚的优势。可成为远场语音发展的有效手段。
电视远场语音系统构建如图1所示:
图1
麦克风拾音:通过麦克风硬件模块采集语音信号,麦克风排布可多种形式,如线性、L型、球形,不同形状排布阵列决定着采用麦克风数量,最终的目的都是匹配特定的场景,让最终远场交互的精度最优。麦克风的选择可以是ECM或MEMS麦克风,MEMS麦克风可以是数字的(集成ADC)或是模拟的(如图2所示)。
图2
阵列设计主要有双麦和多麦,双麦大多应用在诸如电视类只需接收180度音源的产品。多麦应用在电视,音箱,智能家居设备等各类产品,分多麦线性阵列和多麦环状阵列,可接收360度音源。
语音提取:阵列系统的语音芯片对麦克风在环境中采集的多路语音信号进行一系列的运算,实现回声消除,降噪处理,提取有效特征指令。过模拟输出或者IIS格式输出给电视主芯片。语音处理芯片分两种。一种是通用CPU运行语音降噪软件算法。一种是用ASIC芯片硬件处理的方式得到干净的语音指令信息。
智能液晶电视远场语音提取、处理方案构建流程如图3所示:
图3
语音识别、语义理解:语音识别是把语音转化为文本信号处理。语义理解是从文字信息提取指令(如上图语音指令操作节点)。语音识别和语义理解是一门新兴边缘学科,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学。综合应用现代语音学、音系学语法学、语义学、语用学的知识,实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。随着人类对人机交互语言的不断探求,以及大数据技术的不断发展,人们在语音识别,语音理解的道路上,通过不断的语言重复训练,如今已经取得一定成果。
智能电视语音业务:智能语音支持一些通用业务和垂直领域定制业务,根据实际产品需求设计,诸如在线视频点播、菜单操作、智能家居控制,购物、聊天、知识百科、天气查询、路况查询、视频搜索、音乐搜索等等,这些功能可以集中在液晶电视这个大屏入口上实现。智能电视项目可以搭载远场语音功能来实现以上业务功能,提高用户体验,给予用户更好的便利性。智能语音业务需要语音厂商的内容生态支撑,语音识别、语义理解代表性厂商主要有主要厂商:科大讯飞、百度度秘、云知声、思必驰、捷通华声、腾讯叮当。
智能电视远场语音功能的设计形态构建:电视产品远场语音方案的选择,依据产品定位,结合成本和开发周期,可采用以下3种形态设计(如图4所示)。
图4
1.USB端口接入远场语音功能模块,可固定在机器上或采用延长的数据线外接,将功能模块做成音箱或者摆设置于电视柜等。此设计可以由用户在购买时自行根据喜好购买。
2.远场语音模块集成在电视机芯板内,犹如笔记本电脑摄像头一般,简洁,美观,大方。
3.远场语音模块做成无线音箱,或集成在无线遥控器等。通过Wifi、蓝牙或者RF 2.4 G通讯等方式完成声音信号的传递,此设计能够给人以无限自由,时尚感。
电视有了远场语音,就可无论在客厅的任何位置,不用遥控器与电视对话,它都会给你快速的回应。由远场语音搭载对话式人工智能操作系统,基于语音识别、自然语言处理、机器学习、大数据等技术,借助强大的云端能力,为用户提供便捷、精准的语音交互体验,实现各种功能业务、信息等边看边查功能。遇看电视过程中的随时突发需求,用户不需要起身寻找遥控器,只要对话就可以解决需求,提供完美的体验。
随着技术的不断发展,语音生态内容商会得到进一步的提高,业务扩大,资源的付费门槛将会越来越能够让更多智能液晶电视商所接受,智能电视用户随意动动嘴,说几句话,就可以完成自己想要的操作,是未来发展的一个大方向。
[1]董永贵.微型传感器[M].清华大学出版社,2007.
[2][美]M. Tim Jones著.人工智能.2009.
[3]朱福喜,杜友福,夏定纯主编.人工智能引论.2006.