语音命令转换器实现设计

2018-09-10 14:39周瑞岩
计算机与网络 2018年23期
关键词:降噪语音识别数据库

周瑞岩

摘要:随着互联网技术的不断发展,语音识别、语音翻译等在生活中普遍应用。以现有基于互联网构建的语音识别技术为基础,对其原理进行分析,语音命令转换器利用离线数据库进行语音降噪处理,识别采集的语音信息并转换形成文本信息,与数据库的特定数据指令进行匹配,再按照指令格式输出用于试验训练,以提高采集信息的时效性。

关键词:降噪;音频采集;语音识别;语义分析;命令翻译;数据库

中图分类号:TP274文献标志码:A文章编号:1008-1739(2018)23-60-2

0引言

近年来,随着互联网技术的不断发展,云技术和大数据技术构建的智慧城市、智慧交通等已经惠及生活,较前些年仅可以通过电话、短信方式进行通信,现以互联网技术构建的微信语音、微信视频等通信方式更方便,虽然语音识别、语音翻译等应用APP在生活中随处可见,但该技术却未曾在军事应用中实现,随着部队深化改革的推进,以往通过辅助终端发送命令或装备信息的方式很难在时域、频域及可用性上满足试验训练考核的需求,为此借助当前市场上的语音识别、语音翻译等技术及实现模式,以试验训练需求为根本,进行语音命令转换器的设计。

该设备实现中文自然语音命令的识别,并转换成相应的设备控制指定报文。输入为中文语音命令,内部进行识别、语义翻译及存储结果,同时可以实现语音命令翻译为设备控制报文。

1系统国内外现状

围绕着语音识别翻译,国内外有很多围绕互联网开发的相应软硬件系统。

1.1国外现状

在国外有Nuance、Google、Apple、MSRA语音等公司进行语音识别的开发,还有多款开源软件,如HTK、Kaldi、Speech等。

①HTK[1]:一款语音识别工具包,源码可免费获取。识别流程:语音文件---》HMM---》文件信息;训练流程:训练语音文件---》HTK---》HMM。

②Kaldi[2]:一款非常强大的语音识别工具库,主要由Daniel Povey开发与维护,目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别模型的训练与预测。其中DNN-HMM中的神经网络还有配置文件自定义,DNN、CNN、TDNN、LSTM及Bidirectional-LSTM等神经网络结构均可支持。

③Speech工具库:使用Python3依赖Speech模块,弊端是离线版开发难度大。

1.2国内现状

国内开发类似软件的公司有科大讯飞、云知声及百度语音等,其中科大讯飞的多款产品应用广泛,如讯飞翻译机2.0、讯飞输入法、讯飞听见、阿法尔蛋及叮咚音乐盒,还有支持开发的语音引擎。

2方案设计

2.1总体设计

语音命令转换器采用独立的系统设计[1-2],输入接口为语音,输出可以是串口、网口或者其他类型接口。为了保证语音采集的清晰可靠,采集设备可以采用高性能的降噪麦克风或麦克风阵列,通过音频接口输入计算机。命令的报文输出可以根据具体的操作设备输入不同而采用不同的接口,例如有UART、CAN及以太网等[3-4]。

为了提高识别准确度,命令需要按照预定义的格式提前在系统中存储。当语音命令转换器收到语音指令后,会根据在系统中预置的命令去匹配目标设备和具体的操作指令[5]。

例如:系统提前预定义命令如下:

:(开机)

猜你喜欢
降噪语音识别数据库
数据库
通话中的语音识别技术
语音信号的降噪研究
仿生耦合风机叶片模型降噪与增效分析
空调噪音的来源、诊断和降噪研究
面向移动终端的语音签到系统
水下结构覆盖粘弹性材料的降噪复矢径法分析
数据库
数据库
数据库