机载任务系统语音交互技术应用研究

2017-12-20 01:53刘立辉王旭阳
电子科技 2017年12期
关键词:操作员引擎命令

刘立辉,杨 毅,王旭阳,徐 磊

(中国电子科学研究院,北京 100041)

机载任务系统语音交互技术应用研究

刘立辉,杨 毅,王旭阳,徐 磊

(中国电子科学研究院,北京 100041)

针对大型机载任务系统人机工效提升问题,文中采用一种适用于新系统研制和现有系统改造的语音交互技术应用方法,以实现通过语音技术提升系统人机工效的目的。该方法基于MVC分层架构,在各个层次上构建语音功能模块,包括针对机载任务系统的语音词库、应用开发库和语音交互插件,并定义3个层次模块之间的交互接口。该方法最大限度实现了语音功能的独立性。在部分典型机载任务对比试验中,采用该方法构建的语音交互系统提升人机工效15%以上。

机载任务系统;语音交互;人机交互;人机工效

随着人工智能技术的迅猛发展,国内外针对智能交互技术的研究日益广泛。从人机交互角度来看,改善信息输入手段、减少人工操作时间,是提高信息系统效率的重要手段[1]。在装备领域,“以人为本”、致力于操作员舒适性的新型人机交互技术应用是装备发展的必然趋势。

视觉和听觉是人类获取外界信息的最主要来源,语言是人类最重要、最有效、最常用和最方便的沟通方式[2]。自动语音识别(Automatic Speech Recognition,ASR)技术是目前最为成熟的人工智能技术,已被广泛应用于车辆、船舶等系统中。开展机载环境下的任务系统语音交互技术研究,对于优化系统人机工效,进而提升整个系统的运行效率,有着重要意义[3]。

本文提出一种适用于机载任务系统的语音交互技术应用方法,并结合典型机载任务对比试验,验证了语音交互技术对机载任务系统人机工效的改善效果。

1 语音技术及机载任务系统应用现状

1.1 语音技术现状

人类对语音技术的研究始于上世纪五十年代,AT&T Bell 实验室实现了首个突破性成果——Audry系统。该系统是全球首个可识别10个英文数字的语音识别系统。上世纪八十年代,随着人工神经元网络(Artificial Neural Network,ANN)的成功应用,语音技术得到了更进一步的发展。上世纪九十年代,语音识别系统走出实验室,发展成为了实用产品。国外企业包括IBM、Apple、AT&T、Google等公司均致力于语音产品的研发[4]。IBM公司于1997 年开发出的ViaVoice语音识别系统带有一个由32 000个单词组成的基本词汇表(可扩展至65 000个单词),平均识别率可以达到95%[2]。2006年,Hinton提出了深度神经网络(Deep Neural Networks,DNNs)技术[5],伴随硬件性能的显著提升和数据规模的爆发,深度神经网络技术得到了长足发展。语音识别技术在特定环境下的识别率已经超越了人类[6]。

我国语音技术研究工作一直紧跟美国,处于世界领先地位。中科院声学所、自动化所、清华大学、科大讯飞、百度、腾讯等科研机构均参与了研究,并取得了高水平的科研成果,其中科大讯飞语音识别系统的中文识别率首次突破了97%。除此之外,语音技术不仅覆盖了交通、教育、娱乐、金融等与人类生活息息相关的领域,还被应用于国家战略安全的相关领域。

1.2 机载任务系统语音技术应用现状

近十余年,我国加快了大型机载任务系统的研制工作,已经装备了诸如新型战斗机、预警机、侦察机、干扰机、反潜机等多门类的大型机载任务系统,积累了大量运行数据。其中,话音数据和指令数据对于装备改进研究具有重要意义。此类数据为机载语音识别、合成、翻译等技术研究提供了数据基础。

人机交互是机载任务系统运行过程中的重要组成部分,人机交互效率严重制约着整个系统的运行效率。目前,提升机载任务系统人机工效的主要措施包括针对屏幕画面、键盘/鼠标和座椅等设施的改进。通过加装语音交互功能提升大型机载任务系统人机工效的相关研究,尚处于早期试验阶段。

与常规系统相比,机载任务系统通常应用于救援系统或作战装备,具有更高的准确性和稳定性要求,其使用流程和应用环境更为复杂。实验表明,直接将民用语音交互系统置于机载噪音环境下,其语音识别率不到65%,远远满足不了此类系统的准确性要求。

2 机载任务系统语音应用难点

语音技术应用于机载任务系统面临诸多困难:

(1)鲁棒性:语音系统对环境依赖性强,要求测试条件和训练条件保持一致,否则系统性能会下降,尤其对于机载噪声环境,会因人的情绪或心理变化导致语音发生改变,对于多操作员的机载任务系统是个难题[2];

(2)语音采集:即使在安静环境下,语音系统一半以上的识别错误来自于语音采集。在机载任务系统中适配安装符合操作要求的采集设备是个难点[2];

(3)系统兼容:如何根据系统要求,选择合适的计算单元和处理策略是语音处理的重中之重,影响着系统计算资源分配策略,在一定程度上,对系统主业务功能存在影响;

(4)操作兼容:在机载任务系统中集入语音交互功能,将在一定程度上改变操作员的现有操作习惯。要使操作员更加自然地接受新功能需要做大量的前期工作。

综上所述,降噪技术和鲁棒性技术是语音交互应用的核心技术要求,对于提升复杂环境下的语音识别效果至关重要。语音引擎移植技术是机载任务系统语音交互功能集成的关键。

3 机载语音交互系统设计

3.1 设计原则

语音交互是众多人机交互手段之一,是对传统的基于GUI(Graphic User Interface)交互范式的指向型(Pointing)交互手段的一种补充,而非替代。语音交互的最大特点是可实现一语直达的“穿透式”命令控制,可显著压缩交互过程中的中间环节(如菜单浏览、选取等)。在设计语音交互系统时,应尽可能发挥其“穿透式”的交互效果,避免增加中间操作过程,使其在如下情况中突显出快捷性。

(1)看不见:当被操控对象处于操作员有效视野(Useful Field of View, UFOV)之外(或处于隐藏状态)时,适用“穿透式”的语音控制命令。例如,当通信控制界面未被打开时,操作员可直接发布“电台开机”语音控制命令,完成对通信电台工作状态的更改设置;

(2)顾不上:当操作员双手忙于操纵其他设备的同时,面临突发紧急情况,可通过发布语音命令,实现对系统的多功能并行控制。在机载任务系统中加装语音交互模块,建议遵循如下原则:

(1)加装语音功能,不应破坏现有操作习惯,以叠加补充为主;

(2)语音控制命令应便于记忆,且音调清晰,使操作员可以很方便地记忆并可准确地口头表述;

(3)语音功能模块应相对独立,将对系统主业务功能的影响降到最低。

3.2 机载语音交互场景

在机载任务系统中,常见的操作包括对话框操作、命令窗口操作、地图操作、表格操作和文本对话操作等。然而,并非所有机载操作都适合应用语音交互方式。经过分析,适用于语音交互的应用场景归纳总结如下:

(1)常用控制命令。语音交互的基础是操作员和计算机通过一致对应的命令词表相互理解。操作员记忆力有限,过多的命令词会增加操作员的记忆负荷,而计算机只能理解已注册过的命令词表。采用语音输入时,应尽可能限定在常用命令范围内,并且将语音命令词表固化,避免频繁改动;

(2)枚举值输入。语音输入变量应为可枚举的有限离散变量。语音交互周期为从语音发出开始到计算机识别响应为止。这个周期限制了语音交互的时效性,例如“地图放大”操作更适合滑块控制方式,而非操作员连续的语音输入“放大!放大!…”。但是,对于地图一次性放大N倍,采用语音控制就相对高效;

(3)精确表述短语。可精确表述的命令短语便于被计算机所理解,例如 “红外设备开机”,简单明了且无二义性,适合采用语音控制方式。而难以精确表述的命令就不宜采用语音控制,例如 “图片缩小”操作,需要操作员反复观察判断并持续反馈,不适合语音控制。在机载任务系统中,可精确表述的语音命令包括对象召唤(如对菜单、对话框等的调取)、档位/开关设置(如工作状态设置、图层显隐控制)等。当计算机收到语音命令时,经过匹配解析,可映射为对某个对象的控制操作,例如计算机收到“打开通信参数”语音命令时,弹出名称为“通信参数”的对话框。又如语音命令“雷达低空开机”,可使“雷达参数”对话框中的“雷达低空开机”选项处于被选中状态,体现了语音控制的“穿透式”快捷性特点;

(4)多槽命令输入。语音命令还可支持同时对多个参数的设置(多槽命令词),操作员可以一次性对多个参数进行设置,例如语音命令“26001 26002合批”即可完成两个批号目标的“合批”操作。而采用键盘鼠标操作,需要在对话框中分别输入批号1“26001”和批号2“26002”后,再点击“合批”按钮,相对耗时更多,如图1所示。

图1 多槽命令词输入示意图

3.3 机载语音交互架构

在机载任务系统中集成语音模块,需要兼顾考虑现有系统的人机交互架构,最大限度避免影响现有业务功能。实现时应遵从MVC架构设计,将语音模块进行分层设计,自下而上分为语音引擎、语音组件、语音插件3个部分。

语音引擎是实现语音识别和语音合成的核心模块。语音组件实现语音交互控制的逻辑功能,将语音引擎接口封装,向应用层提供二次开发接口。语音插件实现机载任务系统的业务功能,通过语音接口调用语音基础功能。语音模块组成如图2所示。

图2 语音模块组成图

语音引擎可以运行于可编程硬件板卡、也可以软件形态运行于常规操作系统。相对应的,语音组件可实现两个版本:软件引擎版和板卡引擎版。在系统集成时,可根据客户端数量需求,采用单机版语音交互系统或C/S架构的语音交互系统。

单机版语音交互系统中,语音组件和语音引擎均运行于本地计算机。该系统的优点是部署简单,不受网络带宽限制;缺点是整个系统硬件资源利用率低。其中,软件引擎版不需增加额外硬件,但需抢占本地计算机的计算资源;板卡引擎版需要在本地计算机上接入语音引擎板卡,但基本不占用本地计算资源。

C/S版语音交互系统是将语音组件的语音输入、输出模块运行于本地计算机,将语音引擎及其外围服务软件配置于服务器端。该系统优点是可实现一台服务器同时服务于多个客户端,系统整体资源利用率高;缺点是受网络带宽限制,当网络传输压力增大时,会对语音交互品质造成影响。

3.4 机载语音模块集成

机载语音模块设计及集成需要符合现有系统的组件规范和插件规范,详见图3。

图3 语音模块集成示意图

机载任务系统人机交互子系统用于实现整个系统的信息综合显示和人机交互功能,包含图形、文字、图表显示,命令输入和应答输出等。

按照图形、文件等基础服务功能的集成方式,将语音功能作为独立功能,封装为框架中各个层次上的功能模块。语音引擎模块实现对操作系统、基础硬件的调用,对上封装为底层调动接口,供上层服务组件调用。语音组件,与图形组件、文件组件等其他组件一样,根据具体系统需求,实现对底层引擎的适应性封装,供上层业务模块(业务插件)调用。这些组件在对底层引擎调用的同时,实现对基础数据的管理调度,例如语音组件通过综合调用语音引擎和语音词库实现语音命令识别。

3.5 机载语音交互引擎

语音交互引擎包括语音识别引擎和语音合成引擎。语音合成引擎主要用于计算机语音播报等应用。语音交互的重点在于计算机对人类语言的识别过程,其原理[7]如图4。

图4 语音识别引擎原理图

语音识别工作包含两个大的步骤:模型训练和识别。模型训练是利用训练数据训练声学模型和语言模型。目前比较流行的声学模型构建是用隐马尔科夫模型(Hidden Markov Model, HMM)[8]来对时间序列建模,在隐马尔科夫模型的各个状态上,使用深度神经网络进行分类。神经网络有多隐层的全连接网络,包括卷积神经网络(Convolutional Neural Networks, CNNs)[9-11]、递归神经网络(Recurrent Neural Networks, RNNs)[12-13]和时延神经网络(Time-delay Neural Networks, TDNNs)[14]等。语言模型虽然也可以采用复杂的统计模型,但由于其在解码过程中需要被频繁调用,因此一般多使用N元文法[15]。除了训练两个模型外,系统还需要根据识别词典或文法来构建解码网络。识别则是根据上一步提供的各种资源对输入的语音信号进行解码,将其转为文本。

对于语音识别系统,除算法外,居于核心地位的是语音数据。真实准确的语音数据的获取和处理,是机载语音交互系统构建的关键问题。一般情况下,一套成熟的语音识别系统至少需要300~500 h的训练数据。尽管在机载任务系统中,命令词相对明确,但考虑到噪声等因素,训练数据至少也得超过几十小时。

在识别方面看,机载语音环境噪音较大,降噪处理将作为机载语音系统长期持续研究的内容。降噪算法可以分为单通道降噪算法和多通道降噪算法。单通道降噪算法主要通过语音和噪声在时域和频域上分布的不同特点,以区分二者的信号,包括谱减法[16]、维纳滤波法[17]、基于统计模型的算法[18-19]和基于子空间的算法[20-22]等,近些年随着深度学习技术在信号处理领域的引入,也有研究通过使用DNN模型来对语音和噪音进行分类,取得了理想的效果[23]。多通道降噪算法除了能够利用时、频域信息外,还可以利用空间上的区分度进行噪声抑制,主要方法有波束形成[24]、维纳滤波[25]和盲源分离[26-27]等算法。另外,针对机载舱室环境,远场语音信号去噪[28]也将是未来研究的方向之一。

另外,基于机载任务系统对命令苛刻的实时性要求,与识别速度相关的解码模块是语音识别系统高效运行的关键,需要不断进行优化改进以适应未来不断变化的语音语义环境。解码模块主要包括解码网络的构建和解码算法两部分内容。现代语音识别系统由于需要支持大规模语言模型和词典,解码网络的构建方法分为基于前缀树(Prefix Tree)[29]和加权有限状态转换机(Weighted Finite State Transducer, WFST)[30-31]两种方式。基于前缀树的解码网络,创建一个根节点, 各个词的音素状态序列与根节点连接,并将前缀相同的状态串合并,由此构成了音素状态级的前缀树解码网络。基于WFST的解码网络主要通过复合(Composition)、确定化(Determination)和最小化(Minimization)等一系列WFST的标准化操作将声学模型、语言模型和识别词典等所有的识别资源生成为一个网络,其网络紧致程度比前缀树形式更高,因此一般解码速度也更快。

4 机载语音交互系统评估

(1)交互任务成功率。对于机载任务系统来说,交互任务成功与否是操作员最为关注的问题。因此,将交互任务成功率[32]作为语音系统的主要评估指标,其本质是语音识别率。在此,采用短语识别率作为机载语音系统评估指标,即识别正确的命令短语数目与测试集短语总数目的比值。搭建语音系统试验评估平台,在机载噪音回放环境下开展测试。在未采取硬件降噪措施时,语音识别率可以达到80%以上。为提高语音识别的准确性,采用麦克阵列技术进行降噪处理,通过信噪比的改善进一步提升语音数据质量。从实验结果看,经过硬件降噪处理后的语音数据信噪比明显提升,语音识别率超过90%。如果结合鲁棒性纠错技术,可以进一步提高语音识别效果;

(2)交互效率。设计典型机载任务对比试验,测试加装语音交互模块的系统操作时间,与未改造系统进行比较,判断语音交互在机载人机工效提升上的效果。通过典型任务试验,验证各类语音交互模块的工作效率以及人机工效提升作用。从试验结果看,语音交互在常用控制命令、枚举值输入、精确表述短语等方面有突出优势,能够大幅缩短操作时间,交互效率提升15%以上。但是,在多槽命令输入方面有待进一步优化设计,在其具体命令词设计上需要做更加细致的工作。

5 结束语

语音是交互系统中最自然的交互媒介,语音交互技术作为新型交互手段应用于机载任务系统具备较高可行性。随着计算机和人工智能技术的发展,其实用性将进一步提高。语音交互与其他交互技术有机结合是机载任务系统人机交互技术发展的重要方向,其应用前景非常广泛。

[1] 杨加平.面向指控系统的嵌入式语音交互技术设计与实现[J].机械与电子,2015(4):72-74.

[2] 何湘智.语音识别的研究与发展[J].计算机与现代化, 2002(3):3-6.

[3] 夏乐乐.机载语音信号检测与处理技术[D].南京:南京航空航天大学, 2014.

[4] 张飞宇.在线教学平台中视频语音识别系统设计[J].电子科技,2012,25(10):43-48.

[5] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1535.

[6] Amodei D,Ananthanarayanan S,Anubhai R,et al.Deep speech 2: End-to-end speech recognition in English and Mandarin[C].New York: International Conference on Machine Learning,2016.

[7] 景春进,陈东东,周琳琦.基于中文语音识别技术的舰艇指挥训练系统的研究[J].计算机测量与控制,2014,22(8):2571-2573.

[8] 蔡明琦,凌震华,戴礼荣.基于隐马尔科夫模型的中文发音动作参数预测方法[J].数据采集与处理,2014,29(3):204-210.

[9] Abdel-Hamid O,Mohamed A R,Jiang H,et al.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition[C].Kyoto:IEEE International Conference on Acoustics, Speech and Signal Processing,IEEE,2012.

[10] Abdel-Hamid O,Mohamed A R,Jiang H,et al.Convolutional neural networks for speech recognition[J].IEEE/ACM Transactions on Audio Speech & Language Processing,2014,22(10):1533-1545.

[11] Palaz D,Magimai-Doss M,Collobert R. Convolutional Neural Networks-based continuous speech recognition using raw speech signal[C].Brisbane:IEEE International Conference on Acoustics,Speech and Signal Processing,IEEE,2015.

[12] Graves A,Mohamed A R,Hinton G.Speech recognition with deep recurrent neural networks[J].IEEE Transacitons on Imagenation,2013,38(3):6645-6649.

[13] Li X,Wu X.Constructing long short-term memory based deep recurrent neural networks for large vocabulary speech recognition[C]. Brisbane:IEEE International Conference on Acoustics,Speech and Signal Processing, IEEE,2015.

[14] Peddinti V,Povey D,Khudanpur S.A time delay neural network architecture for efficient modeling of long temporal contexts[C]. Dresden:Interspeech,2015.

[15] 单煜翔,陈谐,史永哲,等.基于扩展N元文法模型的快速语言模型预测算法[J].自动化学报,2012,38(10):1618-1626.

[16] 王水平,唐振民,陈北京,等.复杂环境下语音增强的复平面谱减法[J].南京理工大学学报,2013,37(6):857-862.

[17] 余世经,李冬梅,刘润生.一种基于CASA的单通道语音增强方法[J].电声技术,2014,38(2):50-54.

[18] Kwon H,Son J,Bae K.Speech enhancement using modified minimum mean square error short-time spectral amplitude estimator[J].ITC-CSCC,2003,87(6):228-231.

[19] 张宁,顾明亮,朱俊梅,等.语音活动检测对方言辨识系统的影响研究[J].计算机技术与发展,2012,22(11):73-76.

[20] Chang H Y,Rahardja S,Koh S N.Audible noise reduction in eigendomain for speech enhancement[J].IEEE Transactions on Audio Speech & Language Processing,2007,15(6):1753-1765.

[21] 王烨,屈丹,李弼程,等.基于子空间映射和得分规整的GSV-SVM方言识别[J].计算机工程与设计,2013,34(1):278-282.

[22] 王耀军,林永刚.压缩感知下的自适应声源定位估计[J].计算机工程与应用,2016,52(14):62-66.

[23] Wang Y.Supervised speech separation using deep neural networks[M].Ohio:The Ohio State University,2015.

[24] 韩颖.复杂环境下阵列语音识别方法的研究[D].锦州:辽宁工业大学,2014.

[25] 王立东,肖熙.传声器阵列空间维纳滤波语音增强方法的研究[J].电声技术,2013,37(8):53-56.

[26] Brandstein M S,Ward D B.Microphone arrays: signal processing techniques and applications[M].Berlin:Springer Science & Business Media,2013.

[27] 栾先冬,徐岩.基于萤火虫算法的变步长语音信号盲源分离[J].电子科技,2016,29(7):4-7.

[28] 唐军华,王永刚,刘世辉.一种远场语音信号去噪算法研究与实现[J].电子科技,2014, 27(8):144-146.

[29] 邵俊尧.海量孤立词识别算法研究[D]. 北京:北京邮电大学,2013.

[30] 陈智鹏,贺志阳,吕萍等.语音识别中WFST网络构建与解码的效率优化[C].天津:全国人机语音通讯学术会议,2013.

[31] 郭宇弘,黎塔,肖业鸣,等.基于加权有限状态机的动态匹配词图生成算法[J].电子与信息学报,2014,36(1):140-146.

[32] 韩超,刘加.新型多模态人性化语音交互系统[J].电声技术,2009,33(8):78-80.

Applied Research on the Speech Interaction Technology in Airborne Mission System

LIU Lihui,YANG Yi,WANG Xuyang,XU Lei

(China Academy of Electronics and Information Technology,Beijing 100041,China)

A method of speech interaction technology application adapted to new system developing and existing system rebuilding was used to improve the ergonomics in large airborne mission system with speech technology. The method was based on MVC layered architecture, and was used to build speech function modules in every layer, including speech database, development library and speech interaction plugs related to airborne mission system, and to define the interactive interfaces between the modules in three layers. The method realized the maximum independent of speech function. In contrastive tests of partial typical airborne mission, the speech interaction system built by this method improved more than 15% in ergonomics.

airborne mission system;speech interaction;human computer interaction;ergonomics

2017- 09- 21

国家部委项目(14G00101)

刘立辉(1981-),男,硕士,高级工程师。研究方向:大型电子系统软件设计与开发。杨毅(1985-),男,博士,工程师。研究方向:人机交互系统设计与开发。王旭阳(1988-),男,博士,工程师。研究方向:语音交互系统设计与开发。

10.16180/j.cnki.issn1007-7820.2017.12.033

TN912.3

A

1007-7820(2017)12-125-05

猜你喜欢
操作员引擎命令
美空军特种战术操作员正在进行军事自由落体跳伞
只听主人的命令
新海珠,新引擎,新活力!
浅谈基于H3C云计算管理平台的系统管理功能
移防命令下达后
三生 三大引擎齐发力
蓝谷: “涉蓝”新引擎
无人机操作员的选用机制研究
面向知识自动化的磨矿系统操作员脑认知特征与控制效果的相关分析
这是人民的命令