应急指挥大厅语音辅助系统研究初探

2021-06-13 14:49于天宇姚月

中国应急救援 2021年3期

于天宇姚月

0 引言

党的十八大以来，以习近平同志为核心的党中央对应急管理事业提出了更高的要求，结合新形势下应急管理部对于强化应急基础信息资源汇聚、现场信息获取、灾情研判等能力和着力提升辅助指挥决策能力的更高要求,本文总结归纳应急指挥大厅实际工作中涉及的应用场景和软硬件需求情况，调研语音辅助系统在现有地震应急指挥大厅中的实例，考虑核心设备的兼容性和适用性，着重对语音辅助系统实现所需触发、指令传输和反馈机制进行研究，解决多种传输协议控制指令的统一分发控制问题，提出一套具有较强可行性设计方案。

1 现状分析

1.1 智能语音识别技术

语音识别最初是将人的语音转换为文本的技术;后又结合人工智能和物联网技术，实现智能语音识别库的实时调用更新[1]，接受人类语音指令，运行预先编排的程序，并根据以人工智能技术制定的原则纲领行动，控制相应软硬件，最终形成了较成熟的智能语音识别技术。该技术的任务是协助甚至取代人类的工作。决定智能语音识别技术实现效果的因素大致为智能语音识别库的体量和复杂程度、语音信号指令质量和被控软硬件的执行展现等。

智能语音识别技术逐步进入人们的生活中，也逐渐改变着人们的生活方式[2]。以该技术为核心的应用系统在家电、汽车、医疗、教育、消防等相关领域的应用实例也较为丰富，最具代表性的是几乎所有的智能手机、计算机终端、汽车等都配备了智能语音识别的辅助应用功能，此应用具备应用开启、语音控制外设、声纹解锁登陆、语音输入翻译功能等，这凸显了其应用的广泛性和重要性。它的出现简化了人们复杂纷繁的检索、记忆、转换、执行等操作流程，目的是节约宝贵的时间成本和节省不必要的经济成本。

但语音辅助系统的开发应用存在较高的行业技术壁垒。在国外微软、苹果、谷歌、Nuance等知名公司具有较强实力，微软Office就专注于语音输入法的研究，苹果的Siri和Nuance的Dragon Ditation也是语音识别中具有代表性的产品。在国内，主要以语音合成为主，市面上相关产品直接或间接采用了上述两家公司的技术。多家高新互联网科技企业相继推出了采用最新信息技术与应用的智能语音产品，其中科大讯飞、百度语音最为领先，产品均达到了很高的识别正确率，也具备很强的可扩展性和嵌入性特点，业界专家形成共识，智能语音识技术是未来信息技术领域重要科技发展技术之一。

1.2 应急指挥大厅语音辅助系统

应急指挥大厅是新形势下应急管理体系中各级联络节点不可或缺的组成部分，主要整合和利用所管辖区或领域的各类信息化资源，包括辅助决策信息系统、多网融合的网络资源、视频会议系统、音视频及可视化系统和基础保障系统等，为前后方救援信息和指令的高效互联互通提供了有力的基础环境保障。利用应急指挥大厅可进一步建立上下联动、平战结合的高度智能化应急指挥平台。

指挥大厅语音辅助系统是结合智能语音识别技术与指挥大厅现有应急管理系统实际应用需求而研究的初步成果，应用该系统可在一定程度解决如下问题，一是解决指挥大厅应急期间值班值守人员冗余的情况，降低指挥大厅各环节的操作需要的技术门槛，有效降低值班值守人员因复杂控制操作所需人力和时间成本；二是提升辅助决策过程中需求指令的集成统一控制、交互和展示效率。

1.3 市场调研

根据对开发环境的调研和分析，在当下市场主流移动终端操作系统中，谷歌主导研发的安卓系统延续了代码开源的政策，较苹果IOS系统具备更好的可开发性，在开发、测试、试运行等关键过程中的修改升级更为有利，因此本文暂先对使用基于Android7.0+SDK（安卓7.0＋软件开发工具包）的AndroidStudio开发工具（Android集成开发工具）、国产Deepin（深度操作系统）操作系统和科大讯飞离线命名实体识别库为基础的开发坏境进行着重研究。

2 功能实现

2.1 技术路线

指挥大厅智能语音辅助系统的研发需要以下环节：基础资料的收集、分类整理分析、制定标准模板和方案，最终从技术层面实现功能（图1）。首先，基础资料收集要充分了解受控指挥大厅的操作规范流程，例如设备开启先后顺序、设备开关所需时延、设备基础保障情况等，为设计智能语音转换，触发中央控制系统发送信令做准备；要根据操作规范与中央控制系统的信令做一一对应匹配，做去重化简流程整理，为信令发送控制做准备；要总结值班值守人员操作标准话术，尤其是多流程复合操作的建议话术制定，为自然语言转换做准备。其次，采取分类整理分析的原则，总结出语音控制标准话术所对应的中控音视频信号切换模板，并根据所需开发环境、操作环境等整理出具体系统设计方案。最后，按设计方案执行该技术路线的设计形成辅助系统，并对该系统进行联调测试，形成最优最简的系统版本，应用于实际工作中。

2.2 技术框架

智能语音辅助系统应具备智能语音识别、转换和API（应用程序编程接口）交互等功能。智能语音识别功能主要采集和识别操作人员的自然语言指令，并调用相应语音基础数据库进行指令传递。转换功能是将操作人员的指令识别结果转换为可读取的信息，这里包括文字信息和计算机信令等。API（应用程序编程接口）交互功能起到中建桥梁作用，可将信令分发至具体应用或终端中触发执行，视应用和终端类型还可将执行情况反馈至语音复制系统中以供操作人员进一步推进工作。以上述方式同时配合指挥大厅中控系统和显示系统等物联网技术更可发挥该系统强大的扩展性。

以基于移送终端安卓系统的APP（应用软件）为例，结合物联网技术，可实现语音与文字互转和对指挥大厅各节点设备的控制功能。语音与文字转换模块基于BNF（一种计算机元语言）表达式的命令定义及ASR(智能语音识别)的技术实现。文字转语音模块基于TTS（从文本到语音）的语音合成技术实现机器人语音输出。应急指挥大厅设备控制功能是封装并发送基于TCP/IP协议（传输控制协议/网际协议）的socket（套接字）信令至中央控制系统而实现的。

图1 技术路线

图2 应用流程示意图

2.3 应用实例

以实际地震应急值班值守工作中的应用场景简述指挥大厅语音辅助系统的实现流程（图2）。利用语音识别终端对值班值守人员语音指令进行实时采集，通过离线命名词识别模块对指令进行翻译并判别其有效性，未通过有效性判别的指令会被反馈到语音识别终端并提示错误，该指令不具备继续流转的特性，当即废止；通过判别的有效指令会被二次编译并发送至指挥大厅中央控制模块中，经过二次编译的有效指令将由指挥大厅中央控制模块再次封装，并通过网络信道发送报文方式传输给指挥大厅中央控制系统硬件设备，并触发该设备控制接口（串口、红外、网络），将控制命令发送至被控制终端（如大屏显示系统、音视频矩阵、灯光、窗帘等），形成完整的指令报文信息链，最终实现大厅各模块功能可控效果。

北京时间2019年3月22日-4月1日,在莫桑比克救援行动期间，地震应急搜救中心指挥大厅运维人员利用语音辅助系统，采用手动和语音结合的操作方式，保障救援现场前方与后方指挥大厅连通46次，总计时长499分53秒，总连通率91.3%。北京时间3月25日10时28分至10时34分间，中国救援队在莫桑比克首都马普托机场短暂休整转机时，利用语音辅助系统，后方指挥大厅仅有一名专业值守人员便顺利完成了首次多网融合视频会议连通工作。本次救援任务是应急管理部成立后的首次国际救援任务，同时也是语音辅助系统试运行期间的重要应用实例，该系统开创了以地震应急搜救中心指挥大厅为核心中继向应急管理部指挥中心部领导的汇报连通模式，进一步印证了该系统在国际救援任务中的应用价值。最终以“零事故”成绩完成了应急管理部指派的连通任务，得到了各级领导的一致好评，对该系统在日后应急救援任务中的应用打下良好的基础。

3 应用展望

本研究意在探索在应急管理指挥调度工作中的智能语音识别技术的应用模式，实现震时（或演练、重大会议等）指挥大厅各功能快速响应服务。希望未来智能语音辅助系统可作为指挥大厅各类核心设备控制主要手段，提升应急指挥的时效性。为采用语音智能控制方法的二级指挥大厅，形成上联国家级指挥大厅，下联国内外救援现场、训练基地、库房的立体化多方位的功能创造应用示范的机会。

此外，进一步梳理实际功能和接口需求，探索应急救援指挥领域的智能语音辅助系统的应用方案，实现智能语音控制与数据可视化的有机结合，对震时（或演练、重大会议等）的应急产品、应急音视频快速共享和推送服务进行扩展应用。结合可视化技术，是灾情信息要素的语音交互式查询、展示全新方式，可为地震应急指挥辅助决策提供全新思路。