基于有限状态机的语音辅助系统

2017-06-10 11:29张子辰

电子技术与软件工程 2017年11期

张子辰

摘要语音识别和反馈技术是一种重要的人机交互技术，随着语音识别算法和硬件性能的提升，语音识别率和识别速度得到显著提升，使得目前广大的信息系统、科学计算平台和辅助系统集成语音辅助技术的可行性大大提高，有效增强各种信息服务平台、办公系统、信息辅助系统等信息系统的易用性和场景适应性。本文提出一种基于有限状态机的语音辅助系统，通过采用有限状态机，提高办公系统的命令输入准确性，同时，通过模式识别优化，提高指令输入效率。

【关键词】语音识别语音辅助办公系统有限状态机

语音交互是人们最广泛使用和适应的一种日常交互方式，在电子信息领域，也是一种理想的人机交互方式，随着语音识别算法的发展和相关硬件技术进步，语音识别技术逐步走向成熟，目前在语音输入领域、语音大数据分析、语音生活辅助等领域已经有较多的应用场景。但是语音辅助技术目前仍存在一定难点，例如语音开集库识别、语音交互速度等方面。同时，语音识别技术在办公辅助系统上应用还较少，尤其是某些工作人员不方便进行手动指令输入操作的场景或手动指令输入效率较低场景，如果利用语音辅助技术，可以有效提高用户办公效率和系统适应性。

本文基于上述问题，针对性地提出了一种语音辅助系统模型，通过合理的模型设计和算法设计，有效改进了上述技术难点带来的语音识别效率和指令输入效率问题，提高用户使用语音辅助时的工作效率和用户体验。

1 系统概述

1.1 系统整体框架介绍

系统整体框架如图1所示，系统分为三层架构，分别为用户交互层、逻辑处理层和底层框架。用户交互层主要负责与用户进行指令交互工作和信息反馈工作，主要包含三个模块，为语音监听模块、用户输入模块和语音反馈模块，三个分别负责用户语音监听，用户手动指令输入和系统信息语音反馈。

逻辑层为系统核心部分，包含模式识别模块、指令执行模块和语音识别模块，其中，语音识别模块获取交互层提交的用户语音音频信息，将用户语音指令或语音输入转换为输入字符串，以便进一步处理。模式识别模块的主要作用是将用户输入语音转换获得的字符串进行模式匹配，将无结构的字符串转换为结构化的指令树，从中提取用户真正的指令信息。指令执行模块的主要功能是进行用户数据和系统操作的指令执行，其中为其他模块提供系统操作接口，供其他模块调用。

底层框架提供了系统基础运行平台，分别包含系统运行框架和数据库平台，底层框架根据不同的系统部署要求可以进行对应的调整。

2 系统关键部分

2.1 语音监听与识别模块

语音监听与识别属于用户交互端和逻辑预处理端，其核心部分为语音识别技术（Auto Speech Recognize，简称ASR），在本论文的实现过程中，采用科大讯飞的语音识别SDK，其语音识别算法采用深度神经网络（DNN）声学建模，同时采用多重降噪算法进行降噪处理，经测试，能够充分满足本系统针对的多样化使用场景需求。

系统在启动后，语音监听模块将进行常驻监听，保证用户指令随时处于输入状态，减少用户手动操作效率降低问题，获取语音信息经压缩后传递给语音识别模块，语音识别模块将音频信息识别后转换为字符串，此生成信息作为模式匹配样本交给逻辑层处理。

2.2 指令模式识别模块

指令识别模块的主要作用是获取经过对用户输入语音转换后的字符串，通过与系统预先设置的用户指令进行对比匹配，提取用户输入信息中的指令部分，再交由指令执行模块进行信息处理。

为提升用户指令匹配成功率，在指令模式识别过程中，采用有限状态机模型（Finite-state machine），采用有限状态机，可以建立指令样本，在对用户输入信息进行指令匹配时，采用顺序字符串匹配算法，这样可以高效过滤用户信息，快速提取用户指令。

3 系统关键技术

3.1 基于有限状态机的指令匹配模型

此部分主要包含两个方面，一是系统指令的预设定，如上文所述，在某信息系统嵌入该语音辅助系统时，首先要确定该系统所需要对用户提供的指令内容，将每个指令内容作为有限状态机中的单一状态，例如图2所示。

第二部分为用户输入信息指令提取，由于用户指令数有限，所以，在获取用户模式匹配样本之后，可以采用顺序字符串匹配计算，当匹配到预设指令时，便将该指令作为状态机状态转移标志，进而获取用户所需要进行的操作，达到指令匹配目的。在匹配过程中，采用KMP算法，有效提高用户指令输入效率。

3.2 指令快速匹配优化

在大多数信息系统中，除了用户操作有限之外，还具有上下层级关系，为提高用户输入效率，在系统初始化设定过程中，针对具有层级关系的指令，将其构筑为指令树结构，如图3中所示，如果用户输入指令为“AABB0246CC”，系统在匹配至“0”时，将不再向用户返回确认请求，将继续进行指令匹配，直至匹配至“C”，那么最终状态将跳转至状态7，向用户返回请求指令7执行，得到确认后，将执行指令。按照上述流程，在面对多层指令操作时，用户只需要语音输入连续状态指令，将直接跳转至目标状态，执行目标执行，达到指令快速匹配目的，这样极大提升了用户输入效率，省去大量重复语音指令输入步骤。

4 总结

目前语音识别正在进入越来越多的领域，利用本文设计的语音辅助系统，用户指令输入效率得到显著提升，同时给出整体模型，以便其他信息系统平台高效接入此语音辅助系统。

参考文献

[1]王炳锡.实用语音识别基础[M].北京：国防工业出版社，2005.

[2]童亞拉.办公自动化系统中语音功能的设计和实现[J].湖北工业大学学报，2005，20（02）：71-73.

[3]讯飞开放平台.科大讯飞股份有限公司.2017.http：//www.xfyun.cn/.

作者单位

淄博市实验中学山东省淄博市 255000