基于深度学习的配网语音调控系统关键技术研究

2021-09-29 14:45云南电网有限责任公司迪庆供电局

电子世界 2021年14期

云南电网有限责任公司迪庆供电局钱峰

配网调度不但要求调度人员掌握扎实的专业知识，还需要对有关信息、资料等进行全面掌握，同时具备随机应变、反应灵活等能力。这加大了调度人员素质要求和工作强度要求。本文研究将基于深度学习的语音识别技术，实现配网语音调控系统，辅助开展调度业务，极大的简化了调度业务过程，提升调度业务中日志记录及回填、交接班等过程的效率；同时也减轻了调度人员的工作量，使调度人员专心于的需要较高安全保障的调度业务，最大限度保证调度作业的安全性。

目前配网调度工作在日志填写和交接班记录方面，主要采用的方式是调度通话过程中手写记录关键信息，通话后再手动录入系统，效率较低。同时，以人工测听的方式进行调度通话录音抽检，工作量较大、且效率低覆盖面不全，对调度规范性的提高作用较小，无法及时有效的提醒调度员注意事项。这不但要求调度人员掌握扎实的专业知识，还需要对有关信息、资料等进行全面掌握，同时具备随机应变、反应灵活等能力。

基于深度学的语音识别技术是近年来兴起的语音识别技术，能够实现准实时语音转写，普通话识别率能够达到95%以上，已经广泛应用到各行业中。

本文研究将该技术应用到智能电网调度领域，使计算机能听懂电网调度人员之间的沟通，并能根据沟通内容进行相关的比较和分析，也能将调度人员的声音准确记录并转为文本信息，然后将这些文本信息自然地播放出来，这对于调度业务的安全性、效率化具有极高的战略意义。

1 关键技术研究

1.1 语音识别技术研究

传统语音识别是一个非常复杂的过程，始于20世纪70年代。语音识别的通常做法是先将历史语音数据进行标注，就是先建立语音数据与词语之间的一一对应关系，然后通过不同的模型进行训练，最后利用训练结果进行识别。

电力调度语言与日常用语的发音有一定的差异。首先，电力调度语言含有大量专有名词，例如调度地点、线路名称、调度令等。其次，电力调度语言中数字或者时间的读音和传统发音不同，同时一些计量单位等特殊符号也需要处理。例如，“1560”的传统发音为“一千五百六十”，但电力调度发音则是“幺五六洞”；时间“08：30”的传统发音为“八点三十分”，但电力调度发音则是“洞八点三洞分”。本文主要通过基于GMM-HMM组合的模型和基于深度学习神经网络与HMM组合模型进行电力调度语音识别。

（1）基于GMM-HMM组合的电力调度语音识别

GMM-HMM模型包括高斯混合模型（GMM）和隐马尔可夫模型（HMM），其中HMM适合对语音信号进行建模，而GMM则能够拟合任意概率密度函数的曲线。本文研究的基于GMM-HMM组合的电力调度语音识别系统的结构图如图1所示。该图分为上下两层，上层描述的是训练阶段，下层描述的是识别阶段。

图1 语音识别系统结构图

在训练阶段，首先从语音数据库中获取获取历史语音数据，并按一定的规则提取出语音信号的声学特征；然后利用隐马尔科夫模型（HMM）建立声学模型。识别阶段则是先利用高斯混合模型（GMM）生成概率密度函数，然后与HMM结合，完成识别模型建模工作。

（2）基于深度学习神经网络与HMM组合的电力调度语音识别

基于深度学习神经网络的语音识别与GMM-HMM相比，最大的改变就是利用深度学习神经网络（DNN）替换GMM模型。DNN模型不需要对语音数据分布进行假设，输入特征的形式多样，包括离散或者连续的；同时还可以利用相邻的语音帧所包含的信息作为特征。基于深度学习神经网络的语音识别流程如图2所示。

图2 基于深度学习神经网络的语音识别流程

1.2 调度智能交接班记录的一致性检查研究

调度交接班记录的一致性，可以理解为两个文本记录间基于字与词语上的匹配程度，以及语义的高度相似性。要对交接班内容进行一致性检查，需要通过文本相似度和语义相似度作综合处理后进行判断。

（1）应用流程

在调度人员进行交接班时，麦克风阵列对语音进行采集，然后对所采集的语音内容进行记录、区分、识别、转写和展示，在交接班完成时，将对话语音和转化的文本与交接班基础信息作关联存储，并生成交接班事项，再获取当前系统交接班记录后，两者进行一致性检查。智能交接班记录一致性检查流程如图3所示。

图3 调度交接班一致性检查流程图

（2）基于深度学习的交接班记录一致性检查的算法实现

交接班记录一致性检查主要工作是计算文本相似度，在针对调度领域进行文本相似度计算时，本文采用的是one-hot方法，该方法具有所需训练数据量少，效率高的特点，但是存在因特征维度少导致语义信息丢失的问题。对此，本文在one-hot的基础上引入文本矩阵，先将文本中的句子替换并拼接成文本矩阵，然后计算文本矩阵的余弦相似度，从而得到文本的相似度矩阵，最终得到文本相似度。

2 系统总体结构设计

本系统在调度室安装麦克风阵列来进行高清语音数据采集，并将语音数据实时传送到后台系统。后台系统通过深度学习算法对语音进行转写，形成文本。然后就可以实现调度日志自动填写、智能交接班一致性检查、智能化语音搜索辅助而等调度业务场景，提高调度业务的开展效率，系统总体结构设计图如图4所示。

图4 系统总体结构设计图

结束语：本文通过对基于深度学的语音识别技术进行研究，实现准实时语音转写，交接班一致性检查等功能。并应用到配网智能语音调度系统，为实现配网智能语音调度提供支撑。通过该系统的运行，辅助开展调度业务，极大的简化了调度业务过程，提升调度业务中日志记录及回填、交接班等过程的效率；同时也减轻了调度人员的工作量，使调度人员专心于的需要较高安全保障的调度业务，最大限度保证调度作业的安全性。