基于多头注意力的电网调度领域命名实体识别

2023-03-04 06:43毛宏亮艾孜尔古丽陈德刚
计算机技术与发展 2023年2期
关键词:语料注意力实体

毛宏亮,艾孜尔古丽,2,陈德刚

(1.新疆师范大学 计算机科学技术学院,新疆 乌鲁木齐 830054;2.国家语言资源监测与研究少数民族语言中心,新疆 乌鲁木齐 830000)

0 引 言

领域实体是在实践应用中表达领域概念的一系列专有名词集合[1],一般以语音或文字等载体进行记录。领域实体识别技术在众多领域中都有广泛的应用,尤其是在电网调度过程中会使用到大量的专业实体词。电网调度被定义为在电力生产过程中能够使电力系统稳定运行所采取的一系列管理措施[2]。在进行电网调度的过程中,工作人员或者自动化电力系统会使用大量的专业实体词来进行当前系统工作状态的反馈,并且在通常情况下,电网调度工作人员一般通过语音和文字两种载体方式来进行指令的传达和信息的记录。所以,电网调度专业实体词在保证调度信息准确传达和调度信息规范记录等方面起到至关重要的作用。电网调度领域实体的识别不仅可以为电网调度领域知识图谱的构建奠定基础,而且对于电力系统的自动化、智能化发挥着很大的作用,具有现实意义。

杨月等人[3]根据在不同气象条件下相关输电线路典型故障的作用机理和统计特征,提出融合注意力机制的输电线路故障概率预测模型,提高了电网整体的运行水平,对电网调度的安全稳定运行发挥了较大的作用。Azam等人[4]提出了一种基于双向长短期记忆(BiLSTM)和多头自注意力机制的新型混合深度学习方法,可以准确预测电网调度系统前一天的位置边际价格(LMP)和系统负载,为电网调度的可靠运行和规划发挥着举足轻重的作用。Zhang等人[5]针对电网数据的多维异构信息,建立了电网调度的异构图注意力网络(HGAT)模型,提出相应的电力设备故障模型解释器(HGAT-Explainer),为电网调度提供了更有利的参考。肖丁等人[6]提出将多头注意力机制应用到用户窃电行为检测当中,对比传统依赖人工标注特征的方法和简单统计学的方法,所提模型在用户窃电行为检测中表现出显著优势,AUC值提升了34.6%。Yan等人[7]提出通过融合BERT,双向门限循环单元以及注意力机制来提升中文命名实体识别准确率的方法,其F1值达到94.31%,对命名实体识别领域产生较大影响。Wei等人[8]提出一种融合注意力机制与BiLSTM的方法进行生物医学文本命名实体识别研究,通过使用不同的注意力权重再分配机制有效地防止了在提取序列特征时出现的重要信息丢失问题。Xu等人[9]提出一种融合字典注意力机制和双向长短期记忆网络并且结合疾病字典来实现疾病命名实体识别任务的模型,有效解决了在罕见病名和复杂病名上实体识别困难的现状。罗熹等人[10]提出一种基于多头自注意力机制的面向中文临床病例的命名实体识别方法,该方法结合领域字典进行特征表示,运用多头自注意力机制进行字符间特征获取,有效提升了中文临床病例的命名实体识别能力。徐凯等人[11]提出一种融合词典注意力机制和双向门控循环单元神经网络(BiGRU)的生物医学命名实体识别模型,在NCBI疾病数据集上其F1值达到86.8%,对促进医学信息学的研究产生了重大意义。Yang等人[12]根据注意力机制原理提出双层注意力模型,分别为单词层次和句子层次,这种结构能使文档中的关键信息凸显出来,得到较高的关注。证明注意力机制可以为文本中重要的信息分配更高的权重。Luo等人[13]提出一种基于双向长短时记忆网络和注意力机制的化学领域命名实体识别办法,其识别率达到92.57%。

目前,电网调度领域实体识别主要有以下几个难点:(1)电网调度领域在命名实体识别任务中缺乏公开标注语料;(2)电网调度过程中存在大量实体词嵌套问题,如“电压源”、“电压”、“直流电动机”、“电动机”等;(3)电网调度过程中实体词长短不一,识别存在一定的困难;(4)传统基于语言学和基于统计学的方法虽然能够实现识别领域实体的目标,但大多依据专业人员的逻辑直觉标注的人工特征,无法挖掘文本中隐藏的信息特征,其识别方法泛化能力太弱。

针对以上问题,基于多头注意力机制(multi headed attention)和双向长短时记忆网络(BiLSTM),提出一种融合多头注意力机制和双向长短时记忆网络的电网调度领域中文命名实体识别办法,即BiLSTM-MHATT-CRF(bidirectional long-short term memory network mult-headed attention conditional random fields)。该模型主要完成了以下几方面的工作:

(1)通过电网调度语音识别后文本作为原始语料构建电网调度领域命名实体识别标注语料集GridDispatchCorpus,用于改善该领域在NER任务中标注语料不足的问题;

(2)利用电网调度领域实体构词规则建立领域实体词典,用于解决实体词大量嵌套的问题;

(3)利用电网调度领域实体词典辅助分词,解决实体词长短不一、识别困难的问题;

(4)通过双向长短时记忆网络提取句子上下文语义特征,计算词语之间的相互依赖关系;

(5)在电力调度文本中通过每个词对实体识别贡献度的不同,引入多头注意力机制中的词权重分配机制来计算关键词与非关键词的重要度,有效解决了在算力有限的情况下因为关键词与非关键词重要度相同而造成的信息丢失问题,使模型快速收敛。

1 电网调度领域标注语料集构建

1.1 电网调度领域语料集及词典构建

电网调度一般是通过电话以及系统操作等形式来进行电力的调度,在进行调度时会使用到大量的电网调度领域专业实体词。该文以新疆自治区某电力公司提供的原始电力调度语音作为电网调度领域命名实体识别任务的原始语料来源,通过语音识别得到相应的文本,以句号为标志将其文本进行句子级别的划分。针对电网调度领域实体词嵌套和实体词长短不一的问题,通过国家语言资源监测中心语言专家对其实体进行分类,在句子级别的文本上对数据集进行标注,构建了包含参数(如“电压、电流”等)、设备(如“变压器、消流器、避雷器”等)、操作(如“保护”等)、系统(如“交直流互联系统、交直流混合电力系统”等)、组织(如“中国电网、新疆电力有限公司”等)五类实体的语料集GridDispatchCorpus。并在语料集基础上构建了电网调度领域实体词典,共10 797条。

1.2 电网调度领域实体分类及标注

使用PARA、DEV、OPER、SYS、ORG分别表示参数、设备、操作、系统、组织五类实体。采用BIO标注方法对预处理后的文本进行实体标注,所定义标签集合以及实体数目统计信息如表1所示。

表1 实体标签

为保证实体标注的准确性,采用可以多人同步进行标注和结果比对的标注软件YEDDA[14]进行实体标注。在标注过程中,将文本划分为多个区间,双人同时进行标注,一个标注区间结束后进行结果对比,为避免实体标注不一致以及标注错误问题,采用电网调度领域专家审核的方式来确定实体所属标签。以“当变压器内部发生故障时,电压下降,人员应及时保护变压器”为例,标注结果如表2所示。

表2 序列标注结果

2 电网调度领域实体识别模型

2.1 电网调度领域实体识别流程

电网调度领域实体识别主要流程如图1所示。

图1 实体识别框架

(1)将获取到的电网调度语音进行文字识别并转换为原始文本语料;(2)对原始文本进行预处理,包括长短句处理、分词、词性标注等,为提升分词效果以及消除实体词嵌套和实体词长短不一的问题,引入停用词表和实体词典进行辅助分词;(3)将处理好的文本运用word2vec模型进行向量化表示;(4)输入模型训练并进行结果测试。

2.2 BiLSTM

LSTM(Long Short-Term Memory)与典型的循环神经网络具有相同的框架,但采用不同的方式计算隐藏状态,特别适合处理时序问题,能很好地解决RNN在提取远距离句子特征时产生的梯度消失和梯度爆炸问题。

LSTM单元状态如图2所示。

图 2 LSTM单元状态

在某一时刻t,每个LSTM单元有3个输入,分别是上一时刻单元状态Ct-1、上一时刻LSTM单元输出值ht-1以及当前时刻单元输入值Xt,2个输出,分别是当前时刻LSTM单元的单元状态Ct和输出值ht。LSTM单元是通过遗忘门、记忆门和输出门组成的门机制来控制是否将本单元从上一单元接收的信息以及本单元的输入信息传递给下一单元的,从本质上说,LSTM的门机制相当于一个全连接层,输入值是一个多维向量,输出则是0~1之间的数,0表示上一单元的信息不能完全继承,1表示上一单元的信息可以完全继承。LSTM门机制的优点是当前时刻单元可以获得之前所有单元的有效信息,缺点是不能获得当前单元之后单元的信息。为了改善这一缺点,提出了双向长短时记忆网络的概念,即BiLSTM(Bi-directional Long Short-Term Memory)。

BiLSTM由双向LSTM组合而来,BiLSTM通过正向LSTM获取句子上文信息,反向LSTM获取句子下文信息,然后将正向LSTM和反向LSTM获取信息结果拼接并输入到CRF层,得到语句序列标签。

2.3 多头注意力机制

注意力机制最早来源于对人类视觉的研究,由于人类视觉对信息处理存在局限性,所以会选择性地关注物体的一部分。近年来,注意力机制在自然语言处理任务上也有了广泛的应用。

自注意力机制是在注意力机制的结构上变化而来的,在整体上减少了捕获序列特征时对于外部信息的依赖,更加专注于获取句子内部特征的相关性,通过计算词语之间的关联度来缓解句子长距离依赖时产生的特征信息丢失问题。

多头注意力机制又是在自注意力机制结构的基础上发展而来的,可以同时运行多个注意力机制并分别计算每个头的缩放点积注意力,然后将输出结果拼接并线性转换为预期的维度[15],直观地说,多个注意力头允许以不同的方式关注序列的部分,即给定一个查询Q、键K和值V,然后将它们转换为子查询、子键和子值,通过独立地计算缩放的点积注意力,最后拼接每个注意力的头部并与最终的权重矩阵组合组成多头注意力机制。

2.4 BiLSTM-MHATT-CRF模型构建

提出的融合多头注意力机制和双向长短时记忆网络的电网调度领域命名实体识别模型的总体框架如图3所示,模型主要由输入层、向量表示层、BiLSTM层、多头注意力机制层、CRF层组成。

图3 BiLSTM-MHATT-CRF模型结构

2.4.1 输入层

输入层的主要作用是将电网调度文本预处理并输入到下一层进行向量化表示。文本预处理过程主要有以下3个步骤:(1)将电网调度文本中过短、过长以及存在大量特殊符号的句子进行长短句处理或者剔除;(2)结合根据电网调度领域实体词构词规则建立的词典进行辅助分词,帮助提高分词的准确率;(3)利用中文停用词表去除停用词。

2.4.2 向量表示层

在模型训练过程中,文本不能直接被送入神经网络进行训练,需要将其向量化表示。该文运用Word2vec模型进行文本向量化,首先将文本用one-hot进行编码,形成高维稀疏向量,然后输入到Word2vec模型进行训练,转换为低维连续密集向量。具体过程如下:设样本句子X由n个词组成,表示为X={t1,t2,…,tn},其中tt为第t个词的one-hot表示,xt为词嵌入。

xt=Wembtt

(1)

式中,Wemb∈Rd×|v|为向量查询表,tt∈R|v|,xt∈Rd为向量维度,|v|为词典的大小。

2.4.3 BiLSTM层

BiLSTM由2个方向相反的LSTM组合而来,通过正向LSTM获取句子上文信息,反向LSTM获取句子下文信息,然后将正反向信息拼接并输出到下一层。具体过程如下:xt是在上一层获取到的词嵌入向量,将其输入模型并进行计算。

第一步:计算正向LSTM。

(2)

第二步:计算反向LSTM。

(3)

(4)

式中,ht-1表示t-1时刻网络的输出值,ct-1表示t-1时刻的单元状态,ht表示t时刻的输出向量,该层的输出向量序列构成的矩阵记为H=(h1,…,hi,…,ht)。

2.4.4 多头注意力机制层

多头注意力机制是运行多个注意力机制并分别计算每个头的缩放点积注意力,然后将输出结果拼接并线性转换为预期维度的一种神经网络模型。近年来,多头注意力机制在多个领域被广泛运用。其计算过程如下:

第一步:对Q、K、V分别进行线性映射。

(5)

(6)

(7)

第二步:计算缩放点积注意力。

(8)

最后,根据获得的权重系数对值矩阵线性映射之后的V'进行加权求和。

第三步:计算多头注意力。

M=Concat(M1,…,Mj,…,Mh)

(9)

式中,M是循环一、二步多次之后进行线性映射的结果。

2.4.5 CRF层

CRF是结合最大熵模型和隐马尔可夫模型所构建的一种无向图模型,常应用于序列标注任务中。CRF通过状态转移矩阵获取标签之间的依赖关系以提高实体识别的效果。其主要步骤如下:(1)给定电网调度领域句子,使用条件随机场计算所有标签序列的概率,(2)使用维特比算法获取序列标签最优概率[16],并作为实验输出结果。

3 实验设计及结果分析

3.1 实验数据及评价标准

为验证所提模型在电网调度领域实体识别上的有效性,选取自建语料集GridDispatchCorpus作为实验数据集。总共包含50 337个句子。以6∶2∶2比例将数据集划分为训练集、测试集、验证集三部分。引入在命名实体识别,领域术语抽取等任务中通用评价标准[17]作为实验性能评价指标,分别为准确率(P)、召回率(R)、F1值。其中,F1值具有代表性,是综合考虑各种情况的综合性指标。

(10)

(11)

(12)

3.2 超参数设置

该文针对实验语料通过多次对比实验并不断调整参数设置,总结出模型性能表现最好的实验参数方案,设置如表3所示。

表3 超参数设置

3.3 实验结果分析

3.3.1 实验一:不同学习率对BiLSTM-MHATT-CRF模型性能的影响

为防止学习率过高或者过低影响损失函数收敛,通过设置一组不同的学习率[0.000 2,0.000 5,…,0.001,…,0.005]进行实验,其BiLSTM-MHATT-CRF模型F1值变化如图4所示。可以看出,当学习率在区间[0.000 2,0.000 7]时,F1值上升,即学习率与F1值呈正相关,当学习率在区间[0.000 7,0.001 5]时,F1值先上升后下降,在Ir=0.001处F1取得最大值93.63%,即在此学习率下训练该文所提模型效果最佳,当学习率在区间[0.001 5,0.005]时,F1值下降,即学习率与F1值呈负相关,训练效果逐渐变差。

图4 不同学习率下BiLSTM-MHATT-CRF模型F1值变化

3.3.2 实验二:BiLSTM-MHATT-CRF模型与其他模型的比较

为验证所提模型在电网调度领域实体识别任务上的优越性,采用ADAM优化算法,设置Ir=0.001,共做5组对比实验进行分析,分别为Attention、BiLSTM-CRF、BiLSTM-IDCNN-CRF、BIAC(BiLSTM-IDCNN-Attention-CRF)、BiLSTM-MHATT-CRF,实验结果如表4所示。

表4 实验结果对比 %

通过对比BiLSTM-CRF和Attention训练结果可以得出,使用双向长短时记忆网络提取句子序列特征优于使用单头的自注意力机制提取句子序列特征,F1值在单头自注意力机制的基础上提升了17.62百分点。通过对比模型BiLSTM-IDCNN-CRF与模型BiLSTM-CRF实验效果可以得出,在BiLSTM-CRF模型上加入三层膨胀卷积层能更好地提取序列语义特征,提升实体识别的效果,F1值提升了1.06百分点。通过对比模型BIAC与模型BiLSTM-IDCNN-CRF的实验结果得出,在BiLSTM-IDCNN-CRF的基础上加入自注意力机制,其F1值提升了0.79百分点。通过对比BiLSTM-MHATT-CRF模型和BIAC模型可以得出,利用融合多头注意力机制和双向长短时记忆网络的深度学习方法在文本序列特征抽取上效果要优于简单将自注意力机制和膨胀卷积神经网络融合所构建的特征抽取方法,其F1值提升了1.85百分点。

BiLSTM-MHATT-CRF模型与其他模型在相同优化器ADAM和Ir=0.001下达到最佳训练效果相应训练时间如图5所示。可以看出模型BiLSTM-IDCNN-CRF与BIAC相较于所提模型BiLSTM-MHATT-CRF来说,训练时间较长,对电网调度领域实体识别性能不是最优。模型Attention与BiLSTM-CRF训练时间基本上与所提方法相同,但对电网调度领域实体识别效果上劣于模型BiLSTM-MHATT-CRF。

图5 不同模型训练时间对比

综上分析,该文提出的融合多头注意力机制和双向LSTM的方法在语料集GridDispatchCorpus上取得了较好的效果。该方法不仅可以有效获取文本序列的局部特征和全局特征,而且能够挖掘出序列中重点词汇所包含的隐藏信息,使模型性能得到极大的提升。与传统方法相比,该方法虽然在计算量以及复杂度上有所提高,但有效解决了电网调度语音识别文本中不同词向量之间依赖关系不足而引起的信息丢失、序列特征信息获取不全面以及实体嵌套等问题。

4 结束语

综上所述,该文以自建的电网调度领域语料集GridDispatchCorpus为研究对象。针对在电网调度领域实体识别中因实体之间嵌套、实体长短不一、序列特征信息获取不足以及词向量间依赖关系弱等因素导致的实体识别准确率不高的问题,提出一种融合多头注意力机制与双向长短时记忆网络的电网调度领域命名实体识别方法,即BiLSTM-MHATT-CRF模型。该模型通过在双向LSTM的基础上运用多头注意力机制的方法实现了电网调度领域命名实体识别准确率提高的目标,在GridDispatch Corpus数据集上,准确率为93.62%,召回率为93.64%、F1值为93.63%,具有较强的鲁棒性。接下来,将在继续科学扩充实验语料的基础上对实验方法进行优化,对电网调度领域实体词典进一步扩充,使实体识别结果更加准确、有效,使模型具有更好的泛化性能。

猜你喜欢
语料注意力实体
让注意力“飞”回来
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
“扬眼”APP:让注意力“变现”
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
基于语料调查的“连……都(也)……”出现的语义背景分析
A Beautiful Way Of Looking At Things
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料