李 凡,白尚旺,党伟超,潘理虎
(太原科技大学计算机科学与技术学院,山西 太原 030024)
政务服务是国家信息化水平的重要指标,是推动其他领域信息化的重要因素。近年来,地方政府积极推动政务服务的发展,完善政府管理、公共服务和应急响应能力[1]。
然而,在政务服务网站中,用户上传办件所需材料后,仍需要人工进行核对,这严重降低了办事效率,影响了我国政务方面信息化的快速推进。
因此,本文提出一种基于Do-Bi-LSTM的文本相似度计算方法,Do-Bi-LSTM致力于提升政务审批速度与准确率,减少办事群众等待的时间,让办事群众能够感受到政务信息化带来的便利。它为用户办件审批提供了保证。通过该模型,系统可以对政务网站中用户上传的文件是否与数据库中的文件模板相匹配,给出一个相似度,实现了对审批的智能辅助[2]。该系统真正减轻了工作人员审批的工作量,有利于审批工作快速、正确地完成,提高了审批效率。
在自然语言处理(Natural Language Processing, NLP)领域中,文本相似度的应用十分广泛,例如:自动摘要、机器翻译、词性标注、主题识别、文本分类等。传统的文本相似度的处理方法是基于统计的机器学习方法,诸如One-hot编码、Bag of Words、N-gram等方法转换成向量[3-5],然后再利用词频,即文本中单词出现的频率或次数表示文本特征来度量文本间的相似性。这类方法需要对现有的数据进行大量的特征提取工作,存在数据量大、特征多、难以捕捉文本的含义等问题,而且算法本身比较复杂,计算时间较长,需要很长的时间去优化,相对来说这类模型欠缺稳定。
近年来,基于深度学习的方法已被广泛应用于自然语言处理领域中。张波[6]提出了基于维基百科的快速词语相似度计算方法,改进了维基百科消歧处理算法;刘文等人[7]融合共现距离和区分度来进行短文本的相似度计算,解决了当前特征稀疏的问题;徐鑫鑫等人[8]利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度。
本文通过对现有研究成果的整理归纳,在原有方法上进行了改良,建立了Do-Bi-LSTM模型。该模型主要结合了词嵌入技术Doc2vec和Bi-LSTM算法,既增加了语义语序的分析,也有效地解决了LSTM算法中训练成本大的问题。然后将模型用于处理文本相似度的任务,用在电子政务系统中。最后通过和传统的深度神经网络模型(CNN)、考虑句子间关系的长短期记忆网络(LSTM)以及分层的长短期记忆网络模型(HP-LSTM)进行对比实验,验证了该方法的有效性。
图1 文本相似度评价模型
在Do-Bi-LSTM模型中,首先需要对数据进行预处理,其中包括去重、分词、归一化、缺失值处理,然后通过Doc2vec词嵌入技术训练该数据集的向量模型。最后将训练好的向量作为双向长短程记忆网络的输入,并进行参数调优,最终返回2个文本的相似度。本文模型的技术路线主要包括数据的获取及处理、Doc2vec词嵌入、双向长短程记忆网络模型的训练及调优3个部分。具体结构如图1所示。
电子政务中产生的文本有其自身的特点,文本由标题和正文2个部分组成,其中标题总结了文本的中心思想,正文部分含大量信息,是对主题的详细分析和描述。从文本特征的方面来说,新闻文本和政务文本具有相似的特征[9]。
因此,本研究采用搜狗新闻中的政务类新闻作为数据集。首先需要过滤无效字符并筛选出无重复的有效数据,对其进行人工标注以及后续的分词处理。
本文采用Doc2vec技术将词语转换成向量,Doc2vec模型结构和Word2vec相比,在输入层上多增加了一个段落向量,该向量在多次训练中逐渐稳定,最终形成了文本向量的表示。这种结构克服了词袋模型忽略词语间顺序的缺点,而且简化了文本向量化之后的矩阵表示[10-13]。
Word2vec算法得到的词向量不仅考虑了词之间的语义信息,还压缩了维度。该模型可以分为Skip-gram和CBOW,其基于语言模型中单词在前后文中使用的频率进行推测,这2种模型都是通过3层神经网络来实现的,其中Skip-gram是根据现在所使用的词语来对前后文内容进行预测,而CBOW是结合语句前后文信息对当前词语展开推测[14]。
图2 CBOW模型
Doc2vec也可分成DM和DBOW模型,其中前者是在结合前后文以及文本向量的基础上对词语出现的频率进行推测,后者由英文Distributed Bag-of-Words缩写而来,是按照当前的文本向量对文本中任意词语的频率进行推测。DM进行练习的过程中,第一步是把语料库里的全部单词和各文档ID设为默认状态,即K维向量,接着在模型中输入前后文词语和文档向量,通过投影层实现向量求和,最终计算出中间向量,将其当作输出端的输入。输出端也能够通过分层Soft-max或负采样降低训练复杂度[16-18]。DM模型如图3所示。
图3 DM模型
LSTM属于时间递归神经网络,能够解决长期依赖问题。其在门的作用下能够记忆相对较长的关键性事件的同时还具有良好的长语义处理功能,并有效避免了递归神经网络的梯度消失和爆炸问题,所以在基于文本类别区分以及序列建模中有着非常高的实用性和普及率。通过图4可以看出本文所运用的LSTM单元,重点涉及4个神经网络层和输入、输出、遗忘3个门[19]。
图4 LSTM神经单元
1)遗忘门ft运用sigmoid将r∈[0,1]进行输出,进而对前一个LSTM单元的输出结果ht-1作出判断,比如“高兴”一词的具体保留现状,1代表的含义是全部保留,0代表的含义是全部舍弃。通过式(1)和式(2)分别可知sigmoid函数以及ft计算公式。
(1)
ft=sigmoid(Wf·[ht-1,xt])+bf
(2)
2)通过式(3)~式(5)所显示的“输入门”Ct,在对神经单元进行调整时根据遗忘门所预留的部分、it和对it进行替补的Ct来实现。如果一个句子中前后语义发生转折时,更新内容的效果更显著。
it=sigmoid(Wi·[ht-1,xt])+bi
(3)
C′t=tanh(Wc·[ht-1,xt])+bc
(4)
Ct=ft·Ct-1+it·C′t
(5)
3)通过式(6)和式(7)可以计算出Ct的输出结果即ht,输出部分是根据sigmoid函数作出选择,并基于tanh函数达到输出的目的,tanh函数如公式(8)所示。
Ot=sigmoid(Wo·[ht-1,xt])+bo
(6)
ht=Ot·tanh(Ct)
(7)
(8)
式中,Wf、Wi、Wc、Wo代表的是权重参数,bf、bi、bc、bo代表的是偏置项,·表示的是点乘。
图4是LSTM的神经单元,从图中可以看到,LSTM对于长文依赖问题是利用记忆元件进行处理的,可是其属于正向传播算法,相对于长距离的问题提取来说,不但只有序列前传会对总体文体相似结果形成影响,而且后值同样具有相应的影响,还应当全面根据BP算法来学习[20]。所以运用Bi-LSTM模型来提取语义信息属性,可全面结合正向和反向2种传播算法得出前后文的语义信息,具体参照式(9)。其在文体相似度计算过程中一般在前后文语义属性的学习中被使用,在此基础上按照属性对文本作相似度匹配[21]。
(9)
为了对本文模型在文本相似度任务中的有效性进行验证,实验中加入了传统的深度神经网络模型(CNN)、考虑句子间关系的长短期记忆网络(LSTM)以及分层的长短期记忆网络模型(HP-LSTM)进行对比分析。
本文实验选取搜狗新闻中的2000条政务类数据作为数据集进行实验。该数据集中包含网页xml格式信息,存在大量的格式标签文件,因此,需要对数据进行预处理工作。
首先需要提取xml格式中引号标签内的有效数据,然后对xml格式信息的标签缺失部分进行补齐。针对处理好的xml文件,提取其中的文本并进行保存。其次在数据预处理的基础上进一步对数据进行清洗,包括删除特殊字符、去除中文停用词和中文分词等工作。
在本文的实验中,对数据集中的文本采用Doc2vec进行向量初始化,然后作为Bi-LSTM网络模型的输入来训练模型。本文使用jieba分词工具对实验数据集进行分词处理。主要采用网格搜索法进行参数调节,其中窗口大小分别为2、3、4、5,每种窗口的个数均为100,LSTM隐藏层的单元数取128,学习速率为0.01,每个区域的固定长度设置为30。此外,采用ReLU激活函数以有效地防止梯度消失的情况。Do-Bi-LSTM模型在实验中使用的详细参数如表1所示。
表1 参数设置
将本文提出的网络模型和CNN、LSTM、HP-LSTM在文本相似度的任务上进行了3组对照实验。把样本数据分成10份,通过K折交叉检验法展开练习检测,基于各数据将预测指标值计算出来,然后取10次的平均值,从而确立最后的预测结果,基于本文所建立的文本相似度分析模型进行评估。准确率(Precision, P)、召回率(Recall, R)以及F1值(F1-score)是模型评估常用的衡量指标。其中准确率是所有样本中预测正确的比率,召回率指数据集中判断相似度被预测正确的比率,F1值是一个综合性指标,最大值为1,最小值为0,是准确率和召回率的调和平均值。F1值越高,表明文本相似度模型的效果越好。4种模型的平均评估结果见表2。
表2 最终实验结果
表2得出的实验结果表明,于K折交叉验证里4组实验在趋势和准确度方面大致相同,通过最后的结论可以看出结合了Doc2vec词嵌入技术的Bi-LSTM模型的效果要高于其他的网络模型。其中,把所输出的总文本向量当作输入,同时在进行预处理时没有将停用词清除,输入是一种大型的高维数据,与CNN、LSTM和HP-LSTM相比,在很大程度上减少了训练时间。本文提出的结合Doc2vec词嵌入技术的Bi-LSTM模型充分利用了文本数据的特点,最终文本相似度的F1值为88.36%、准确率为90.28%,明显比其余比照组要高。所以本文所设立的模型具有较强的可行性。
在比照实验过程中对每个深度学习法进行了设置,以便对每个模型的功能展开最深层次的研究,该研究在保持其余解决流程不变的基础上,将数量当作变量对每个模型因训练集发生不同变化而受到的影响程度展开了综合分析。如果将数据量大小设定成M,那么任意选取M∕2个数据,每100为一组,提取M∈[100,2000],4种模型的准确率和F1值变化见图5和图6。
图5 数据量对模型F1值的影响
图6 数据量对模型准确率的影响
从图5、图6可以看出,CNN对数据集的大小比较敏感,随着数据量的变化,F1值和准确率分别攀升7.1%和11.6%,相比于其他3种模型在文本相似度任务中体现得最不理想。但是其他3种算法LSTM、HP-LSTM以及本文提出的Do-Bi-LSTM均未受到太大的影响,F1值以及准确率在3%的范围内浮动,相比较来看最稳定的是LSTM,F1均值和准确率均值分别是88%、89%。总体来看,在数据量变化的情况下,4种深度学习算法中表现最好的是Do-Bi-LSTM模型,F1值、准确率均得到了提升。
实验结果表明,Do-Bi-LSTM模型在基于电子政务的文本相似度中取得了良好的效果,文本相似性匹配的最佳F1值为90.36%,显示出了比以往研究中更佳的性能。此外,本文提出的方法中Doc2vec模型相比Word2Vec减少了网络模型的学习时间,具有比现有提出的模型更好的时间性能。
本文提出了一个结合Doc2vec算法和双向长短程记忆网络的模型用于电子政务系统中文本相似度的任务中。所提出的模型可以通过双向长短程记忆网络有效地过滤文本中无用的信息,明显地提高了文本相似性的准确性。最后,通过和现有的相似性网络模型比较,验证了该方法的有效性。
此外,从实验结果也可以看出,本文提出的模型是针对电子政务系统的,对于其他方面的数据,文本相似度的效果有一定的影响。同时,在面对海量的数据时,文本相似度匹配的准确率有一定的下降。所以本文接下来的工作将针对政务文本以外的数据进行实验,并对现有的模型进行改进,以达到更好的文本相似度匹配效果。