基于训练模型改进的语音问句信息抽取方法

2021-08-11 06:50:20刘继明
科学技术与工程 2021年18期
关键词:分词语义语音

刘继明, 孙 成, 袁 野

(1.重庆邮电大学经济管理学院, 重庆 400065; 2.重庆市智慧邮政工程技术研究中心, 重庆 400065)

为进一步提高智能问答系统中知识图谱信息链接及问答系统的整体性能,针对客户语音语音问句这类特殊自然语言文本的口语化、中文自然语言字词多义等特征导致词性标注结果效率不高、准确性低等问题,通常采用信息抽取、事件抽取、实体抽取等解决方法。其中实体语义词性标注(part-of-speech tagging, POS tagging)和抽取工作,作为自然语言处理(natural language processing,NLP)中一个重要的基础任务,是文本以及数据结构化处理最关键及最基础的一步,语义词性精度直接影响后续任务的整体性能研究,为信息抽取、事件抽取、关系抽取、构建知识图谱、句法分析等工作打下基础。在传统词性标注方法上,通常使用规则或统计方法比如最大熵[1]、支持向量机[2]、guided learning[3]、隐马尔可夫(hidden markov model, HMM)[4]等模型对数据进行标注,这些模型大多需要进行人工特征提取。随着互联网信息技术的和人机交互技术的飞速发展,使用机器深度学习方法实现语义词性标注是NLP的主要研究内容。

1 相关研究

近年来,机器深度学习进行词性标注的在自然语言处理中正逐渐兴起。Collobert等[5]首次提出基于深度学习算法的NLP来处理英文词性标注、命名实体识别等问题,利用由卷积网络和条件随机场的CRF(conditional random filed)层组成结合模型,简称Conv-CRF。随后CNN(convolutional neural network)[6-7]、GRN(gated recursive neural network)[8]、LSTM (long short-term memory)[9-10]深度学习模型都被引入到中文词性标注任务中。2013年Zheng等[11]研究基于机器深度学习词性标注的方法,提出一种用Perceptron-style算法替代传统Maximum-likelihood方法。Zhou等[12]提出长短时记忆网络(long short-term memory,LSTM)模型,利用层次化获取更大范围的前后文信息,解决了RNN(recurrent neural network)模型存在的梯度弥散问题。该方法结合分词与词性标注任务,相互提供信息加以辅助。经过长时间的自然语言处理研究,LSTM只能利用过去信息学习,无法利用将来信息进行上下文学习。于是Huang 等[13]首次提出BiLSTM-CRF(bidirectional long short-term memory-conditional random filed)模型,除获取向前记忆上下文信息,还能获取向后记忆上下文信息,实验应用于英文、分词和命名实体识别研究方法中,结果表明融合模型设计使得精度提高且对词向量依赖较小。随之,Ma等[14]提出BiLSTM-CNN-CRF模型,基于CNN得到字的语义表示,BiLSTM-CRF模型实现词性标注。随着科技的不断发展,词性标注逐渐在中文展开研究,但由于中文词性与英文词性语法不同,在英文标注相对成熟的技术下,中文词性标注仍然存在着许多难题问句中更存在如口语化、一字多义、一字多义、一词多义、一词多性及语法体系不同等诸多问题。此外,谢逸等[15]将CNN与LSTM模型进行混合,以《人民日报》等语料库为数据基础分别对模型进行实验测试,证明融合模型的标注效果优于传统单个模型效果。司念文等[16]提出BiLSTM与ATT(adversarial tactics, techniques)融合的中文词性标注模型研究方法,解决了传统词性标注模型对人工规则依赖。徐飞等[17]将BiLSTM和条件随机场模型两者结合,体现最优特征的BiLSTM-CRF模型,在未加入任何人工特征的条件下,对食品安全事件文本进行词性自动标注实验。王旭阳等[18]提出一种融合多类别基分类器的序列标注算法,可提高小规模数据的标注准确度及提升标注算法适用性,将CRF、 SVM(support vector machine)与最大间隔马尔科夫网融合进行的标注任务。马建霞等[19]利用BiLSTM-CRF结合基于特征的命名实体知识库对脆弱生态治理领域中国知网数据库中的相关文献进行脆弱生态治理技术、地名实体、时间实体的自动抽取和标记。武惠等[20]提出迁移学习结合深度学习的TrBiLSTM-CRF (tr-directional long short-term memory-conditional random Filed)模型,对权值及样本相似度计算,解决深度学习中少量数据学习能力不足的问题。张晗等[21]利用生成式对抗网络GAN(generative adversarial network),可以生成数据的特点,将生成式对抗网络与BiLSTM-ATTENTION-CRF模型相结合,解决领域中数据标注缺少问题。Devlin等[22]提出预训练BERT(bidirectional encoder representations from transformer)模型可提供强大的上下文相关句子特征表示,通过微调的方式用于目标任务,其中包括本文所需要做的语音问句事件词性标注。毛瑞彬等[23]研究标准目录匹配实现段落定位,对BERT型进行改进,并将设置特征增强的自动问答方法以回答审核问题。张柯文等[24]使用BERT字嵌入提取边界特征结合双向控制网络获取词长关系,最后结合条件随机场实现命名实体识别。 Yao 等[25]基于知识图谱中三元组特点,将元素转化为序列问题,设计KG-BERT语言模型计算三元组的评分函数命名实体的识别的有效提取,有效地解决自然语言问答处理任务。

在近几年中外研究的基础上,综合考虑自然语言中语音问句的特殊性,在BiLSTM和CRF模型基础上,嵌入BERT模型得到问句中每个字符的深度上下文,进行语义编码。此外,提出针对语音问句的特点优化语义标签对咨询事件的实体进行识别,有效解决问答系统中语音问句事件的信息提取。

2 模型框架

2.1 BiLSTM双向长短记忆模型

目前, LSTM模型虽然能够在信息抽取方法上取得较好的效果,引入记忆单元和门的机制来对文章上下信息进行处理,其中门的设置主要包括输入控制门(input gate)、输出控制门(output gate)和遗忘门(forget gate)三种类型,计算函数如下:

(1)

式(1)中:it为模型训练的t时刻输入控制门;ot为模型训练的t时刻输出控制门;ft为模型训练的t时刻遗忘门;ct为模型训练的t时刻细胞状态单元(memory cell);xt为当前时刻的输入;ht为当前时间的状态;ht-1为前一段时间的状态;W、U、V均为模型训练的权重矩阵;b为模型训练的偏置向量;σ为控制输入门与遗忘还有记忆单元的记忆程度、遗忘程度以及输入门保留程度的激活函数sigmoid。

但LSTM层网络中信息是单向传递,只能对过去信息进行记忆分析,仅采用句子之前信息,为使模型能够通过联系上下文的方式采用将来信息,在模型基础上增加一个相同的反向LSTM构成BiLSTM模型,能更好捕捉双向语义依赖从而提高事件词性标注的准确性。

2.2 CRF条件随机场模型

CRF(conditional random filed)条件随机场是一种应用于有序数据的条件概率模型,在客户语音问句语料事件词性的标注中,可以被用来预测客户语音问句事件的词汇序列。在语音问句事件词性自动标注的训练过程中, 假设X=X1,X2,…,Xn这一序列为语音问句事件的词性标注中被输入的事件词汇序列;Y=Y1,Y2,…,Yn表示语音问句事件词性有限状态的集合。在线性链条件随机场中,特征函数分为节点特征函数和局部特征函数两类,基于研究的领域场景主要用局部特征函数Tj,只和当前节点以及前一个节点有关,记为

Tj(yi-1,yi,x,i),j=1,2,…,J

(2)

式(2)中:y为语音问句状态;J为局部特征函数的总个数;i为当前节点在序列的位置。

模型中局部特征函数取值分别为1或0, 1表示满足特征条件的取值,0表示不满足特征条件的取值。每个特征函数赋予一个权值,值越大,表明越依赖这个特征函数,权值是在模型的训练过程中通过梯度下降法不断更新迭代最终得到,训练过程中线性链条件随机场的参数化形式如下:

(3)

(4)

式中:P(x|y)为概率函数;所涉及的参数tj的权重系数是λj;节点特征函数sk的权重系数是μk;Z(x)为归一化因子,最后在所有可能输出的序列上进行求和。

2.3 加入BERT的BiLSTM-CRF模型

虽然BiLSTM模型可以根据上下文以及获取语音语音问句事件的词性,但是若词语之间有紧密的关系反而会收到语义的过分干预,2015年百度研究院首次提出BiLSTM-CRF模型[13],用于分词、词性标注及命名实体识别等,且在当时均取得最佳准确率。因此在此基础上通过使用BiLSTM网络可以获取每个字符左侧和右侧的前后语义关系,结合CRF模型确保预测的结果是我们想要的标签。相比于BiLSTM-CRF模型,BERT语言模型得到问句中每个字符的深度上下文,代替了原来的词嵌入部分,利用BERT来进行语义编码,最后BiLSTM-CRF进行解码。构建模型如图1所示,输出层的字母含义如表1所示。其中预训练BERT(bidirectional encoder from transformers)模型[22]可适用于多种自然语言处理任务。采用Transformer语言模型, Encoder-Decoder(编码器-解码器)结构。BERT模型总体是一个多层双向的语言模型,模型的输入由词向量、位置向量和分段向量共同组成。另外,句子的首尾分别有两个特殊标注[CLS](classification pooler output)和[SEP](sequence output),用以区分句子不同。模型的输出是每个字经过编码器后,联系上下文信息语义来进行表示。为进一步提高问句事件语义信息的准确性,在模型之后嵌入双向长短记忆模型和条件随机场模型的结合。

图1 语音问句事件词性BERT-BiLSTM-CRF模型图

表1 语音问句数据分词预处理

该模型是在所构建的语音问句事件词性标注输入BERTBASE层,得到深层解析再次输入BiLSTM模型的隐藏层,最后一层为CRF线性层,从而解决语音问句事件词性语义标注模型,输出语音问句事件词性。该模型是在所构建的语音问句事件词性标注输入BERTBASE层,得到深层解析再次输入BiLSTM模型的隐藏层,最后加入CRF线性层,从而解决语音问句模型,得出结果为句子事件词性。语音问句事件语义抽取模型设计共由6层构成,第一层为语音问句事件训练句子的输入层,按照BERT需求的字运算。第二层为调用BERT层的词向量、位置向量、分段向量以及选用基础的12层Transform对句子进行语义编码。第三层为BERT模型对语音问句事件输入的句子进行向量降维的结果。第四层为调用循环神经网络层,构建中使用BiLSTM模型对句子进行语义解码。第五层为调用CRF层,解决语义类别序列概率输出问题。最后一层为语音问句语义最终输出结果,主要输出由字符构成可能的问句词汇实体语义。其中对于所有可能的输出序列,找出一组序列y使得P(y|x)最大,输出运用维特比算法,公式为

y*=argmaxP(y|x,θ*)

(5)

式(5)中:y*为语音文具的词汇序列;θ*为所有节点。

3 数据处理

3.1 停用词与特殊词过滤

语音问句自然语言文本中含有大量无用词,此类词不仅包含虚词还有口语词、停用短语等。除此之外,词向量中还包含问候语、致谢,例如“你好,我想请问一下”“是嘛”“麻烦你了,谢谢”等,在自然语言语音问句中出现频率很高,这些词保留会对模型运行造成严重影响,对进一步输入的数据误差会越来越大。此外,自然语言出现的同义词会对事件的识别有一定的影响,因此本文对于自然语言短语中出现的虚词、介词等无实际意义的词通过引入外部辞典利用python自带的HANLP工具包进行去除。并对同义词短语进行替换以及文本进行纠错。

3.2 分词及依存句法的词性标注处理

词性标注处理可减少后续人工标注工作量,在本实验中对语音问句事件的语料文本进行分词操作,并对数据分词结果进行词性标注,从而实现语音文本中论元提取以及识别,处理结果如表2所示。其中后缀均为词性。

表2 CPB语义角色标注表

此外由于自然语言语料文本通常是短文本,在上下文参考不大的前提下,依存句法可以更好的帮助分析标注的词性是否准确,例句结果如图2所示。采用 python自带的HANLP中文分词工具包,调用分词词性标注函数将自然语言语料文本转化为分词短语,形成多个词向量,且数据文本进行句法分析,对后续模型需要测试的字符标注有一定辅助作用。结果显示会出现分词词性标注错误的情况,需要后续人工参考句法分析树的结果进一步处理。

图2 语音问句依存句法分析树

3.3 人工标注校对

对经过依存句法及分词词性标注处理之后的语料,再次进行人工校对,由于中文存在一词多义和一词多性,工具包无法完全做到上下文语义的词性标注,需要对全部初步标记后的语料进行逐字校对以及语义标注,标记成本文模型所需要的训练和测试对比结构,校正词性,尽可能保证模型训练语料数据准确度。具体角色语义根据认知科学计算语言与教育研究中心 Bonial等[26]提出的论元区分方式进行标注。鉴于中文与英文的区别,参考李军辉等[27]中文名词性谓词语义角色标注,动作开始及动作结束合并标注为REL(Relation),如表2所示。每个字在通过分析筛选的基础上,以BIOE(B-begin,I-inside,O-outside,E-end)字母标准进行标注,其中B表示语音问句事件中词汇的初始字,I表示问句事件中词汇的中间或结束字(此时只有两个字的情况),E表示问句事件中词汇的结束字,O表示问句事件中词汇不是命名识别所需的实体字。

以下示例是一段训练语料标注结果: 黄/B-ARG5,色/I-ARG5,网/B-ARGM-DIR,格/I-ARGM-DIR,线/E-ARGM-DIR,停/B-REL,车/I-REL,等/ARGM-PRD,红/B-ARG2,灯/I-ARG2,扣/B-ARG1,分/I-ARG1。

4 实验

4.1 实验环境及性能指标

4.1.1 实验环境

文本涉及的模型采用的实验环境服务器为Ubuntu18.02 、显卡为NVIDA 1080Ti、interi7的CPU、32 G 运行内存、512 G 固态 SSD+1 T 大容量硬盘,实验工具为Python 3.6.4、Tensorflow-1.13.4。

4.1.2 实验结果评判标准

基于模型在事件的实体语义研究,在已成熟模型基础上,本文研究主要对BiLSTM-CRF、加入BERT的BiLETM-CRF两种模型进行对比实验,更能体现BERT嵌入模型及语义标签优化对结果提取的精确度。实验结果使用准确率(Precision)、召回率(Recall)和F1值来对语音问句事件语义标注的结果进行评估。其中主要是对实体的词性要素抽取的结果进行评估语音问句事件在自然语言场景下一般是一个词或者一个短语,即采用与标注词语直接对比的形式进行评估。计算方式如下:

(6)

(7)

(8)

式中:C为测试集中标注的所有客户语音语音问句事件词性语义标注的集合;P为模型预测的语音问句词性语义标注的集合;p为模型预测的单个语音问句事件的词性语义标注;c为与p对应的标注实体词性语义;s.t.(c,p)为约束条件,即标注的实体词性语义c与模型预测的实体词性予以p是否完全匹配(完全匹配的意思是句子中的字逐个对应相同);“|·|”为完全匹配的字数量。实验语料数据集来源于厦门12328信息咨询模版中的用户语音问句,结合问句事件中的不同词性语义标记,按照9∶1的比例,划分训练集和开发集,其中数据集的90%作为训练集,10%作为测试集。防止神经网络随机初始化带来的偶然性,抽取219条具有代表性的语音问句,其中对3 719条词性进行数据实验,最后的结果取不同实体词性测试值以及所有实体词性的平均值。需要说明的是,训练文本和测试文本进行相同的文本处理。使用BiLSTM-CRF、BERT-BiLETM-CRF模型在训练集上进行训练并在验证集上对模型进行调参,最后在测试集上测试。

4.2 实验结果及分析

实验中主要在语音问句事件的实体词性语义标注上对BiLSTM-CRF模型和BERT-BiLSTM-CRF模型进行对比实验,在具体的实验中采用交叉训练,消除偶然误差的实验影响,选取部分重要词性语义的结果,其结果均为交叉实验之后平均值,所有词性语义结果平均值(MICRO AVG)分别如表3和表4所示。在BERT嵌入BiLSTM-CRF模型在语音问句事件信息抽取中的实体词性语义结果中,平均准确率91.99%、召回率91.12%、F1值91.53%,MICRO AVG比BiLSTM-CRF模型提高了4.24%。

表3 BiLSTM-CRF模型事件问句实验测试结果表

在标记过程的结果将从列表转换为元组列表,并且每个元组的形式为(单词,标记),如表5所示,使用BiLSTM-CRF模型和BERT-BiLSTM-CRF模型对未标注问句数据进行标记测试结果的事例。

表5 语义标注结果事例对比

从以上实验可以看出,针对语义信息进行优化

并且加入BERT的BiLSTM-CRF准确率、查全率和查准率方面均要高于BiLSTM-CRF模型。同时BiLSTM-CRF标注结果,出现错误“(乘/ B-REL),(坐/I-REL)”,根据这句话语义,主要对“隔离”事件进行咨询。由于语音问句的语料中“乘坐”表达事件出现概率较高对结果造成了干扰,BERT-BiLSTM-CRF模型的结果为“(乘/B-ARGM-PRD),(坐/I-ARGM-PRD)”更为准确。其次BiLSTM-CRF模型标注结果中:“(收/ARGM-PRD),(取/O)”根据词性“取”是有一定动词意义的,而这里却标注成无实际意义词。虽然BERT-BiLSTM-CRF模型的整体准确性能高,但对于词性标记中疑问词类这一词性标记的难题仍然存在,如“什么、怎么、多少”会标记成“ARGM-MNR”,对于这一词性标注的难题会在后续联系自然语言处理情感分析对其进行探究。

5 结论

(1)提出在BiLSTM-CRF的基础上加入BERT模型,从而使得句子信息抽取的结果更为准确。

(2)针对语音问句信息抽取的方法,利用语义角色标注优化,提高了句子信息准确度,使得语音问句事件中特殊词性如:施事者、受事者、时间、地点、方向、方式等信息在模型语义标注信息抽取中的准确率均取得较好的结果。

(3)深度学习模型不仅提高了语义信息准确度,结合语义标签优化,共同解决传统实体词性标注模型对人工特征长期依赖的问题。

猜你喜欢
分词语义语音
语言与语义
魔力语音
基于MATLAB的语音信号处理
电子制作(2019年14期)2019-08-20 05:43:38
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
基于MQ3与MP3的价廉物美的酒驾语音提醒器
电子制作(2019年9期)2019-05-30 09:42:10
对方正在输入……
小说界(2018年5期)2018-11-26 12:43:42
值得重视的分词的特殊用法
“上”与“下”语义的不对称性及其认知阐释
现代语文(2016年21期)2016-05-25 13:13:44
认知范畴模糊与语义模糊
高考分词作状语考点归纳与疑难解析