增强语义表示的中文金融评价要素抽取

2022-02-18 13:53刘德喜万常选刘喜平鲍力平
小型微型计算机系统 2022年2期
关键词:编码向量对象

陈 启,刘德喜,万常选,刘喜平,鲍力平

(江西财经大学 信息管理学院,南昌 330032) (江西财经大学 数据与知识工程江西省高校重点实验室,南昌 330013)

1 引 言

中文金融评价文本既包括企业、机构和民众对上市企业自身披露(发展战略公告、社会责任公告、突发事件信息公告等)的态度和研究报告,又包括对上市企业的外部影响因素(国家经济政策、全球经济大环境等)的分析和解读,以及用户对企业提供的产品或服务的评价信息等.因此,金融评价文本能够反映上市企业生存的大环境和经营活动中的小细节.

细粒度的文本情感分析是数据挖掘和自然语言处理的研究热点.评价对象、情感程度、评价词是情感表达的基本要素,例如,文本“…主要原因是存货大幅提升”中的<存货,大幅,提升>.从金融评价文本中抽取出包含评价要素的评价单元是细粒度情感分析的重要任务,可用于辅助企业财务预警模型等应用[1].

已有关于评价单元抽取的工作主要以英文商品评论为对象[1],而对于金融评价文本尤其是中文金融文本评价要素的抽取工作相对较少.已有方法在用于中文金融文本评价要素抽取时,面临的主要挑战包括以下方面:

1)评价对象种类繁多且形式复杂.江腾蛟等人[1]指出,在金融评价文本中,评价对象可以是国家政策,也可以是财务报表的一个子项,比如“库存 增加”中的“库存”;可以是财务指标,也可以是非财务指标等各种要素;可以是词,可以是短语如“收入 利润 贡献 低”中的“收入 利润 贡献”.

2)句法成分复杂且灵活.评价单元的3个要素间有较强的句法关系,但这些句法关系却很难通过人工构建规则的方式全面且准确地覆盖.评价单元在句子中有很多句法限制,受句法约束,但这些句法约束却很难穷举.当句子较为复杂时,规则的构建将面临更严峻的挑战,例如主语的缺省、两个谓语动词有同一个主语、过长的评价对象、复杂的中文句式、单句中包含多个交叉的评价词和评价对象等.

3)以字为粒度的预训练语言模型与以词为粒度的语义表达和句法分析存在矛盾.例如张军莲等人[2]和万齐智等人[3]都使用Word2Vec作词向量,但是Word2Vec本身是一种浅层结构,而且其训练的词向量所“学习”到的语义信息受制于窗口大小,为此Devlin等人[4]提出一种新的语言模型BERT,这种语言模型广泛运用于自然语言处理,并且被证实优于Word2Vec.当下英文的模型大多是基于BERT的Token级向量.然而,Token级的向量只能在字粒度上处理中文文本,而中文依存句法分析却是以词为粒度的.

4)评价单元各要素之间的语义和依存关系未得到充分利用.句法依存分析可以很好地得到句子各成分之间的依赖关系,广泛应用于信息抽取等自然语言处理工作.例如,张军莲等人[2]利用句法与语义依存分析相结合抽取中文事件,而Zhang等人[5]引入图结构对依存分析的结果进行图卷积神经网络(GCN)编码.金融文本评价单元的抽取同样面临句法依存关系建模的问题,但目前还很少有研究将先进的GCN模型用于此任务上.

5)部分评价要素已知的假设限制了应用的场景.已有研究通常是给定评价词,抽取评价对象,或者给定评价对象,抽取评价词,缺少联合抽取的研究,而这种“假设部分评价要素已知”的条件限制了抽取模型的应用场景.此外,已有的研究通常忽略了评价单元中的“情感强度”,而这恰恰是在金融评价分析时的重要信息之一.然而,同时抽取评价单元中的3个要素,会给模型带来更大挑战.

针对上述挑战,本文提出BBG-BMC模型,采用序列标注的思想,通过BBG模块(BERT、BiLSTM、GAT)获取语义编码,通过BMC模块(BiLSTM、多头自注意力Multi-Headed Self-attention、CRF)建模文本序列,联合抽取中文金融文本中评价对象、评价词、情感程度3个评价要素.BBG-BMC的主要创新如下:

1)对评价单元的3个评价要素<评价对象,情感程度,评价词>联合抽取,扩大评价单元抽取的应用场景.

2)提出融合多种语义表示的混合词汇语义编码模型BBG.BBG融合词语的上下文信息、词语的局部语义信息、词语之间的句法关系信息,弥补金融词汇在BERT预训练模型上语义表示不够充分的问题.

3)提出联合双向长短期记忆网络、多头自注意力机制和条件随机场的序列标注模型BMC.BMC在增强的词汇语义编码基础上,借鉴序列标注经典模型BiLSTM-CRF,增加基于多头自注意力机制层,提升序列标注模型的效果.

在中文金融文本数据集上对BBG-BMC模型进行评测,评价单元中各评价要素抽取的F1值平均达到80.53%,明显优于序列标注的SAT模型Word2Vec+BiLSTM+CRF.

本文结构如下,第2节介绍相关工作,分析已有工作的优缺点;第3节主要介绍BBG-BMC模型结构和原理;第4节介绍实验数据集、评测方法以及评测结果,论证BBG-BMC模型的有效性;最后总结并提出未来的工作.

2 相关工作

评价单元抽取是细粒度情感分析的研究内容之一,相关研究成果大多是针对于商品评论领域.Bloom等人[6]首次提出了评价表达式(appraisal expression)的概念,并将评价表达式定义为,其中target是评价对象(也称为方面aspect),attitude是评价词(也称为观点词或情感词opinion words),source是情感评价来源.对评价表达式中元素的抽取或分析统称为方面情感分析ABSA(Aspect-based sentiment analysis),针对不同的已知对象和抽取对象,产生出不同的子任务.例如,ATE(Aspect Terms extraction)任务是抽取评价的对象,而TOWE(Target-oriented Opinion Word Extraction)任务是已知评价对象,抽取该评价对象对应的观点词[7,8].

罗凌等人[9]根据中文的语言特点,把中文文本中评价单元的抽取方法大致分为两类,分别是基于词的方法和基于字的方法.他们认为基于词方法必须要先分词再抽取,而分词的错误会影响后续的实体识别和抽取,而基于字的方法就不存在分词的错误传播问题.Meng等人[10]也认为基于字的方法优于基于词的方法,但Zhao等人[11-13]却认为词的信息依旧重要.

BiLSTM完成了基于深度学习方法的焦点问题,即对上下文和句法结构的有效利用.Sunil等人[14]就使用BiLSTM对文本进行特征抽取和建模,但BiLSTM在重叠信息以及复杂的句法结构上效果不好,对此,Sun等人[15]认为以往的模型集中在利用深度学习的表达能力来进行ABSA任务的,忽略了像句法依赖树这样的重要信息,他们将句法依赖树用在编码层,并认为句法依赖树的加入可以缩短评价词和评价对象之间的距离.此外,因为句法依存树的表现形式又恰好是图结构,针对这种情况,Zhu等人[16]首次在文本领域提出了GP-GNNs模型,基于图模型训练自然语言语句,让其可以对多元关系进行抽取.为了增强模型的性能,Zhang等人[17,18]也进一步提出基于句法依赖树并使用注意力机制的GNN神经网络,增强了模型的抽取能力.

针对金融文本的评价单元抽取工作相对较少.早期的评价单元抽取多使用规则的方法,随着自然语言处理的发展和新模型的出现,基于统计的机器学习和深度学习方法占据优势,其中代表模型是将神经网络和条件随机场结合的CNN-CRF[19,20]以及BiLSTM-CRF[21,22].江腾蛟等人[1]使用规则的方法提取隐藏评价对象,在观察数据集的基础上,充分考虑评价对象的复杂性,并从语法角度,设计评价词对(评价词-评价对象)抽取规则.Yang等人[23]认为金融领域的金融信息可能分散在多个语句中,因此提出针对文档级的情感信息抽取,同时自定义了金融文本评价单元及其类型.

金融文本评价单元抽取的数据集构建也是一项重要工作,江腾蛟等人[1]采用新浪财经网上的公司研究信息,通过有财经基础课程学习经历的学生进行打标,Yang等人[23]则采用远程监督来自动标注金融文本数据集.

3 BBG-BMC模型

本文将评价单元的抽取分为两个阶段,分别为评价要素抽取阶段和评价要素配对阶段,其中评价要素抽取是评价单元抽取的基础,也是本文解决的重点.

BBG-BMC模型对评价要素的识别是通过序列标注方式,识别出中文金融文本中的评价对象(Target)、评价词(Sentiment)和情感程度(Degree).例如,“募集/O 资金/O 到位/O 后/O,资产负债率/BT 大幅/BD 降低/BS,/O 偿债/BT 能力/IT 和/O 抗/BT 风险/IT 能力/IT更/BD 强/BS ./O”,其中BT和IT分别表示评价对象的开始部分和中间部分,BD和ID分别表示情感程度的开始部分和中间部分,BS和IS分别表示评价词的开始部分和中间部分,O表示其它非评价要素的词或Token.

为了充分利用词语的内部信息、外部上下文信息和句法信息,本文融合词语的多种语义表示,构建评价要素联合抽取模型BBG-BMC,其结构如图1所示.BBG-BMC包括输入模块、BBG模块以及BMC模块.在输入模块后,使用BBG模块对词语语义表示进行3种编码,分别是:通过BERT以句编码的形式对词进行编码;在句子上利用BERT字向量编码模型进行字编码,使字向量融入上下文信息,再通过BiLSTM将BERT字编码转换为包含上下文信息的词编码;通过GAT对包含上下文信息的词编码进行句法增强.3种编码的拼接,作为词语语义表示的输出.BMC模块将BBG输出作为词语语义表示,在经典的BiLSTM-CRF的基础上,增加多头自注意力机制,完成序列标注.

图1 BBG-BMC模型Fig.1 BBG-BMC model

3.1 输入模块

该模块对句子进行预处理和分词,并使用HANLP2.0进行依存句法分析,生成依存句法树.由于金融评论文本中经常使用括号来表示解释或说明,影响句法分析效果,而将其删除一般不影响语义,因此,对数据集分词和依存分析前,先去除括号及括号内的内容.

3.2 语义表示层:BBG模块

BBG模块基于预训练的BERT字向量表示,分别利用BiLSTM和BERT句向量编码两种方案,构建词向量的表示,并使用GAT对BiLSTM得到的词向量表示进行语义增强,融入句法依赖信息.

1)BERT字向量编码

传统词嵌入层分为针对Token的BERT编码以及针对词的BERT word-to-sentence编码.Token级的BERT编码指的是对句子的每个Token级的字符串进行编码,对于中文,通常是指对中文中的字进行编码(也包括标点符号、阿拉伯数字等),编码的结果一般称为BERT字向量.

1https://tf-geometric.readthedocs.io/en/latest/

2)基于BiLSTM的词向量编码

图2 BERT字向量模型Fig.2 BERT char vector model

(1)

(2)

词wj的词向量是对词首字和尾字的隐藏层输出进行拼接,如公式(3)所示:

(3)

3)基于BERT句子编码的词向量编码

图3 BERT词向量模型Fig.3 BERT word vector model

4)基于句法关系的词向量编码表示

以文本r中的词语为图的结点,基于句法依存分析结果构建结点之间的边,得到依存关系图G.在构建边时,不考虑依存类型和依存方向,如果句子中的两个词语有依存关系,则在相应结点之间建立一条边.对依存关系图G使用GAT神经网络,产生各结点(词)的向量表示.

GAT将图卷积以及多头自注意力机制Multi-headed self-attention相结合,通过计算每个结点的作用,来分配不同结点的权重.其中一层GAT的工作过程如下(此工作流程采用了tf_geometric1的方法).

对词wi的词向量进行变换,如公式(4)所示:

(4)

其中WG∈U×FWL,U为多头注意力层的输出维度.然后将转换为KW个UW维向量,KW为图注意力头数,UW=U/KW,第k个头对应的向量表示为

词wi和词wj在第k个头上的相似性计算如公式(5)和公式(6)所示:

(5)

(6)

其中,“·”表示内积运算.

(2)通过3kW立磨机试验知,在现有条件下,系统平台较佳工况条件为:研磨介质直径7mm,介质充填率30%左右,磨机转速30Hz左右。

(7)

根据权重系数αji对词wj邻接点集合中的词向量加权求和,在拼接多个注意力头的结果后,得到词wj的新表示,如公式(8)所示:

(8)

3.3 序列标注层:BMC模块

1)BiLSTM组件

(9)

(10)

(11)

2)Multi-headed self-attention层

尽管在对词进行语义编码时,通过GAT考察了词语之间的句法依赖关系,但句法依赖并没有反映词语之间的其它语义关系,也未能反映跨越不同句子时词语之间的语义关系.因此,在BiLSTM上使用多头自注意力机制,建模文本中词之间的相互作用.

此处多头自注意力机制的设计与GAT中的类似,只是将句子中的全部词都视为词wi的邻接结点,其中的注意力头数为KS,每个头的维度为US.

(12)

(13)

(14)

函数score()是计算预测标签序列y={y1,y2,…,ym}的分数,yresult是最终输出序列标注的标签结果,WCRF指的是CRF模型参数,WCRF∈L×FSM,其中L为标签类别数.

3.4 评价要素匹配

由于本文关注的焦点是评价单元中各个要素的抽取,因此,评价要素的匹配采用朴素匹配法,即按照最近匹配的原则,得到评价单元.

设对评论文本r,使用BBG-BMC标注得到的评价对象、评价词和情感程度词3个评价要素的集合分别为T,S和D,各集合中的元素分别表示为,其中t,s,d分别表示评价对象、评价词和情感程度词(或短语),b和e分别为情感要素在文本中的起始位置和结束位置.朴素匹配法的基本方法如下:

对于T中的每个评价对象t,在S中找距离t最近且距离小于给阈值的s作为t的评价词,如果t存在,再在D中找距离s最近且距离小于给定阈值的程度词d作为情感程度词,得到评价单元,加入评价单元集合.为提高召回率,类似地,对于S中的每个评价词s,在T中找距离s最近且距离小于给阈值的t作为s的评价对象,如果存在,再在D中找到距离s最近且距离小于给定阈值的程度词d作为情感程度词,得到评价单元,加入评价单元集合.其中,两个评价要素的距离为b2-e1(如果b2>e1)或者b1-e2(如果b1>e2).

4 实验结果与分析

4.1 数据集

本文选用的数据集来自江腾蛟等人[1]的工作,选取数据中制造业部分进行完善,包括校正评价对象和评价词,补充标注情感程度词等.制造业涉及化工、食品、电子器件、环保、传媒娱乐、电子信息、服装鞋类和生物制药等8个行业的10家上市企业.

将数据集按评价单元数量约8:1:1的比例划分成训练集、验证集和测试集,各集合中情感要素、情感单元、标签等统计信息如表1和表2所示.

表1 数据集中评价要素、评价单元的统计信息Table 1 Statistics of the data set

表2 数据集中各类标签的统计信息Table 2 Statistics of labels in the data set

统计发现,每篇评论文本中的评价对象平均有1.66条,评价词平均有1.63条,其中存在一个评价词评价多个评价对象,以及一个评价对象有多个评价词的情况.文本中的情感程度词数量较少,平均每篇评价文本仅有0.32条.评价对象、评价词、情感程度词的平均长度分别为1.91、1.02和1.02,说明评价词和情感程度词大都只由一个词充当.

4.2 评测指标

评测主要采用评价要素抽取和评价单元抽取的准确率、召回率和F1值作为指标.根据抽取的粒度,又分为基于标签的粒度、基于评价要素的粒度和基于评价单元的粒度.

1)基于标签的评测

模型对非“O”标签标注的精确率、召回率和F1值.

2)基于评价要素的评测

对评价要素识别的精确率、召回率和F1值.要求模型识别的评价要素与人工标注尽可能重叠,重叠部分即视为标注正确.

3)基于评价单元的评测

由于用于对比的基准模型通常都是给定评价词抽取评价对象,或者给定评价对象抽取评价词,最终形成的评价单元只包含评价对象和评价词,因此,本文除考察包含评价对象、评价词、情感程度三元组的评价单元抽取效果外,还考虑只包含评价对象和评价词二元组的评价单元抽取效果.

基于文献[1],在考察评价单元的抽取是否正确时,假设:①只要抽取出了评价对象中的一个词,即认为整个评价对象抽取正确;②只要抽取出了评价词中的一个词,即认为评价词抽取正确.

4.3 实验参数设置

本文实验采用transformer作为基础架构,在预训练BERT词向量(以句向量形式训练)以及字向量时,采用了Tensorflow框架.BERT字向量使用chinese_L-12_H-768_ A-12,有12层encoder,每层12个Attention,取倒数第2层作为输出.其他向量维度设置分别为:FC=FWL=FWB= 768,FCL=384,FWG=UW=20,KW=4,FW=1556,FSM=FSL=300,US=60,KS=5,L=7.其它参数设置如表3所示.

表3 参数设置Table 3 Parameters

4.4 基于标签粒度的评测结果与分析

Word2Vec+BiLSTM+CRF模型(W-BC)是本文选择的Baseline,从表4可以看出,本文提出的BBG-BMC模型相对于Baseline模型W-BC,F1值提升了6.75%,BBG-BMC基于W-BC所增加或替换的模块对标注效果的提升起到了一定的作用.

表4 基于标签粒度的评测结果(单位:%)Table 4 Evaluation results based on labels(unit:%)

表4中,采用表示层和序列标注层交替增加或替换模块的方式,对比各个模块对实验性能的影响.将Baseline模型W-BC表示层中的Word2ve替换为基于BERT句子编码的词向量编码(称该模型为B-BC),F1值提升了4.36%;将注意力机制引入B-BC中的序列标注层BiLSTM+CRF(称该模型为B-BAC),F1值提升了0.56%;在B-BAC模型的表示层中增加基于BiLSTM词向量编码(称该模型为BB-BAC模型),F1值继续提升0.17%;将BB-BAC中序列标层的注意力机制替换为多头自注意力机制(称该模型为BB-BMC),相较于BB-BAC模型,F1提升了1.04%;继续在表示层增加基于BERT句子编码的词向量以及基于句法关系的双层GAT编码的词向量(称该模型为BBG-BMC),F1值较BB-BMC提高了0.62%.

为了更深入地探究各个模块对模型的影响,本文分别对基于句法关系和GAT的词向量表示中GAT的输入、层数和头数、基于BERT句子编码的词向量编码、序列标注层中的多头自注意力机制等模块进行了更细致的实验,同时也探讨了词性的作用.

1)GAT的输入对模型的影响

在使用句法分析和GAT进行词语的嵌入向量学习时,GAT的输入可以是基于BiLSTM的词向量编码(Word_BiLSTM,WL),也可以是基于BERT句子编码的词向量编码(Word_BERT,WB),或者是二者的拼接融合(WB+WL).表5显示使用3种输入时,BBG-BMC模型的性能差异.

表5 GAT输入向量对模型的影响(单位:%)Table 5 Performance of different GAT input vectors(unit:%)

实验结果显示,使用基于BiLSTM的词向量编码WL作为GAT的输入时效果是最佳的,优于使用基于BERT句子编码的词向量编码WB,且二者的融合并没有改善模型的效果.其可能的原因是,基于BiLSTM的词向量编码,考虑了词语所在句子的上下文信息,而基于BERT句子编码的词向量编码,仅把词语视为句子,没有考虑词语的上下文.

2)GAT层数对模型的影响

表6是GAT层数对模型的影响.结果显示,与不使用基于GAT的词语语义增强表示相比,使用两层GAT模型进行语义增强后,BBG-BMC模型的F1值有0.63%的提升,继续增加更多的层数并没使模型性能继续提升,这与其它研究任务中GAT层数通常设置为2是一致的.有趣的是,如果只使用单层GAT,反而比不使用GAT的效果差,虽然这与参数的优化可能存在一定关系,但也说明,由于GAT的输入层已经考虑了单词在句子中的上下文信息,单层GAT并没有给词语的语义带来更有价值的信息.

表6 GAT层数对模型的影响(单位:%)Table 6 Performance of different GAT layers(unit:%)

3)GAT注意力头数对模型的影响

在双层GAT中,GAT的注意力头数对模型也有较大的影响,GAT模型的输出向量维度是使用tf_geometric中的默认维度20,头的个数分别设置为1、2、4、5、10(20的因数).表7是各层GAT中注意力头数设置为相同时,双层GAT中注意力头数对模型的影响(本文也考察过各层头数不一样时的情况,但并没有得到更好的实验结果).

结果显示,双层GAT模型的效果随着头数的增加而提升,然而当头数过多时又会有所下降.其可能的原因是:多头注意力机制可以通过多头来收集不同方面的信息,但是随着头数的增加,过于分散的信息反而干扰模型对有效信息的抽取.

表7 GAT注意力头数对模型的影响(单位:%)Table 7 Performance of different GAT heads(unit:%)

4)序列标注层的输入对模型的影响

在语义表示层,基于3种不同的方法获得了词语的3种不同的语义表示,分别为:基于BiLSTM的词向量编码(Word_BiLSTM,WL),基于BERT句子编码的词向量编码(Word_BERT,WB),以及基于句法关系和GAT的词语语义增强表示(Word_GAT,WG),它们可以单独送入序列标注层,也可以拼接组合后送入,表8是不同的词向量编码或其组合对模型的影响.

表8显示,单独使用WL编码要优于单独使用WB编码,原因是WL编码中包含有词语的上下文信息;结合WB和WL后,模型有一定程度的改善,而通过拼接方式组合了3种词语编码后,BBG-BMC模型的性能达到最优.这说明,3种不同的词语编码方法,从不同的角度捕获了词语的语义信息,对提升金融文本中情感要素的提取都是有益的.

表8 序列标注层的输入对模型的影响(单位:%)Table 8 Performance of different inputs for BMC(unit:%)

5)多头自注意力机制对模型的影响

序列标注层BMC是在BiLSTM+CRF的基础上增加了多层自注意力机制,表8是不使用注意力机制(BC)、只使用单头自注意力机制(BAC)和使用多头自注意力机制(BMC)时,BBG-BMC模型的评测结果.

表9显示,使用单头自注意力机制,并没给模型带来显著的提升,而多头注意力机制则在F1值上获得了0.63%的提升,其中精确率P的提升尤为显著,达到1.61%.

表9 BMC中自注意力机制的作用(单位:%)Table 9 Performance of the self-attention in BMC(unit:%)

6)词性特征对模型的影响

由于评价对象、评价词、情感程度等评价要素在词性上有明显的特征,因此,本文假设词性对情感要素的识别是有帮助的.为此,将词性的嵌入也一并拼接到词语的向量表示中送入序列标层.但实验结果显示,词性的嵌入向量对模型并没有明显的改善,增加词性嵌入向量后,模型的F1值反而从0.8053下降到0.7997.可能的原因有3个:①现有的词性标注工具对金融评价文本的标注并不准确;②中文文本中,评价对象、评价词等评价要素的词性不像英文那样有规律,名词、动词、形容词等都有可能作为评价要素,使得添加词性的作用不显著;③通过3种词嵌入方式,特别是基于句法和GAT的语义增强方式,本身句法分析就蕴含了必要的词性信息,因此,不再需要单独增加词性嵌入.

4.5 基于评价要素的评测结果与分析

本文假设,BBG-BMC模型标注结果中,与人工标注的评价要素重叠的部分,视为标注正确.例如,对于评价对象“药品 的 应用 范围”,人工标注为 “BT IT IT IT”,而BBG-BMC模型可能只识别出了其中的一部分,设识别的评价对象为“应用 范围”,相应的标签为“O O BT IT”,此时,认为“应用 范围”对应的标签标注正确.而“药品 的”的标签标注错误.据此,得到BBG-BMC模型在各类评价要素上的评测结果如表10所示.

表10 基于评价要素的评测结果(单位:%)Table 10 Evaluation results based on opinion elements(unit:%)

表10显示,与情感程度和评价词相比,评价对象的识别效果是较差的,这是由于金融评论中评价对象丰富多样、差异较大.而评价词的识别效果较好,说明金融评论中,评价词相对于其它评价要素,是相对单一或更有规律可寻的.与本文设想差异较大的是情感程度的识别效果,一般地认为,程度词相对简单,更容易识别,但表10却显示了不同的结果.当然,这与情感程度在数据集中相对稀疏不无关系.

4.6 基于评价单元的评测结果与分析

BBG-BMC模型的主要目标是识别评价要素,但为了方便与其它方法比较,本文采用了朴素的基于距离的评价要素匹配方法生成评价单元.由于基准方法抽取评价单元时,没有考虑情感程度,因此,在与基准模型对比时,忽略情感程度.本文所对比的3个基准模型为:

Nearest方法[24],Hu等人认为评价词修饰其最近的评价对象,因此,给定评价词,最近匹配的名词即是评价对象.

EPM方法[25],赵妍妍等人提出的基于句法路径的情感评价单元识别方法,它针对评价对象与评价词之间的句法路径生成频率路径库,针对频率路径库进行泛化生成最终的路径库,然后通过评价词所匹配的路径来寻找其评价对象.

SSA方法[1],江腾蛟等人提出的基于句法依存分析和人工设计的十余条匹配规则(含虚指评价对象和隐式评价对象识别),判断与评价词间满足匹配规则的词作为评价对象.

W-BC模型[26],使用Word2Vec+BiLSTM+CRF模型识别评价要素,使用与BBG-BMC模型类似的朴素匹配法进行评价要素匹配,得到评价单元.

需要再次说明的是,除W-BC外,其它基准方法都是在给定评价词的情况下抽取评价对象,而BBG-BMC模型则不需要给定评价单元中的任何要素.类似于江腾蛟等人[1]实验,假设抽取的评价要素与人工标注只要部分匹配即认为正确.

表11是各模型或方法在评价单元抽取上的评测结果.

表11 基于评价单元的评测结果(单位:%)Table 11 Evaluation results based on opinion unit(unit:%)

从表11看出,BBG-BMC模型的精确率显著高于除SSA以外的其它基准模型,而召回率与基准模型EMP和Nearest相差不大,且显著高于W-BC模型.这说明,尽管BBG-BMC模型不需要给定评价单元的任何要素,但抽取的结果依然优于除SSA以外的其它基准模型,具有较强的竞争力.

表11还显示,BBG-BMC模型的各项评测指标都比SSA方法低,其主要原因分析如下:1)SSA是基于评价词抽取评价对象,而BBG-BMC模型中,评价词是未知的,抽取难度更大;2)BBG-BMC模型主要目的是识别评价要素,评价要素匹配形成评价单元时,所采用的朴素匹配法仅使用最简单的最近匹配规则,影响了评价单元抽取的效果;3)BBG-BMC模型识别的评价要素还包括情感程度,更多的标签以及数据集中情感程度的稀疏影响了情感要素识别的性能.

尽管在基于评价单元的评测上BBG-BMC模型不及SSA,但由于不需要评价词典、不需要人工规则等优点,BBG-BMC模型有更广泛的适用场景和更好的可移植性.

4.7 案例分析

表12中,示例1的识别完全正确.示例2中,除了人工标注的<毛利率 水平,较低>和<销售,增长>的评价要素被正确识别出来外,BBG-BMC还识别出了评价单元<市场份额,提升>的评价要素,显然,这是被人工标注遗漏的评价单元.

表12 BBG-BMC模型抽取结果示例Table 12 Cases extracted by BBG-BMC

示例3中,评价对象较长,BBG-BMC模型的抽取结果变差,只能识别出评价对象中的部分词语,如示例中的“管理 能力”.其原因在于,数据集中评价要素的平均长度仅为1.66,意味着较长的评价要素样本很少,导致模型训练不够充分,而数据集中经常充当评价要素的词语也有可能被错误地识别出来,如示例中的“品牌”和“渠道”.

类似地,示例4识别错误的原因也与评价要素稀疏、训练不充分有关.通常情况下,金融评论中的评价要素很少有如“户外运动 装备”,“安全 舒适”之类的评论,导致模型无法正确识别.当然,如果将金融评论的评论主题仅限于金融类别,示例4可以视为一个噪声数据.

通过以上示例分析发现,评价要素较短、训练较充分时,BBG-BMC模型表现较好,甚至能够识别出人工标注时遗漏的评价要素.但当评价要素较长、复杂且不常见时,BBG-BMC模型容易出错,通常只能识别出评价要素中的部分词语或完全无法识别,这给模型提出了挑战和改进的方向.

5 总结与展望

从金融评论文本中准确地抽取评价单元,有利于帮助金融信息的消费者快速了解专家或大众对金融对象的态度,为决策提供信息支持.

本文提出基于图自注意力机制的中文金融评价要素联合抽取模型BBG-BMC,通过序列标注的方法,联合识别评价对象、评价词、情感程度3个评价要素.BBG-BMC模型主要由语义表示层BBG和序列标注层BMC构成.在语义表示层,BBG-BMC模型基于BERT字向量,采用3种方案对词向量进行编码表示,分别是基于BiLSTM的词向量表示,基于BERT句子编码的词向量表示,基于句法关系和GAT的词语语义增强表示,它们分别考虑了词语在句子中的上下文信息、词语的局部语义信息、词语之间的句法关系.在序列标注层,BBG-BMC模型在BiLSTM-CRF模型的基础上,增加多头自注意力机制,考察序列标注中词语之间的远距离依赖关系,提升评价要素识别效果.

实验结果显示,BBG-BMC模型在评价要素的识别上显著超过基准模型BiLSTM-CRF,消融实验也显示了表示层和序列标注层中所增加或替换的各个模块的有效性.

此外,在无需给定任何评价要素的条件下,仅使用朴素的基于距离的评价要素匹配方式,BBG-BMC模型抽取的评价单元显著优于大部分基准方法,在抽取效果上展示出了较强的竞争力.同时,尽管评价单元的抽取效果不如SSA方法,但不需要给定评价要素、不需要人工设定规则等优势,使得BBG-BMC模型的适合场景更广泛,可移植性更强.

通过对案例的分析,发现BBG-BMC模型存在挑战,主要是评价要素过长和评价要素稀疏(相应的训练样本过少)导致BBG-BMC只能识别出评价要素中的部分词语,甚至完全无法识别.因此,后续工作中,一方面改进模型,优化对较长评价单元的识别效果,另一方面采用迁移学习,克服评价要素稀疏的问题.同时,探索更先进的评价要素匹配方法,包括联合评价要素的识别与匹配,提升评价单元的抽取效果.

猜你喜欢
编码向量对象
HEVC对偶编码单元划分优化算法
向量的分解
住院病案首页ICD编码质量在DRG付费中的应用
晒晒全国优秀县委书记拟推荐对象
攻略对象的心思好难猜
图说车事
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
个性签名
论纪录片影像中的组合编码运用