谢宇欣 肖克晶 曹少中 张寒 姜丹
收稿日期:2023-08-24
基金项目:基于深度学习的虚假新闻检测关键技术研究(27170123034)
DOI:10.19850/j.cnki.2096-4706.2024.07.029
摘 要:为了促进旅游行业的消费和经济发展,对游客在线上平台发表的景区评论文本进行分析,深入挖掘其中的细粒度情感信息,以更好地迎合游客的偏好。在实际场景中,一个句子会涉及多个实体词,致使难以准确识别它们对应的情感属性关系;且旅游场景下的数据集存在稀缺和样本不平衡问题。由此构建了基于深度学习和提示知识的预训练语言模型,通过构建离散提示模板联合训练两个子任务,并对数据集中的少数样本进行了数据增强处理,同时在训练阶段为损失函数设置不同的权重。实验结果显示,模型在旅游评论文本数据集和公开数据集SemEval2014_Restaruant上取得了显著效果,F1值分别达到了80.81%和83.71%,有助于旅游机构实现对每个城市景点的个性化分析。
关键词:语言模型;提示学习;方面级情感分析;预训练模型
中图分类号:TP391.1;TP183 文献标识码:A 文章编号:2096-4706(2024)07-0141-06
Aspect-based Sentiment Analysis Research of Tourism Review Text Based on
Pre-trained Language Models
XIE Yuxin, XIAO Kejing, CAO Shaozhong, ZHANG Han, JIANG Dan
(Beijing Institute of Graphic Communication, Beijing 102600, China)
Abstract: In order to promote consumption in the tourism industry and economic development, we analyze the scenic spot comment texts published by tourists on online platforms, and deeply explore the fine-grained emotional information in them, in order to better cater to the preferences of tourists. In actual scenarios, a sentence may involve multiple entity words, making it difficult to accurately identify their corresponding emotional attribute relationships. Moreover, there are issues of scarcity and imbalanced samples in the dataset of tourism scenarios. A pre-trained language model based on Deep Learning and prompt knowledge is constructed. Two sub tasks are jointly trained by constructing a discrete prompt template, and data augmentation is performed on a few samples in the dataset. At the same time, different weights are set for the loss function during the training phase. The experimental results show that the model has achieved significant results on the tourism review text dataset and the public dataset SemEval2014-Restarantt, with F1 values reaching 80.81% and 83.71%, respectively, which helps tourism institutions to achieve personalized analysis of each city's scenic spots.
Keywords: language model; prompt learning; aspect-based sentiment analysis; pre-trained model
0 引 言
随着国内旅游市场逐步放开,国内旅游市场在短时间内已经迅速复苏。因此,如何挖掘城市热点并吸引游客成为各地旅游机构的首要任务。对游客在线上平台发表的观点和评论文本,进一步进行文本情感分析是非常必要的,这不仅可以帮助各级旅游部门和市场主体对旅游产业进行合理规划,还能更好地推进旅游目的地建设。传统的文本情感分析研究主要是对句子级和篇章级进行情感预测,即识别整个句子或文档的整体情感极性。在预测过程中,通常假设在给定的文本中只对单个实体表达了唯一的情感,然而在实际应用中可能并非如此。辨别更加细致的方面级意见和情感需求,即方面级情感分析(Aspect-Based Sentiment Analysis, ABSA),在实际应用中具有更大的意义。2000年初,Hu [1]等人建立了基于规则的细粒度情感分析模型,推动了该领域技术方法的发展;2010年Thet [2]等人明确定义了方面级情感分析(ABSA)的概念,并将评论对象“方面”定义为实体的属性或组成部分;2012年Liu [3]等人进一步明确给出了观点的定义:“从相关文本中识别出文本项(text item)的情感元素,可以是单个或多个情感元素,它们之间存在依赖关系”,这为方面级情感分析研究指明了方向。
针对端到端的ABSA复合任务,许多研究模型通常采用并行训练策略,在复合任务学习框架中同时训练两个独立的子任务,然后将两个子任务的输出进行结合,以获得最终的预测结果。然而采用单独训练方式并未有效地加强两个子任务之间的关联性,也忽视了实体识别和方面情感分类任务之间的相互影响与关系。特别是在处理句子中存在多个实体的情况下,在对本文所涉及的旅游文本数据集进行分析时,我们发现在真实场景中,一个句子往往包含多个实体,而且不同实体可能涉及相同或相关的情感属性。面对这种情况,准确地识别句子中的多个实体及其对应的情感属性成为一个关键问题,如果句子的结构复杂或存在歧义,可能会导致属性识别变得困难,从而影响后续的情感分类过程。
由此本文提出了实体识别和方面情感分类任务联合训练的模型框架:将实体识别和情感属性识别作为联合任务来进行训练,促使模型学习到实体和属性之间的关联规律,同时将实体识别的输出内容生成离散提示模板(Discrete Prompt Template),作为提示知识融入情感属性分类任务中,帮助模型在处理属性关系时获得更好的表示和推理能力。另外,由于旅游领域的评论文本具有特殊性,存在着样本缺乏和不平衡的问题,直接使用通用数据集进行训练时,模型会倾向于预测多数类别,模型更容易在训练过程中学习到这些类别的特征。因此,在本文中,我们采用数据增强的方法构建句子中包含多个实体词的数据集。在训练过程中,为不同类别设置不同的权重,以使模型更专注于学习少数类别样本,从而提高模型对少数类别情感分类的准确率。同时,通过数据增强技术增加少数类别样本的数量,实现数据集中不同类别样本的平衡,进一步改善模型在少数类别上的性能。
1 相关技术
1.1 ATE和ATSC
假设给定一组训练样本中的第i个句子,,其中n是句子中B、I、O等标记的个数;方面实体提取(ATE)任务的目的是提取方面实体词的集合 ,其中m是句子si中方面实体的个数。方面实体提取任务可以表示为Ai = PLMATE(Si),其中PLM指的是预训练的语言模型,训练时将第i个句子si作为输入传递给模型,句子中对应的方面项Ai为输出标签。
1.2 Prompt机制
在本文的联合训练模型中,利用实体识别的输出结果构建生成离散提示模板,将其作为提示知识融入情感属性分类任务中,离散提示模板是一种用于文本相关任务的模板或指令,可以提供结构化的方式来引导文本的内容,以满足特定的需求或约束。离散提示模板在生成文本时强制要求模型遵循一些指定的规则、主题或格式,这有助于控制生成的文本,使其更加符合特定的语境和目标。然后将生成的提示指令符(Instruct prompt)和句子同时作为方面实体情感分类(ATSC)任务的输入。引导模型更好地学习实体和属性之间的关联信息,提示指令符作为一种特定的文本输入,用于指导模型生成特定类型的输出,由此通过引入提示指令符来告知模型当前需要执行的任务,即识别出提示的实体词对应的情感属性。
2 模型设计
本文提出了一种新的基于深度学习和提示学习的模型,用于对旅游景点相关评论文本的句子进行方面词抽取,将实体识别任务的结果生成提示指令符,再和原始句子一起输入到情感分类任务中,由此达到增强对句子中方面实体的关注度的目的。如图1所示,该模型分为三部分,分别是实体抽取部分、提示指令符部分和方面词情感分类部分。
2.1 提示指令符部分
BERT模型并没有直接处理标签序列的机制,它仅根据上下文预测每个标记的标签。在这种情况下,BERT模型可能会在生成标签时忽略标签之间的顺序关系。因此本文加入CRF特征[4]提高模型在BIO标注数据上的准确性,CRF模型可以利用实体之间的依赖关系和上下文信息,以全局一致性的方式进行标注,从而得到更准确地实体识别结果,避免了“I”出现在“E”之前的情况,同时也可以更好地处理BIO标注中的顺序关系,并提高标注的准确性。
提示指令符的设计需要根据本文的具体任务和数据集的特点来确定,同时还需要注意避免提示指令符过于复杂或冗长,以免对模型的学习和泛化产生负面影响[5]。在本文中,模板任务是凸显句子中的实体词,生成提示模板:“实体是_。”。生成的文本将根据填充的内容来组成,同时保留了特定的结构。离散提示模板可以在一定程度上控制生成文本的主题等,同时减少模型输出的不确定性。这对于本文需要确保实体词和情感属性的一致性的场景非常有用。在本文实体识别和情感属性识别的联合训练中,加入提示指令符[6]可以引导模型更好地学习实体和属性之间的关联,本文的创新之处在于将实体识别的输出结果作为特定的提示之令符,用于指导模型生成特定实体对应的情感属性。图2是用于ATSC子任务的Instruct ABSA模型[7]示例,输入由指令提示和原句子组成,输出标签是对应方面的情感极性。
通过构建提示指令可以引导模型提取出更多信息,为了使BERT预训练模型能够获取语义信息,本文设计了“aspect is [MASK]”样式的提示指令模板作为输出,构建了由具体词汇组成的离散模板,适用于小样本的文本情感分类任务,使用预先定义的模板将需要预测的每个输入进行转换,转换成一个新的token序列。每个token表示一个文本单元或[MASK]等补充符号。式(1)可以将原始句子x和提示指令模板Tn结合在一起得到新的输入 :
(1)
在一个句子中,可能存在多个实体和情感属性,而它们之间的关系可能是复杂的。还可以为模型提供一些先验知识和指导信息,帮助模型更好地学习实体和属性之间的关联信息。通过加入提示指令符,可以明确指定当前要处理的实体和属性,从而减少歧义,增强模型对于两个子任务的专注度和准确性,避免模糊的任务定义和错误的关联,提高模型的学习效率和准确性。
2.2 情感分类部分
给定训练样本中第i个句子,用 表示训练样本中第i个句子的情感极性,其中m表示句子中方面实体项的个数,从文本中识别和提取到方面实体后,要对与每个方面相关的情感极性进行分类。基于指令的训练会将明确的提示指令符合并到训练数据中,如图1所示,将实体识别任务的输出和定义好的提示指令符模板输入情感分类模型,即指示了模型要预测的方面实体,模型从这些指令中学习。
本文模型使用BERT编码器对语义向量进行语义特征编码,采用全连接层和自注意力机制对情感向量进行情感特征编码,并计算联合损失函数。通过两种文本表示方法:CDW(Contextual Document Window)和CDM(Contextual Document Matrix),捕捉文本的语义信息,以便更好地表示文本内容。对于图4中的示例句子,首先定义一个上下文窗口,这是一个固定大小的窗口,包含目标词语及其周围的词语,假设目标词语的向量表示为vtarget,上下文窗口中的词语向量分别为v1、v2、v3(按照顺序)。那么,CDW方法生成的文本向量可以表示为:
(2)
其中,n表示上下文窗口中词语的数量。这个公式表示将目标词语与上下文词语的向量进行加权平均,得到最终的文本向量表示。CDM文本表示方法通过考虑文本之间的语义相似性和相关性,生成文本的表示矩阵。假设有两个文档矩阵A和B,其中A表示文档A的词向量矩阵,B表示文档B的词向量矩阵。可以使用余弦相似度来计算文档之间的语义相似度,如式(3)所示:
(3)
其中,A和B分别表示文档A和文档B的词向量矩阵。然后,通过设置一个阈值θ,判断文档之间是否相关,根据相关性判断,可以生成一个文本表示矩阵,其中矩阵元素为1表示相关,为0表示不相关。由于BERT模型[8]没有显式的位置信息,可以添加自注意力机制帮助模型关注重要的上下文信息,从而更好地捕捉实体和情感属性之间的语义关系[9]。假设全连接层的输出为gt,其中包含了编码后的情感信息,自注意力机制允许模型关注不同词语之间的关系,并为每个词语分配一个注意力权重,以反映其重要性。通过tanh激活函数,计算每个gt的隐含状态ut,隐含状态将用于计算每个词语的自注意力权重,使用自注意力算式(4)计算每个词语的注意力权重αt:
(4)
其中,ut表示词语t的隐含状态,αw表示权重参数,n表示词语的总数。通过将每个词语的自注意力权重αt与全连接网络的输出gt进行加权求和,得到特征向量E。这个特征向量E将捕捉词语之间的上下文语义关系,能够更好地捕捉情感信息的关联性,提高情感分析的效果。
3 结果分析
3.1 实验数据集
本文在公开数据集SemEval2014 Task4 [10]和基于社交媒体的北京旅游景区评论数据集上分别进行对比实验。SemEval2014 Task4数据集包含Restaurant、Laptop和Car几个领域的评论数据,其中原始的样本格式由评论语句、语句中的方面实体词以及对应的情感类别数值组成,经过预处理后,剔除了异常数据且将原始文本合并成单行格式。基于社交媒体的北京旅游景区评论数据集(PTS)是针对中文旅游方面的评论文本,但此数据集是对网页文本的简单爬取,无法直接用于实验,因此对5 000条数据进行重复和无效文本剔除,对其中的表情符号、评价标签、颜文字、时间信息、标点符号等内容进行数据清洗,得到的数据集按照8:1:1的比例随机切分为训练集、验证集和测试集。训练过程中,需要提前试验以确定Epoch的大小,以免造成分类准确率低或者过拟合的现象。因此本文选取了10%的训练集数据进行Epoch实验,并记录了每次训练的Accuracy值和损失函数值,如图3所示。
3.2 实验设置和评价指标
本文的实验用的是Huggingface开源社区发布的预训练模型,Transformer是一个通用接口,支持PyTorch框架,相当于加载预训练模型的基座,使用Bert-Base-Chinese语言模型实现。实验超参数如表1所示。
本文用测试集数据对模型进行评估,在前面的实验中分别预测了实体标签和某个实体对应的情感分类,并且计算了联合损失,需要根据实体的预测值解析出对应的实体位置,并预测实体对应的情感分类,再跟真实实体对进行对比,计算出准确率A(Accuracy)、召回率R(Recall)和F1值(F-score)这几个评价指标,计算式为:
(5)
(6)
(7)
其中,TP、TN分别表示预测正确的正向类别数和负向类别数;FP、FN分别表示预测错误的正向类别数和负向类别数;A和R分别表示精确率和召回率,P表示Precision,加上EPS这样一个很小的值来避免分母为零的情况。
3.3 分类模型对比实验
为了评估本文的模型性能,本研究与几个其他相关研究的方面级情感分析模型进行了对比实验,表2展示了本文模型在特定旅游评论数据集上与其他预训练模型的准确率、召回率和F1值的对比,实验结果表明,本文模型取得了比其他模型更好的分类效果,对于旅游领域的评论数据集文本,本文模型的准确率和F1值分别达到了81.01%和80.81%,相较于Bert-LSTM [11]模型提升了4.89%和5.2%,验证了本文提出方法的有效性。
由表2可以看出,与BERT的其他基准模型相比,本文提出的结合指令提示符的改进模型在旅游领域的数据集上取得了较好的效果,但在实验中遇到了几个问题:一是在初始调试阶段将BERT模型中的参数“requires_grad”属性设置为“False”,保持预训练的BERT权重固定,可以加快训练过程并防止模型过度拟合特定任务的有限数据。但冻结BERT模型的参数时,模型无法根据特定任务的数据进行微调和更新,这样会限制模型适应任务特定的特征和模式,从而导致了模型性能下降。二是实验的输出结果差异变小,这是因为在线性层(linear层)加了一个Sigmoid函数,可以对输出结果进行归一化,并将输出范围限制在0到1之间,这样得到较小的输出差异意味着可以提高模型在情感分类任务上的准确性、可解释性和置信度,使得模型的分类结果更稳定、一致且易于理解,有助于更好地应用于文本情感分析场景。总的来说,本文提出的模型在旅游评论文本数据集上取得了更好的效果,证明了此方法的可行性。
表3展示了在公开数据集SemEval2014的Restaurant领域上,本文模型与其他几个基准模型的性能对比。由表3可以看出,单一的结合注意力机制来捕捉文本中信息的IAN模型效果一般;Bert-CNN模型结合了BERT预训练模型和卷积神经网络(CNN),对输入文本进行编码后传递给卷积层进行特征提取,其模型准确率有了一定的提升;针对句对任务的模型Bert-pair是对输入进行编码后,通过额外的任务特定层来处理,但在文本的情感分类任务上效果不如Bert-LSTM模型,Bert-LSTM模型将文本编码信息传递给LSTM层,以建立上下文信息和序列建模;本文提出的模型在输入中结合了提示指令符,模型先对句子进行方面词抽取,将该子任务的结果作为提示指令符,再和原句子一起输入进方面词情感分类任务中,由此达到增强对句子中方面实体的关注度的目的,由准确率来看可以有效地说明该模型在文本情感分类任务上的性能良好。
3.4 降采样对比实验
为了验证本文模型在训练样本较少的旅游评论数据集上效果仍然优于其他模型,通过降采样方法,分别取PTS数据集数量的80%(PTS0.8)、50%(PTS0.5)、20%(PTS0.2)作为降采样后的数据集进行对比。降采样后的标签分布与原数据集保持一致,选择分类模型对比实验中效果较好的模型进行对比。
降采样实验的对比结果如表4所示。由对比结果可以看出,面对特定领域的小样本数据,本文提出的通过构建特定领域的离散提示模板,联合训练两个子任务的训练模型准确率比Bert-LSTM模型的准确率高了2.07%,且本文的模型受数据量骤减的影响最小,分类准确率波动幅度更小,说明本文提出的方法面对旅游评论文本的使用效果最好,验证了本文方法的有效性。
4 结 论
本文提出了基于预训练模型和提示学习的方面级情感分类模型,使其更好的应用于真实应用场景,并提升模型面对多实体句子的分类性能。综合利用提示指令符和联合训练技术,可以帮助模型更好地学习实体和属性之间的关联,从而提高方面级文本情感分析的性能。针对此应用场景下的数据集句子出现多实体属性难以对应的问题,本文提出的融入提示指令符方法和联合训练框架可以帮助模型在处理属性关系时获得更好的表示和推理能力,达到精准提取文本中的多个实体的情感信息的目的;针对缺乏样本和样本不平衡问题,本文通过数据增强,可以增加少数类别的样本数量,使得数据集中不同类别的样本更加均衡,从而改善模型在少数类别上的性能。经实验验证,本文所提出的模型在文本情感分析的准确率、召回率以及F1值等评价指标上都优于其他四种方法,由此论证了本文模型的有效性。本文的主要贡献如下:一是构建了一个新的文本情感分析的深度学习模型架构,加强了两个子任务之间的联系,比较所提出的模型与其他四种情感分析模型的性能。二是模型针对句子中包含多个方面实体的文本情感分析具有可用性,可以为不同城市的旅游机构和企业提供启发性的建议,使其能够抓住机遇快速发展。三是为未来的研究提供了一些方向。
参考文献:
[1] HU M Q,LIU B. Mining and Summarizing Customer Reviews [C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining.Seattle:Association for Computing Machinery,2004:168-177.
[2] THET T T,NA J C,KHOO C S G. Aspect-Based Sentiment Analysis of Movie Reviews on Discussion Boards.Journal of Information Science,2010,36(6),823-848.
[3] LIU B. Sentiment Analysis and Opinion Mining [M].[S.I.]:Morgan & Claypool Publishers,2012.
[4] 刘斐,文中,吴艺.基于BERT-BILSTM-CRF模型的电力行业事故文本智能分析 [J].中国安全生产科学技术,2023,19(1):209-215.
[5] 王昱婷,刘一伊,张儒清,等.基于提示学习的文本隐式情感分类 [J].山西大学学报:自然科学版,2023,46(3):509-517.
[6] 张心月,刘蓉,魏驰宇,等.融合提示知识的方面级情感分析方法 [J].计算机应用,2023,43(9):2753-2759.
[7] WANG Y Z,MISHRA S,ALIPOORMOLABASHI P. Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks [J/OL].arXiv:2204.07705 [cs.CL].[2023-07-20].https://doi.org/10.48550/arXiv.2204.07705.
[8] ZHANG J W,QI H. Data Mining and Spatial Analysis of Social Media Text Based on the BERT-CNN Model to Achieve Situational Awareness: a Case Study of COVID-19 [J].Journal of Geodesy and Geoinformation Science,2022,5(2):38-48.
[9] 高佳希,黄海燕.基于TF-IDF和多头注意力Transformer模型的文本情感分析 [J].华东理工大学学报:自然科学版,2024,50(1):129-136.
[10] dIGO999. SemEval-2014 Task 4: Aspect Based Sentiment Analysis [EB/OL].[2023-07-21].https://github.com/Diego999/SemEval-2014-Task-4-ABSA.
[11] SONG Y W,WANG J H,LIANG Z W,et al. Utilizing BERT Intermediate Layers for Aspect Based Sentiment Analysis and Natural Language Inference [J].arXiv:2002.04815 [cs.CL].[2023-07-26].https://arxiv.org/abs/2002.04815.
作者简介:谢宇欣(1999—),女,汉族,湖北襄阳人,硕士研究生在读,研究方向:自然语言处理;通讯作者:肖克晶(1991—),女,汉族,河南信阳人,讲师,博士研究生,研究方向:自然语言处理。