基于BERT模型的景区评论情感分析

2021-06-28 00:50蔡汶兴李兴东
关键词:拙政园

蔡汶兴 李兴东

摘 要:随着旅游经济的到来,游客们更加关注旅游体验,本文采用BERT文本情感分析模型以及网络文本分析方法,以苏州拙政园景区为研究对象,爬取并整理携程网中游客对景区的评论信息。利用Python软件建立改进的BERT情感分析模型,训练集与测试集M值达0.94,同时针对负面评论信息使用社会和语义网络,分析游客的旅游体验特征,对景区存在的问题提供一定建议。

关键词:拙政园;文本情感分析;BERT;社会和语义网络

中图分类号:TP391.1;TP183  文献标志码:A

随着国民经济的日益提升,人们的收入以及消费水平也在不断提高,越来越多的国人开始注重精神上的满足,旅游业在国民经济发展中的地位愈发重要。据文化和旅游部发布的《2019年旅游市场基本情况》,国内旅游人数超过60亿人次,全年旅游总收入6.63万亿元,同比增长11%,占我国GDP总量的11.05%。伴随着旅游业逐步进入新时代,游客们也更加注重旅行体验,社交网站的蓬勃发展,使广大游客更加倾向于采纳他人在旅游网站中对景点的意见,以确定自己的旅行计划。因此,借助网络提取游客对景区的情感倾向和改进建议,对其他游客的出行以及景点日后的发展方向都具有重要意义。

目前,国内外学者对景点评论的研究兴趣主要在情感倾向、旅游满意度等方面,COHEN[1]研究了旅游体验的几种类型;RYAN[2]对影响旅游过程中的感知因素进行分析;PANG等[3]使用朴素贝叶斯分类和最大熵方法分析句子中的文本情感倾向;王煜涵等[4]针对Twitter文本建立基于卷积神经网络的情感分类模型,分类效果对比传统分类方法有显著提升;HOCHREITER[5]提出循环神经网络(recurrent neural network,RNN)模型,通过获取句子之间的长期依赖关系,了解语义信息,从而分析文本情感;LI等[6]研究长短期记忆网络(long short-term memory,LSTM)模型在情感分析任务中比标准RNN模型效果更优;ZHAI等[7]将BiGRU结合注意力机制,应用于在不同的数据集上训练情感分析模型,效果较好。

国内学者主要对整体旅游市场倾向研究较多,但关于游客对景点的具体体会感受分析较少,故本文基于BERT模型对苏州著名景点拙政园的相关评论进行情感分析,同时针对评论中的负面情感数据,建立网络文本法进行研究。以期建立泛化能力较强的景区评论模型,对其他游客的旅行期待、拙政园景区未来的发展方向提供一定改进建议。

1 研究区域概括

拙政园[8]位于江苏省苏州市,作为我国四大名园之一,是江南古典园林的代表,同时也是我国首批5A级景区。整个园区以水为中心,处处体现着江南水乡的韵味,以其布局的山岛、竹坞、松岗、曲水之趣,被胜誉为“天下园林之典范”。拙政园景区分为东、中、西三部,把有限的空间进行分割,充分采用了借景和对景的造园艺术,建筑小巧玲珑,整个园区显得十分秀丽、雅致、幽静,被称为苏州必去景点之一。

2 研究方法

目前基于中文文本情感分析的方法主要分为3类:第一是建立情感词典的方法,此方法主要需要依赖人工构建情感词典,方法较为简单方便,但对前期建立的词典的完整性要求较高,同时是基于词复现的程度进行分析;第二是利用传统机器学习的方法,主要有基于贝叶斯统计、支持向量机等模型,此类方法对人工标注的标签依赖性较强,分类效果一般;第三是常规的深度学习模型方法,比如基于传统RNN、LSTM等模型[9],此类方法通过搭建神经网络模型,分析文本内部信息,但作为串行运行模型,处理效率低,同时只关注局部评论信息,对文本整体情感理解程度较差。

因此,本文提出基于变换网络的双向编码(bidirectional encoder representations from transformers,BERT)模型的情感分析模型,在调整后的BERT预训练模型基础上,进行微调,构建文本情感分类模型,从而更好地掌握文本整体信息,提高模型准确性。

2.1 BERT模型

BERT是Google的Devlin J等在2018年提出的一种自然语言处理(natural language processing,NLP)领域的预训练模型[10],是基于Transformer模型的改进。采用双向Transformer中的Encoder模块进行模型的搭建,由该层对输入的文本信息进行特征提取[11],舍弃了传统的NLP领域的本文处理方法,比如RNN、LSTM等此类模型的循环结构,有效地解决了模型无法并行处理以及文本的長期依赖问题。

BERT模型的核心思想与Transformer模型一致[12],通过结合文本中的每个单词与其他单词之间的联系,去除距离的限制,将当前词与句子中其余词之间的依赖关系显性的表示出来,充分的结合句子的上下文信息,更好的识别句子的语义信息,同时也可以达到并行处理的目的,其网络结构如图1所示。

模型输入的编码过程为3个向量的求和,其输入形式如图2所示,分别是针对输入文本中,每个词对应词向量表示、位置信息编码、段落信息标记。同时,添加两个特殊符号[CLS]和[SEP],其中一般在文本首部添加[CLS],该特征可提取用于分类模型,[SEP]表示分句符号,用于断开输入文本中的两个句子。

BERT模型的双向网络结构会使模型中的每个词都包含该句中其他词的含义,因此会使预测任务失去意义,为了解决这个问题,模型从输入序列入手,创新性地提出了两种解决方法:(1)建立Masked方式训练模型,即针对输入的训练集数据,随机的选取15%的词进行转化,其中对于该部分词,80%的概念替换成[Mask]符号,10%的概念替换成其他任意词,10%的概率保持当前词。通过这种方式,让预训练模型对选取的词进行预测。(2)通过上下文预测方式,随机替换一些句子,利用BERT模型预测两段文本是否为连续的文本,从而学习句子之间的关系。通过同时运行两种任务,计算总体的损失值,使损失值降低完成模型的训练过程。

在本文中,因为训练文本数量较小,为了提高训练效率,同时避免可能出现的过拟合现象,舍弃常规的BERT模型结构,而采用6层的Transformer架构搭建,编码维度设置为384维,同时Multi-head设置为12,使用中文维基百科的语料库重新训练。使用该模型获取后续输入的词向量,同时作为预训练模型为后续网络的输入,微调后完成情感分类任务。

2.2 社会网络和语义网络分析

通过ROSTCM6软件对评论文本进行社会网络和语义网络进行分析,对文本内容深层次挖掘,可以探索文本网络中各个关键词之间的关联性[13],进而提取到文本中的关键词重要性,借此可以研究游客在景区体验中的主要关注点[14]。

2.3 数据来源

本文选取携程网作为评论数据来源,使用八爪鱼软件,采集游客在2016年至2020年9月期间对拙政园景区的评论情况,同时删除部分无效和重复等评论,共获得2 600条评论,其中正面评价数据1 600条,负面评价数据1 000条。

2.4 相关评价指标

本文采用的模型评价指标为准确率以及模型M值,数值越大说明模型的分类效果越好。其中,准确率由模型分类正确的数据数量与数据集总数量比值获得,M值常用来对二分类模型的效果进行评价,更好的验证分类准确性,通过对比两类样本的分类概率与阈值之间的关系而求得,表示预测的正例排在负例前面的概率。

3 模型建立与结论

3.1 情感分析

基于上述训练出的BERT预训练模型,将80%的数据作为训练集,对预训练模型做微调,训练本文最终需要的情感分类模型。

本文将训练次数设置为300次,初始学习率设置为1e-6,为了防止过拟合,dropout设置为0.4,将每句中[CLS]对应的向量连接一层全连接层,利用sigmoid函数作为激活函数,对目标分类进行预测[15]。将模型在测试集和训练集上的损失值作为模型损失值,模型在迭代次数267次时,损失值在前50次迭代期间未有明显变动,模型已经达到稳定,提前结束训练,此时训练集和测试集损失值下降至0.3。

初始模型将0.5设为分类阈值,计算模型准确率,变动情况如图3所示,最终测试集和训练集准确率均接近0.9,模型训练效果较好。

考虑到在实际情况中,阈值为0.5无法很好的对评论情感倾向进行预测,本文设计阈值计算方法,通过重新定义阈值大小,使模型的分类效果达到最优,最终可以得到模型的较优阈值为0.46。

得到模型在训练集和测试集M值变动图,如图4所示。最终得到训练集数据模型损失值为0.310,M值为0.937,测试集数据损失值为0.304,M值为0.944,故模型分类效果较好。

3.2 负面文本分析

为了对景区后续的改进方向提供一定建议,本文将负面评论进行单独分析。利用ROSTCM6软件,建立社会网络与语义网络,可以探究文本中关键词之间的关系,词汇连线越多,关键词之间联系越密切,得到图5所示。

由图5可以发现,苏州、景点处于第一核心位置,门票、性价比、园林处于第二核心位置,失望、管理、不值、人多、服务等词汇处于外围。

通过语义网络图可以大致地了解到,对拙政园给与差评的游客主要体现在:对游园的观感体验较差,因为园林独特的意境,需要静静观赏,而景区常年游客众多,人流拥挤,致使部分游客无法体会到园林之美;对景区门票的价格表示不满,认为性价比不高,如同普通公园一般,部分游客更加倾向于颐和园的景色;景区还存在一定的管理混乱等情况。

通过对游客们提出的部分负面评价信息,园林可以考虑对园区人流进行一定控制,减少人流密度,同时也可以考虑延时闭园,分散游客入园时间等措施,从而提高景点舒适度;衡量景区观感程度,调节门票价格,或者开发提高景区互动性的方法,提升园林魅力。

4 结语

本文利用BERT模型,基于中文维基百科语料训练预训练模型,同时针对拙政园景区的文本评论进行模型微调,作为本文的情感分析模型。模型的预测准确率较高,对长文本情感语料分析时,也可以更好的获取情感倾向,得到更好的预测效果。模型改变了传统的RNN网络的串行方法,提取上下文关联信息,建立并行训练模型,对文本进行情感极性分析。同时,分析游客们提出景区存在的不足之处,对景区后续管理提供方向和建议。参考文献:

[1] COHEN E. A Phenomenology of tourist experiences[J]. The Journal of the British Sociological Association, 1979, 13(2): 179-201.

[2] RYAN C.Ways of conceptualizing the tourist experience:a review of literature[J].Tourism Recreation Research,2010,35(1):37- 46.

[3] PANG B, LILLIAN L, SHIVAKUMAR V. Thumbs up: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Lan-guage Processing. Stroudsburg, PA: Association for Computational Linguistics, 2002: 79-86.

[4] 王煜涵,張春云,赵宝林,等.卷积神经网络下的Twitter文本情感分析[J].数据采集与处理,2018,33(5):921-927.

[5] HOCHREITER S,SCHMIDHUBER J.Longs hort-termmemory[J].Neuralcomputation,1997,9(8):1735-1780.

[6] LI D,JIANG Q.Text sentiment analysis based on long short-term memory[C]//In Proceedings of IEEE International Conference on Computer Communication and the Internet.WuHan,China:IEEE,2016:471- 475.

[7] ZHAI P H, ZHANG D Y. Bidirectional-GRU based on attention mechanism for aspect-level sentiment analysis[C] //Proceedings of the 2019 11th International Conference on Machine Learning and Computing. New York, USA: ACM, 2019: 86-90.

[8] 黃发良,连亚飞.Senti-LSTM:一个基于递归神经网络的情感分析模型[J].福建师范大学学报(自然科学版),2020,36(1):12-18.

[9] 周云鹤,杨莹莹,陈己任.明代私家园林理水艺术探析:以苏州拙政园为例[J].绿色科技,2020(1):63-64,67.

[10]刘思琴,冯胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227.

[11]赵晓铮.基于Attention机制的短文本情感分类方法研究[D].北京:北京工业大学,2019.

[12]方英兰,孙吉祥,韩兵.基于BERT的文本情感分析方法的研究[J].信息技术与信息化,2020(2):108-111.

[13]王少兵,吴升.基于景点在线评论文本的游客关注度和情感分析[J].贵州大学学报(自然科学版),2017,34(6):69-73.

[14]韩百川,潘辉,魏文静,等.基于网络文本分析的鼓山风景名胜区游客旅游体验研究[J].河南科技学院学报(自然科学版),2020,48(1):35- 41.

[15]谢润忠,李烨.基于BERT和双通道注意力的文本情感分类模型[J].数据采集与处理,2020,35(4):642-652.

(责任编辑:于慧梅)

Abstract: With the development of the tourism economy, tourists pay more attention to the tourism experience. This paper uses the text sentiment analysis model based on BERT and the web text analysis method, taking the Humble Administrator Garden as the research object, crawling and sorts out the tourists comments on the scenic spot in Ctrip. Python is used to build an improved BERT model, the M value of the training set and the test set is about 0.94, at the same time, in response to the negative comments of tourists, a social and semantic network was was used to analyze the characteristics of tourists travel experience and provide certain suggestions for problems in the scenic spot.

Key words: Zhuozhengyuan; text sentiment analysis; BERT; social and semantic network

猜你喜欢
拙政园
风雨拙政园
手植紫藤,我心徵明
拙政园
拙政园景面文心理法分析
师法自然:中国古典园林造园艺术浅析
江南古典园林生态文化研究
荷花节
论经济、文化等要素对园林设计的作用
浅谈中国古典园林
浅议拙政园和留园对现代景观设计的影响