基于网络评论的文本挖掘与情感倾向分析

2023-07-04 04:56杨嘉雯石媛媛闫安
互联网周刊 2023年11期
关键词:文本挖掘

杨嘉雯 石媛媛 闫安

摘要:目的:基于五家旅游平台上北京地区18家一级博物馆评论的数据分析,挖掘影响游客满意度因素,了解游客差评原因,对提升北京地区博物馆服务具有重大意义。方法:通过词云图、语义网络特征关联分析、LDA主题模型特征分析,并建立语义情感词典进行情感倾向分析。结论:根据文本挖掘与情感倾向分析结果,提出北京地区博物馆服务建议。创新基于现实数据,采用数据挖掘方法分析北京地区博物馆游客情感倾向,为游客情感影响因素识别提供科学研究范式。

关键词:文本挖掘;语义网络;文本情感分析;北京地区博物馆

引言

游客平台网站评价是游客对体验的真实表达。通过挖掘网络文本,了解游客看法,对完善博物馆体系,提升游客体验具有重要意义。对于挖掘网络文本和分析情感倾向方法,已有众多学者深入研究。莫纪灿等(2021)[1]使用ROSTCM6软件对网师园网络评论进行网络语义分析,归纳游客感情特征;孙明慧等(2021)[2]构建语义网络,提取高频词,对消极情绪进行扎根理论编码分析,建立乡村书店游客负面情绪影响因素模型;郑凇尹等(2022)[3]使用方面级情感分析方法,使用模型情感分类,归纳影响用户满意度的因素。

梳理文献得出,国内外在研究博物馆游客体验方面缺少对网络文本的利用。因此本研究创新基于从去哪儿网、大众点评等点评类网站抓取网络评价,运用词频统计、语义网络特征关联分析、LDA主题模型分析、建立词典情感分析等方法分析北京地区博物馆游客体验的影响因素,提出可持续发展的相关建議。

1. 北京地区博物馆游客评论的特征分析

1.1 数据的来源与预处理

1.1.1 数据来源

本研究的评论数据选取大众点评、驴妈妈、去哪儿网、携程网、途牛网5家网站从2019年1月至2022年12月对北京地区18家国家一级博物馆的评论。博物馆分为8家文物博物馆:中国国家博物馆、恭王府博物馆、清华大学艺术博物馆、故宫博物院、中国人民抗日战争纪念馆、首都博物馆、周口店北京人遗址博物馆、北京鲁迅博物馆;8家行业博物馆:中国农业博物馆、北京天文馆、北京汽车博物馆、中国印刷博物馆、中国电影博物馆、中国科学技术馆、北京自然博物馆、中国人民革命军事博物馆、中国航空博物馆、中国地质博物馆。

1.1.2 数据预处理

运用软件收集网站一级评论,内容包括评论内容、评论日期及用户名,共83264条评论,由于存在无关数据,如重复评论、无效无关数据等,无法直接分析,所以进行初步处理,去除2020年1月前全部评论、重复评论、颜表情、无用符号,最终获得53319条有效评价数据。使用Jieba分词,Jieba词典库不够完整,本研究根据实际情况对停用词添加删除,建立适合的停用词表,分词结果更加显著。

1.2 文本特征提取

TF-IDF方法在分词后对分词结果进行遍历[4],挖掘文档中关键词,评估某词组对文档的重要程度,TF-IDF值越高表明该内容的重要性越强[5-6]。根据TF-IDF结果,得到词频统计前20个词及TF-IDF排名前20个特征词,如表1所示。词频统计和TF-IDF中“电影”均占榜首,可见游客对数字化技术的关注。词频统计与TF-IDF结果基本相同,说明词频数和TF-IDF值间存在一定正向关系。但词频统计中“小朋友”位于靠前位置,但TF-IDF中为靠后位置,表明词频数越高不能表示重要性一定高。

1.3 基于词云图的特征可视化分析

基于分词结果,在Jupyter Notebook环境内生成词云图,通过可视化转化数字表格,直观展现评价高频词与游客体验重点,利于建议提出,为结果展现的重要方法之一[7],如图1所示。

出现频率较高的高频词,即图中字体更大的词组,如“电影”“历史”“展厅”“门票”“小朋友”等,突出游客关注内容。

根据图1,结合整段评价分析:

(1)游客选择博物馆时考虑预约模式及开放时间,如是否有预约网站、是否需提前关注抢票进展、博物馆预约开放时间,增加体验满意度。

(2)游客偏向更具新奇体验的博物馆,更多年轻人选择主题丰富博物馆出行;博物馆可在展览建设中注入创新力量,例如数字化剧场覆盖率,提高回头率。

(3)游客看重展馆受众及主题内容,家长会优先小朋友选择有教育意义的博物馆;年轻人为充实自身文化底蕴,会选择有文化气息的博物馆。

(4)游客会被建筑外观吸引,如故宫保留中国历史的建筑物群、鲁迅博物馆特色的馆内环境和风格;博物馆可在展览风格及馆内环境投入精力,提高好评率。

1.4 基于语义网络的特征关联分析

词频统计对影响游客体验因素初步分析,但对影响因素间的关系仍无法说明。语义网络分析可直观分析主要特征词间的关联关系以及语义网络的中心节点,找寻文本特征[8]。运用ROSTCM6软件对已处理数据进行社会网络与语义分析[9]。生成共现矩阵,如表2所示,网络语义分析图如图2所示。

图2看出影响体验因素间的关系具有包围结构,分为三个层面。交通、门票、展厅等高频词与其他高频词联系最紧密,构成第一层核心圈,也是影响游客体验重要因素。第二层主要由小朋友、电影、停车场、展品等高频词组成,为次要因素,反映博物馆提供的项目服务,如停车场、电影等。最外层主要由科技、文化、乐园等组成,反映游客对博物馆文化内涵的关注,对博物馆的整体印象等。结合共现矩阵及网络语义分析,影响博物馆游客情感因素总结出以下方面:交通、门票、展厅、服务、文化、展览。

1.5 基于LDA主题模型的特征分析

语义网络已找到影响游客情感倾向的因素关系,继以通过LDA[10]三层贝叶斯主题模型,通过无监督学习方法发现文本中隐含的主题信息[11-12]。本研究利用比较困惑度[13]进行主题识别。经python算出主题数目为5时,LDA模型困惑度最小。自然语言处理导出主题—关键词分布后,得到游客评论的5个研究主题并每个主题提取20个特征词。LDA主题分析生成主题、特征词及权重如表3所示,展示每个主题及其关键词和重要性。

分析表3中特征词,各主题含义如下:主题一,游客关注博物馆概况,如门票性价比、环境等;主题二,游客在疫情时代注重博物馆的整体服务水平;主题三,游客重视博物馆逐渐提高的数字化发展;主题四,游客更注重博物馆的内在文化知识,博物馆为公共教育场合,可在此感受到在其他场合无法了解到的知识文化;主题五,强调多以亲子出游为主。综合以上五个主题,游客比较关心博物馆周边环境、整体服务、数字化建设及北京地区独有内在文化建设等。

2. 游客情感倾向分析

2.1 词典的建立

本文分析游客情感倾向时,采用基于语義的情感词典方法[14]。构建程度副词词典、情感词词典和否定词词典。分析文本计算情感分数值,将情感倾向分类。

参考文献,情感词典及其赋值如表4所示。

情感词词典只可表明情感倾向,无法体现程度区别,因此建立程度副词词典,参考知网研究及前人研究,最终以周知等[15]研究为参考,划分出6个等级并赋予权值,如表5所示。

当否定词存在时,情感倾向会改变,因此附加否定词词典。目前研究对此设置无固定模板,据相关文献建立否定词词典,如表6所示。

2.2 情感值计算算法设计

结合具体情况及参考文献,本研究算法逻辑如下:

(1)对网络评价文本数据进行预处理;

(2)建立好词典,即程度副词词典、情感词词典和否定词词典,导入数据集;

(3)程序运行中遍历寻找评论中情感词,确定基础情感分数值;

(4)以确定情感词为查找中心,查找前面一个词,判断是否存在程度副词,若有,在词典中确定程度级别,根据权重赋值运算;

(5)再次以(3)中情感词为查找中心查找,判断是否存在修饰中心情感词的否定词,若有,分数置反;

(6)计算原始每条评论的情感分数值。对确定的情感词计算所有权重后加和;

(7)最后统计游客评论的情感倾向占比。

2.3 结果分析

根据算法结果将评价情感倾向分为好评4509条评论、中性4398条评论、差评3872条评论,共53319条评论。

分析图3,极高的好评率说明北京市地区博物馆建设可观;中性评价表明建设不够吸引游客、跟进时代;差评存在,说明博物馆有急需整改之处,可能是影响北京地区文化发展的障碍。

分析表7、图4,好评中高度好评最多,中度其次,说明游客认可程度极高,博物馆建设可观;差评中轻度差评最多,中度其次,可见博物馆虽存不足,反馈并不强烈。高度差评占比不高,可知发展中所存问题尚不严重,但仍须加强对其部分改进。

结语

本研究以9家旅游网站中北京地区18家一级博物馆游客评论文本数据为例,使用语义网络关联分析、词云图分析、LDA主题模型特征分析对评论文本进行特征分析,采用建立情感词典并赋予其相关分值,python计算每条评论情感得分。根据研究结果为北京地区博物馆的游客体验发展提出以下建议:

(1)数字化发展。北京地区博物馆大多普及了数字化系统,但部分博物馆维护不足,如评论中频繁出现的荧屏熄灭等,因此维修与防护工作应加强。博物馆具有文化传播的社会功能,应强化网络上知识教育,实现文化遗产的网络化展示,应用科技使更多游客了解其内涵。

(2)文创服务。博物馆衍生文创产品,如故宫冰淇淋、汽车博物馆同款汽车挂坠等。文创产品应贴合游客兴趣点,关联游客生活,体现创新性与经济价值,使文创产品更实用。

(3)文化传播。博物馆为重要文化阵地,应加强推广,增添咨询渠道,扩大影响力,进一步增加游客选择博物馆出行的可能性。统计游客流量数据,为后续宣传工作提供支撑。

(4)整体服务。博物馆具有极强社会属性,是全民旅游阵地,但研究表明,游客主要群体为亲子及青少年,缺少老年游客。应加强员工培训,提高服务质量,贴近老年思想,使博物馆旅游全年龄发展。优化内在设计,突出本馆特色,侧重文化内涵展示,传播好所代表的历史文化;优化馆内服务,清晰门票购买细则,避免出现游客无法及时购票的情况;尽量设置停车场,或标记附近停车场的位置,提供便捷交通。

参考文献:

[1]莫纪灿,张青萍.基于网络文本分析的苏州古典园林活化策略研究——以网师园为例[J].资源开发与市场,2021,37(5): 629-635.

[2]孙明慧,陈少华.文化旅游视角下基于网络评论的乡村书店形象感知分析——以先锋书店(乡村店)为例[J].出版科学,2021,29(02):66-78.

[3]郑淞尹,王萍,丁恒,等.基于方面级情感分析的博物馆数字化服务用户体验研究[J].情报科学,2022,40(4):171-178.

[4]林振荣,黄虹霞,舒伟红,等.基于TF-IDF与用户聚类的推荐算法[J].计算机仿真,2022,39(6):341-345.

[5]邵欣欣.TI-FastText自动商品分类算法[J].计算机科学,2022,49(S1):206-210.

[6]曾金,张耀峰,黄新杰,等.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84.

[7]师荣蓉,张教萌.中国经济高质量发展的社会评价:基于微博情感分析的视角[J].统计与决策,2021,37(24):180-184.

[8]张公让,鲍超,王晓玉,等.基于评论数据的文本语义挖掘与情感分析[J].情报科学,2021,39(5):53-61.

[9]叶佳鑫,熊回香,杨滋荣,等.关键词词频及语义特征对科技文献聚类的影响研究[J].情报科学,2021,39(8):156-163.

[10]孙瑞英,陈宜泓.基于LDA主题模型的国内智慧阅读研究热点及发展导向研判[J/OL].图书馆建设:1-21[2023-04-20].http://kns.cnki.net/kcms/detail/23.1331.G2.20221221.1311.002.html.

[11]陈芳,沈芮宇.基于文本挖掘的空中危险接近事件致因研究[J].安全与环境学报,2022,22(6):3280-3287.

[12]李倩,王帅.LDA模型下我国公共图书馆微信平台阅读推广内容主题研究[J].图书情报工作,2022,66(8):72-83.

[13]李雅倩,孙玉玲,赵婉雨.基于主题模型和时间序列分析的新兴主题识别与特征关联研究[J].知识管理论坛,2022,7(3):229-247.

[14]林振宇,解吉波,杨腾飞,等.旅游多主题情感词典的构建方法[J].地理与地理信息科学,2021,37(4):22-27.

[15]周知,王春迎,朱佳丽.基于超短评论的图书领域情感词典构建研究[J].情报理论与实践,2021,44(9):183-189.

作者简介:杨嘉雯,本科,研究方向:物流管理;闫安,本科,研究方向:计算机与科学技术;石媛媛,本科,研究方向:经济学。

项目基金:数字赋能文旅融合高质量发展研究(编号:202310004145)。

猜你喜欢
文本挖掘
基于贝叶斯分类器的中文垃圾短信辨识
基于潜在特征的汽车评论要素挖掘
基于评论信息的淘宝服装类评分体系优化
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
基于文献的中西医结合治疗脑梗死药物使用情况分析
基于改进Hadoop云平台的海量文本数据挖掘
慧眼识璞玉,妙手炼浑金