基于景点在线评论的网络文本分析
——以广州增城白水寨景区为例

2019-04-15 06:28李加军
山西经济管理干部学院学报 2019年1期
关键词:景区文本旅游

□李加军

(广州商学院,广东 广州 511363)

1 引言

截至2017年6月,我国网民规模达到7.51亿。互联网普及率为54.3%。我国在线旅游服务近年来也呈现爆发式增长,根据艾瑞网数据显示,2016年中国在线旅游市场交易规模达到5 934.6亿元,增长率为34%。越来越多的旅游者在进行旅游决策前会主动地搜寻信息,旅游在线评论为旅游者搜寻信息提供了重要参考和帮助,并成为影响旅游者旅游决策的一种重要方式。

2 文献回顾

网络文本分析法是通过提炼网上文本的中心思想以开展相关主题研究,网络文本分析法逐渐成为旅游学的重要研究方向。张付志(2014)等通过获得用户评论对商品的喜爱程度,结合用户的环境信息来为用户产生推荐,并通过实验验证了该算法的优越性。[1]何丹(2017)应用北京地区博物馆的网络评论文本探究游客在博物馆旅游过程中的旅游体验感知特征。[2]李爽(2015)以大陆居民赴台旅游的98篇游记为研究对象,利用ROST CM软件对收集的文本进行内容分析,获取游客食、住、行、游、购、娱等旅游六要素在地点选择、内容偏好、体验过程、服务感知等方面的感知信息,深入分析人陆居民赴台旅游体验的特征和评价。[3]张文亭(2017)以永定土楼世界文化遗产地为研究案例,分析游客感知和官方网站宣传的旅游形象之间的差异。[4]宋振春等(2018)应用ROST内容挖掘系统、ROST新闻分析工具和UCINET软件进行数据分析,从旅游跨文化交流的角度出发,研究了中国社会对于出境旅游的认知内容、特性以及与出境旅游发展过程的关系。[5]仲宁等(2018)以江苏宜兴为案例地,研究了官方宣传形象和游客感知形象之间存在的异同。[6]

已有研究局限性在于以宏观层面研究为主多,微观层面研究较少;大多采用内容分析法对在线评论文本进行词频统计,没有考虑中文词语常出现的同义词、近义词现象;较少应用在线评论进行情感分析。因此,本文通过采集并处理蚂蜂窝网有关广州增城白水寨风景区游客评论信息,应用网络文本分析方法进行关键词和情感分析,以期为潜在游客的旅游和旅游景区管理决策提供参考依据。

3 研究设计

3.1 研究方法

本文主要采用网路文本内容分析的研究方法。通过深入挖掘文本内容背后的含义与规律,对事物发展做出预测。数据的采集和分析使用深圳视界信息技术有限公司开发的八爪鱼数据采集系统和微图软件。八爪鱼数据采集系统能够根据需要实现数据自动化采集、编辑、规范化,提高效率。微图软件可以达到通过一系列智能算法,从核心关键词、典型意见、情感倾向(正面/负面)等不同维度快速分析海量文本。

3.2 数据资料来源

本文于 2018年7月1日至9月1日,选取广州增城白水寨风景名胜区在蚂蜂窝网的在线评论402条作为样本。白水寨风景名胜区位于增城区派潭镇,占地面积约170km2,景区拥有原始森林、浅滩湿地、峡谷天池等广东罕见自然生态资源,其中最令人瞩目的当属落差高达428.5米的全国内地落差最大瀑布——白水仙瀑。

蚂蜂窝是中国最大的旅行分享网站,创立于2006年,从2010年正式开始公司化运营。蚂蜂窝更强调用户自己原创内容分享,依据用户偏好及其行为习惯,对应提供个性化的旅行信息。

4 数据分析和处理

4.1 关键词特征分析

将样本通过微图软件进行关键词提取,经筛选获得有意义的关键词及其中心度如表1所示,中心度大小代表其重要性性程度,中心度越高,节点越处于核心地位。

表1 关键词中心度(排名前 50 位)

从表1可见,关键词中心度排名前50位中,词性以主要包含名词、形容词和动词。名词数量最多,主要是景点设施、地名、景点环境;形容词主要用来表现游客的态度、心情、感知和描述景点的形象和感官特征;动词主要反映游客参观游览的行为、动机、过程等旅游活动特征。前50个特征词是游客对景点感知中较突出的部分,这些词集中反映了景区形象属性特点和游客的参观旅游活动行为体验特征。为了更直观地表达白水寨景区游客评论关注点,我们将表1中列出的前50位关键词中心度在线生成词云图(图1)。图中字体的大小反映关键词中心度的大小,从词云图可以看出“瀑布、不错、风景、空气、景区、地方、增城、爬到、山顶、门票”等是游客点评关注的热点。

图1 关键词中心度词云图

4.2 文本内容分析

为了更好地分析,本文从5个主类目和10个次类目对高频关键词进行分类归纳(见表2),5个主类目分别是旅游吸引物、旅游环境、旅游设施与服务、旅游体验、旅游评价。从旅游吸引物来看,广州白水寨风景区最核心吸引物是瀑布,景区的景色和风景都是围绕瀑布布局,并被游客感知。从旅游环境来看,游客关注度较高的是区位环境和自然环境,游客更偏好景区内的自然环境,对文化环境较少提及。从旅游设施与服务来看,游客对景区内食宿设施、交通设施、旅游服务等方面评价甚多,比如景区内游览体力消耗大、门票价格偏高等,这些是游客较关注的游览细节,景区管理应从这些方面着重改进和完善。从旅游体验来看,游客比较关注休闲、体验、观光,游客体验的方式越来越多种多样。从旅游评价来看,游客评价以正面评价为主。

4.3 情感分析

情感分析作为当前自然语言处理领域中最为活跃的研究之一,是指对在线评论文本进行情感分析判断文本的情感极性是正面、负面还是中性,或识别用户的观点是“赞同”还是“反对”。根据定义的规则,将情感值设定为(0,1)区间,首先对每条评论进行分析评分,0为最负面,1为最正面,统计本文的情感倾向,从而对情感分析做出判断,根据ID合并计算出每条文本的最终情感倾向评分,部分结果如表3所示。

表2 广州增城白水寨风景区在线评论主题类目

表3 情感得分值和评论文本(部分)

通过情感分析发现,广州增城白水寨风景区在线评论整体综合评分0.521,正面评价占比66.07%,负面评价占比33.93%,表明广州增城白水寨风景区带给游客的总体印象是积极大于消极。

根据情感分析结果生成云图(见图2),发现正面感知主要来自景区的空气、环境、瀑布、风景。少部分游客的实际旅游体验小于期望,负面感知主要是来自于景点门票价格过高带来的不满。

5 结论与讨论

本研究存在以下几个方面的局限性。首先,本文研究仅以蚂蜂窝网上一定时间内上传的在线评论作为样本来源,没有纳入旅游论坛、旅友微博、微信平台等其他类型旅游网站;同时,由于游客感知具有动态性,在不同的旅游阶段,游客感知和关注的因素有差异的;此外,使用的分析软件在进行分析时存在一定主观性。未来研究应进一步拓展资料搜集渠道,对游客不同时间段内发表的评论进行比较分析,以期对景区更全面的了解,使研究更加深入。

猜你喜欢
景区文本旅游
文本联读学概括 细致观察促写作
云南发布一批公示 10家景区拟确定为国家4A级旅游景区
作为“文本链”的元电影
『摘牌』
在808DA上文本显示的改善
“摘牌”
某景区留念
基于doc2vec和TF-IDF的相似文本识别
旅游
出国旅游的42个表达