基于社交媒体的海南旅游景区评价数据集

2019-11-18 08:10林振宇解吉波覃佐淼杨腾飞赵静
关键词:海南岛数据量文件夹

林振宇,解吉波,覃佐淼,杨腾飞,赵静

1.海南省地球观测重点实验室,海南三亚 572000

2.中国科学院遥感与数字地球研究所,数字地球重点实验室,北京 100094

3.河南理工大学,河南焦作 454000

数据库(集)基本信息简介

数据库(集)名称 基于社交媒体的海南旅游景区评价数据集数据作者 林振宇,解吉波,覃佐淼,杨腾飞,赵静数据通信作者 解吉波(xiejb@radi.ac.cn)数据时间范围 2012年1月至2018年10月地理区域 地理范围包括海南岛(北纬 18°10′-20°10′,东经 108.37°-111.03°)。数据量 58.8 MB数据格式 *.rar, *.sql, *.xlsx数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/714基金项目 海南省重大科技计划项目(ZDKJ2016021)数据库(集)组成数据集由1个压缩包组成,主要包括5个文件夹,数据量约125 MB,压缩后数据量约58.8 MB。5个文件夹分别为美团、同程、途牛、携程、样例数据,每个文件夹下由各旅游网站的景区评论数据组成,以两种数据形式存放(*.sql, *.xlsx)。

引 言

旅游是海南省的经济支柱产业之一,对其他相关产业的发展有着较强的带动作用。研究和提高海南各景区的服务质量,满足游客多元化的旅游需求,对进一步促进海南旅游产业的发展至关重要。

随着旅游互联网的快速发展,大量和旅游景区相关的用户评论信息为旅游业的发展研究提供了有力数据支持。更多的潜在游客,会在出行前根据这些评论信息制定旅游路线,协助旅游决策[1-3]。通常,这些数据信息多以文本、图片的形式出现在各大社交媒体平台上。这些信息通常表达了游客对于相关景区的意见、建议和满意度,从而为景区质量和服务的进一步提升提供有效参考。目前,国内外已有不少学者对景区的社交媒体信息展开相关研究,并从不同方面探讨它们的应用。如文献[4]以众包的形式收集秦皇岛高校大学生对当地旅游景区的评论信息,并结合这些数据提供者的个人信息开展用户画像的旅游情境化推荐服务研究;文献[5]利用多模态的景点信息(文本、地理标记图片以及视频生成景点的信息摘要),根据用户的查询为用户个性化地推荐景点;文献[6-8]基于签到记录数据来进行旅游路线的推荐等。然而目前,可用的基于社交媒体的开放旅游景区评论数据集并不多,这严重制约了旅游信息挖掘的研究。为此,本文以海南岛为研究对象,从主流旅游网站(包括美团网、途牛网、同程网以及携程网等)上收集和处理了2012-2018年间所有4A和5A级旅游景区的评论数据构建了数据集。

1 数据采集和处理方法

本数据集的生产流程包括数据采集与清洗,数据管理和数据分类。数据制作流程如图1所示。

图1 数据集制作流程图

1.1 景区评论数据的采集与清洗

该部分数据以海南岛4A和5A级景区为研究对象,将4A和5A级景区分为4种类型,分别为自然景区、历史人文景区、民俗风情景区、休闲度假景区。获取了2012-2018共7年的评论数据,这些数据主要来源于包括美团、携程、同程以及途牛在内的4个旅游网站。原始数据形式为HTML,本文通过Java编程语言对其进行了解析和清洗,最终形成了283 072条结构化文本数据。其中,数据清洗操作包括全半角字符的转化、繁简体文字的转化、去除同一用户的多次评论以及文本去重等。同时,为方便读者使用,该部分数据以sql和xlsx两种格式存储。如下表1-4显示了数据的基本结构信息,如图2展示了旅游景区在海南岛的分布情况。

表1 海南岛自然景区名称及评论数据量

表2 海南岛历史人文景区名称及评论数据量

表3 海南岛民俗风情景区名称及评论数据量

表4 海南岛休闲度假景区名称及评论数据量

序号 名称 等级 美团 携程 同程 途牛 地址7 清水湾旅游区 4A 0 330 0 0 陵水

图2 旅游景区在海南岛分布情况

1.2 数据分类

景区社交媒体评论信息蕴含着公众对于景区不同方面的评价,这对于发现和解决旅游景区存在的问题,提高游客满意度等具有重要的参考价值。为此,本数据集从多个主题对这些评论信息进行公众情感分类。

我们根据整个文本的情感倾向,将该文本分为积极情感、消极情感和中性情感3个类别[9],用以从宏观上对该景区作出评价。从细粒度主题上分,我们则根据国家A级景区的评价指标,基于这些评价指标对该景区作出情感分类,旨在从多个主题方面刻画景区质量,以提供个性化服务需求。其中细粒度的主题指标包括景区饮食(饮食口味、饮食价格)、景区娱乐(娱乐趣味性、项目价格)、景区购物(物价、商业氛围)、景区游览(购票、景色、导游解说)、景区特色、景区卫生、景区交通、景区住宿、景区服务质量、景区安全10个方面。图3为根据国家A级景区评价指标的细粒度分类标准。

图3 细粒度分类标准

2 数据样本描述

2.1 数据集信息

本数据集从美团、携程、同程和途牛4个旅游网站上收集并处理了海南岛所有4A和5A级景区的评论数据,数据的时间跨度为7年(2012-2018年)。

整个数据集由1个压缩文件包组成,压缩文件包由5个文件夹组成。其中4个文件夹分别以上述4个旅游网站命名,每个文件夹下分别为24个景区在该旅游网站中的所有评论数据,数据储存格式包括sql和xlsx,命名规则为“旅游网站+景区名称”;第5个文件夹以样例数据命名,该文件夹下为经过分类处理的数据,命名规则为“旅游网站+景区名称+积极/消极/中性+分类细则序号〔1 景区饮食(11饮食口味,12饮食价格),2 景区交通,3 景区特色,4 景区游览(41购票,42 景色,43 导游解说),5 景区住宿,6 景区卫生,7 景区娱乐(71娱乐趣味性,72 项目价格),8 景区服务质量,9 景区购物(91 物价,92商业氛围),10 景区安全〕”。数据集详细信息如表5。

表5 海南岛旅游数据集信息

2.2 分类样本描述

样本集以途牛网上分界洲岛旅游区的评论数据为基础,将这些原始数据进行多个主题的情感分类,从而得到表6所示的结果。

表6 示例样本情况

3 数据质量控制和评估

评论海南景区旅游质量的社交媒体平台有很多。为保障数据的丰富性,我们通过比较选出了具有代表性的4个旅游网站,以确保最大程度地获取相关信息。数据收集完成后,我们人工检查了数据的有效性并删除了不完整的及与海南旅游景区无关的评论数据。在分类样例中,本文所用的细粒度主题则是根据国家A级景区的评价指标来拟定。对于分类样例中的文本情感类别标签,我们安排了2个同事进行人工判读,并对结果进行复议和讨论,以确保最终分类的正确性。

4 数据使用方法和建议

本数据集包含海南岛4A级以上所有景区2012-2018年以来283 072条社交媒体评论数据。研究人员可通过互联网文本情感分析算法抽取公众对景区不同主题特征的态度信息,同时结合时间维度从公众观测的角度探究景区质量的变化特征,为景区网络口碑、形象管理等提供数据参考。通过互联网主题聚类算法,如LDA(Latent Dirichlet Allocation)、K-means聚类算法、或者简单的词频计算等语义挖掘算法从各景区海量评论信息中抽取公众关注热点,以服务于旅游景区的个性化推荐、景区发展规划等。官方发布的诸如旅游景区统计年鉴等数据,可以与本数据集作为相互验证和补充的数据,将会在景区容量管理、景区传播效果评价、景区形象管理、景区热度分析、景区质量评价分析、景区发展趋势等研究上发挥重要作用。

猜你喜欢
海南岛数据量文件夹
基于大数据量的初至层析成像算法优化
中国游客的海岛旅游需求时空特征分析——以济州岛和海南岛为例
基于气候季节划分的海南岛气候康养特征探析
高刷新率不容易显示器需求与接口标准带宽
Fast Folders,让你的文件夹四通八达
海南人为什么说福建话
宽带信号采集与大数据量传输系统设计与研究
“早春茶”开采
摸清超标源头 大文件夹这样处理
调动右键 解决文件夹管理三大难题