彭涛 刘小安 刘畅 孙连英 刘宇
[摘要]通过大数据技术对海量的用户贡献内容构建数据分析系统框架,以酒店为例,进行多维度分析及可视化应用。基于TripAdvisor网站的列表和点评信息,通过分布式爬虫框架爬取所需的数据,经过数据预处理,采用分布式文件系统存储数据,在此基础上运用统计建模及自然语言处理方法进行数据分析研究,借助第三方框架对分析结果进行可视化。研究者在使用该框架时,可以根据自身需求从多个维度进行数据分析及可视化应用。该框架能够有效地对旅游评论大数据进行多维度的统计分析,进而为旅游相关人员提供基于旅游评论大数据的参考信息。
[关键词]旅游评论;观点分析;大数据;数据可视化
[中图分类号]F 592[文献标志码]A[文章编号]10050310(2019)01005707
Research on a Multidimensional Data Analysis and Visualization
Framework Based on Traveller Review
Peng Tao1,Liu Xiaoan2,Liu Chang1,Sun Lianying3,Liu Yu4
(1. College of Robotics, Beijing Union University, Beijing 100101, China; 2. Smart City College, Beijing Union University,
Beijing 100101, China; 3. College of Urban Rail Transit and Logistics, Beijing Union University,
Beijing 100101, China; 4. Tourism College, Beijing Union University, Beijing 100101, China)
Abstract: This study aims to establish a multidimensional data analysis and visualization framework based on traveller review and uses a case study to apply our data analysis and visualization framework. A distributed crawler framework was developed to craw data. A preprocessing method was applied to improve data quality. A distributed file system was used to store data. Based on massive review data, some models were built and nature language process methods were applied for data analysis. At last, the result data was visualized using thirdparty visualization framework. Users could analyse and visualize traveller review data from multiple dimensions, as well as find valuable information. This framework can analyse and visualize traveller review data from multiple dimensions and help tourismrelated personnel find valuable information from big data.
Keywords: Traveller review; Opinion analysis;
Big data; Data visualization
0引言
隨着大数据时代的到来和第三方旅游点评网站的迅速发展
及普及,在线评论已成为消费者获取信息的重要来源,并对旅游者的旅游行为产生了重大影响,同时也为研究者提供了海量的用户贡献内容(User Generated Content,UGC)[1]。面对这些海量的旅游信息,通过智能化手段对信息进行处理,挖掘其中包含的有价值旅游信息,反馈给旅游者、旅游企业、旅游管理部门及旅游研究者就显得非常重要。已有研究在面对海量UGC时,主要通过爬虫工具[2]、问卷调查[3]、网上调研[4]等基于小样本的、有代表性的数据进行研究。这些研究方法既滞后于整体的旅游业发展的需求,又无法体现海量信息可实现广域空间及多维度研究的巨大价值。
本文选取全球最大的旅游点评网站TripAdvisor(全球领先的旅游网站)作为数据源,通过分析TripAdvisor网站上酒店、景点和餐饮的点评信息(包括文本、图片),使用分布式爬虫框架爬取所需的数据,经过数据预处理(过滤、修正),将数据存储到Hadoop分布式文件系统中。在此基础上结合统计建模和自然语言处理方法、Java Web技术、Python语言以及D3数据可视化工具,构建面向旅游评论大数据的多维度分析及可视化系统,并将其进行应用实践。研究结果将为旅游研究人员、旅游者、旅游企业及旅游管理部门提供基于旅游大数据分析的实践系统框架。
1相关研究
在信息化时代,需求越来越个性化的旅游者更多地依靠网络、智能移动终端、移动应用软件来满足自己的旅游需求;旅游者在线安排行程,利用社会化媒体进行评级,撰写点评、博文及点赞,产生大量的结构化及非结构化数据。基于此,越来越多的旅游研究学者开始利用这些数据进行相关研究。目前,既有研究集中在以下几个方面:沈体雁等[5]通过抓取旅游局官网数据构建目的地网络形象;王佳果等[6]利用网络文本进行质性分析;王琨等[7]、静恩明等[8]基于旅游评论进行旅游地关注度及空间格局分析;Cenni等[9]、程翠琼等[2]、李素科等[10]通过旅游网络文本进行情感分析;王帆[11]、皮瑞等[12]、钟彦清等[13]基于旅游评论进行目的地形象感知分析;汪秋菊等[14]、杨艳霞[15]基于网络数据进行旅游预警的研究;逯燕玲等[16 ]进行区域竞争力评价与空间优化研究。
通过对已有研究进行分析发现,基于大数据的分析有力地推动了相关旅游研究,但较之于不断增长的海量在线数据,既有旅游研究的广度和深度都有限,对于海量数据的利用程度,仅是“冰山”之一角,究其原因,在于数据采集不足和数据分析框架缺失两个方面:
北京联合大学学报2019年1月
第33卷第1期彭涛等:旅游评论多维度分析及可视化的研究
1) 已有研究主要通过爬虫工具[2]、问卷调查[3]、网上调研[4]等基于小样本的、有代表性的数据进行研究。研究所基于的数据量往往处于几百到几万条信息的量级,而实际旅游产生的数据量远大于几万条数据,这使得已有研究存在片面性。研究的基础数据存在缺失和不完全的地方,必然影响研究结果和结论的有效性和可靠性。
2) 目前利用大数据进行分析研究的学者多是社会学、地理学或管理学背景,其学科背景决定了其无法驾驭“大数据”的分析技术;而在计算机技术领域也没有成型开放的面向旅游研究人员提供大数据支持和多维度统计分析的网站或系统。上述原因使得旅游领域研究人员通过大数据的方法进行行业研究存在困难。
因此,本文以旅游研究和计算机相结合的思路,尝试构建基于旅游评论大数据的统计分析框架,并进行实践应用,为旅游研究相关人员提供基于旅游大数据分析的实践系统框架,以推进旅游行业与大数据技术深度结合。
2系统设计
21系统架构设计
整个系统架构从下至上分为大数据采集及预处理层、大数据存储及分析层、大数据可视化层,如图1所示。
图1系统架构设计
Fig.1Design of system structure
大数据采集及预处理层是整个系统的基础,该层采用层级数据爬取的方法,设计基于分布式技术和多线程技术的爬虫框架来爬取数据,主要包括全国省、市、县数据爬虫,全国酒店、景点和餐饮列表数据爬虫及全国酒店、景点和餐饮评论数据爬虫;在此基础上,通过过滤程序和修正程序,过滤无效的数据,修正有效数据中的部分格式和缺省值等信息,进而为统计和分析提供高质量、高可靠的源数据。
大数据存储及分析层是整个系统的核心,该层采用分布式大数据存储和计算框架Hadoop搭建分布式存储和计算环境,运用自然语言处理工具,建立各维度数据分析模型进行数据分析,采用MySQL作为结果存储数据库。该部分通过计算机集群方式,提供大容量的存储和高效率的计算性能。
大数据可视化层是整个系统的最高层,直接面向旅游研究人员、旅游者、旅游企业及旅游管理部门,主要通过Java Web技术、Python语言和D3数据可视化工具,将爬取到的数据和统计分析的结果数据以列表、词云图、直方图等多种形式进行数据可视化。
22关键分析模型
1) 热点城市选择模型
通过对爬取到的数据进行分析,热点城市的影响因子包括景点、酒店、餐饮的数量以及对应的评论数量,因此热点城市计算方法如公式(1)、(2)、(3)所示:
Ci=WTiXi,(1)
WTi=[wi1,wi2,wi3,wi4,wi5,wi6],
(2)
XTi=[xia,xih,xir,xiac,xihc,xirc]。(3)
其中,Ci表示城市i的热度总分,由因子向量Xi和权重向量WTi线性相乘得到。xia,xih,xir,xiac,xihc,xirc分别表示该城市景点数量、酒店数量、餐饮数量、景点评论数量、酒店评论数量、餐饮评论数量。
在综合TripAdvisor旅游信息特点的基础上,分别赋予wi1=01, wi2=01, wi3=01, wi4=024, wi5=023,wi6=023权重值,用于热点城市得分加权。
2) 用户关注度模型
本文采用结巴分词工具对用户评论信息进行处理,获取用户关注热点及其关注度。首先将用户评论文本进行分词、去停用词和词频统计操作;然后通过分析得到,体现用户关注度的词汇主要以名词、名形词、名动词为主,因此对分词结果得到的词汇进行词性分类,从中筛选出名词、名形词、名动词作为候选词;最后基于TF/IDF权重的关键词提取方法,得到用户关注热点词及其词频,并通过公式(4)和(5)计算关注度:
Fw=fwfw,
(4)
Nw=e1+Fw。
(5)
其中,fw表示词的词频,fw是所有关键词和名词的词频之和,Fw表示词w归一化后的频度,Nw表示词w的关注度。
3) 跨语言用户观点分析模型
观点是由观点持有者、目标对象和观点表达组成。一个观点可以表示成五元组,如公式(6)所示:
Oj,ajk,soijkl,hi,tl。(6)
其中,Oj为目标对象,ajk为对象的特征,soijkl为观点所表达的情感值,hi为观点持有者,tl为观点表达时间。在此基础上,为了进行跨语言观点分析,将公式(6)拓展成公式(7):
Oj,ajk,soijkl,hi,tl,li。(7)
其中,li表示观点所用语言。通过对爬取到的数据进行进一步分析,并根据TripAdvisor网站提供的专业分类标准,定义Oj目标对象列表如表1所示。
表1目标对象列表
Table 1Target object list
大分类小分类
酒店星级酒店、特色酒店、家庭式酒店
餐饮餐厅、甜点、咖啡与茶、面包糕点、酒吧酒馆
景点景点与地标、博物館、自然与公园、动物园与水族宫……
对于每大类目标对象,通过对TripAdvisor网站定义的酒店、景点、餐饮的各项指标进行分析,定义其对象特征如表2所示。
表2对象特征表
Table 2Object features list
目标对象特征
酒店性价比、位置、舒适度、服务、卫生
景点整体印象
餐饮服务、食品、性价比、氛围
定义观点所表达的情感值分为5级,分别是:很糟、差、一般、很好、非常好。进而将半结构化的旅游评论数据表示成结构化的旅游评论观点模型(即五元组)。在此基础上,通过统计和归一化处理,进行观点分析。
3系统应用
图2各类酒店数量分布直方图
Fig.2Distribution of all kinds of hotels
为了验证系统架构的有效性,以全国酒店、景点和餐饮数据为例,结合本文提出的系统框架进行实践和应用。通过3个多月的数据爬取工作,爬取到的数据(数据的时间范围是2006年10月至2016年5月)包括:全国省、市、县数据339条(不含港澳台),全国酒店、景点和餐饮具体数据量如表3所示。
表3全国酒店、景点和餐饮具体数据量统计表
Table 3Statistical table of the number of Chinese hotel,
sight spot and restaurant条
数据类型酒店景点餐饮合计
列表数据70 031109 95523 043203 029
评论数据626 536226 520155 3931 008 449
照片数据41 96583 89257 218183 075
在这些数据的基础上,以酒店为例,进行酒店分布统计、评论热度统计、热点城市用户关注度分析及北京市星级酒店跨语言观点分析。
31酒店分布统计
从酒店列表数据中,根据酒店的地理位置信息和酒店的分类信息对酒店进行统计,结果如表4所示,并以堆叠直方图的形式展现,如图2所示。
表4酒店数量统计表(部分)
Table 4Statistical table of hotel number
地域酒店数量地域酒店数量
广东省10 324上海市4 866
浙江省7 547湖北省4 187
北京市7 048福建省4 155
云南省6 758湖南省4 119
江苏省6 606陕西省4 058
山东省6 036辽宁省3 776
四川省4 872广西3 520
从整体上看,全国酒店分布大多集中在广东省、北京市、上海市、浙江省、江苏省等国际化大都市和沿海城市,而在内陆地区,酒店数量相对少很多;但是云南省的酒店数量却也较多,通过图2可以进一步发现,云南省之所以酒店数量较多是因为该省包含大量的家庭式酒店,如丽江、大理等地的家庭式民宿酒店业态发达。
从具体类别上看,星级酒店在各类型酒店(星级酒店、特色酒店、家庭式酒店)中占有很大比例,并且在除云南省之外的各个省市中也占有较大的比例;而对于家庭式酒店,主要集中于云南省、浙江省、广东省和福建省,究其原因,在于云南省的大理和丽江等地、浙江省的杭州市、广东省的毗邻港澳地区的区域以及福建省的厦门等地,是国内休闲度假旅游发达地区,进而培育了大量的家庭式的民宿酒店;特色酒店分布较为均衡,没有特别大的差距。
32酒店评论热度统计
从酒店评论数据中,以省份信息作为分类对酒店评论数量进行统计,并按评论热度进行排序,得到结果如表5所示。
表5酒店评论热度(前14名)
Table 5Top 14 cities of hotel review number
地域评论热度地域评论热度
北京市187 846四川省48 587
上海市164 094陕西省45 265
广东省159 699福建省42 518
浙江省86 552湖南省39 445
江苏省81 995云南省37 010
山东省57 061广西32 992
湖北省53 672辽宁省30 119
33热点城市用户关注度分析
根据热点城市选择模型和前面所得到的统计结果,进一步计算得到城市排名的前10名分别为:北京、上海、广州、深圳、西安、成都、武汉、杭州、重庆、厦门。
本文选取前两名(即北京和上海)為例,分别进行用户在酒店方面的关注度分析,得到数据结果如表6所示。
表6北京、上海酒店方面关注度列表(部分)
Table 6Hotel focus list of Beijing and Shanghai
北京上海
热点词关注度热点词关注度
酒店285酒店286
房间285房间285
感觉279感觉279
设施277设施277
交通276交通276
早餐275早餐276
价格275价格275
环境275上海275
北京275隔音274
服务员274服务员274
地理位置274环境274
隔音274地理位置274
性价比274地铁274
地铁274性价比274
服务态度273前台274
热情273服务态度273
图3北京酒店的用户关注度词云图
Fig.3Word cloud diagram of users
attention to Beijing hotels
图4上海酒店的用户关注度词云图
Fig.4Word cloud diagram of users attention
to Shanghai hotels
进一步将用户关注度结果以词云图的形式可视化展示,如图3和图4所示。
从列表和词云图可以看出,北京和上海这两座热点城市在酒店方面,用户关注热点较为集中,主要包括房间、感觉、设施、交通、早餐、价格、环境、隔音、地理位置、性价比、服务员、服务态度、地铁等。
由此可见,用户对于酒店的关注点不仅仅是价格、地理位置、设施等酒店的基础设施,还包括早餐质量、服务态度、房间隔音效果等一些细节服务。因此,酒店管理人员可參考分析结果,从这些方面进一步提升酒店的服务质量。
34跨语言用户观点分析
以北京市星级酒店为例,进行跨语言用户观点分析。北京市星级酒店评论共有180 257条,其评论语言分布比例如图5所示。
图5评论语言分布图
Fig.5Distribution of users comments language
其中,图5蓝色区域是中文评论占比,红色区域是英文评论占比,其他区域是各个小语种评论占比。经计算得到,中文评论在总评论中占759%,英文评论在总评论中占161%,两种语言在总评论中占92%,因此本文选取中文和英文评论进行分析。
首先通过北京市星级酒店评论数据,构造出观点六元组,得到结果如表7所示。
表7北京星级酒店观点六元组(部分)
Table 7Comments sixgram of star hotels in Beijing
目标对象特征情感值观点持有者时间语言类型
星级酒店性价比4LizBrighton_UK2010-08-11中文
星级酒店位置3龙凤常居2010-04-04
中文
星级酒店舒适度5Mux1232015-12-02
中文
星级酒店卫生4lian1322016-01-14
中文
星级酒店服务4lian1322016-01-14
中文
星级酒店性价比3HadarS_122016-01-17英文
星级酒店位置4Lovetotravelalot72016-01-04英文
其中观点所表达的情感值分为5级,分别是:很糟、差、一般、很好、非常好,其对应的分数分别为1、2、3、4、5。
然后从六元组中筛选出所有的中文评论和所有的英文评论,对性价比、位置、舒适度、卫生、服务这5类特征分别进行打分统计和归一化处理,得到结果如表8和表9所示。
表8中文评论观点倾向性分布表
Table 8Distribution of Chinese users
comments tendency
打分性价比位置舒适度卫生服务
100090004000800070012
200300022002800220030
302670197022301630217
405240531053105580518
501710246021002490224
表9英文评论观点倾向性分布表
Table 9Distribution of English users
comments tendency
打分性价比位置舒适度卫生服务
100280014002300250041
200450034004000330049
301720145015201080142
403560301031102760275
503990505047505590494
为了从多角度来进行对比,本文进一步将结果数据进行可视化,如图6所示。
图6中英文评论用户观点倾向性对比图
Fig.6Comparison of Chinese and English
users comments tendency
其中基线以上为正向情感倾向,包括很好、非常好;基线以下为非正向情感倾向,包括一般、差、很糟。结合图表可以看出,整体而言,中外游客对北京市星级酒店评价较高,并且对于各个特征(性
价比、位置、舒适度、卫生、服务)外国游客认可度比中国游客更高。从局部来看,外国游客对酒店各个特征的观点主要集中在“非常好”这一情感倾向,而中国游客对酒店各个特征的观点主要集中在“很好”这一情感倾向。对于各个特征而言,中外游客
均对“性价比”特征的非正向情感倾向最多。由此可见,北京市的星级酒店很受中外游客欢迎,并且很多外国游客都觉得北京的星级酒店非常好;此外,中外游客、尤其是中国游客认为北京市星级酒店的性价比不够高。
上述结果显示,通过本文提出的系统框架,能够有效地对旅游大数据进行数据采集和相关的数据分析。
4结语
本文将旅游研究和计算机相结合,构建了基于旅游评论大数据的统计分析框架,并根据框架进行具体的旅游大数据分析实践,在此基础上进行了相关数据分析与知识发现,为旅游领域研究人员提供基于大数据的研究实践框架。在今后的工作中,主要可以从以下两点开展进一步的深入研究:
1) 构建更多的数据爬取框架,从更多的数据源(如去哪儿网)获取旅游评论数据,并将来自不同数据源的数据进行数据融合,从而获得更丰富的数据。
2) 结合机器学习和深度学习的方法,对评论数据进行更多角度、更为深入的数据分析与知识挖掘,以获取更多知识。
[参考文献]
[1]高宝俊, 孙含琳, 王寒凝. 在线评论对酒店订满率的影响研究[J]. 旅游学刊, 2016, 31(4):109-117.
[2]程翠瓊, 徐健. 面向网络游记时间特征的情感分析模型[J]. 数据分析与知识发现, 2017, 1(2):87-95.
[3]李莉, 张捷. 互联网信息评价对游客信息行为和出游决策的影响研究[J]. 旅游学刊, 2013, 28(10):23-29.
[4]张天问, 吴明远. 基于扎根理论的旅游幸福感构成——以互联网旅游博客文本为例[J]. 旅游学刊, 2014, 29(10):51-60.
[5]沈体雁, 黄宁, 彭长江,等. 中国景区网络形象指数研究——基于互联网内容分析方法[J]. 旅游学刊, 2015, 30(6):80-90.
[6]王佳果, 王尧. 基于NVivo软件的互联网旅游文本的质性研究——以贵州黔东南肇兴的旅游者文本为例[J]. 旅游论坛, 2009, 2(1):30-34.
[7]王琨, 郭风华, 李仁杰,等. 基于TripAdvisor的中国旅游地国际关注度及空间格局[J]. 地理科学进展, 2014, 33(11):1462-1473.
[8]静恩明, 郭风华, 李仁杰,等. 基于新浪旅游博客的河北省A级景区网络关注度研究[J]. 地理与地理信息科学, 2015, 31(3):118-122.
[9]Cenni I, Goethals P. Negative hotel reviews on TripAdvisor: A crosslinguistic analysis[J]. Discourse,Context & Media, 2017, 16:22-30.
[10]李素科, 蒋严冰. 基于情感特征聚类的半监督情感分类[J]. 计算机研究与发展, 2013, 50(12):2570-2577.
[11]王帆. 镇北堡西部影城旅游形象感知研究——基于游客网络评论的内容分析[J]. 旅游纵览(下半月),2015(12):218-220.
[12]皮瑞, 郑鹏.“网评少林”:少林寺旅游认知、情感、整体形象研究[J].干旱区资源与环境,2017,31(4):201-207.
[13]钟彦清, 罗明春. 基于网络文本分析云南石林旅游形象感知[J]. 新西部(理论版), 2016(9):19-21.
[14]汪秋菊, 刘宇. 基于网络关注度的旅游景区客流量预警:研究框架与实证分析——以国家游泳中心水立方为例[J]. 旅游论坛, 2014, 7(5):9-15+25.
[15]杨艳霞. 基于本体的旅游网络评论情感分析与预警系统[J]. 计算机与数字工程, 2016, 44(4):649-652.
[16]逯燕玲,何丹,齐震宇.北京市旅游区域竞争力评价与空间优化研究[J]. 北京联合大学学报,2017,31(3): 31-40.