吴开军
(广东财经大学 地理与旅游学院,广东 广州 510320)
自从互联网问世以来,旅游信息处理和交易的主要部分都是以电子方式处理的[1-2]。因此,在互联网上会留下很多游客与旅游有关的电子痕迹,包括旅游决策、旅游过程、旅游反馈、问卷调查的相关电子信息,如旅游前对旅游线路、饭店、住宿等的搜索信息,旅游过程中通过在线平台(推特、脸书、微信、微博等)用文字、图片、视频等形式发布的即时心境信息,旅游后对旅游线路、饭店、住宿等的评价信息[3]。久而久之,海量的旅游电子信息就会储存在不同的在线平台甚至旅游企业运营数据库中,这就构成了旅游大数据。2008年《Nature》杂志所设立的“Big Data:Science in the Petabyte Era”系列专刊正式提出了大数据的概念。旅游大数据和其他行业的大数据一样,也经历了三个发展阶段,即20世纪八九十年代的数据库时代、21世纪初的UGC时代和2010年左右开始的大数据时代。如今,大数据在业界和学术界已成为热门的课题,而在旅游学界真正用“big data”这一术语对旅游进行研究开始于2013年,之后出现了大量的研究成果。在此背景下,本文收集截至2017年底发表在国外期刊上有关旅游大数据的文献,以期对旅游大数据研究成果的研究热点和特点进行较全面的分析,并研判其发展趋势,为国内旅游大数据研究提供借鉴。
本文主要使用文献计量法和内容分析法对旅游大数据研究成果进行研究。文献计量法通过对旅游大数据研究成果的数量、时间、地域等外部特征进行统计分析,探讨其分布特征及变化规律;内容分析法是以旅游大数据研究成果的关键词等内容特征为研究对象,探讨国外旅游大数据研究领域的研究热点问题。
本文选择Web of Science以及Google学术作为数据获取来源,以“big data”加“tourism、travel、tourist”为题名、主题、关键词进行检索,检索时间是2018年1月12—15日。运用HistCite软件对遗漏文献进行补全、剔除、清洗数据,最后获得符合研究条件的文献91篇,文献时段主要是在2013年(最早出现旅游大数据研究的文献)到2017年,文献来源于国外的期刊论文、著作专题章节、会议论文集、学位论文。
从时间分布上看,2013年只有4篇文献,2014年增长到7篇,2015年14篇,2016年迅速增长到27篇,2017年达到39篇,2013年以来文献呈现逐年增长态势,表明对旅游大数据的研究越来越受到学者们的关注。
从文献来源分布上看,期刊论文54篇、会议论文集31篇、著作专题章节5篇、硕士学位论文1篇。通过统计可知,期刊论文最多,在文献总量中占比为59.3%;会议论文集处于第二,占比为34.1%,表明对旅游大数据的研究还处于探讨阶段。
从第一作者地域分布来看,来自北美洲、欧洲和亚洲的学者占绝对多数,北美洲共有19篇,以来自美国的学者居多,其中美国18篇,加拿大1篇;欧洲共有29篇,学者来源国较分散,其中意大利6篇,西班牙4篇,德国4篇,瑞典3篇,法国3篇,英国、荷兰、希腊、克罗地亚、波兰、奥地利、葡萄牙、芬兰和瑞士各1篇;亚洲共有43篇,以中国大陆居多,其中中国31篇(包括中国大陆27篇,香港2篇,台湾2篇),韩国7篇,印度2篇,马来西亚、斯里兰卡、印度尼西亚各1篇;大洋洲有2篇,来自澳大利亚的学者。从第一作者地域分布来看,中国大陆学者和美国学者分别处于第一位(27篇)和第二位(18篇),远远高于第三位的韩国(7篇),尤其是中国大陆学者在旅游大数据研究上后来居上,这和中国旅游业近几年的高速发展(互联网+旅游、智慧旅游)有关。
从文献的关键词上看,91篇文献共有关键词183个,使用EXCEL进行词频统计处理,3次以上的高频词有19个(见表1)。
表1 高频关键词统计表
1.旅游大数据的来源。大数据一般有五种来源,一是网络和社交媒体,如微博、推特、脸书;二是机器,如计算机、医疗器械;三是传感器产生的传感信号;四是连接到因特网的设备信息;五是财务和工作数据的交易信息[4]。
信息时代的来临,催生了离不开使用信息和通讯技术及移动设备的新旅游者,他们多渠道多时空的交流方式在网络上产生了很多事件痕迹,这些事件以乘数级别发展,构成了旅游大数据[5]。很多学者都认为旅游大数据来自于互联网的蓬勃发展,尤其是智能终端高度发展和芯片小型化的近几年。一方面,由于信息和通讯技术在人们日常生活中普及和扩散,使人们能够方便地在网络上即时创造和分享发生的身边事,这些结构化或半结构化的信息、经验、反馈和想法就构成了大数据[6]。另一方面,发布共享图片、观点、评述、评论评级的社区网站在当前的互联网生态系统中发挥着越来越重要的作用,商务客和休闲客都经常使用一些社区网站或应用程序,如TripAdvisor、Flickr、Panoramio、Hotels.com、booking.com,在旅行准备阶段对旅游酒店的预订选择,旅游过程中对旅游餐厅的选择和旅游故事的讲述(用图文并茂的形式),旅游之后对旅游景点、餐厅、酒店进行评价等,久而久之海量旅游者在各种社区网站或APP留下的旅游相关信息就构成了如今的旅游大数据[7]。
在过去十年,可获得越来越多的旅游数据用来作为研究或发展所用,如今的旅游数据不是稀缺,而是海量,随着技术的发展,以较低的成本将日益增长的海量旅游数据数字化的可能性增加,这些海量旅游数据主要有两种来源,第一种是管理数据、由传感器(如相机、电子交通圈和公共交通卡)产生的数据、手机数据等;第二种是进入2.0时代的互联网,网民不再被动接受网络内容,而是借助智能手机和其他便携设备,在吸收网络内容的基础上生产自己的内容并在互联网或社交媒体上扩散,从而产生数据[8]。多数的旅游大数据都是被动数据,被动数据是一种不是旅游者有意产生的数据,它来自于游客为某种目的操作手机后留下的数据,游客在线活动自动生成的社会媒体数据,世界各地许多交通系统收集的智能卡数据等[9]。
2.旅游大数据获取。由于大数据的数据量太大,在研究过程中获取数据是第一步,也是比较重要的一环。在旅游大数据的获取过程中,用到的是数据挖掘(Data Dining)技术,其主要包括关联分析、序列模式、分类、聚类和异常检测等[8,10-11]。常见的是网络爬虫,它是一个小软件程序,可以按条件抓取网页中所需要的内容,分为“专业网络爬虫程序”和“普通网络爬虫程序”,前者可以从某个旅游住宿提供者发布信息的具体网站如TripAdvisor,booking.com上抓取,后者可以从互联网中搜索或抓取包含某个关键词如Hotel、B&B等的网页。N.Heerschap等采用网络爬虫技术收集荷兰较小住宿单位的数据去编制旅游住宿统计资料,而这种数据往往是旅业商会不能完整提供的[8]。F.C.García等近期在使用旅游大数据研究旅游统计质量时提出有三种方法获取旅游大数据,它们是信用卡(游客旅行期间的信用卡活动记录)、移动电话(游客从一个地方到另一个地方的移动电话记录)和网络抓取(像上文介绍的网络爬虫技术),另外他们在研究西班牙的入境旅游统计过程中还使用了交通控制摄像机来抓取境外车辆数据[12]。M.D’Amore等开发了一种用六台机器组合成的命名为Raspberry Pi的系统,它是一种开源的、低成本获取网络大数据的采集系统,可以使学者和研究者方便地获取旅游大数据从而更好地研究旅游现象[13]。
3.旅游大数据处理。旅游大数据研究过程中第二步是对获取数据的处理,这是关键的一环,这步需要提取所需的信息,清理它们,并将它们转换成有用的信息,用于统计分析数据的生成。旅游企业往往把它们的信息发布在好几个网站上,不仅发布在自己企业的网站,还发布在影响力较大的知名网站上,如连锁住宿提供商B&B会把住宿信息发布在自己的官网,也会发布在booking.com、Hotels.com等网站上,或在社交媒体(脸书、推特)和eBay上进行发布,这就造成了研究抓取出来的信息存在重复,清理数据时就要进行重复数据删除处理,而往往这步不容易处理。以住宿供应商为例考察重复数据删除难的原因,一方面当房间的名称和地址不可用,拼写不同或信息不明确或过时时,另一方面是名称和地址的标准化,房间价格的可比性和解释性,因为有时不清楚哪些元素(干净、旅游税、酒店活动)包含在价格里,客户评价的可靠性(有时有偏见或假的)等[8]。
4.旅游大数据分析。旅游大数据研究过程中第三步是对数据的分析。传统的统计分析是基于假设并借助于经济统计软件如SAS、SPSS等的分析,大数据分析在某种程度上是一种机器学习的分析,这种机器学习分析的好处是它能快速生成模型来解释和预测快速移动的数据,由于经典的统计工具在大数据分析上的失败,数据挖掘技术如决策树、神经网络和回归将应用到大数据的分析中[6,10]。
数据挖掘包括用于识别大数据中的趋势和模式的统计和机器学习技术,比如对大数据的分类(常用人工神经网络、决策树分析、规则归纳、K最近邻技术)、估计、预测(常用多元统计技术)、聚类(常用K-均值、分层技术、Kohonen网络)和关联规则(尤其是市场篮分析)[14]。常用的机器学习技术有四种,第一种是K最近邻(k-nearest neighbours,简称kNN),它是可用于回归和分类任务的一种非参数方法;第二种是支持向量机(support vector machines,简称SVM),它是可用于回归和分类任务的一种有关联学习算法的监督学习模型;第三种是提升树模型(boosting trees),它采用加法模型(基函数的线性组合)与前向分步算法,同时基函数采用决策树算法,对待分类问题采用二叉分类树,对待回归问题采用二叉回归树;第四种是随机森林(random forest),它是利用多棵树对样本进行训练并预测的一种分类器[15]。
目前,大数据在云计算、物联网等技术的支持下,Google开发了MapReduce计算框架,Yahoo!、Facebook在此基础上开发了Hadoop、PUMA,微软开发了Cosmos,这些为旅游大数据的分析提供了很好的选择。
1.旅游大数据对旅游知识生成的影响。大数据分析对于处理、建模和可视化数据是必不可少的,以便它能指导业务决策,大数据分析被证明是在旅游目的地建立真正的商业智能的必要工具,它改变了传统的信息系统,并有助于旅游目的地产生知识[5]。知识是组织资源的一部分,它和组织的资产、能力、流程、信息一起提高组织的竞争力、效率和效益,保障组织战略的实现。在旅游研究中,以知识为基础的学派认为旅游是一种复杂的社会现象,知识是旅游业发展和竞争力的重要基础[16]。旅游知识主要有两个生成区域,一是知识创造的区域,二是知识学习和应用的区域[17]。大数据被认为是知识经济最有代表性的新兴范式之一,它作为旅游业知识生成的宝贵来源对知识密集型旅游企业的创造和管理起着日益重要的作用[6]。大数据可以通过预测需求(34%)或通过增加对该部门的知识(22%)来改进知识的获取[17]。旅游知识模型应该包括两方面,一是相关旅游信息(旅游利益相关者,影响旅游的经济因素如旅游目的地货币不同、旅游消费者行为特点、人口统计信息等)的收集,二是这些信息间的关系(是否相互影响)[18]。
商业智能(Business Intelligence,BI)作为大数据的高级应用,可以显著提高旅游目的地知识创造和获取,它包括数据识别和准备,数据建模和数据仓库数据量汇集,联机处理和数据挖掘技术的应用[19]。M.Fuchs等就以瑞典领先的山地旅游目的地为例,探讨了运用旅游目的地管理系统Are(Destination Management System Are)获得新的一些游客旅游前和旅游后的资讯(知识)数据,如网页浏览、预订、反馈等,这是商业智能系统在旅游目的地游客实时行为获取中的运用[14]。但是,在大数据基础上的旅游知识生成会产生很多交联的异构数据(有学者把它称之为“旅游知识孤岛”),这种新的挑战需要被称为计算机和人机交互新时代的“认知计算(cognitive computing)”来解决[20]21。
2.旅游大数据对旅游消费行为的影响。旅游消费行为研究永远是旅游研究的热点之一,大数据时代也不例外,人们研究的重点放在旅游大数据如何影响着旅游消费行为,包括影响因素、形成机制、模型开发等方面。通过跟踪和分析游客购买模式、购买行为、建议及其他已知影响销售的驱动因素,能为潜在游客的购买决策过程提供前所末有的参考(H.Song等,2017)。利用数量大和获取成本低的移动电话的位置大数据来分析旅游消费者的出行行为已成为很多机构的普遍做法,一个例子就是法国北卡罗莱纳的法国宽阔河流大都会规划组织运用移动电话位置大数据来掌握旅游者出行距离分布、平均旅行时间、旅游流等(F.Leta,2017)。C.Chen等在运用旅游大数据研究旅游消费行为中讨论了三个重要方面,一是旅游大数据影响旅游消费行为的因素,研究表明社会人口统计、建筑环境、出行和替代等因素影响着旅游者的行为,它们之间存在着潜在的因果关系;二是开发旅游消费行为模型预测旅游者的旅游行为;三是识别旅游者的旅行模式[9]。游客在选择旅游目的地时,受到人均收入、GDP和人口、距离、直航等因素的影响,但直航的可用性是游客选择终点站的决定因素,S.Y.Park等采用查尔斯顿2012—2014年三年内航班乘客的数据,运用多重力模型分析,将直接航班信息和网络流量数据纳入分析中,提高了客流量的解释能力和预测未来航班旅客的准确性(S.Y.Park等,2017)。社会意识可视化分析系统(Social-Aware Visualized Analytic System,简称SAT)是专门为分析旅游消费者行为而开发的,它可以从多个社交媒体网站自动收集、清理和整合各种形式的旅游活动数据,进一步有效地分析查询处理旅游活动数据的多个方面,并允许用户以可视化和交互的方式了解游客的旅行行程和对景点的评价(N.Mhd等,2015)。
3.运用旅游大数据研究旅游需求。旅游需求的研究往往是旅游研究的热点之一。旅游业正试图结合各种数据来源,包括社交网络数据,为客户创造个性化的度假套餐(J.Adam等,2014)。以往游客在搜索旅游信息时只能依靠旅行社提供的旅游手册和宣传手册,亲自在旅行社门店搜索和使用信息,旅游需求被引导的重点是由旅行社提供的打包旅游产品,这种产品往往是由旅行社规划好的、固定的旅游产品,部分游客也会根据亲朋好友的建议或推荐选择旅游产品。如今,旅游者通过数字旅游服务(如网站、各种应用程序和社交网络中的社区)远程搜索和使用信息,旅游需求变得多样化,包括旅游景区、住宿、休闲活动、美食等,同时旅游行程灵活、可订制,各种需求的反馈及时[13]。
在酒店行业,由于竞争日益加剧,酒店管理人员需要准确把握酒店属性,提升各方面服务能力,更好地优化操作流程,以便满足游客的需要,从而提升竞争力。酒店需要短期和高频率的预测,从而在激烈的市场竞争中保持敏捷的反应性(Hayes等,2011)。酒店管理者可以建立包括搜索引擎查询、网站流量和每周天气信息在内的旅游大数据源的时间序列模型,建立一个精确的每周酒店入住率预测模型,来判断游客住宿需求(Bing Pan等,2017)。
学者们从信息学视角研究旅游大数据主要表现在对智慧旅游的研究(Guanglu Liu等,2016;Gangzhi Guo,2016;C.Y.Luo等,2015)。智慧旅游,有人也称之为智慧旅游目的地[5],近几年被学者关注的热度大增。智慧旅游是在旅游信息化实施过程中面向游客并为其服务的一种应用,其发展离不开旅游大数据提供足够的优势资源的支持。它利用云计算和物联网技术,通过互联网或移动互联网,在便携式终端设备的帮助下,主动感知旅游资源、旅游活动、旅游者以及其他信息,使人们及时了解信息,安排或改变他们的旅行计划,以便实现各种旅游信息的及时采集并综合运用,从而方便旅游,使旅游更有效率。运用旅游大数据可以构建智慧旅游的在线信誉机制、数据分享机制、有效数据使用机制(Guanglu Liu等,2016);也可以用旅游大数据去实行门票预约,预测景区拥护程度,提升游客满意度水平评价(Gangzhi Guo,2016)。
智慧旅游是将智慧城市的城市管理方法转移到旅游目的地(R.Baggio等,2015),它高度依赖早于它出现的四个核心的信息和通讯技术,即IT、移动通讯、云计算、人工智能。在对巴塞罗那、阿姆斯特丹、赫尔辛基等城市的研究中发现,创新能力、人力资本、社会资本、领导力在城市智慧旅游的建设中起着重大作用(N.Mhd等,2015)。用城市居民出行大数据去规划建设城市智能出行体系也是智慧旅游建设的一部分,G.Sierpiński等就利用城市居民出行大数据开发了一个叫“绿色旅行规划师”的系统,它有一套能够选择多种旅游模式的功能及适用的几个优化标准,从而能使出行者寻找出最佳的旅游路线和方式,同时该系统又能在出行者使用过程中收集到出行者的相关出行动机信息,这些出行动机包括家庭、工作、教育、购物、出差、运动、休闲等,系统还能自动收集出行者自行定义的一些参数,如出行的地理坐标、出行时间、选择的旅行模式等,这些又能进一步增加大数据,优化和提升系统效率(G.Sierpiński等,2016)。在国家层面,旅游业高度发达的西班牙就制订了一个《国家和整体旅游计划(2012—2015)》,其中就有很大一部分是支持和引导智慧旅游发展的,它通过设立智慧旅游发展委员会,制订智慧旅游发展标准(包括旅游目的地的创新能力、技术的使用情况、可及性和可持续性)来指导和规范智慧旅游的发展[5]。
大数据在巩固智慧旅游目的地方面发挥了重要的作用,Ivars等构建了智慧旅游目的地模型,它包括三个相关联的层次,一是战略层面,它可进行融合治理、有可持续性和创新环境的生成;二是工具性层面,它是一个开放的数据大环境,把不同来源获得的相关信息集中在旅游信息系统中,该系统各使用方的联通性好,互相操作性强;三是应用层面,在事先制定明确的旅游目的地战略和将大数据可能性变成现实性的信息系统,并提出智慧解决方案(A.Townsend,2014)。智慧旅游运用大数据一方面能带来一些发展机遇,如有助于通过分析游客的行为模式准确地确定每个游客的需求和期望,带来知情决策能力的潜在优势,以及对旅游者需要的预测分析;另一方面也有一些挑战,诸如经济性、技术和人员方面[5]。
1.运用旅游大数据研究旅游交通。旅游交通是旅游业的关键要素之一,运用旅游大数据对旅游交通的研究集中在对交通容量、智能交通系统、交通条件和交通时间的预测等方面。
旅行时间是交通管理、工程和公共旅行中的一个重要指标,对于交通管理来说,旅行时间是评价交通网络拥堵等级性能的重要措施,对于交通工程来说,旅行时间可以用来优化交通基础设施的效率,对于公共旅行而言,出行时间可以帮助旅行者了解当前的交通状况,协助他们做好选择,避免不必要的延误(L.L.Tang等,2016)。I.emanjski在运用了K最近邻、支持向量机、提升树模型和随机森林四种大数据分析工具,分析来自于车辆轨道全球定位系统、道路网络基础设施数据及气象数据三方面的大数据预测游客的出行时间时,比较了不同旅游道路类别在绝对值、分钟内测量、平均平方百分比误差范围内的比较,结果表明对于级别较高的旅游道路,预测结果比级别更低的旅游道路更精准,而智能交通系统的应用更能提升监管旅游交通的效率[15]。
采用旅游大数据研究旅游交通容量成为趋势。Corinna Fohrholz等通过来自社交媒体、地理基础信息和网站等渠道的大数据预测了德国居民观看2016年欧洲杯期间的长途旅游客车需求情况,他们指出旅游密集型活动(如节庆、城市节目、摇滚音乐会、庙会、游行等)有可能短期内增加现有旅游交通线路的容量或需要提供新的旅游交通线路或供给,旅游交通企业需要事先预测(数量及可支付的价格)并增加和调整短期的供给,以便提高企业的竞争力(Corinna Fohrholz等,2016)。J.W.Li等采用百度、腾讯、奇虎等渠道的多源旅游大数据,运用时间序列分析和复杂网络分析等工具,对中国大陆2015年春节期间的旅游高峰的时空特征进行了研究,结果表明,春节前五天和春节后六天是旅游高峰,旅游交通压力极大,春节当天是旅游低谷,旅游网络呈现多中心特征,具有显著的地域集聚特征,经济和社会因素对旅游网络的影响大于地理位置因素,可以通过政府移动大数据与交通部门官方数据的整合,建立统一的春运实时交通平台(J.W.Li等,2016)。L.L.Tang等利用低频时空GPS轨迹大数据,采用模糊拟合方法对道路交叉口行程时间进行了估计,因为道路交叉口是不同旅游交通流汇聚和改变方向的关键部分,在城市旅游交通中形成“瓶颈”和“阻塞点”(L.L.Tang等,2016)。
2.运用旅游大数据研究旅游流。旅游流是在一个或大或小的区域内,由于旅游需求的近似性而引起的旅游者集体性空间移动现象。运用旅游大数据研究旅游流,多数学者都会利用GPS跟踪大数据,这样不需要建立复杂的模型就能获得旅游流(L.L.Tang等,2016)。L.C.Wang等在新浪微博基于位置服务的大数据基础上,采用GIS提供的核密度估计方法从时空维度(季节、时间和区域)研究了兰州市旅游流的时空特征,结果表明兰州旅游流的季节性变化明显,冬季和夏季差别很大,双峰特征突出,四至八月是旅游流的高峰期;在空间密度上,具有典型的构造特征,表现为核心外围结构特征,旅游流在冬半年和夏半年分别表现为收敛和发散;在时间上,旅游流表现为倾斜金字塔结构特征,从11点到13点旅游活动达到顶峰,从11点到18点旅游活动遍及兰州大部分景区,从19点到第二天的10点旅游活动仅限于主城区和高新区那些有好的住宿接待设施的地方;女性旅游者多于男性,女性旅游者偏爱主城区,而男性旅游者倾向于城郊森林公园的户外活动;省内旅游者选择旅游区时倾向于主要城市的知名旅游景区,但对周边的旅游资源也有一定的偏好,国外旅游者主要选择主城区的主要旅游点;从旅游流活动的轨迹看,呈现出明显的“点-轴”结构,主城区是旅游流高度聚集的区域,受兰州市狭长的河谷城市形态及东西向骨干交通网影响,使旅游流具有明显轴线在空间上的分布特征,表现为兰州黄河风景线之间是游客高度集中的空间区域(L.C.Wang等,2016)。J.W.Li等研究了中国春节期间旅游流情况,结果表明游客在春节前从长三角、珠三角、京津等沿海经济发达区域向内陆省区流动,春节后游客又由内陆省区向这些区域进行反向流动(J.W.Li等,2016)。
大数据作为当前最热门的词汇自然也影响着旅游的业界和学界,国外对旅游大数据的研究发展很快,研究呈现议题的宽广性、工具和方法的多元化、应用的问题导向等特征。
1.研究领域。旅游大数据的研究呈现逐年增长的态势,研究内容相当广泛,从旅游大数据的来源、获取、分析的研究到旅游大数据的影响和运用都有涉猎,呈现议题的宽广性特征。旅游大数据研究遵循着“数据来源的甄别,数据获取、处理与分析,对旅游业的影响,旅游业对旅游大数据的运用”的路径展开。旅游大数据来源是多源化的,它主要来自于互联网和社交媒体,也有部分是来自于公共服务部门和企业运营的数据。在数据的获取上,研究过程中多数采用获得比较便利、成本比较低的互联网和社交媒体,而公共服务部门和企业的数据由于涉及到个人敏感数据或商业机密等原因获取不是很容易。在数据的处理上,由于所获得的很多旅游大数据是半结构化的图片、语音、视频,使得数据处理难度加大,准确性降低。在数据的分析上,由于数据量大,传统的统计分析工具根本解决不了问题,而新的工具由于技术的原因还不能满足所需,也存在着分析能力不足的问题。在旅游大数据对旅游业影响方面,学者们主要探讨了对旅游消费者行为的影响和旅游知识生成两方面,而实际上其影响远远不止在这两方面,大数据时代人们的很多习惯都会改变,它不仅会影响人们的消费行为、知识获取,也会影响旅游政策的制定、旅游企业旅游产品的调整、营销渠道的改变等方面。对旅游大数据运用方面的研究,可以说是多而杂,没有形成一个脉络清晰的研究框架。
2.研究工具和方法。旅游大数据的研究在云计算、物联网等技术的引领下,借用了计算机科学、地理学、统计学等多学科的工具和方法进行研究,呈现工具和方法的多元化特征。在91篇文献中,有51篇提到了云计算和物联网,可见这两个技术对旅游大数据研究影响之深。在借用计算机科学的研究工具上,主要运用到数据挖掘和机器学习技术。数据挖掘技术应用到旅游业可挖掘出有价值的信息、发现潜在的旅游消费者、优化旅游线路、推荐旅游项目和目的地等[10]。在运算工具上借用了MapReduce计算框架、Hadoop、PUMA、Cosmos等,这些工具为旅游大数据的分析提供了一定的保障。在借用地理学的工具上,主要用到了GPS技术和GIS技术,研究旅游需求[17]、旅游交通(L.L.Tang等,2016;Corinna Fohrholz等,2016;J.W.Li等,2016)、旅游流(L.L.Tang等,2016;J.W.Li等,2016;L.C.Wang等,2016),实际上与地理学相关的工具不仅仅是这两种,旅游研究可以更多地借用地理学中的其他工具所获得的航天遥感大数据、网络签到大数据、定位导航大数据、居住环境感知大数据、室内定位及居民行为大数据等对旅游进行研究。在借用统计学的工具和方法方面,经常结合计算机科学的数据挖掘技术进行估计、预测、聚类和关联分析,常用多元统计分析、时间序列分析、复杂网络分析、模糊拟合分析等,虽然统计学的工具和方法在以往的旅游研究中发挥了重要作用,但随着大数据时代的到来,其作用和地位有所下降。虽然旅游大数据在理论上会对旅游企业的经营和管理产生积极的影响,但许多旅游企业的管理人员在掌握数据采集、数据质量、数据限制和数据应用方面会面临很多问题,几乎没有什么工具可供使用(F.Leta,2017)。在大数据分析工具还没有完全成熟前,传统的统计学工具和方法还是会对旅游大数据研究作出有益的补充。
3.问题导向特征。在运用旅游大数据研究旅游问题时,具有问题导向的特征。如对旅游需求的研究、对智慧旅游的研究、对旅游交通的研究都在一定程度上反映了问题导向的特征。在对旅游需求的研究上,研究者为了加强对城市规划的决策指导,使市政和生活设施更适应当地居民的需求,从而研究旅游计划者旅游偏好的大数据;酒店管理者为了提高酒店入住率,增加酒店收益,需要通过大数据预测、判断游客住宿需求。在对智慧旅游的研究上,不论是地域范围大小的智慧旅游目的地,还是智慧旅游景区,都是为了解决更好、更方便的旅游出游和更高效的旅游管理问题,而利用旅游大数据进行各种有益的探索。在对旅游交通的研究上,是为了解决更高的出行效益,提高出行满意度的问题,或是为了旅游交通企业快速地对最新旅游交通需求反映的问题而进行的研究。可以说,运用旅游大数据研究旅游问题,问题导向是必需的,有时并不一定只是解决单一的问题,也可以把相关的问题一并解决,在此方面更需要提炼出更多的经实践检验后有价值的模型,并进行推广应用。
构成大数据的大量信息在很大程度上是瞬时的,虽然它们可以解释正在发生的事情,帮助用户预测将来会发生的事情(A.Ivars等,2016),为旅游研究和应用带来很多机会,但旅游大数据在研究和应用上也面临诸多挑战,未来研究重点应该放在如何把握这些机会和如何面对这些挑战上。
1.研究方法和工具的进一步完善。对于大数据研究来说,方法科学和工具优良是保证数据质量的基础。旅游大数据的处理需要数据采集、数据储存、数据传输、数据清洗与集成、数据查询与检索、数据分析与挖掘、数据解释与展示等方面的技术,面临80%左右的半结构化数据、非结构化数据、断裂数据、缺失数据等问题,这些需要在算法优化、分析统计、语义处理、知识可视化呈现等方面进一步探讨完善。
2.研究内容的进一步拓展。旅游研究可借助大数据的核心内容数据,并借助数据获取、数据管理、数据分析相关技术,从多维度、多角度对一具体的研究对象进行研究,从而更全面、更深入地认识研究对象;可以进一步深入研究旅游者的社交网络、消费行为、旅游流向、旅游集聚模式、旅游市场等内容。
3.旅游研究范式的构建。著名数据库专家Jim Gray博士2009年总结了人类在科学研究上先后经历了实验、理论和计算三种范式,如今进入了第四种范式即数据探索型研究范式。传统的旅游研究可以说没有形成本学科的研究范式,大多参照其他学科的范式,主要依赖“自上而下”的理论建模驱动调查实验的设计研究范式,大数据时代是从对因果关系的研究向相关关系的研究方向发展,是一种“自下而上”的大数据驱动下的观察实证的研究范式,旅游研究可以乘着大数据时代对各学科的巨大冲击这股东风,先行先试,构建本学科的研究范式。