中国旅游大数据研究:二十年回顾与展望

2022-09-26 12:47林珊珊应天煜周亚庆
文景 2022年4期

江 帆 林珊珊 应天煜 潘 冰 周亚庆

(1.浙江大学管理学院 浙江杭州 310058;2.美国宾夕法尼亚州立大学健康与人类发展学院 美国宾夕法尼亚州帕克 16802)

引言

随着信息技术高速发展和互联网快速普及,人、机、物三元世界的高度融合引发了数据模式的高度复杂化和数据量的爆炸式增长,对经济发展、社会治理、国家管理、人民生活等各方面都产生了重大影响。广义上来说,大数据是指在指定时间内,无法使用传统软硬件工具和IT 技术获取、管理、分析的数据(李国杰、程学旗,2012)。Gantz 和Reinsel(2011)总结了大数据的4V 特点,即Volume(体量大)、Variety(种类多)、Velocity(生成速度快)和Value(价值大但密度低)。大数据及相关技术为改进科学研究做出了巨大贡献,旅游研究就是其中一个典型例子。用户、设备和系统操作这三大数据来源提供了丰富的旅游相关大数据。首先,互联网促进了社交媒体的快速发展,为传播用户生成内容(UGC)数据提供了广阔的平台。其次,由于物联网(IoT)的蓬勃发展,各种传感器设备不断涌现,用于追踪游客的活动和环境状况,提供了大量的时空数据。最后,旅游是一个包含了一系列操作的复杂系统,如网络搜索、网页访问、在线预订等,它们产生了相应的网络搜索数据、网页访问数据、在线预订数据等事务型数据。基于这3 个主要来源的大数据,学术界和业界可以更好地探索和理解游客行为和旅游市场(Li,Xu & Tang,et al.,2018)。大数据的出现为旅游学的深入研究奠定了坚实的数据基础,弥补了传统数据收集方法在代表性和准确性上的不足,也为公众参与旅游平台建设提供了新途径(郝志刚,2016)。

国外旅游学界很早就开始关注大数据研究,并开展了丰富的实证和理论研究。已有学者对国外旅游大数据研究进行了详尽的综述,如Li、Xu 和Tang 等(2018)根据数据来源将旅游大数据分为用户生成内容(UGC)数据、设备数据、事务型数据三大类,并从研究重点、数据特征、分析技术及未来研究方向4 个维度,对每一类数据的相关研究进行了系统综述。

虽然社会各界都开始意识到大数据所蕴藏的巨大价值,但国内对旅游大数据的起步早关注晚,相关研究相对分散,尚未形成系统化的研究布局。目前旅游大数据的研究和应用在国内方兴未艾,亟须更加理性的思考及反思(潘冰、李云鹏,2017)。在本文选取的358 篇文章中,有13 篇从不同角度对旅游大数据或其技术使用研究做了理论性综述,其中2 篇是基于国外旅游大数据的文献,探析了大数据在旅游研究中的运用(曾忠禄、王兴,2020)及其研究热点和具体特征(吴开军,2019),但分析视角较为宏观,未深入探讨细分数据类型的具体情况。其他研究则聚焦旅游大数据研究的某一具体方面:或关注特定类型的旅游大数据研究,如旅游数字足迹(李君轶,2013)、地理标签照片(王丽,2018)、追溯技术(蓝牙、Wi-Fi 及GPS 数据)(袁雨果、郑伟民,2019)、在线评论数据(张补宏、周旋、广新菊,2017);或梳理具体数据分析技术的应用(王英杰、张桐艳、李鹏等,2020;杨敏、李君轶、徐雪,2020),但立足特定场景(林开淼、郭进辉、林育彬等,2020),缺乏对旅游大数据研究的整体把握。此外,这些文献主要考察不同的研究领域,没有充分考虑各数据类型所特有的数据特征和数据分析方法。上述综述文献多将国外研究作为目标文献,未充分考虑中国本土研究情境,在数据类型上也未进行扩展和创新。因此,本文试图弥补上述研究空隙,对旅游研究中不同类型的大数据进行全面的文献综述,并从研究主题、数据特征和分析技术3 个角度对各类型大数据进行系统分析,描绘国内旅游大数据研究的进展及未来发展趋势的全景图,以期推进国内旅游大数据研究的发展。

本文使用两级关键词进行交叉组合式检索,一级关键词为“旅游”“酒店”“目的地”“景区”“大数据”,二级关键词为旅游大数据细分类型(如用户生成/原创内容、线上/在线评论、线上/在线图片)及数据分析方法(如数据挖掘、文本分析)。用于检索的数据库锁定中国知网(CNKI)截至2021年1月13日发表的文献,选取“SCI”“EI”“核心”和“CSSCI”作为期刊来源选项,只将期刊文献作为研究对象,不包括书评、报告、学位论文等。经过进一步人工审核,筛选出关于旅游大数据的实证研究,最终选定358 篇作为本研究的文献样本。之后,研究团队对文献的基本信息(包括作者、年份、题目、期刊),以及文献主题及数据信息(包括研究主题、数据类型、研究方法、数据收集方法、数据分析方法及数据来源等)分别进行背靠背提取、比对与整理汇总,为每一数据类型建立一个文献数据库,示例见表1。

表1 本研究数据库示例Tab.1 An example of the database used in this study

一、文献的描述性分析

1.期刊来源

从期刊来源看,发表数量前五位的期刊分别是《旅游学刊》《经济地理》《资源开发与市场》《地域研究与开发》及《旅游科学》,文献数量占本研究文献总量的34.1%(见表2)。从发展趋势来看,国内旅游大数据研究起步较早但关注较晚。2001年出现了第一篇相关研究,2001年至2008年是探索阶段,年发文量低于3 篇,且部分年份没有相关论文发表。2009年至2013年这一阶段的发文量虽然不高,但相比第一阶段,文章发表数量相对稳定,年均发文量5篇。2013年之后,国内旅游大数据研究进入了迅速发展期,发表的论文占查找论文总量的92%,年均发文量迅速增至41 篇。2018年达到顶峰,发表的文章达到65 篇。根据这一系列数据的趋势判断,今后几年国内旅游大数据研究将会继续发展,对这一领域的理性回顾对于剖析现存难题、丰富现有研究具有重要意义。

表2 文献期刊来源(5 篇及以上)Tab.2 Source of journal articles(5 and above)

2.研究方法

研究方法包括质性研究、定量研究、混合研究以及文献综述4 种。鉴于旅游大数据获取的特殊性,本文进一步区分数据获取方法,包括一手数据、二手数据以及混合数据3 种。统计发现:已有国内旅游大数据研究多以质性研究为主,占比54%;定量研究占比39%;混合研究仅占7%。研究数据多使用二手数据(89%),且大部分使用单一类型的二手大数据(85%),仅有4%使用了混合数据。对于具体的数据分析方法,笔者将根据3 种不同的数据类型依次进行深入剖析。

3.数据类型

Li、Xu 和Tang 等(2018)根据数据来源的不同,将旅游大数据细分为3 类:用户生成内容(UGC)数据、设备数据和事务型数据。UGC 数据指由游客产生的数据,而根据分享内容的不同,UGC 数据又分为在线文本数据和在线图片数据。设备数据指由机器产生的数据,包括GPS 数据、蓝牙数据、移动漫游数据、Wi-Fi 数据、RFID 数据以及其他设备数据。事务型数据指用户与机器执行网上交互活动时产生的数据,包括网络搜索数据、网页浏览数据、在线预订数据等。根据本文文献检索结果,国内暂时还没有围绕蓝牙数据、Wi-Fi 数据、RFID 数据以及消费卡数据开展的相关研究,但笔者补充了中国情境所特有的微博签到数据以保持相对完整性。结合旅游者游前、游中和游后的三阶段行为,最终汇总之后的中国旅游大数据类型如图1 所示:UGC 数据(在线文本数据、在线图片数据、微博签到数据);设备数据(GPS 数据、移动通信数据、气象数据);事务型数据(网络搜索数据、网络浏览数据、在线预订数据)。

图1 中文文献旅游大数据分类Fig.1 Classif ication of tourism big data studies in China

从图2(a)可以看出,目前国内旅游大数据研究的数据类型分布十分不均匀:UGC 数据是应用最广泛的数据类型,占所有数据类型的72%,其中在线文本数据的占比高达76%;设备数据和事务型数据分别占比17%和11%。数据可得性的差异是导致数据类型分布不均匀的主要原因。在所有类型的旅游大数据中,UGC 数据获取成本和难度都最低,因此使用范围最广。其余数据的使用受制于隐私安全或获取成本等客观条件,所以获得相对困难。如在线预订数据和移动漫游数据中包含较多的隐私信息,只有特定企业和政府部门能够获取。部分学者通过购买获取运营商数据,但成本过高,可行性有限。部分数据收集依赖专门的实验器材和大量的人力资源,如雇佣游客使用GPS 手持机器设备收集GPS 数据,研究成本较高。图2(b)汇总了每种数据类型的研究年份分布,从中可以发现,大部分数据类型的研究整体呈波动上升趋势,其中2013年是一个明显的增长点,2018年左右达到顶峰。早期学者使用较多的是气象数据和GPS 数据,气象数据的研究在2009年发表较多,但在其他新兴数据崛起的移动信息时代逐渐衰落。2016年之后,随着信息化技术的发展和各式共享平台的出现,网络搜索数据、在线文本数据、在线图片数据等其他类型数据的相关研究开始出现。之后在线文本数据的研究一直处于领先位置,年发文量远高于其他数据类型研究。值得注意的是,2018年,在其他类型数据发文量呈现上升趋势时,在线文本数据研究出现了小波谷,这预示着国内学者的注意力开始从在线文本数据转移到其他数据。一年之后,使用GPS 数据、网络搜索数据和微博签到数据的研究都大幅度增加。在线预订数据、网页浏览数据等受限于数据可得性,相关研究一直很少。表3汇总了各类旅游大数据的研究结果,后续将围绕表中内容详细展开。

表3 旅游研究中不同类型大数据的比较Tab.3 Comparison of diff erent types of big data in tourism research

图2 数据类型比例及年份分布Fig.2 Distribution of data types and published years

二、UGC 数据

社交媒体的普及为旅游者提供了可以自由分享信息的平台,这些信息包括文字、图片和志愿者地理信息(Volunteered Geographic Information),对应产生了在线文本数据、在线图片数据和微博签到数据。

1.在线文本数据

在线文本数据具有方便、快捷、低门槛的特点,是旅游大数据的主要来源之一(李春晓、李辉、刘艳筝等,2020)。目前游客线上分享的文本内容主要包括两类:在线评论和游记。

(1)研究主题

由于所表达的信息内容不同,在线评论数据和游记数据的研究主题也存在差异。评论数据更多表达旅游者对旅游产品的态度,因此常被用来衡量游客满意度,探究满意度的具体构成(缪秀梅、陈烨天、米传民,2019)及其影响因素(黎冬梅、朱沆,2007),以评估和改善酒店的线上口碑(吴维芳、高宝俊、杨海霞等,2017)或有效提升景区管理水平(赵春艳、陈美爱,2019)。另外,在线评论数据也被广泛运用于旅游目的地感知形象研究中(张珍珍、李君轶,2014)。值得注意的是,已有学者在单一旅游目的地感知形象研究的基础上进行了拓展,如比较传统方法收集的数据与评论数据在探究旅游形象感知上的异同(张珍珍、李君轶,2014)。UGC 评论数据还被用于旅游情感分析。如挖掘游客情感特征(丛丽、何继红,2020)并根据情感评价词前的副词和转折词区分情感强度(刘逸、保继刚、陈凯琪,2017),或基于情感分析的结果计算情感倾向以便于了解网络舆情(周倩、姜磊、程旅航等,2020)。除了将评论作为数据来源探究旅游者或目的地的相关特征之外,也有研究将在线游客评论看作影响因子,观察其对景区接待量(赖胜强、唐雪梅、朱敏,2011)和消费者态度(杨颖、朱毅,2014)的影响。近年来,亦有学者分析评论数据本身,探究影响在线评论有用性(卓四清、冯永洲,2015)和可信度(张思豆、李君轶、魏欢,2016)的因素。

游记对旅游目的地形象塑造和传播同样具有重要影响(郭风华、王琨、张建立等,2015)。为弥补单向研究的局限性,有学者将游记数据和官方宣传文本结合起来,对比游客感知形象和官方宣传形象,发现二者之间存在的异同,由此提出针对性的营销和发展建议(仲宁、吴小根、汪侠等,2018)。也有学者利用游记挖掘旅游地意象,如彭丹和黄燕婷(2019)利用网络有机文本分析丽江古城旅游地意象,发现丽江古城旅游地意象的主题可以归纳为本真性的意象、浪漫性的意象以及商业化的意象3 类。此外,游记叙述了旅游故事和途中感受,因此成为除量表之外进行旅游体验研究的重要数据来源。多数研究利用游记对旅游活动、景观等的旅游体验进行分析,有学者在此基础上提炼理论模型,如徒步旅游中的旅游体验本质模型(谢彦君、樊友猛,2017)及旅游体验价值感知基础模型(黄杰、马继、谢霞等,2017)。同时,作为数字足迹的一种,游记为旅游流和游客时空行为研究提供了大量的开放数据资源(严江平、唐萍、李巍,2016),且有利于优化现有的旅游推荐模型(孙文平、常亮、宾辰忠等,2019)。

尽管相较于游记和评论,微信数据包含更多的个性化信息,但受限于数据可得性及个人隐私,微信数据很少被用在旅游研究中。苟思远、李刚和张可心等(2016)进行了首次探索,他们针对某一旅游者(W 教授)的朋友圈,根据其逐日活动记录探究其时空行为特征。

(2)数据特征

在线文本数据主要来自国内主流旅游网站,如携程旅行、去哪儿、马蜂窝、驴妈妈等。其中,携程旅行网是国内最大、受众最广的在线旅行社平台(Online Travel Agency)。Trip Advisor 及其子网站到到网则是收集国外评论的主要网站。也有针对特定旅游类型的网站,如专注徒步旅游的穷游网、磨房网等主流户外旅游网站(谢彦君、樊友猛,2017),专注骑行旅游体验的“骑行圈”(李艳、严艳、贠欣,2015)等。研究还发现,57%利用评论数据的研究和76%利用游记的研究都使用了两种及两种以上的网站作为数据来源以保证样本的代表性和可信度。

旅游网站的开放为旅游研究提供了丰富且海量的在线文本数据。目前国内研究常用网络信息采集软件进行在线文本数据的抓取,如火车头采集器和八爪鱼采集器,也有研究使用网络爬虫工具如Gooseeker、BeautifulSoup、PhantomJS、Selenium、Web Spider 等。这些数据抓取软件和爬虫工具的出现,大大降低了在线文本数据获取的难度和成本。

(3)分析技术

在线文本数据的分析过程一般包括4 个阶段:确定数据源、数据收集、数据预处理和数据挖掘。鉴于大数据分析的特殊性,本文将重点阐述后两个阶段的数据分析技术。数据预处理是分析处理在线文本数据的一个关键环节,决定了数据结论的准确性和有效性。这一环节可分为4 个步骤:①数据清洗,删除不完整、不准确或是无用的记录,删除重复信息或明显作假信息,剔除与研究主题不符的信息(钟栎娜,2015)。②数据转化,即同义词替换归并和语言转换(宋振春、赵彩虹、李旭东,2018)。③分词,将完整的语句打散成为各类词语的组合,剔除无效词,保留旅游相关的关键词及形容词、程度副词等。这一步可以利用分词软件辅助进行,如ROST Content Mining(简称ROST CM)、ICTCLAS 分词系统以及分词工具包IKAnalyzer、Word2Vec。④建立词库方便后续分析。

数据挖掘,即挖掘出数据中隐藏的人们感兴趣的、有价值的信息,并将其提炼成可直接使用的知识(陶雪娇、胡晓峰、刘洋,2013),这是在线文本数据分析的关键步骤。目前的研究多使用传统文本分析方法,如内容分析法、扎根理论及重要性 - 表现性分析法(IPA)来分析旅游现象(贾衍菊,2017)。随着网络媒体发展,有研究者开始将传统内容分析方法与网络信息结合起来,形成与数字化环境相适应的网络内容分析法,对网站和在线文字交流记录进行分析(熊伟、许俊华,2010)。具体数据分析技术有词频分析、网络语义分析、社会网络分析、情感分析与聚类分析等。现在已经开发了许多有效的数据挖掘工具和软件包用于分析处理文本数据,如ROST Content Mining、UCINET、NVivo 和SPSS 等。其中武汉大学沈阳教授研究团队研发的ROST CM 应用最为广泛,是目前国内学者对网络文本进行研究分析的常用工具之一(董正秀、黄震方,2018)。

除了上述传统文本数据分析方法,已有学者引入深度学习、机器学习、神经网络等人工智能中的数据挖掘技术来探究旅游现象。如李君轶、任涛和陆路正(2020)利用逻辑/算法编程方法、机器学习方法、深度学习方法挖掘评论数据,探索基于文本大数据的游客情感最优计算方法。马超、李纲和陈思菁等(2020)使用机器学习和深度学习方法,识别多模态评论数据对其感知有用性的影响。李琴、李少波和王安虹等(2018)利用神经网络语言模型,提出一种基于旅游在线评论人流量监控技术的新方法并提出景区门票浮动制。

2.在线图片数据

网络和社交媒体的发展,也催生了许多非结构化信息的共享平台,如图片分享平台,游客可以在社交媒体或旅游网站发布带有地理位置标记的图片。

(1)研究主题

本研究搜集到基于在线图片数据的旅游研究文献共37 篇,根据具体研究对象,可进一步划分成两部分:对图片内容的研究和对图片所带地理标签的研究。根据凝视理论,图片在一定程度上可以反映出游客对于旅游目的地的感知偏好及其行为特征(张坤、李春林、张津沂,2020),因此,对图片内容进行分析的研究聚焦于旅游目的地形象(邓宁、钟栎娜、李宏,2018;邓宁、刘耀芳、牛宇等,2019)、旅游意象(孔令怡、吴江、魏玲玲等,2018)、旅游体验(潘莉、张梦、张毓峰,2014)3 个方面。如果单纯利用图片的地理标签进行研究,此时的在线图片数据与GPS、Wi-Fi 和蓝牙等其他追踪技术所得数据所发挥的作用一致,可以实现对旅游者行为轨迹的刻画,因此常被用于游客时空行为、旅游流和旅游兴趣点挖掘这几类研究中(王守成、郭风华、傅学庆等,2014;丁娟、李俊峰,2015;罗秋菊、梁思贤,2016)。

(2)数据特征

国内旅游研究的在线图片数据的获取主要有两大来源:一是专业的图片共享网站,最常见的是Flickr 和Panoramio(二者占所有图片数据来源的45%),这些平台都提供了免费开放的数据接口,方便获得图片数据及其元数据,且数据成本低。除了图片本身,在线图片数据还提供了元数据。元数据包含了用户相关信息(照片ID 和用户ID)、图片时间信息(拍摄时间和上传时间)、地理位置信息(照片拍摄地点的经纬度)以及描述性信息(标题)等,这些字段在旅游者时空行为等相关研究中发挥了非常重要的作用(罗秋菊、梁思贤,2016)。二是各大旅游网站,如马蜂窝、携程旅行等,通过软件抓取获得图片数据。

(3)分析技术

作为一种特殊的数据类型,图片是一种隐喻能力很强的视觉符号,能反映出游客心中深层次的真实感受。因此,对图片中所蕴含的深层含义的挖掘是这一类型研究的重点。针对图片内容进行分析的主要分析方法有内容分析法、隐喻抽取技术或符号学相关分析方法,以及社会网络分析法。其中,内容分析法最为常见。隐喻提取技术是由哈佛商学院教授扎尔特曼(Zaltman)提出的一种质性研究方法,其主要思路是通过与深度访谈法结合,让受访者选择图片并讲述图片背后的独特故事,以揭露受访者内心的深层想法(潘莉、张梦、张毓峰,2014)。孔令怡、吴江和魏玲玲等(2018)就运用隐喻抽取技术,解析了凤凰古城的目的地意象。符号学中的相关分析方法也能对图片内容进行深入剖析,如李静和戴光全(2019)使用罗兰·巴特图像符号学分析法,结合内容分析,从明示符号和隐含符号的分析角度探究节庆旅游体验。社会网络分析法是研究社会结构的最新方法,将关注属性作为节点,探究各属性之间的关系(Scott,2000)。王素洁、黄楷伊和董玉洁(2018)就利用社会网络分析法构建了中国目的地形象属性的共现关系网络。上述几种图片内容分析方法相对传统,近年来,已有学者引入计算机视觉学习和图像处理的深度学习算法来辅助图片内容识别及分类。其中,深度卷积神经网络(Convolutional Neural Networks)已被广泛应用于图像分类、物体检索、姿态估计、图像分割、人脸识别等领域,极大提升了图像识别的准确性(卢宏涛、张秦川,2016)。邓宁、刘耀芳和牛宇等(2019)使用卷积神经网络,对Flickr 上不同来源地旅游者拍摄的北京图片的表征内容进行分析,并使用了哥伦比亚大学Chen 等基于图片深度学习研发的分析工具——Deep Senti Bank,分析UGC 图片所反映出的情感形象。张坤、李春林和张津沂(2020)使用残差神经网络这一场景识别模型,对北京入境游客拍摄的图片进行视觉内容识别及分类,最终划分出10 种感知类型和103 类场景类别。

针对图片地理标签,常见的分析步骤包括:(1)使用核密度估计或空间聚类分析法识别出游客地理兴趣点。核密度估计是一种非参数密度的空间密度方法,能将点的信息扩展到面上(李春明、王亚军、刘尹等,2013)。比较常见的空间聚类分析法有DBSCAN 聚类分析(丁娟、李俊峰,2015)、基于密度峰值的空间聚类(DPC)(徐志明、梁循、李志宇等,2018)。(2)运用GIS 空间分析方法,进一步分析其空间分布特征。质性分析软件(如NVivo、UCINET)、空间技术分析软件ArcGIS,以及可视化软件(NetDraw、CoreDraw)的推出,简化了在线图片数据分析流程,对推进该领域研究具有重要作用。

3.微博LBS 签到数据

位置服务技术(Location-based service,LBS)使得用户可以通过移动设备记录当前的位置、图片等志愿者地理信息,产生“签到数据”(王录仓、严翠霞、李巍,2017)。签到数据包含用户活动的时空信息,能有效反映出用户的行为轨迹(宋晓宇、许鸿斐、孙焕良等,2013),因此多被用于分析游客时空行为(张子昂、黄震方、靳诚等,2015)和旅游流时空特征及其结构演化(闫闪闪、梁留科、索志辉等,2017)。也有学者同时关注了地理标签和微博内容,探究城市游客情感体验的时空演变及其规律(李君轶、朱函杰、付利利,2020)。微博签到数据可通过新浪微博的API 开放平台获取,选取时间、经纬度、用户性别和常住地址等相关字段(陈曦、李啸虎、关靖云,2019),之后通过百度LBS 开放平台对地址信息进行解析,将其转换为经纬度坐标并导入ArcMap,编写属性,转化为GIS 平台可以使用的位置数据,与研究区域地图进行关联匹配。与传统旅游网站相比,微博具有信息量大、互动性强、方便快捷等特点(王录仓、严翠霞、李巍,2017)。但微博文本的信息过于发散,并且形式多样、结构复杂,因此数据清洗是数据分析前的一个关键步骤。除了要删去不清晰不完整的数据外,据相关研究经验,还需剔除获取数据中用户发布第一条和最后一条微博间隔时间为30 天以上的数据(王录仓、严翠霞、李巍,2017),之后使用时间分层法和核密度分析方法进行数据分析(陈曦、李啸虎、关靖云,2019)。

三、设备数据

进入Web 2.0 时代后,物联网已经渗透到旅游活动的全流程中,游客可以通过物联网进行通信、定位以及信息获取。各种设备(如传感器)产生的数据已被广泛运用在游客轨迹追踪的研究中。此外,考虑到气候对游客户外活动和景区旅游业发展的重要影响,气象站收集的气象数据也包含在设备数据中。

1.GPS 数据

作为一种定位数据,GPS 数据能有效观测到游客移动,具有精度高、回应率高、数据格式便于后续处理和分析等诸多优势,因此成为目前旅游研究中运用最广的追溯技术(袁雨果、郑伟民,2019)。

(1)研究主题

作为一种游客移动数据采集技术,GPS 对研究旅游者时空行为模式非常有效,因此GPS 数据最常用在旅游者时空行为模式挖掘及后续的旅游规划研究中。具体来说,旅游者时空行为模式包括了游客活动节奏挖掘(黄潇婷、张晓珊、赵莹,2015)和旅游者行为模式演化(王章郡、温碧燕、方忠权等,2018)。在上述研究基础上,学者进一步扩展,提出了游客时空行为评价体系(黄潇婷、李玟璇、张海平等,2016),设计出更加科学的产品和路线规划方法。如黄潇婷、朱树未和赵莹(2016)根据旅游者时空分布特征和旅游时空行为模式,对香港海洋公园的产品设计提出建议。赵莹、张朝枝和金钰涵(2018)探究了主题公园内的演艺活动对旅游者时空行为的影响。李渊、林晓云和江和洲等(2017)将游客时空行为模式的研究结果扩展到景区公厕优化配置和景区线路设计中(李渊、丁燕杰、王德,2016)。作为新兴的轨迹数据,有学者将GPS 数据与传统手段收集的数据进行对比。如黄潇婷(2014)发现GPS 数据与传统的日志调查数据在游客行为的研究中各有利弊。李渊、王秋颖和王德(2017)则对比了GPS 数据与传统的日志调查数据的精度,指出传统问卷调研与现代GPS 相结合的研究方法将是个体精细化行为建模研究等领域的重要趋势。

(2)数据特征

目前GPS 采集游客移动信息的主要数据渠道有两个:便携式GPS 设备和智能手机中支持获取GPS 的应用程序。前者是最主要的数据来源(在GPS 文献中占比48%),所得数据回应度和精度都比较高,但存在样本量较小且研究成本过高的问题。从现实角度考虑,传统GPS 数据更适合封闭型景区的小范围的时空行为研究;城市、区域、国家等较大尺度的大范围研究则需要大样本,使用GPS 数据成本过高,但近年来支持GPS 数据的手机应用程序的兴起,为大范围研究提供了便利。开放的APP 及专业的旅游GPS 轨迹数据平台,如六只脚平台,为旅游研究提供了免费的GPS 轨迹数据(吕旭涛、洪鹏飞,2018)。腾讯也开放了腾讯位置大数据网站(https://heat.qq.com),提供位置流量数据、区域热力数据及人口迁徙数据,已经有学者将这些数据应用到旅游流研究中(潘竟虎、赖建波,2019;许珺、徐阳、胡蕾等,2020)。

(3)分析技术

黄潇婷、李玟璇和张海平等(2016)使用手持GPS 设备数据,获取有效GPS 轨迹511 条,用于数据分析的点达60.81 万个,但是此研究获取到的GPS轨迹数受限于设备数量及周转次数。若采用手机APP 或者嵌入式GPS 模块等数据收集方法,所搜集的海量数据无法用传统的数据分析方法进行处理。针对这一类型的数据处理,常见的做法是:①将具有空间数据处理和空间分析功能的GIS 与具有精确空间定位能力的GPS 结合,采用地理信息技术实现地理数据可视化表达和测量(张自川、万恩璞、田卫,2002)。如ArcGIS 技术将定位点转换成线、面等更高维的表现形式,绘制出旅游者三维时空路径,以更直观地了解其运动轨迹。同时,结合停留点检测,可发现最受游客欢迎的景点或探索新景点,以合理化游客时间分配。②对游客旅游行为模式进行探索。这一阶段常用聚类分析,单独根据轨迹进行聚类,识别不同的旅行轨迹;或根据不同要素(如轨迹、停留时间等)划分不同时空行为模式的游客群体(刘培学、廖茂林、张捷等,2018)。有学者优化了GPS 数据处理的方法,设计了基于GPS 轨迹栅格化的旅游行为空间模式表达方法(郎月华、李仁杰、傅学庆,2019)。

2.其他设备数据

相较GPS 数据(占设备数据旅游研究的59%),移动通信数据、气象数据的相关研究则较少。移动通信数据由电信运营商收集,包括实名身份数据、用户的实时上网行为、位置以及社交数据等,具有全面性、多维性、中立性、完整性的特点,对于旅游全流程研究有很大价值(李玲,2017)。近年来城市智慧旅游建设初见成效,已有政府开放其大数据平台,如南京市政府率先使用移动运营商数据,开放“南京智慧旅游大数据运行监测平台”,为研究者提供客流相关数据(戴文、丁蕾、吴晨等,2019)。但目前国内大部分移动数据还是掌握在运营商手中,获取成本较高,加之涉及用户隐私等问题,研究者获取难度较大。因此,这一数据类型的研究处于探索阶段,研究多在探讨数据可靠性问题(赵莹、张朝枝、金钰涵,2018),完善基于移动通信数据的客流统计指标体系(宋廷山、郭思亮,2020),呼吁运营数据在学术研究中的运用(李玲,2017)等。移动通信数据的相关实证研究较少,只有少量的实证研究聚焦旅游流(段莉琼、刘少俊、刘泽华等,2018;许丹丹、王茜雅、张建新等,2020)。

气候是旅游业赖以生存的极为重要的自然资源,气候变化会直接或间接作用于旅游业(阎友兵、张静,2016)。目前研究中使用的气象数据大部分来自气象监测站点的统计数据,大多关注气候舒适度的时空特征(柏秦凤、霍治国、贺楠等,2009)和气候舒适度评价(任健美、牛俊杰、胡彩虹等,2004;向宝惠,2015)。2016年后,越来越多的学者开始关注雾霾天气对入境旅游的影响(阎友兵、张静,2016)。刘俊、王胜宏、金朦朦等(2019)的最新研究结合微博签到数据和气象数据,提取出全国293 个城市的桃花观赏日期数据集及时空格局,为赏花游客出行提供了数据和模型依据。

四、事务型数据

事务型数据是指广义的人物交互或人机交互产生的一系列数据,包括网络搜索数据、网页浏览数据与在线预订数据。

1.网络搜索数据

旅游服务的特殊性使得旅游决策往往伴有较高的风险,旅游者会采取各种方式优化决策,其中最主要的方法就是旅游信息搜索。游客主动进行信息检索所留下的痕迹,可以反映出游客的真实兴趣。

(1)研究主题

网络搜索数据主要被用于旅游预测研究中,少数研究关注目的地网络关注度(许艳、陆林、赵海溶,2020)。表4 列出了旅游预测领域利用网络搜索数据进行的典型研究,可以看出,目前国内网络搜索数据的研究尚处在发展阶段,还有很大的探索空间。此外,现有的旅游预测研究大都关注游客量的预测,而随着基于网络技术的社会行为研究的深入,针对旅游行为的预测也逐渐受到研究者关注(黄先开、张丽峰、丁于思,2013)。

表4 网络搜索数据在旅游预测领域的相关研究Tab.4 Tourism forecasting studies on Internet search data

续表

(2)数据特征

(3)分析技术

关键词选取是进行网络搜索数据相关性研究的关键环节之一。目前广泛使用的关键词选取方法包括技术取词法、直接取词法和范围取词法等(黄先开、张丽峰、丁于思,2013),国内研究主要采用后两种,但面临核心关键词遗漏的风险(孙毅、吕本富,2011)。已有少数学者意识到了这一问题,开始探索关键词提取的新方法,如构建旅游指数以提升准确性(魏瑾瑞、崔浩萌,2018)。传统的旅游预测方法主要使用历史数据,延迟性高且预测精度低。而与网络搜索数据预测模型的结合克服了传统预测方法的滞后性,具有更好的时效性(黄先开、张丽峰、丁于思,2013)。大部分研究直接使用原始数据,并将所选关键词引入预测模型(李君轶、杨敏,2007),也有研究构建复合指数,如搜索指数(任武军、李新,2018),使用协整检验与格兰杰因果分析考察指数与实际游客量之间的关系(孙烨、张宏磊、刘培学等,2017),之后使用自回归移动模型(ARMA)、ARIMA 预测模型、VAR 模型等常见旅游预测模型进行预测。

2.其他事务型数据

目前国内旅游研究使用最多的事务型数据是网络搜索数据,相比之下,网页浏览数据和在线预订数据受数据可得性的限制,使用率低得多。现有的利用网页浏览数据的实证研究主要关注影响网站流量的因素,如庞璐和李君轶(2014)利用大众点评网站,研究顾客点评对餐厅网页浏览量的影响,并进一步探究了哪些口碑因素是吸引消费者浏览餐厅网页的关键因素。旷芸(2013)以旅游网站网络日志作为研究对象,通过回归分析及相关分析模型,研究了网站流量的影响因素。而使用在线预订数据的研究大都依据评论量和预订量之间存在的线性关系,用在线评论数量近似替代同期网上预订量展开研究(张梦、张广宇、叶作亮,2011)。

五、结论及未来研究展望

1.研究结论

大数据时代催生了多源异构数据,其蕴含的经济价值、社会价值和研究价值使社会各界都开始重视大数据开发和应用,旅游领域亦是如火如荼地开展了大量的实证研究。本文借鉴Li、Xu 和Tang 等(2018)对旅游大数据的分类,根据国内研究现状,分别从研究主题、数据特征和分析技术3 个维度系统阐释了各细分类型大数据的研究进展。

首先,相比国外研究,国内旅游大数据研究处于较为前沿的位置,大数据很早就被应用到国内旅游研究中,且目前仍处于快速发展时期。根据Li、Xu和Tang 等(2018)的研究结果,国外旅游大数据的研究从2007年开始,最高年发文量为30 篇,而国内第一篇相关研究出现在2001年(宋静、姜有山、张银意等,2001),最多一年发文量高达65 篇。发表在国内学术期刊的旅游大数据论文的质量较高,但利用不同数据类型的旅游研究分布不均。UGC 数据是国内旅游大数据研究中的主导类型(占72%),被广泛应用于游客满意度、旅游目的地形象、旅游体验和游客情感挖掘等研究领域,其中在线文本数据的研究占据“半壁江山”(占总体55%)。在Li、Xu 和Tang 等(2018)所提出的旅游大数据分类的基础上,国内学者充分挖掘中国情境特点,将微博签到数据应用到游客时空行为和旅游流等主题的研究中,还有学者尝试利用微信数据开展研究(苟思远、李刚、张可心等,2016),扩展了已有的旅游大数据研究框架。相比UGC 数据,设备数据(占17%)和事务型数据(占11%)的研究则相对较少,但这两类数据在旅游者时空行为和旅游预测的研究中具有很高的价值。研究方法上,已有国内旅游大数据研究中以质性研究居多(占54%),多使用二手数据(占89%)。

在对每一细分类型大数据的相关文献分别从研究主题、数据特征和分析技术3 个维度进行系统梳理之后,本研究发现不同类型的数据适用的研究主题与其数据特征有很大关系。如在线文本数据可以表达游客对旅游产品的态度和体验,因此可被用于旅游满意度和旅游体验的研究中。网络搜索数据可以反映出游客的真实兴趣,有助于旅游预测和旅游目的地关注度的研究。一些研究主题可以使用不同类型的大数据进行探究,如旅游流研究可以使用在线图片数据(元数据)、微博签到数据、GPS 数据以及移动通信数据,但每一类数据的数据特征导致其适用范围存在差异:在线图片数据、微博签到数据以及移动通信数据可用于宏观层面的游客轨迹分析;GPS 数据精度较高,仅适用微观层面的旅游流动研究。在线文本数据和在线图片数据都可以被用在旅游目的地形象及旅游体验研究中,但二者在所传递的信息及情感强度上存在差异:文本数据更能反映出游客的情绪和情感体验,而图片数据能体现更多的游客认知形象。

此外,本研究发现国内旅游大数据研究已经取得较大进展,研究主题和数据的选取充分融合中国情境,体现了中国特色,在很多方面也做出了创新。首先,在研究主题上,国内学者在传统研究重点的基础上进行了两点创新:第一,对比传统数据收集方法与旅游大数据在同一研究主题中得出的结果,如比较问卷调查数据和在线评论数据在探究旅游形象感知上的异同(张珍珍、李君轶,2014),对比游记数据和官方宣传文本所折射的游客感知形象和官方宣传形象的差异(仲宁、吴小根、汪侠等,2018),比较GPS 数据和传统日志调查数据在游客行为研究中的差异(黄潇婷,2014 ;李渊、王秋颖、王德,2017);第二,利用大数据扩展已有理论或提炼理论模型,如徒步旅游中的旅游体验本质模型(谢彦君、樊友猛,2017)和旅游体验价值感知基础模型(黄杰、马继、谢霞等,2017)。

其次,在数据获取上,虽然目前国内很多的设备数据和事务型数据都掌握在运营商或政府部门手中,但业界和政府都在努力拓宽数据渠道,推动学术界与政府和业界合作。地方政府已开始开放其大数据平台(包含移动通信数据)供研究者使用,如南京智慧旅游监测平台和浙江省旅游大数据平台。也有专业的数据平台免费开放GPS 轨迹数据,如六只脚平台和腾讯位置大数据网站。

最后,在数据分析方法上,国内学者已经熟练掌握了传统的大数据分析和挖掘方法,并从3 条途径对现有技术进行了创新:第一,引入其他学科领域的数据处理技术,如应用深度学习、机器学习、神经网络等人工智能中的数据挖掘技术来探究旅游现象(如:李琴、李少波、王安虹等,2018;李君轶、任涛、陆路正,2020;马超、李纲、陈思菁等,2020)。第二,改进现有数据挖掘技术,提升旅游大数据分析的效率和精度。如刘逸、保继刚和陈凯琪(2017)在旅游评论的情感分析中充分考虑中国游客表达的语义逻辑特征,对情绪词汇前的副词和转折词做出进一步解析并赋予不同系数,以此区分游客情绪的强弱。第三,开发专门针对中国语言环境的数据挖掘工具和软件,如武汉大学沈阳教授研究团队研发的ROST CM,被国内学者广泛用于在线文本数据的处理和分析。

2.未来研究展望

国内旅游大数据研究取得的成就需要肯定,但仍然可以从拓展研究领域和开发新的数据源及分析技术等角度来进一步提升现有研究水平。

首先,研究主题的扩展可从以下3 个角度展开。第一,目前游客满意度、游客体验及感知旅游目的地形象的相关文献,多从单一游客群体切入,缺乏群体间的比较研究,而不同类型甚至是同一类型的旅游大数据,其行为主体也存在差异,因此,今后既要关注国内外跨文化群体的比较,也要关注中国本土情境的国内文化群体比较。第二,使用两种及两种以上大数据的研究仅占4%,其实,许多研究主题可以通过多源异构的旅游大数据进行探究,如在线文本数据和在线图片数据都可以被用在旅游目的地形象及旅游体验研究中,但二者所侧重的内容不同。未来研究可以考虑在同一研究主题中使用不同类型的数据进行分析,实现优势互补,丰富研究结论,并且对单一数据类型的研究结果进行交叉验证。第三,旅游业是一个高敏感性产业,容易受到各种不确定因素的影响。近年来,国内外发生了许多突发事件(如2020年暴发的新冠肺炎疫情),这些公共突发事件给国内外旅游行业带来了严重冲击。而大数据相对传统数据的一个最大优势就是具有时效性和前兆性(孙烨、张宏磊、刘培学等,2017)。已有很多文献证实了网络搜索数据能够很好地预测游客量,但很少有研究将这些结论延伸到旅游预警领域。网络评论也能很好地反映事件发生之后游客对某一目的地的态度和意向转变,从而辅助旅游预测和预警研究。

其次,相比国外大数据研究,国内研究的数据类型分布不均更为严重。国外研究中,UGC、设备数据和事务型数据的占比分别为47%、36%和17%(Li,Xu & Tang,et al.,2018),国内则为72%、17%和11%。虽然国内研究使用了微博签到数据和微信数据等新数据,但所涵盖的数据种类仍然少于国外研究,如Li、Xu 和Tang 等(2018)的研究中展示了14 种旅游大数据,而国内研究仅包含9 种。因此,研究者有必要进一步拓宽国内旅游大数据的数据源渠道,弥补数据类型上的缺失。根据数据可得性难易程度由高到低,分为如下3 种情况:① 被政府或特定组织管控的数据,如目前国内大部分的设备数据和事务型数据都掌握在运营商或政府部门手中,由于涉及用户隐私问题,研究者很难获取。这一问题是许多学科学术研究的痛点。虽然已有政府开始开放其大数据平台供研究者使用,但想进一步解决这一问题,还需要依靠学术界与业界的联动。② 有获取渠道但成本过高的数据,如目前主要的GPS 数据收集方法还是借助专业GPS 手持设备,无论是人力成本还是设备成本都很高。研究者可以充分利用智能手机中支持GPS 功能的移动应用程序,或解锁其他能提供嵌入式GPS支持的载体,如内置GPS 功能的手表、共享自行车等,来拓宽数据获取渠道。③ 尚未出现在国内研究中但有研究价值的数据,如RFID 数据、蓝牙数据、Wi-Fi 数据、消费卡数据。日常生活中也有很多值得研究但尚未引入的数据,如音频/视频数据与景区监控数据等,这些数据对解析游客行为模式能发挥重要作用。在未来研究中,学术界还可以考虑将中外旅游大数据研究进行整合和对比分析,从更全面的角度了解旅游大数据的实证研究成果。

最后,鉴于近年来大数据研究逐渐出现结构化、半结构化、非结构化3 种大数据融合的趋势(孟小峰、慈祥,2013),学术界急需探究如何在不损毁数据价值的前提下进行数据的冗余缩减和压缩(李学龙、龚海刚,2015)。在数据分析方法上,虽然已有国内学者引入了一些计算机领域和数据挖掘的新兴数据分析技术,但大数据分析技术日新月异,新技术层出不穷。数据复杂性的增加也导致对分析技术的效率和精度的要求不断提升。因此,今后旅游研究可以考虑与人工智能、数据挖掘领域的专家跨界合作,将更多数据挖掘方法引入旅游研究当中。