李佩镅 陈 松(通讯作者)
(海南经贸职业技术学院旅游管理学院,海南 海口 571127)
随着计算机科学和互联网技术的飞速发展,大规模的结构化和非结构化数据不断地产生、记录、存储和积累,形成了大数据,开启了一个全新的时代。在这样的大数据时代,各种大数据已经被广泛应用于科学、工程、医疗、管理、商业、旅游等领域(Hashem 等, 2015),帮助决策者在评价绩效、设定目标和预测未来情景等方面起到不可忽视的作用(Volo,2019),得到了学者们的广泛认可。
就旅游领域而言,大数据的应用极大地改变了基于传统数据的传统旅游研究。例如:戢晓峰等(2019)以云南省为例,分析公路交通流大数据特征,为该省节假日旅游管理提供启示;李春晓等(2020)对七万多条游客在线评论进行挖掘分析,揭示了这些入境游客的体验感知差异,为旅游目的地管理实践提供了建议。然而,即使已经有不少学者和业内人士开始关注“大数据+旅游”,并且将大数据样本用于分析旅游者行为(Pomfret等,2016)、旅游需求(Goh 等,2011)、具体类型的旅游活动如志愿者旅游(Wearing 等,2013)等,但是学术界对大数据在旅游研究中的应用尚缺乏系统的文献综述(Li Jingjing 等,2018)。为此,本文将尝试从多个视角回顾旅游研究中大数据类型的应用,并从研究重点(旅游问题)、数据特征、分析技术、挑战和进一步发展方向等方面对每种类型进行系统分析。
依据现有的文献,大数据在旅游行业的研究应用可以从两个视角出发。第一,消费者的角度,主要表现为用户原创内容(User Generated Content,UGC),即消费者主动地在旅游网络平台上提供相关的在线文本数据和在线照片数据。第二,运营商(设备)的角度,即在线用户的操作数据被旅游运营商进行记录与分析,例如消费者在网页浏览、搜索、预订以及购买等相关交易数据;同时,消费者访问的数据会在如传感器等对应的设备上得以留存,为运营商的分析决策提供依据。依据以上的简单分类,本文将从消费者和运营商两个角度对大数据在旅游行业的应用做对应的研究述评。
在数字时代,网络和社交媒体的繁荣发展极大地促进了人们的旅行分享,用户原创内容的数据作为旅游分享大数据的主要类别,被广泛应用于旅游研究,主要包括两类:(1)产品评论、社交媒体博客等在线文本数据;(2)照片分享网站发布的在线图片数据。
(1)在线文本数据
社交媒体和在线旅游网站为游客传播各种旅游相关信息、发表旅游体验等提供了一个交流的平台。游客可以表达他们对旅游产品的态度,也可以在Twitter 和新浪微博等博客上分享他们的旅游观点和经历,提供给潜在游客有价值的信息。这些以文本形式呈现的网络评论数据、博客数据等相关数据构成了旅游研究中的一种特殊类型的大数据(Li Jingjing 等,2018)。以下将从数据特征以及分析技术两方面进行述评。
从数据特征来看,旅游行业的在线文本数据主要来源于在线旅游平台和社交媒体。一方面,学者们通常从TripAdvisor(国外最大且最受欢迎的旅游社交媒体之一)、去哪儿网、携程、马蜂窝、大众点评等获取相应的数据资源。例如,Lv Xingyang等(2020)通过爬取携程网上某酒店的评论数据,进行文本分析后得出含有触觉线索的在线评论将显著影响消费者在线预订酒店客房的意愿。另一方面,对于社交媒体的平台数据,Twitter 和新浪微博是两个主要来源。例如:Chua 等(2016)使用Twitter 数据挖掘旅游地理信息,捕捉游客情绪;Cheng等(2015)利用新浪微博来探索潜在的客源区、旅游新闻的生命周期以及游客对旅游政策变化的态度。
为了提取和利用在线文本数据中隐藏的有用信息,多种文本挖掘技术被广泛应用于旅游研究,包括三个典型的阶段,即数据收集、数据挖掘以及结果展示,其中最重要的数据挖掘过程又包含数据预处理和数据建模两个子步骤。第一步是采用网络爬取技术从相关社交媒体网站(包括旅游相关评论和博客)收集在线文本数据。例如Lv Xingyang 等(2020)使用Python编程语言的网页爬虫来获得酒店相关的评论。第二步是数据挖掘,通过数据预处理和数据建模两个阶段,对收集到的在线文本数据进行分析,提取旅游研究有用的内容。其中,在数据预处理方面,针对不同的研究目的学者们采用了不同的技术,其中比较流行的操作是利用在线文本数据对现有旅游文献进行数据清洗整理、数据特征提取(包括词干提取和词性标注)、数据降维等。例如,图1 展示了携程在线旅游平台的酒店评论数据,通过预处理中的数据特征提取,学者可能对这一评论中的星级/分数、评论者特征、评论时间等数据感兴趣。接下来,进行数据建模是文本数据挖掘的另一个关键阶段,旨在挖掘文本中有趣的信息,现有旅游研究的典型技术有情感分析、聚类分类、关联模型以及三层贝叶斯概率模型(LDA)等分析手段。最后一步为结果展示,即根据前两步采集与挖掘的结果,学者们依据各自的研究目标,对分析结论进行可视化的展示,为旅游实践提供可借鉴的建议。文本挖掘与分析的一般步骤展示详见图2。
图1 携程在线旅游平台某一酒店的用户评论数据样本
图2 文本挖掘与分析的一般步骤展示
(2)在线图片数据
除了在线文本数据,其他用户原创内容数据,例如在线图片数据也在社交媒体上发布和传播。旅游者上传的照片包含了用户相关信息(如照片ID 或用户ID)、时间信息(拍摄/上传日期)、地理信息(具体定位)和文本信息(标题、描述和标签)等有用信息(见图3),为研究旅游者行为、旅游推荐(如旅游景点、旅游计划等)和旅游营销提供了新的视角。因此,非结构化的在线图片数据在旅游研究中引起了越来越大的关注。
图3 微博旅行栏目某用户上传的图片数据样本
为了发掘旅游研究中隐藏的有价值信息,学者们采用多种照片数据挖掘技术构建旅游推荐系统,包括数据预处理、元数据聚类和轨迹发现三个主要步骤(Li Jingjing 等, 2018)。例如,徐敏等(2020)基于地理标记照片数据,采用照片数据挖掘技术中的多种分析方法如GIS 空间分析、多元回归等,对苏州游客的流动数据进行了实时分析。图4 展示了旅游研究中使用在线照片数据分析的典型过程。
首先,从照片共享网站收集的原始数据进行数据清理、形成和文本挖掘等预处理,提取出照片中有价值的元数据,探究游客的兴趣和动机,为接下来的两个步骤做好铺垫。其次,从三个主要角度对提取的元数据进行聚类分析:旅游景点的空间维度、旅游者出发地的用户维度、旅游持续时间的时间维度。最后,研究旅游轨迹,即旅游景点的顺序和时间间隔,以帮助决策者制定合适的旅游计划。
图4 文旅游研究中使用在线照片数据分析的典型过程
旅游行业的运营商(设备)的交易数据是旅游研究中另一种有价值的大数据类型,记录与旅游相关的运营(或旅游市场中的交易、活动和事件),如网页搜索、网页访问、在线预订和购买等。相应的交易数据已经被广泛用于优化搜索引擎(SEO)、预测旅游行为和促进 旅游营销。
以旅游在线网页的访问、预订和购买的操作数据为例,网页访问(或浏览)数据帮助运营商访问者的在线浏览行为,即潜在游客是如何发现网站、如何与网站互动,从而在调整网站的内容和设计方面改善网络营销。Plaza(2011)基于回归模型,研究了从相关链接的参考网站、搜索引擎网站来的潜在游客回访该网站的影响因素。在线预订数据,即旅游网站记录了关于在线预订操作的重要信息,这些信息已被证明对酒店管理者和投资者都有用。Ghose 等(2012)利用美国酒店预订数据集(销售价格和数量),结合社交媒体数据,通过随机系数混合结构模型,推断出酒店位置和服务特征的重要性。景点销售数据,即通过分析景点门票销售数据以改善目的地管理。例如,Shih 等(2009)基于回归模型,估计了每天的天气变化对密歇根州两个滑雪胜地缆车票销售的影响。酒店设施的消费数据,比如连锁酒店中单个酒店每月用电量和用水量的大数据,Kahn 等(2016)通过分析酒店用电数据,揭示了酒店能源使用的低效性。
从以上已有的研究来看,旅游行业的运营商(设备)数据已经被引入到旅游研究中,并显现出各自的优势,但相关的文献仍较为缺乏。可能的原因在于这类大数据主要掌握在少部分的旅游组织和政府部门,学者们由于隐私问题而难以获得。在这样的背景下,学术界和产业界的互惠合作不仅可以极大地推动这一新兴研究(即在旅游研究中使用交易数据的探讨),而且可以有效地解决旅游业的实际问题。
经过以上的述评,我们发现,尽管大数据旅游研究有了一定程度上的改进和创新,但仍有很大的发展空间,特别是在研究领域的拓展以及数据统计的分析两个角度。
首先,旅游需求预测、游客情绪分析、旅游行为分析和旅游推荐是旅游大数据研究的热点问题。然而,利用有价值的大数据也可以很好地解决其他一些重要问题,如旅游网络营销、景点规划、旅游产品设计和旅游承载能力估算等。此外,除了旅游研究的这些传统方面,使用更智能的方法进行在线营销和数据驱动营销也是一个很有趣的话题,并且非常具有实际意义,未来的研究可以在类似的话题上有所拓展。
其次,目前旅游统计分析的发展较为缓慢,而旅游业界人士对数据指标,尤其是对数据指标背后造成的原因及影响这一话题感兴趣的人日趋增多,这为学术界探讨旅游大数据留下了空间。然而,除了机遇还有不少挑战,例如如何将这些数据的使用从“大”转向“智能”,增加信息层次,促进实时使用和适当传播。在传统测量方法的旧时期,旅游业的私人和公共利益相关者应该预见到,将游客数字轨迹获得的信息与旅游公司的数据库和信息系统实时结合起来的巨大机会。游客的行为数字足迹与行业数据、数据分析师的能力和旅游学者的理论优势经过充分融合,将引导旅游景观重新设计、完善目的地建设与管理等诸多现实问题(Volo,2019)。数据共享、数据提取和数据分析的挑战已经被探索,尽管是以一种不完整和碎片化的方式。因此,Mariani 等(2018)呼吁学者建立概念框架,以确保理论建设、增强定制和智能服务供应。基于概念框架的数据分析将使旅游大数据不仅可以用于旅游在线营销、设计和建议,还可以用于需求预测、预防和应急研究(Li Jingjing 等,2018),一个完整的旅游数据系统(统计、指标和大数据)仍将是学者和从业者优先考虑的问题。