邢丹梅
随着旅游业与信息技术的深度融合,旅游大数据已经作为一种资源而存在。对旅游大数据的分析与应用推动了旅游业的智慧化发展。本文从旅游大数据的概念和产生背景入手,介绍了旅游大数据的类型,总结了旅游大数据的处理流程,同时将旅游大数据分析分为面向旅游行政管理部门的旅游市场大数据分析、基于供需角度的旅游运营大数据分析(旅游供给方)和游客画像(旅游需求方),并对这三大分析方向继续细化,明确分析维度,同时阐述了旅游大数据的应用。最后提出随着旅游大数据的发展,旅游学研究方式也将发生巨大变化。
旅游大数据的产生
旅游业是一个信息依赖度非常高的行业,互联网技术的普及对人们的旅游活动产生了巨大的影响。从传统的团队旅游到自助旅游,旅游信息是链接旅游者和目的地的关键环节。有研究表明旅游者在进行消费之前要进行10次以上的旅游相关搜索,访问20个左右网站;从传统的线下支付转为线上交易,支付方式发生的巨大转变为游客消费偏好的研究提供了大量的数据资源;从传统的传播方式到现在的新媒体传播,如朋友圈、攻略、点评、游记等,信息分享和传播方式发生转变,旅游大数据是一种伴生性数据,伴随着游客活动而产生。
旅游大数据的分类
学者们从不同的角度出发,将旅游大数据分为不同类型,常见的数据类型有:政府部门数据,包括公安、交通、气象、国土、海关等,其中交通数据包括航空、高速公路等数据;通信运营商数据,包括移动、联通、电信;搜索引擎类数据,如BAT;在线旅游平台OTA交易数据,如去哪儿、携程、美团;文旅企业智慧旅游类系统或平台的自有数据,如景区闸机门票系统;消费数据,如银联系统(如表1)。
表1 数据类型
数据类型 说明
政府部门数据 公安、交通、气象、国土、海关等
通信运营商数据 移动、电信、联通
搜索引擎类数据 BAT:百度、阿里巴巴、腾讯
OTA平台交易数据 携程、美团、去哪儿等
文旅企业智慧旅游类系统或平台自有数据 景区管理系统、酒店管理系统等
根据数据来源将旅游大数据分为用户生成内容(UGC)数据、设备数据、事务型数据三大类,并从研究重点、数據特征、分析技术及未来研究方向四个维度,对每一类数据的相关研究进行了系统综述。按产生数据的主体进行划分,将旅游大数据分为人产生的数据和机构产生的数据;按数据来源的行业划分,将旅游大数据分为互联网公司数据,电信、金融、保险、电力及石化系统数据,交通领域数据和气象领域数据;按存储数据的形式划分为结构化数据、半结构化数据和非结构化数据;依据数据所属方将旅游数据划分为内部数据和外部数据(如表2)。
表2 旅游大数据类型之内部数据、外部数据
数据类别 说明 主要应用
外部数据 互联网内容数据 互联网爬取(咨询、论坛、贴吧、OTA等) 旅游情绪分析
广播电视数据 各地广播电视剧 旅游情绪分析
运营商位置数据 电信运营商数据、APP数据 游客行为分析
交通卡口数据 交通局、高速公路公司 游客行为分析
消费数据 银联+网联+收单机构 游客消费行为分析
搜索数据 百度、携程、同程、马蜂窝等 游客意向度分析
投诉数据 互联网、12301、地方投诉热线等 投诉应对与处置
预定数据 携程、同程、飞猪等 游客预定分析
资源数据 景区、酒店、餐饮、厕所、旅行社等的位置、名称、规模等 旅游资源管理
内部数据 游客入园数据 来源于园区门票闸机系统 游客入园分析
停车数据 来源于园区停车系统 自驾、团队游分析
其他MIS系统数据 GIS系统、OA系统等 各类内部分析
表格来源:旅游大数据应用与分析教材
旅游大数据分析与应用
旅游大数据处理流程。从技术层面来说大数据的采集可分为结构化数据采集和非结构化数据采集,购票信息和住宿信息等消费数据属于结构化数据,结构化数据通常存储于结构化数据库中,如MySQL、Sqlserver、Orcle、DB2等,在线数据库可以作为结构化数据存储模块,由于旅游大数据有量大且实时更新的特点,如景区客流监测统计数据等,在此应用当中更偏在线到离线的衔接,能够支持高吞吐数据写入及大规模数据存储,可用于历史数据归档。旅游评论、游记、晒圈等属于非结构化数据,非结构化数据的存储及处理与Hadoop密切相关,Hadoop是针对大数据处理研发的一个开源分布式系统架构,是一个有效解决分布式存储和并行计算的平台。目前旅游大数据中的非结构化数据通常存储于Hadoop的HDFS当中。在数据采集中,非结构化数据的处理更加复杂,要求在采集过程中进行相关操作,使采集完成的数据能够方便快速进行数据处理。
从数据所有者层面来说,现在很多经营主体及管理部门都构建有自己的智慧旅游系统,如景区内部的门票监测系统,由于实行实名制购票,通过票务信息可以采集到游客的基本信息,这方面的数据采集就是直接通过已建立好的平台进行数据获取,将获取到的数据再进行后续处理。交通部门有交通管理平台,能够通过车辆识别、人脸识别采集到旅游者的出行信息。移动、电信及联通运营商,可以通过LBS定位游客出行路线及停留时长等数据。OTA平台可以记录旅游者出行计划、行为特征、景点及消费偏好。BAT平台可以记录旅游者搜索数据。除政府管理部门数据之外,BAT、OTA数据、网络传播数据,包括点评、攻略及游记等,此类数据可通过八爪鱼及Python等进行网络爬虫获取,也可通过数据拥有方提供的API接口获取数据。
旅游大数据清洗和预处理。在数据采集完成后,需要对数据进行治理,以提升数据质量,方便分析应用。数据清洗和预处理可以去除数据里的无用值、异常值、错误值、重复值。数据清洗可在数据导入后进行审核、筛选和排序,数据预处理主要包括:数据集成、数据变换和数据规约等。数据集成是把不同来源、格式的数据有机集中在数据库中的过程,为用户提供一个统一的视图,要想实现高动态数据实时处理,数据集成技术最好能与流处理引擎或搜索引擎集成在一起。数据变换运用平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。数据归约技术可以得到数据集的归约表示,它相对较小,易于处理。在清洗和预处理完成后可以依据分析目的对数据进行分类、分组和分主题,以方便后期分析。
旅游大数据分析挖掘。数据挖掘是挖掘出数据潜在信息和规律的过程,是从大量的、不完全的、模糊的和随机的数据当中抽取有价值的信息。数据挖掘主要通过分类、聚类、关联分析、神经网络等进行深度挖掘,用各类算法进行建模,模型训练,它与机器学习、人工智能、数据库等密切相关,能够自动分析大量数据,做出归纳与整理。在旅游大数据分析挖掘中可以采用关联分析对数据进行搜索,找出出现频率较高的数据信息,也可以通过聚类与分类,分析数据相似性及相似性数据中存在的共性,为旅游运营决策提供服务。
可视化展示和分析报告撰写。数据可视化可以直观展示数据挖掘分析结果,往往以图形图像的方式展示给用户,且用户可以进行操作,实现交互处理,可视化技术更易于发现数据中的非显性信息,便于用户理解。BI平台往往集成了可视化功能,易于人们使用,除此之外,常用的可视化工具有Excel可视化、Python可视化等等。数据分析和可视化之后,将分析结果撰写成文,为企业运营决策提供数据支撑。
旅游大数据分析。旅游大数据分析可基于软件工具、大数据技术和BI平台等,聚类、关联分析等算法集成在BI平台当中,在这里主要从旅游业出发,选取合适的分析方法来对数据进行分析,根据分析对象和分析目的不同,可以选择不同的分析方法,如对比分析、结构分析、杜邦分析、文本情感分析等等。将旅游大数据分析分为旅游市场大数据分析,主要针对行业管理部门;旅游运营大数据分析,从供需角度讲的旅游供给方;游客画像分析,从供需角度讲的旅游需求方。
游客画像分析。智慧旅游下的游客画像数据,包括游客的基本属性分析和行为偏好分析,对游客属性进行精准定位,实现人与信息的高度匹配,实现智慧化的营销。游客基本属性分析主要从性别、年龄、学历、职业,婚姻与收入、消费能力分析以及客源地这些维度进行分析。游客行为数据分析可分为游客出行偏好分析、游客消费偏好分析及旅游类APP使用偏好分析。游客出行偏好分析从交通及出行方式、出行时长、停留时间、游客活跃城市这些维度进行分析。游客消费偏好从酒店类型、价位偏好品牌偏好、餐饮类型偏好、景点类型偏好、价位区间偏好这些维度进行分析。旅游类APP使用偏好可以从APP类型偏好、使用时长及频率等维度进行分析。
旅游市场大数据分析。旅游市场大数据分析主要是面向旅游行政管理部门,用于旅游市场宏观趋势及旅游经济宏观分析,用于旅游监管,人流预测及旅游应急机制制定。传统市场分析多采用SWOT分析、4P理论、PEST理论、波特五力模型、波士顿矩阵等,但这些传统的分析理论和模型并不完全适用旅游市场大数据分析。目前很多学者和部门都发表了旅游大数据分析报告,但分析维度各有不同,总结共性得出MTSFP旅游市场大数据的五维分析,即M宏观经济分析(macroeconomic analysis):旅游总人次及同比增长率、旅游总消费及同比增长率、城镇居民旅游人次,农村居民旅游人次,四季度旅游人次对比;T(tourist)游客分析:年龄、性别、客源地;S景点关注度,用景点网络搜索量(Network search volume of scenic spots)来衡量,分析得出搜索量前10或20;F节假日(holidays),分析节假日旅游总人次、总消费,同比增长情况等;P产品品类分析(products):包括酒店类、旅行社类、景区类、餐饮类等,从总数量及接待总人次,平均价格等维度进行分析,如酒店类,可以从酒店数量、营业收入、平均出租率,用同比或定比的方法和过往数据进行对比以分析发展趋势、旅游总人次、旅游总消费、总体发展态势等。
旅游运营大数据分析。旅游实时客流监测与统计可以从实时客流监测、客流趋势、客流分布这三个方面进行分析,具体分析内容包括实时客流统计、实时客流分布、客流动态预警、客流对比分析、客流趋势分析、分项汇总分析,最终以动态可视化呈现,如热力图、词云图、可视化大屏等,依托于智慧旅游系统或相关BI平台。
品牌影响力分析。旅游品牌维度指数是以该旅游品牌同类景区/目的地品牌五大维度指数均值作为基值,采用3期平滑的方式计算得出的数值,对于对比同类型景区/旅游目的地不同维度对于品牌的影响具有重要参考价值。品牌五大指数分别为旅游品牌知名度、旅游品牌忠诚度、旅游品牌获得感、旅游品牌质量、旅游品牌个性,这五大维度有具体的计算公式,需要将获取到的数据套入公式计算,衡量旅游品牌影响力。
游客评价与满意度分析。游客评价与满意度分析传统采用的是问卷调查法,线下数据有限,样本量相对较小,大数据和云计算等信息技术的高速发展使批量的、实时的UGC数据采集成为可能,目前主要采集的是OTA在线旅游机构的评论数据,如美团、携程、去哪儿,但不局限于酒店评价、景区评价、购物评价等。目前学者们常用的分析方法是基于UGC用户生成数据,爬取携程、去哪儿等的游客点评、攻略、游记,把爬取数据进行整理清洗、编码导入,用ROST CM6进行旅游情感分析,主要包括词频分析、社会网络分析、流量分析、情感分析等等。除此之外,一些BI平台已可以实现整个UGC用户生成数据采集到评价与满意度分析的全自动化,如海鳗云等。用户生成(user generated content,UGC)数据尤其是点评、游记、攻略等常被用于游客满意度分析及游客感知旅游意象研究。
旅游輿情监测与分析。当前很多舆情监测系统都可以进行舆情预警,设置提醒条件,当有达到提醒值的负面舆情出现时,会自动进行舆情警示。旅游舆情内容主要来源于UGC,主要关注公众情绪。旅游舆情三要素:主题、情绪、声量。公众关注事件的网络舆情生命周期分为四个阶段:潜伏期、成长期、成熟期、衰退期。针对不同的分析目的和分析内容可以采用不同的分析方法,如针对热点挖掘,采用词云图及关联规则等;针对情感分析可借助分析工具如ROSTCM6,也可采用贝叶斯及随机森林分析;针对长文本,采用语义分析等。分析维度具体包含情感分析、热词分析、传播分析、话题聚类等。
旅游大数据的应用。旅游大数据从三个层面服务于旅游业:智慧化管理,主要面向旅游行政管理部门,如旅游局;智慧化服务,以游客为主体,主要对旅游运营大数据进行分析,以提升旅游供给方服务质量为目的;智慧化营销,基于旅游需求方,以绘制游客画像为途径,以个性化推荐、精准化营销为目的。具体作用在于有助于进行精确的旅游市场定位、有助于精准广告营销、有助于个性化旅游推荐服务、有助于挖掘潜在有价值的旅游信息、有助于旅游线路优化、实现人与信息的高度匹配、有助于行业管理、创新旅游开发向C2B定制旅游模式转变。
总而言之,我国旅游大数据正处在快速发展时期,不仅改变了人们的出游方式和消费方式,也给旅游研究带来了显著变化。旅游大数据弥补了传统问卷调查的不足,以批量的、实时的大数据作为分析样本使分析结果更加精确,但由于旅游业本身的特殊性和跨学科性,旅游大数据分析与应用仍存在进一步研究的空间。本文从技术层面总结了旅游大数据处理流程,从供需角度将旅游大数据分析细化为旅游市场大数据分析、游客画像、旅游运营大数据分析,细化了分析维度,提出了旅游市场大数据MTSFP五维分析,根据旅游大数据分析体系构建子类别的旅游大数据分析模型,将分析模型应用于旅游业中,将推动旅游业实现智慧化管理、智慧化服务和智慧化营销,同时随着旅游大数据的发展,将会有更多的大数据分析技术应用于旅游行业当中,旅游学研究方式也将发生巨大变化。
(作者单位:郑州旅游职业学院 信息工程学院)