张鹏
摘要:近年来,大数据在快速把握旅游行业运行规律,辅助行业管理,创新服务模式中的作用越来越明显。旅游行业点多线长面广,有很强的复杂性和综合性,需要提供从多方面多维度提升综合集成服务能力满足人民群众对美好生活的需要。当前,一系列以“利用智能技术建设即时感知、准确判断和精确执行的信息系统”、“整合旅游产品、智慧服务和管理应用的信息服务网络”、“依托云计算,基于云架构,聚合海量旅游综合信息的云服务”等为代表的创新性思想及举措为旅游信息化的建设和发展赋予了全新内涵。特别是以游客为中心,把大数据的分析應用转化为旅游服务的场景,在游客行前、行中、行后提供精准服务,对行业内景区、酒店、交通、旅行社等管理和监管,挖掘海量旅游信息中的潜在价值,是旅游行业发展创新的需求,具有重要的应用价值。
关键词:关联分析算;旅游信息化;建设;发展
一、旅游数据分析技术需求迫切
移动互联网技术的发展,游客的消费理念、行为都不同以往,一场说走就走的旅行随时发生,而游客出行体验的满足感也越来越需要得到重视,个性化的旅游定制、高端旅游服务体验也越来越迫切需要。对于旅游从业者来说,利用互联网和移动互联网技术来统筹旅游行业管理、营销、服务,是开展智慧旅游所需要考虑充分的。旅游活动本身就是一个复杂的社会活动,旅游活动中会产生、应用多行业多种类的基础数据,这些数据对于整个行业运行情况分析,具有十分重要的意义。这些数据是辅助支撑旅游从业者及旅游政府管理部门对行业中的各项重点环节实施有效管理,是推动旅游业更加科学化、精准化的发展、建立新型旅游现代产业的有效措施。而旅游数据种类多样,数量巨大,来源广,如何把各种渠道数据进行整合,结合行业管理服务的需要,运用有效的数据分析算法,从而形成精细到位的管理服务数据,这是非常重要的也是非常迫切的。
二、旅游数据分析关键算法
聚类和关联分析是数据分析算法中常用的两类基础性算法。聚类分析主要用于解决没有明确分类映射关系的物品归类问题。聚类分析简言之就是物以聚类,人以群分,要把要分析的数据划分成不同的类。关联分析是一种用于分析物体之间关联程度的一种方式,关联分析常见的应用场景有:分析产品之间的关联程度、定制化推荐、产品组合营销推广调整等。例如在超市货品摆放时,可以根据用户购买商品时的记录,计算商品之间的关联程度,将关联程度高的商品摆放在一起。比如,我们常说的“啤酒、尿布”分析。旅游行业也是为游客提供旅游产品的服务行业,现详细介绍关联分析算法中较为基础但应用较为广泛的Apriori算法。
关联分析是发现隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现概率。如旅游热点出行分析预测就是使用的是关联分析中的Apriori算法,这是一种发现频繁项集的算法。算法工作流程如图1所示,首先找出第1阶频繁项集并设定好最小的支持度阈值,可称这个集合为L1。他的作用是为了找出第2阶频繁项集L2。如此下去,直到不能找到“K项集”。这种算法的核心是连接步和剪枝步。连接步是自连接,原则是保证前k-2项相同,并按照顺序连接。剪枝步,是用来保证最终的频繁项集的子集非空而且也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从集合中删除。
三、关联分析算法应用
由于旅游数据分析维度较多,下面从黄金周出行热点来介绍关联分析算法分析应用。
(一)黄金周出行热点主题概述
“五一”、国庆、春节“黄金周”已经越来越成为大众选择出游的高峰期。依据来自文化和旅游部数据中心综合测算显示,2020年国庆期间,随着我国疫情形势逐步好转,全国各地文化和旅游市场复苏明显,全国共接待国内游客6.37亿人次,实现国内旅游收入4665.6亿元。本文主要通过建立游客的行为分析模型,对相关游客的历史预约、消费等记录数据进行统计分析,从而挖掘出黄金周期间,游客出行的热点景区景点等信息,为旅游监管部门和景区景点、以及相关的旅游企业等提供旅游信息,便于提前做好预警应急工作,提升服务质量。
(二)黄金周出行热点模型
基于黄金周期间游客出行目的地、景区景点以及旅游客源市场之间的数据分析等,建立相关模型。模型依据游客的旅游需求方面的影响因素分析、各类旅游目的地的特点和客源流量的周期上使得旅游监管部门和景区景点、以及相关的旅游企业,能从大体上了解和掌握旅游目的地的旅游客源市场的构成及未来发展趋势,并以此来构建出旅游客源市场的一个舆情分析知识库。
(三)分析报告
以2020年国庆中秋“黄金周”为例,整合各渠道有效数据,形成以下分析:
根据关联分析中Apriori算法规则,对网友喜好的旅游目的地进行数据挖掘,可展示出旅游管理者最关心的假日哪里会出现游客高峰问题。由于整合各渠道数据形成数据库量很大,为了能够清楚的介绍,现仅列出一小段数据,用来描述游客出行目的地为北京、上海、深圳、武汉、成都相关数据分析。
选取游客对部分旅游目的地预约消费等记录,ABCDE分别代表不同的旅游目的地,“广东省”、“北京市”、“福建省”、“上海市”、“湖北省”,游客预约购买旅游目的地记录可以是其中一个也可以是几个的组合,计算数据库共有4条不同类型记录。首先对各旅游目的地进行依次扫描,例如旅游目的地A在所有4条记录中出现3次,那么A的支持度即为3/4,计算出的支持度表明了该旅游目的地在所有预约消费记录中出现的概率大小,显然概率越大,支持度越高。同理,计算出BCDE的支持度分别为3/4、3/4、3/4、1/4。接下来需要设置阈值来筛选出关联度较高的产品数据,这里假设取1/2,那么就先将E筛除,留下旅游目的地ABCD,此时便产生频繁一项集{{A},{B},{C},{D}}。然后将频繁一项集中的集合两两组合,得到候选项集{{AB},{AC},{AD},{BC},{BD},{CD}},计算每个项集的支持度。例如项集AB在所有4条记录中出现2次,那么AB的支持度即为2/4。同理得出AC,AD,BC,BD,CD的支持度分别为3/4,2/4,2/4,2/4,3/4,2/4。在阈值为1/2的情况下只留下AC和BD。如此便可以继续生成候选集ABCD,支持度为2/4,可以筛去。
综上,得到AC和BD的关联程度最高。这意味着,如果游客计划前往广东省旅游,那么给该游客推荐福建省旅游商品成功率更大,类似的,如果游客准备出行北京游玩,那么上海相关旅游产品可能也更受该游客户青睐。对于行业管理者来说,当A地出现游客高峰问题时,C地就要提前组织好人力物力做好相关预警应急工作。
总结与展望
旅游相关管理部门、企业在数据驱动下,越来越重视数据的积累、整合以及分析应用,旅游大数据分析已经被证明是一个非常引人注方向。旅游数据与大数据特点极其相似,异构数据众多,数据源众多;数据分布不均匀;数据复杂多变等等。为了探索旅游大数据的分析,我们从数据采集,模型算法和系统建设三个层面进行了尝试。特别是在算法模型层面,数据分析模型的建立跟采集的数据、应用的场景等息息相关,想做好模型设计,需要精心设计算法从多个来源找出与主题相关的信息,虽然取得了一些效果,应用场景也符合管理服务的需要,但是在技术上还存在一些难点,今后要在以下几个方面进一步推进:一是解决模型算法效率不高的问题。Apriori算法每次计算时都需要返回至历史记录中进行扫描,处理流程复杂耗时长,下一步需进一步提升软硬件性能,优化模型算法,提高数据分析能力。二是进一步加强行业顶层设计。本文虽按照由下至上原则,从特定需求场景出发作出一些尝试,但要推广至行业指导管理服务还需从上而下,全行业统筹考虑,从数据分析全流程把握,做好标准制定、架构设计、系统搭建、应用推广等工作,真正发挥数据分析作用。