陈 平
(联通(广东)产业互联网有限公司,广东 汕头 515051)
旅游业是当今世界发展最快的行业之一,随着互联网和大数据技术的飞速发展,旅游业的数据也呈现出爆炸式增长。大数据在旅游业中的应用,可以实现对旅游市场的实时监测和预测,为旅游业的发展提供决策支持,提高旅游业的运营效率和客户满意度。
大数据在旅游业中的应用主要包括以下几个方面:市场分析、产品推荐、服务优化、营销推广以及安全管理。通过对旅游市场的数据分析,可以了解需求、供给、竞争状况和价格趋势等信息;通过对游客行为数据的分析,了解游客的兴趣、偏好和行为模式,为游客推荐适合的旅游产品;通过对旅游服务数据的分析,可以了解旅游服务的质量、效率和满意度;通过对旅游营销数据的分析,可以了解旅游营销的效果、成本和回报;通过对旅游安全数据的分析,可以了解旅游安全的风险、隐患和预警,为旅游安全管理提供支持。
旅游大数据目前主要从行为兴趣、位置时序、关系图谱三大数据价值维度维度来构建相应的数智平台能力体系,应用NLP(自然语言处理,Natural Language Processing)、搜索引擎、时空序列、图计算等关键技术为文旅行业应用提供支撑。下面分别展开论述。
2.1.1 行为兴趣分析
首先探讨旅游者的行为模式,这有助于我们了解旅游者的旅游偏好和活动特点。旅游者的行为兴趣是多样的,如对某个旅游景点的访问频率、在景点的停留时间、旅游活动的参与度等,他们可能对历史文化感兴趣,也可能更喜欢冒险和户外活动。这就需要我们进一步分析他们的个性化需求,以提供更符合他们兴趣的旅游产品。同时,我们还可以根据旅游者的行为兴趣对市场进行细分,如家庭旅游市场、青年旅游市场、文化旅游市场等,以便更精准地满足不同细分市场的需求。
2.1.2 平台构建原理
行为兴趣智能检索平台的原理是通过分析游客的上网日志、文章链接等数据,挖掘出游客的行为兴趣,并基于这些兴趣进行智能检索和推荐。
2.1.3 平台运作方式
行为兴趣智能检索平台的运作方式包括:首先,通过网络爬虫或API接口获取游客的上网日志、文章链接等数据;其次,利用自然语言处理(NLP)技术对数据进行解析,提取出游客的兴趣关键词;然后,基于Elasticsearch(一款基于Lucene构建的开源搜索引擎,它具有强大的全文检索、实时搜索、数据分析、数据可视化等功能等搜索引擎搭建智能检索平台),形成游客画像维度;最后,根据游客画像进行精准推荐,为文旅营销等场景提供支持。此外,平台还需对数据进行清洗、去噪和加权处理,以提高推荐效果的准确性和实时性。
2.2.1 位置时序分析
位置轨迹实时检索平台作为一种重要的数据处理工具,能够实时获取和分析旅游者的位置信息,位置时序则是对旅游者在不同时间内的位置变化进行记录和分析,从而揭示旅游流的时空分布特点。通过分析旅游者的位置和时间信息,我们可以了解旅游热点区域、旅游高峰时段等,为旅游资源的优化配置提供依据。基于位置时序的数据分析,还可以帮助我们合理分配旅游服务设施、优化旅游线路设计等。此外,在自然灾害、公共卫生事件等紧急情况下,位置时序数据可以协助进行有效的紧急响应和危机管理,保障旅游者的生命安全和身体健康。
2.2.2 位置轨迹实时检索原理
位置轨迹实时检索平台是基于信令和互联网数据,构建了3分钟轨迹采样、重构运动静止轨迹描述模型和空间轨迹检索能力。该平台通过融合POI/AOI、房产、购物商场等多维度信息,增强了位置兴趣点模型,同时,解决了职住数据与信令数据一致性问题、信令数据丢失严重和查询效率慢等问题。此外,位置轨迹实时检索平台还构建了游客的标签体系,包括基础属性、动态兴趣和行业应用等类型,以支撑旅游业务。
2.2.3 平台运作方式
位置轨迹实时检索平台的运作方式包括以下方面。首先,对信令数据进行轨迹分析,得到准确经纬度驻留坐标;然后,进行入格处理,将用户的停留状态信息定位至空间网格上;接着,通过加权质心点校验进行位置校正;最后,通过基站纠偏技术,对偏移的基站进行纠偏处理。
2.3.1 关系图谱分析
关系图谱计算平台通过揭示旅游者之间的关系,如朋友、家庭和同事等,让我们能够更好地了解社交网络对旅游行为的影响。而社交网络分析则进一步帮助我们了解旅游行业中各种服务提供商之间的复杂合作关系,如酒店与旅行社、景区与餐饮店等,这些合作关系对于优化旅游产品和提供更全面的旅游服务至关重要。此外,关系图谱计算平台还可以帮助我们分析旅游者的品牌偏好和忠诚度,从而进行更有效的市场营销和客户关系管理。
2.3.2 关系图谱计算原理
关系图谱计算平台的原理是基于原生并行图数据库,结合运营商的通话、基础信息、信令以及现有标签体系构建通话关系图谱。通过处理和分析这些数据,可以挖掘出游客之间的联系和互动,从而为文旅行业提供有价值的信息。
2.3.3 平台运作方式
关系图谱计算平台的运作方式包括以下方面。首先,利用原生并行图数据库存储和处理数据;然后,通过运营商的通话、基础信息、信令等数据构建通话关系图谱;接着,根据现有的标签体系对关系图谱进行标注;最后,通过对关系图谱的分析,挖掘出有价值的游客联系信息和互动行为,为文旅行业提供数据支持。这些运作方式使得关系图谱计算平台能够为文旅行业提供丰富的游客关系数据,从而为业务决策和运营提供支持。
综上所述,旅游大数据通过从行为兴趣、位置时序、关系图谱三个维度来构建数智平台能力体系,可以更全面、准确地了解旅游市场和旅游者的需求,从而提供更加个性化和精准的旅游服务。
旅游行业的核心算法规则和模型的建立,是推动旅游行业智能化、提升企业竞争力、优化资源配置、保障旅游市场健康发展的重要手段。首先,旅游行业正面临数据量的急剧增长,这主要是由于互联网和物联网技术的快速发展。为了从如此庞大的数据集中提炼出有价值的信息,必须构建有效的核心算法规则和模型。其次,旅游大数据涵盖了多种数据类型,包括结构化、非结构化和实时数据等。整合这些不同类型的数据并提取其价值,是建立核心算法规则和模型的另一个关键因素。再次,旅游数据具有很强的实时性,例如游客流量、预订信息、评价等,需要核心算法能够迅速地响应这些实时变化的数据。最后,利用核心算法分析游客行为喜好,以提供个性化服务,有利于推动旅游行业智能化。
3.1.1 游客定义和识别
旅游垂直行业数据分析的前提是明确分析的主体,即游客。本文通过对游客的定义进行探讨,为旅游数据分析提供基础。游客的定义应包括其出游目的、出行距离、停留时间等指标,例如,不以谋求职业、获取报酬为目的,离开惯常居住环境,到国内其他地方从事参观、游览、度假等旅游活动(包括外出探亲、疗养、考察、参加会议和从事商务、科技、文化、教育、宗教活动过程中的旅游活动),出行距离超过10千米,出游时间超过6小时[1],但不超过12个月的我国大陆居民。同时要考虑到不同类型的游客,如过夜游客和一日游游客等。
3.1.2 游客识别模型构建
在构建游客识别模型时,应优先考虑利用原始的基站信令日表数据。通过实施包括职住地分析、停留时长筛选等多种指标组合筛选,进而精准识别游客群体。图1为具体的模型类别及功能概述。
图1 模型类别及功能
图2 属性识别模型
图3 旅游热门路线推荐
图4 游客基础画像
(1)标准化模型:本模型基于基站信令数据,构建时间与事件的基础模型,旨在明确游客活动的起始与结束时间,以及其位置变动轨迹。实现对游客行为的精确识别。
(2)驻留模型:此模型利用长期稳定的位置数据来计算游客的停留时间,进而确定其兴趣驻留点。
(3)出行方式模型:模型通过分析机场、火车站、高速公路等POI(兴趣点)的位置信息,结合基站信令数据,推断游客的出行方式。例如,如果游客的手机信号在某个火车站附近出现频繁的切换,那么可以推测游客可能选择了火车出行。
(4)职住地模型:旨在准确地识别游客的长期居住地。与传统的身份证信息或手机号码归属地判定方法不同,该模型主要依赖于游客长期规律活动的地点进行分析。具体而言,模型通过对工作人口、居住人口以及常住人口的地点分布进行深入研究,旨在从职住角度对游客进行更为精确的识别。
(5)出行目的模型:根据游客出行意图,将出行目的分类为返乡、观光和商务旅行三大类。
(6)预测类模型:利用累积的历史客流数据、天气状况、旅游季节性、公众舆论及网络搜索行为等多元数据,通过线性回归、移动平均、指数平滑、ARIMA(注:一种广泛应用于时间序列分析和预测的方法,通过考虑过去的值来预测未来的值)等预测方法,对客流进行精准预测。
(7)增益类模型:主要解决数据缺失问题,尤其是CS(电路交换)和PS(分组交换)信令中手机号信息的缺失。通过数据回填技术,可补充约3%~6%的数据,主要是外地漫游用户。
首先,关于人数,是从出游的概念出发,以国家层面为统计范围。将每一个出游的人,无论其途径本省/本地市多少地市或者区县、景区,都计入本省的游客人数。换句话说,一个人在出游过程中,无论他参观了多少地方,他都被统计为本省的游客人数。
其次,关于人次,是从接待的概念出发,以市、区县为统计范围,关注的是游客在不同地方的接待情况。如果一个游客在出行过程中访问了多个地级市,那么他在每个地级市的接待次数都会被计算在内,可能导致同一人在不同地方的重复计数。
总的来说,游客人数更注重游客的出游行为,而人次则更关注旅游服务的接待情况。
3.3.1 扩样反推全网口径
如果现有的数据样本不足以反映全网口径,可以考虑使用抽样和扩样的方法,通过一定的统计技术来扩大样本规模,扩样反推全网口径算法是一个数据处理方法,主要用于文旅行业,目的是让数据趋于全网,即覆盖所有的移动手机用户。该算法的核心是通过对手机信令数据的分析,推算出游客的流入总量。该算法的反推过程主要包括以下几个步骤。
①数据收集:收集全国各城市手机用户产生的信令数据。
②数据清洗:剔除过路及规律往返用户,只保留有价值的信令数据。
③数据处理:按照250 m×250 m的栅格[1]对区域进行划分,然后对手机信令驻留轨迹进行综合分析。
④计算流入总量:根据分析结果,结合游客的标准口径定义,计算出固定区域的游客流入总量。
在计算流入总量时,需要考虑两个主要因素:一是停留时间超过约定时间小时且离开职住地不少于约定时间小时的手机用户数;二是无手机儿童用户数。其中,无手机儿童用户数的计算需要考虑全国各城市的工作年龄游客数、相对应城市的手机用户市场占有率和相对应城市的儿童人口占比。通过以上步骤,可以得到较为准确的游客流入总量,为文旅行业提供有价值的数据支持。
3.3.2 游客属性识别模型
游客属性识别模型应通过运营商或OTA获取大量真实的游客画像数据,将行为与人对应起来,形成游客的画像数据。如游客来源:流入到某区域的客流,根据职住模型,可精准判断游客的来源省份/地市/区县及具体的区域。
3.3.3 旅游热门路线推荐算法模型
该旅游热门路线推荐算法模型主要包括以下步骤。首先,收集游客的游玩景点和路线数据,通过大数据分析确定各景区间的关联性,以判断热门游玩路线。其次,基于信令时间连续性原则[2],通过位置变化生成新的基站信令信息,从而确定旅游线路。最后,构建推荐模型,为游客提供个性化热门路线推荐。此模型可为旅游路线规划和媒体宣传提供有力数据支持。
3.3.4 核心算法规则说明
模型采用先进算法,通过数据降噪和加工方法处理游客手机信令,以获取准确的人群位置信息。主要方法包括剔除“乒乓效应”[1]、统计区域栅格、加权质心点校验[1]、基站纠偏和标签体系构建。
(1)剔除“乒乓效应”。采用多因素判定方法,分析基站间的切换数量和时间长度,以消除“乒乓效应”对信令数据分析的干扰。
(2)统计区域栅格。对地理位置进行删格化处理,生成250 m×250 m的栅格码表[1]。通过轨迹分析和入格处理,提高客流统计的准确性。
(3)加权质心点校验[1]。利用用户停留状态信息,通过加权质心位置推算,考虑信令发生频次、基站覆盖范围和信号衰减等因素,提高位置准确性。
(4)基站纠偏。针对基站位置偏移现象,通过计算相对密度和切换次数,对基站进行纠偏处理。
(5)标签体系构建。构建游客标签体系,包括基础属性、动态兴趣和行业应用等类型。通过内外部数据分析,为文旅行业提供有力支持。
综上所述,核心算法规则旨在提高游客位置信息的准确性,为旅游行业提供数据支持。建立旅游大数据核心算法规则和模型有助于挖掘有价值的数据,满足旅游行业在管理、服务和创新方面的需求,提升行业竞争力,遵循相关法规,推动旅游行业的高质量发展。
本文通过对海量数据进行挖掘和分析,提出了大数据在旅游业中的应用与实践,通过构建行业化模型、运用NLP、搜索引擎、时空序列、图计算等技术,实现了大数据在旅游业中的价值挖掘。同时,针对游客定义、游客识别模型构建、职住模型口径、职住模型构建、游客人数和人次口径、扩样反推全网口径、游客属性识别模型、旅游热门路线推荐算法模型、核心算法规则说明等方面进行了深入研究,在推进旅游业的智慧化转型过程中形成具备实际应用价值的模型与算法,为行业的创新发展提供了驱动力。