钱泽昊,刘 瑾,张佳乐
(上海立信会计金融学院 上海 201209)
近年来,随着社会经济的高速增长,我国旅游产业发展迅猛,由于生活水平的稳步提高,旅游业已成为全世界人民休闲和生活方式的重要组成部分。根据世界旅行旅游理事会发布的数据,2019 年旅游业是世界上国内生产总值(GDP)增长率的第三大产业。据报道,旅游业的增长率为3.5%,明显高于全球经济GDP 的增长率2.5%。特别是,旅游业在中国创造了近8 000 万个就业机会,占全国总劳动力的10.3%。同时,其产值估计为10.9 万亿元,占中国经济的11.3%。世界旅游业的快速发展,促进了中国自身旅游业的蓬勃发展。中国的旅游业已经进入“大众旅游”阶段,人们的旅游意愿不断提高。可以预见,即使在后疫情时代,国内旅游市场也将继续蓬勃发展。然而,游客数量的大幅上升导致了景点游玩体验下降与安全事故的增多,对旅游场所造成了巨大的负面影响,目前人流量过载已经成了各大旅游景点重点关注的问题。为应对潜在风险,有关部门提出了加强人流量检测和管控的要求。传统检测人流量的工作方式是采用过往经验判断法,这种方法往往存在时效性弱以及准确率低等问题,如何对人流量的预测更加快速与精准便成了管理工作中至关重要的部分。本项目的研究是为了深化全域旅游、提升游客游玩体验、避免大规模游客滞留,在保障游客生命财产安全的同时提升对游客的服务质量,更加有效地将游客分流到更广阔的全域旅游,有利于旅游业态的拓展和全域旅游的深化推进。
随着数据预测在学术界的广泛部署和如今数据获取的便利性,出现了如何正确有效地使用数据的问题。时间序列是预测未来数据最广泛使用的方法之一,被广泛用于经济和商业领域。从20 年纪50 年代起,相关研究人员利用其他领域的一些预测模型对人流时间序列预测进行了分析和处理,并在此基础上进行了持续改进。《几种时间序列模型在客流量的比较》一文中提到[1]:数据预测是目前学术界的一个热门话题。几十年来,它吸引了许多学者来研究天气预报、食品生产、商场交通等。随着大数据时代的到来,对数据的获取变得更加容易,我们现在可以方便地获取各种数据,如何明智地使用这些数据并使其作用最大化是大数据时代面临的挑战之一。一些相关领域的专业人士根据自己的个人经验预测和分析本领域的最新趋势[2-5]。基于这样的分析,大部分时间都花在相关领域背景知识的研究上。由于时间序列在预测领域对背景知识的需求较低,吸引了更多的研究学者,在很大程度上促进了时间序列的发展。
国外的研究人员很早就开始了对人流量分析的研究,预测城市流量对于交通管理、土地使用、公共安全等具有重要的战略意义。对于城市管理者来说,他们可以预先发现城市中可能发生的交通拥堵,提前部署交通,缓解交通拥堵。对于公众来说,他们可以提前完善自己的出行计划,错开出行高峰,选择更便捷的出行方式。从人的出行方式来看,城市交通流包括人流、交通流和公共交通流等[6-8]。旅游业是世界上任何国家发展的一个非常重要的经济活动领域。对许多国家来说,这是一个最优先的预算创收部门,因此有必要尽可能准确地预测主要指标,特别是游客流量,以规划发展战略。李艾玲等[9-10]指出:传统上,城市人口流量是根据调查数据采用四步法进行估算的,这是劳动密集型和资本密集型的,而且更新频率也很低。一些研究处理从单个或多个闭路电视(CCTV)摄像机采集的视频数据,这些摄像机实时提供高精度的人流。然而,由于很少安装监控摄像机,这种方法不适用于大型网络。其他一些使用被动数据收集方法的研究包括GPS、蓝牙或社交媒体网络。然而,由于样本量的限制和用户属性的偏差,这些方法无法有效部署[11-13]。
目前,我国的旅游产业发展势头迅猛,人流量过载一直是各大景点难以解决的问题,而景区的人流量数据符合时间序列数据的特征。综上所述,为了旅游业态的拓展和全域旅游的深化推进,本项目将研究如何利用时间序列模型并优化算法,从而准确地预测各大景点的游玩人数。
人流量数据涉及高低峰期、进出口人数,人流量整体分布情况等多种因素,而时间序列的研究必须保证数据的精确性并且考虑到研究内容的多维度,因此本项目将研究如何准确获取所有按时间序列排列的相关人流量数据的因素,并对数据进行综合分析,提取其中有利于时间序列预测研究的成分。如今整个社会进入互联网时代,手机已成为人人必备的通信工具,IMSI 号被称为国际移动用户识别码,是区别移动用户的唯一标志,而IMSI 号的采集与时间和地点有一定的对应关系,将采集的数据按照时间序列分段进行统计,使得采用IMSI 数据模拟人流量数据并对之预测成为可能,而IMSI 数据的采集原理主要依据LTE的小区重选原理和手机终端与基站之间鉴权过程。采集系统见图1。
经典时间序列对数据的要求较高,受制于数据采集的精度,景区的人流量数据无法具有很高的明确性和准确性,本项目将研究如何构建模糊时间序列算法实现景区人流量预测。算法的架构见图2。
论域:合理的论域获取会在很大程度上影响算法的精确性。
模糊集定义:现实生活中有很多带有模糊现象的案例,例如“长得高”“长得矮”,还有“大风”“大雪”等,诸如此类的概念均可被定义为模糊概念。这些概念的特点是无法精准地量化事务,主观特质相对较强[6-8]。由于这些概念描述了一个不准确的量,无法确切地用数字以及类别来表达,用传统集合概念来描述该类元素显得十分不合理。因此,本项目将建立模糊集来表达“亦此亦彼”的模糊性现象。
模糊关系的建立:自然界的万物之间夹杂着许多关系,相对比较简单的关系可以用有或无来对其进行描述,然而还存在着一种界限相对于前者比较模糊的关系,这种类型的关系很难用决定性的回答,例如“是”或“否”来表达,只能用一种描述关系的程度概念来表达,即模糊关系。
去模糊化:为了使结果变为可观测的,需要进行去模糊化处理,通过使用反模糊矩阵得出最后的预测结果。
通过模糊均值聚类算法获得论域:
步骤1:初始化设样本集X,样本数N,聚类数为C(2 ≤C≤N),K=1。现在要将样本集划分为C类,记为X1,X2,...,Xc。
步骤2:选定C 个初始聚类中心,记为m1(k),m2(k),...,mc(k)。
步骤3:计算所有样本与各聚类中心的距离,按最小距离原则将样本进行聚类。
步骤4:重新计算聚类中心。
步骤5:若i∈{1,2,3,...,C},有mi(k+1)≠m1(k),则K=K+1,转步骤3;否则算法结束。
算法流程见图3。
在进行初步的对于人流量聚类之后,数据仍然可能展现出不平稳的特性,为了解决这个问题,需要对聚类后的数据进行差分处理并套用粒子滤波模型进行处理。
2.3.1 差分时间序列
Crammer 分解定理指出,任何一个时间序列{xt}都可以视为两部分的叠加,其中,一部分是由时间t 的多项式决定的确定性成分,另一部分是由白噪声序列决定的随机性成分,即
式中,d <∞;β1,....,βd为常数系数;{at}为一个零均值白噪声序列;B 为延迟算子。
根据Crammer 分解定理,非平稳序列都可以分解为如下形式:
式中,{at}为零均值白噪声序列。
2.3.2 基于重抽样粒子滤波的时间序列预测方法
基于重抽样粒子滤波的时间序列预测方法的思想是采用贝叶斯滤波法来更新粒子滤波密度和采用重要采样法来计算积分。将选取的指标作为粒子xk,核心企业指标的状态方程粒子作为zk,滤波密度p(xk|z1:k)用粒子和粒子权值来表示:;权值表达式为,在使建议密度分布等于先验密度分布的前提下,重抽样粒子滤波时间序列预测方法的步骤如下:
计算权值:
算法流程见图4。
经典时间序列对数据的要求较高,它对历史数据的依赖大,要求数据较为完整,对于不具有完整性、准确性和明确性的历史数据无法进行预测,这在现实生活中是非常苛刻的条件。受制于数据采集的精度,景区的人流量数据无法具有很高的明确性和准确性,本项目中使用的模糊时间序列模型通过结合模糊数学与时间序列很好地解决了这一问题。时间序列模型见图5。
许多热门景点经常出现人口容量超出承载量的现象,直接导致游客的游玩体验下降,并且可能会导致一些公共安全事故。如果能准确预测景点人流量,能够避免大规模游客滞留的现象,使游客错峰出行,提升各大景点游客的游玩体验。
精准预测景点人流量将有利于相关工作人员安排各类资源和公共服务的有效再配置,实现区域内部资源的有机整合、产业的整合与发展、社会的共建与共享,带动和促进经济社会与旅游业的协调发展,重新定位新阶段我国的旅游发展战略,即全域旅游的深化推进有重大帮助。
本文通过使用IMSI 号完成了人流量数据的采集,从而准确地获取了所有按时间序列排列的相关人流量数据的因素,并对数据进行综合分析,提取了其中有利于时间序列预测研究的成分。此外通过运用模糊时间序列分析算法完成了景区人流量预测算法构建,本文通过结合模糊数学与时间序列很好地解决了数据采集产生的精度误差。