基于网络搜索引擎的大型活动客流规模预测

2022-09-28 03:17:34董春娇刘晓珂常乃心李林玉
北京交通大学学报 2022年4期
关键词:游客量阶数客流

董春娇,刘晓珂,常乃心,李林玉

(北京交通大学综合交通运输大数据应用技术交通运输行业重点实验室,北京 100044)

大型活动是指已规划的在特定时间和地点发生的能引起交通需求不正常增长的特殊事件,大型活动的频繁举办给城市交通带来了巨大的压力.随着2008 年北京奥运会的举办,学者们对城市大型活动的相关交通问题进行了研究,主要聚焦于交通组织方法研究[1],交通流特性[2],交通影响评价[3],交通需求预测[4]等方面.准确预测大型活动的客流规模,及时得到该活动所吸引的参与人数,有助于相关部门提早完善相关区域的基础设施建设并进行相应的规划与管控.

大型活动的客流规模预测方法可以分为调查法,定性分析和定量分析3 种.孙福亮等[5]建立“场馆-赛事-坐席数-上座率”模型对观众数进行了预测;孙剑等[6]将世博会访客总量分为两方面预测,一是利用调查资料建立世博访客与相应的旅游增长模型之间的分析模型,二是利用参考以往经验利用趋势外推法进行预测;尹瑞等[7]建立了展馆容量限制的游客出行生成预测模型,并将VISUM 与TransCAD 结合进行仿真;王兴川等[8]利用AFC 数据对轨道交通客流进行预测,建立了基于小波分解与重构的GMARIMA 模型对活动客流进行预测;Silva等[9]对于季节性客流数据,建立了去噪自动自回归神经网络模型;Wang等[10]采用基于方差倒数和最优加权的组合模型对灰色模型进行了优化,提高了客流量预测模型的准确性.在大型活动影响因素方面,相关研究较少.刘新华等[11]以北京奥运会为例,分析了交通管理政策、交通方式时效性、交通设施供给、舆论宣传引导和观众来源分布等因素对观众抵离交通方式的影响;钱慧敏等[12]以第九届中国国际园林博览会为研究对象,发现大型活动门票价格,公交成本,节假日等因素会对客流规模产生影响.

综上所述,出行意愿调查法是通过调查问卷的形式来确定出行者的出行意愿,该方法耗费大量人力物力且问卷质量难以保证;定性分析是类比同等规模的大型活动并借助历史统计资料进行预测,但在社会高速发展的今天,容易产生较大的偏差且预测结果可借鉴意义不大;国内外在客流规模预测方面的研究成果大多集中在定量分析上,例如时间序列模型、神经网络模型等,这些方法预测精度高但大多需要历史数据作基础,因此更适合连续多次举办,客流较为稳定的活动.对于首次举办的大型活动,往往缺乏历史资料的积累,使得客流规模预测难以进行.

随着网络搜索引擎日益成为人们获得信息的主要来源,搜索关键词可以直接反映网民对活动的关注程度,已有研究表明网络搜索数据和现实社会行为之间具有一定的相关性,搜索数据目前已在酒店客流预测[13]、游客量预测[14]等多个领域得到应用并取得了研究成果.因此,本文将网络搜索数据与传统预测方法相结合,依托于网络搜索数据,利用协整理论和格兰杰因果关系理论分析客流规模与网络搜索数据,潜在出行人口规模和吸引度三者之间的关系,运用大型活动举办地往年的实际游客量建立PDL 模型预测持续性大型活动的客流规模,挖掘出网络关注度与实际参会人员数量的关联,提高无历史数据的持续性大型活动客流规模的预测精度,为相关部门制定科学的决策和管理措施提供依据.

1 大型活动客流规模影响因素分析

大型活动涉及的种类丰富,形式多样,例如体育活动、国家庆典、国际峰会、节日集会等.不同类型的大型活动受众群体构成与行为特性也有所不同,客流规模的预测应该在分析不同种类的大型活动特性的基础之上.各城市对大型活动的分类主要依据活动性质,活动规模,活动举办时长,活动举办场所等.在进行客流规模预测时,是否有历史数据将会影响到预测模型的选择,大型活动举办时长与影响因素的选择有关.本文将大型活动分为4 类:连续举办的短时性大型活动,连续举办的持续性大型活动,非连续举办的短时性大型活动,非连续举办的持续性大型活动.

活动举办时长较短(几小时)的大型活动称为短时性大型活动,持续时间较长(数天至数月)的活动称为持续性大型活动.连续举办类活动的一大特性是有丰富的历史数据,可利用时间序列,机器学习等模型对历史数据进行分析,总结变化规律从而预测出未来的客流规模;短时性大型活动往往场所固定,可通过售票情况进行客流规模的预测,对于非连续举办的持续性大型活动的客流规模预测的相关研究较少,主流方法仍是调查法与类比法,本文将重点研究此类大型活动.

国内学者在运用引力模型对国内热点城市的客源市场及规模进行了预测研究,发现景区知名度、人口密度、空间距离、人均可支配收入是影响客流量的主要因素[15].本文在已有研究的基础上将影响因素具象化,选择综合搜索指数W,吸引度H,潜在出行人口规模P作为影响因素,其中W反映了该活动的知名度,P综合考虑了人口密度和空间距离的影响,H反映了出行花费对出行的影响.影响因素之间的具体关系如图1 所示.

图1 影响因素关系图Fig.1 Relationship diagram of influencing factors

1.1 综合搜索指数

出行者在出行前都会经历一个决策过程,随着网络的普及,搜索引擎已经成为收集资料的主要方式.大型活动网络关注度的高低直接反映了大众的出行意愿,研究假设网络搜索引擎数据与客流规模之间存在某种联系,为了更直观地展现两者之间的关系,本文选用百度浏览器并收集了从2016 年1 月至2016 年12 月关键词“北京旅游”的搜索量对数序列与北京各月实际游客量的对数序列,经计算两者之间的相关系数为0.83,图2 为北京旅游人数和关键词搜索量的趋势图,由图2 可知两者有相同的变化趋势.由于所使用的数据时间跨度较大,当前互联网发展速度较快,各搜索引擎公司竞争较为激烈,市场份额的占有率的变化会影响到搜索数量,为使搜索数据在时间维度上具有可比性,关键词实际搜索数量C为

图2 北京2016 年月游客量对数序列与关键词月搜索量对数序列Fig.2 Logarithmic series of monthly tourist volume and monthly keyword search volume in Beijing in 2016

式中:R为该网络搜索引擎的市场占有率;C'为关键词在该搜索引擎的搜索数量.

搜索关键词与要研究的问题密切相关.搜索关键词数量过多会造成研究的模型复杂程度加大,搜索关键词数量过少会造成信息狭隘,收集数据不全面,影响研究的效果和可信程度.主成分分析法在尽可能多地保留关键词的信息载荷的同时,又能最大程度使彼此相互独立,保证指标的客观性[16],所以选用主成分分析法对所选关键词进行数据的降维,得到W指标.

设有q个网络关键词分别为C1,C2,…,Cq,得到的原始数据向量Q为

将q个网络关键词进行线性组合得到

式中:f为C1,C2,…,Cq线性组合中的第f种;a1f,a2f,…,aqf为线性组合系数,计算公式为

式中:cov(Wi,Wj)为Wi与Wj的协方差.

将Wi按照方差进行排序得

由式(6)确定的W1,W2,…,Wp分别被称为第1主成分,第2 主成分,…,第p主成分.通过加权算数平均值确定W为

式中:λ1,λ2,…,λq为W1,W2,…,Wq的特征根.

1.2 潜在出行人口规模

由于出行者的时间精力是有限的,在特定的时间和背景下只能到达分布于一定范围的目的地,所以大型活动有其对应的潜在出行人口.出行者在活动的过程中存在着“距离衰减”的规律与现象,出行起讫点之间的距离越近,出行者前往该地的概率越大,反之,前往该地的可能性小.在大型活动的客流规模预测中,某地居民对于该活动的到访率与空间距离之间存在着某种分配规律.为了科学衡量客源地距离和人口数对客流规模造成的影响,参考文献[17]的研究成果,将客源地划分为3 部分,距离大型活动发生地15 km 以内的区域称为一级吸引区,15 km~50 km 以内的区域称为二级吸引区,50 km~650 km 以内的区域称为三级吸引区,由于95%的出行者来源于650 km 的区域,所以650 km以外的广大空间暂不考虑,P为

式中:ko表示o级吸引区的影响程度,不同级别吸引区的影响程度根据大型活动类型而定;do表示该地区的人口密度;So表示o级吸引区的面积.

1.3 吸引度

我国地域辽阔,不同地区及省份之间的经济发展差距较大,不同类型的大型活动对不同省份的吸引程度也不同.出行意愿是一个主观因素,是出行者的一种心理倾向,虽然会受到自身收入水平,出行距离等客观因素的限制,但具有相对的独立性.如果没有出行的意愿,出行的花费再小,人均可支配收入再高,出行行为也不会发生.若忽略地区之间的差异,则会对预测精度造成一定的影响.参考文献[18]引入出行意愿A这一概念,通过计算不同省份u对关键词的搜索量占全国搜索总量的百分比来表示该省居民参加活动的出行意愿,例如河北在2015 年1 月的百度指数为9 185,全国数值为178 512,两数之比代表河北市民的来北京游玩的出行意愿,再与各省的人均可支配收入进行加权得到加权人均可支配收入,其与参加该活动花费的比值为吸引度.H为

式中:DPIu是u省人均可支配收入;Au是u省的出行意愿;TKu代表u省该次出行的平均花费,包括门票住宿交通等费用,具体数值参考该地区统计年鉴[19].

1.4 影响因素的平稳性及因果关系检验

为了确保时间序列的平稳和避免伪回归现象,在建模之前将采用单位根检验(Augmented Dicey-Fuller test,ADF)对北京游客数,潜在出行人口规模等进行平稳性检验,变量的差分阶数皆为1,检验结果见表1.

表1 变量的单位根检验结果Tab.1 Unit root test results of variables

由表1 可知,变量均为平稳序列,符合协整分析的前提条件,然后运用恩格尔和格兰杰提出的两步协整关系检验法对所需序列进行协整分析,确定的协整方程为

式(10)中的残差序列的ADF 值为-6.10,1%临界值为-3.50,5%的临界值为-2.89,10%的临界值为-2.58,残差ADF 值均小于3 个临界值,表明残差序列是平稳序列.因此,可以判断北京游客量与吸引度,潜在出行人口规模和综合搜索指数之间存在协整关系.

为了考察变量之间是否具有预测能力,同时分析时间序列之间的领先和滞后关系,采用格兰杰因果关系进行分析判断,并借助赤池信息准则(Akaike Information Ceiterion,AIC)和施瓦兹准则(Schwarz Criterion,SC)的值来确定最优滞后期,结果如表2 所示.由表2 可知,搜索关键词和北京实际游客之间存在双向因果关系,即搜索关键词和北京实际游客量两者之间相互影响;吸引度与北京游客量之间存在着单向因果关系,即吸引度的变化会影响北京游客量的变化,但北京游客量不会影响该地区的吸引度;潜在出行人口规模和北京游客量之间存在着单向因果关系,即潜在出行人口规模的变化会影响北京游客量的变化,但北京游客量的变化不会影响潜在出行人口规模的变化.该结论与现实情况相符,说明本文所选的影响因素是可靠的.

表2 变量的格兰杰因果关系检验结果Tab.2 Granger causality test results of variables

2 大型活动客流规模预测模型

出行行为较搜索行为有一定的滞后性,不同的出行者由于个人习惯和所处地区等的差异提前搜索的时间也不同.现有的学者更多地将目光聚焦于如何量化人们对研究问题的搜索量,忽略了搜索行为和旅游出行行为的时差时滞分析.多项式分布滞后模型就是研究因变量与自变量、自变量滞后变量、因变量滞后变量之间关系的模型,在短时交通流预测,公路投资建设的滞后效应均有良好的应用[20-21].

PDL 是一种动态的回归模型,不仅考虑了解释变量跨时段的影响关系,还加入因变量自身的滞后项对其的影响,是一种解释能力比较强的预测模型.解释变量每单位变化的影响分布到多个时段,t时刻因变量yt与自变量xt的关系为

式中:βk表示滞后k时刻的因变量xt-k对yt的影响;k为滞后阶数;α为常数项;μt为其他自变量.

PDL 在解释变量与随机误差项不相关的情况下,可以直接使用最小二乘法估计参数.但是当滞后项较多时,直接估计会耗费很大自由度,而且x的当前和滞后值之间很可能具有高度共线性.我们常用Almon 多项式法来解决这一问题.模型中的βc(c=0,1,…,k)分布可以近似用关于c的低阶多项式表示为

式中:m为多项式的阶数,m<k;bm为多项式的系数.

大型活动举办场所为了安全,提升游客体验感往往会设有明确客流上限,一些热门的大型活动例如世博会,展览会等由于潜在消费者过多,供需不平衡常常会出现限流的情况.为考虑场所接待游客上限对客流规模的影响,引入变量S,使模型更加贴合实际情况.

综上所述,经过Almon 多项式法变换后大型活动客流规模Y为

式中:Y'表示理论客流规模;Wt-c表示前c个月的综合搜索指数;Zst表示Wt-c经过Almon 多项式法变换后的值;S为当月活动接待游客上限;ε、γ表示弹性系数,可通过最小二乘法计算出结果.

滞后长度的确定对于多项式分布滞后模型的预测效果至关重要,若引入的滞后变量过多,模型自由度减少,易导致样本内“过度拟合”,同时对样本期数也有了更为严格的要求,若滞后变量的期数过少,则会忽略部分期数的影响造成预测效果不佳[20].结合已有研究,本文提出滞后长度的确定算法为:根据游客量和综合搜索关键词的相关图,由相关交叉系数可确定一个初始滞后阶数g,逐渐增加滞后阶数,直到R2不在增加,得到最大滞后阶数h,取滞后阶数k(k∈[g,h]),对比SC 检验结果、D-W 检验(Durbin-Watson,DW)结果、AIC 检验结果和R2选择滞后阶数,具体流程如图3 所示.

图3 确定滞后阶数流程图Fig.3 Flow chart for determining lagging order

3 实证研究

3.1 数据来源

大型活动的观众实际上也是该城市的游客,对2019 北京世园会5 月的客流量进行预测时,首先通过北京的历年游客量与综合搜索指数等数据来确定大型活动客流规模预测模型的参数.由于新冠疫情的影响,2020 年与2021 年游客数与往年相比有较大变动.为了保证实验结果的准确性,本文选择北京市2012 年至2019 年的月度游客量作为模型的拟合.数据来源于北京市文化局和旅游局,考虑到搜索引擎的使用习惯仅考虑中国大陆游客.

关键词的搜索数据来源于百度指数.百度在中国搜索引擎市场占据绝大多数份额,在2019 年7 月的市场占比为76.42%.百度指数以百度网页搜索和百度新闻搜索为基础,可提供所收录的关键词在任意时间段的搜索数量和搜索趋势.

关键词的选择选用范围取词与技术取词相结合的方法,根据实际经验选出北京小吃、北京酒店、北京旅游攻略、北京旅游、北京特产、北京好玩的景点6 个初始关键词,然后利用百度需求图谱拓展关键词选出其中搜索量最高的10 个关键词,即北京特产、北京好玩的地方、北京欢乐谷、北京景点地图、北京旅游、北京旅游地图、北京旅游攻略、北京世界公园、北京小吃街以及故宫这10 个核心关键词,其搜索指数记为X1,X2,…,X10.利用网络爬虫技术获取2011 年至2019 年的相关数据,运用SPSS 进行主成分分析,其抽样适应性检验结果KMO(Kaiser-Meyer-Olkin)为0.858,巴特利特球形度检验显著水平值为0.000,说明该数据非常适合主成分分析.经计算前两个主成分的累计贡献率为80.77%,基本可以反映全部关键词的信息,主成分分别记作W1,W2,贡献率分别为65.42%与15.35%.在求出主成分方程后,用W1中每个关键词所对应的系数与第一主成分W1所对应的贡献率相乘再除以所提取两个主成分的贡献率之和,然后再加上第二主成分W2中每个指标所对应的系数乘第二主成分W2所对应的贡献率之和,就可得到W为

吸引度主要取决于3 项指标,各省的人均可支配收入可通过各省当年的统计年鉴查得,2012 年至2019年北京人均旅游消费由北京旅游和文化局提供,各省来北京游玩的出行意愿通过计算得出.所确定的10 个核心关键词中搜索数最高的核心关键词为北京旅游攻略,论文通过网络爬虫技术获取2012 年至2019 年中国内地27 个省区关于“北京旅游攻略”的百度指数.

3.2 结果分析

经过运算,当滞后阶数为10 时,R2达到最大,根据旅游量和综合搜索关键词的相关交叉系数,确定初始滞后阶数为4.多项式次数不同,估计值符号也不同,根据模型实际含义,每个滞后阶数选择一个最佳的多项式次数.将所建立的各模型估计结果整理如表3 所示.综合比较各项指标,确定滞后阶数k为5,多项式次数m取4.

表3 不同滞后长度,多项式次数的模型拟合结果Tab.3 Model fitting results under different lagging lengths and polynomial degrees

模型回归结果如表4 所示.R2为0.740 2,模型拟合程度优异,说明模型中被解释变量与解释变量总体上存在线性关系;除吸引度,综合搜索指数当期和滞后4 期(即lnH,lnWt和lnWt-4)T值很小以外,其他变量均通过了T 检验.潜在出行人口规模和吸引度系数为正,说明潜在出行人口规模的增加,人均可支配收入的增加和出行花费的减少均会增加旅游人数,当这两个变量每增加1%,旅游人数分别增加5.84%和0.51%.从综合搜索指数来看,综合搜索指数滞后1,2,3,5 均在5%水平上显著,表明搜索行为和旅游行为之间由较强的时滞性,可能是因为北京为热门旅游城市,许多外省旅客提前搜集相关资料做好相关规划.通过弹性系数可以看出综合搜索指数对出行的增长作用呈现先升高再下降的趋势,这与现实情况相符合.北京是热门旅游城市,lnWt-1即提前1 月的综合搜索指数的系数最高说明大部分游客会提前一月进行相关资料的查询和搜集,随着时间的推移,搜索行为对旅游人数的影响会逐渐减小,所以呈现先升高后下降的趋势.一月前的综合搜索指数增加1%,会使当月的游客增加0.19%;在现实生活中,居民在出行前可能有多次搜索行为,所以会有系数为负数的情况.

表4 模型拟合结果Tab.4 Modeling results

对2019 北京世园会5 月的客流量进行预测时,初始关键词为北京世园会,通过百度需求图谱拓展关键词,最终确定的搜索关键词为北京世园会、世园会和世园会攻略,代入综合搜索指数,吸引度,潜在出行人口规模等数据便可得到当月游客的大概估值.预测客流规模Y为170 万人,实际客流规模为164 万人,MAPE 为3.68%.

为进一步探究模型的预测能力,本文对近年来各地5 月大型活动的客流规模进行预测,结果如表5所示.上海世博会于2010 年举办,西安世园会于2011 年举办,有电视报纸等更多元的宣传方式,有部分观众通过其他途径搜集相关信息,这部分人群未在综合搜索指数得到体现,所以预测值比真实值较少;唐山世园会与北京世园会预测效果良好.

表5 大型活动预测效果Tab.5 Prediction effect of large-scale activities

4 结论

1)通过格兰杰因果关系法对持续性大型活动客流规模的影响因素进行探究,结果表明网络搜索引擎数据,潜在出行人口规模数,吸引度与客流规模之间存在相关关系.

2)建立了基于网络搜索引擎数据的大型活动客流规模预测模型,并利用PDL 模型探究了客流规模和网络搜索引擎数据之间的时差关系,结果表明该模型对持续性大型活动有较高的预测水平.

3)网络搜索引擎数据可以直接反映网民们的习惯,偏好等信息,不同大型活动的受众群体与使用习惯皆有不同.未来将会对网络搜索数据进行深度挖掘,对不同类型,不同主题的大型活动的预测模型进行对比分析与深入探讨.

猜你喜欢
游客量阶数客流
客流增多
环球时报(2022-12-12)2022-12-12 17:14:03
关于无穷小阶数的几点注记
大学数学(2021年5期)2021-10-30 09:01:04
确定有限级数解的阶数上界的一种n阶展开方法
基于百度指数的旅游景区游客量预测研究
——对黄先开模型的改进
节事旅游活动对旅游目的地的影响
人间(2016年27期)2016-11-11 15:55:16
基于自学习补偿的室内定位及在客流分析中的应用
人工免疫算法在电梯客流时段划分的应用
一种新的多址信道有效阶数估计算法*
电讯技术(2014年1期)2014-09-28 12:25:26
关于动态电路阶数的讨论
城市轨道交通运营客流数据分析缺陷及应对