基于滤噪百度指数的北京客流量预测研究

2021-01-12 08:26李晓炫刘婉月卢文雅
关键词:客流量百度北京市

李晓炫,王 鑫,刘婉月,卢文雅

(阜阳师范大学,安徽 阜阳 236037)

0 引言

近年来我国各大旅游地的客流量均呈快速上升趋势。旅游产业的周期性强,不同月份之间的客流量差距较大,休假制度设计不完善导致的节假日旅游需求集中释放现象较为明显[1]。这种强周期性和波动性的客流量波动给景区和旅游目的地造成较大冲击,因景区超载、游客拥挤等问题带来的安全隐患严重影响游客出行体验和旅游产业的健康发展。对客流量的精准预测能够使旅游经营和管理者提前通过合理调度和配置有限旅游资源的方式,最大限度避免这种混乱局面的发生[2]。北京作为我国文化中心,也是世界文化遗产最多的城市,旅游资源极其丰富。北京市每年社会消费品零售总额中约25%来源于旅游购物和餐饮消费。提前较精准预测客流量,有利于北京地区相关部门提前做好景区客流量疏通控制,也有利于游客据此适当调整出行计划。互联网的便利让游客倾向使用网络去收集旅游相关信息。利用搜索引擎数据进行客流量预测的文章不胜枚举[3-5],然而搜索数据中噪声的问题较少被提及[6],噪声的干扰会大大降低搜索数据的预测能力,甚至造成预测的失败。

学者们在研究搜索数据和旅游行为的过程中,发现了很多两者之间的耦合性和特质性[7-9]。段艳等人在利用百度指数研究海南省游客接待量时,发现百度指数与游客接待量存在长期均衡关系和格兰杰因果关系。根据研究结果对海南省旅游营销提出“加强关键词营销,进行重点营销”的建议[10]。森林公园客流量研究中发现区域旅游网络用户关注度与实际旅游客流量具有极强正相关性,森林公园客流量及搜索指数存在耦合性且两者的相关性在游客输出地区和输入地区呈现明显的差异性[11]。对比移动端和PC 端搜索指数对客流量的预测能力时,移动端比PC 端VAR 模型具有更好的预测能力[12,13]。搜索数据与旅游客流量的地域差异研究方面,孔小琴在收集东西中部地区人们网络搜索旅游地数量的基础上利用基尼系数分析得出,东部地区搜索量最高,中部搜索量最低[14]。刘聪等人以四川九寨沟景区日接待客流量和百度指数的相关数据为基础,通过均方根误差和泰戈尔系数进行了预测效果评价,发现百度指数与景区客流量之间的长期均衡对偏离误差有积极的修正作用,且往期百度指数的变化能够部分解释景区客流量的短期波动[15]。

1 数据采集与处理

1.1 数据采集

根据我国每年发布的《中国旅游城市吸引力排行榜》,北京市常年位居第二,成为游客最为关注的旅游目的地。且百度指数发布的旅游城市排行榜中,北京市位居第一。这意味着北京市不仅是游客向往的旅游之地,而且大量游客都更偏好使用百度网络搜索来了解旅游地信息并据此做旅游出行安排。北京市的旅游客流量数据来自北京市统计局网站发布的定期数据,以月为周期进行统计,本文截选2015年1月至2019年12月共60个月旅游客流量数据。其中选取2015年1月至2018年12月共48个月(占数据集80%)为训练集,剩余的2019年1月至2019 年12 月共12 个月(占数据集20%)为预测集。网络搜索数据来自百度指数每天发布的网络搜索数据,以天为单位,加总得到月度搜索数据。

1.2 数据处理

通过数据处理发现,北京市与其他专门的旅游城市相比,其旅游综合性较强,导致在实际网络搜索中出现本地搜索的强干扰。例如对“北京天气”的搜索,打算前往北京旅游游客会搜索相关内容以了解在北京旅游期间的天气状况,而北京本地居民同样有搜索天气的需求。其他旅游城市(例如海南、九寨沟、张家界等)本地搜索的干扰也存在但是因为总体搜索量有限,并不会对搜索结果造成强干扰。因此在得到全国范围的关键词搜索量之后,进一步收集了北京地区相关关键词的搜索量(表1)。

表1 部分搜索词相关性

2 CLSI合成搜索指数

百度指数(Baidu Index)是以百度海量网民的关注度为基础的数据,是当前互联网乃至整个数据时代最重要的统计分析的数据来源。其对各个搜索关键词在百度网页中的搜索频次进行加权并对其进行了科学分析,以曲线图形式展现。此处采用较成熟的CLSI 领先搜索指数合成法对北京市旅游的关键词进行初步的合成,以游客对北京旅游的信息需求为出发点,从衣、食、住、行、游五个方面筛选出若干中心关键词,例如“北京景点”、“北京美食”、“北京旅游住宿”等。将北京市旅游的关键词利用百度引擎进行不断搜索,来得到百度中自动推荐的相关关键词,如“恭王府”、“北京住宿攻略”等,最终保留173个搜索词。对每个搜索关键词与北京市旅游客流量序列之间提前期为0~12 期的皮尔逊相关系数进行分别计算,关键词都计算从提前12期到提前0 期的13 次相关系数。对于搜索指数的阈值进行选择,预测结果很大程度上受到阈值的影响,阈值过低则会导致条件范围过度放松,阈值过高则会导致搜索关键词过于概括,有可能忽略重要关键词。通过上步计算选取出相关系数大于0.6的关键词,利用加总法合成搜索指数Index6 。以上条件共筛选出40个搜索关键词。

在对原始客流量和搜索词之间的关系进行探索时发现,北京市旅游客流量呈现三峰的特征,且以年为一个大周期。这三峰分别出现在每年的5月、8月和10月,而搜索词序列虽然也呈现三峰特征但不明显,表现为暑期高峰,而5 月和10 月高峰相对较弱。这说明前往北京的游客中,只有暑期出行的游客是“有计划的出行”,即在出行前或决策阶段会通过搜索引擎进行大量相关信息的搜索和收集。相比之下,“五一”和“十一”是我国的特殊假期,这两个小长假的游客出行表现出较为明显的“说走就走的旅行”特征,往往没有提前计划性和预见性,因此在搜索指数中体现较弱。图1 为北京市旅游客流量与合成搜索指数Index6 的相关图,两个序列之间的变化趋势大致都呈现波峰波谷状,趋势大体上一致,合成搜索指数相对北京市旅游客流量的提前期为1期。

图1 北京市旅游客流量与搜索指数Index6 相关图

3 模型设定和训练

为综合比较基于百度指数对北京市旅游客流量的预测效果和噪声处理后的预测对比,本文同时选择时间序列模型和BP 神经网络模型作为基准模型。首先利用HHT将搜索指数中的噪声分离,得到去除噪声的搜索合成指数Index6-hht ,再建立训练模型。

其中visitort代表t时期的北京市旅游客流量序列,Index6 表示基于CLSI 合成的关键词搜索序列。c1,c2,c3为常数项;α1,α2,β1,β2,β3,γ1,γ2,γ3表示系数;μt为随机扰动项。

式(1)为时间序列ARMA 模型,考虑数据周期性,使用提前12期历史数据预测旅游客流量;式(2)是ARMAX 模型,是加入搜索合成指数后预测的北京市客流量;式(3)是噪声处理后的预测模型。模型结果如表2所示。

表2 模型拟合结果

从表2 可以看出,M(1)中visitort-12的系数为0.89,即当提前12期的客流量变化一个单位时相应地会引起客流量变化0.89个单位。通过M(2)可以发现北京市客流量与网络搜索指数之间具有相关关系,当搜索量变化一个单位时,会导致北京市旅游客流量上升12.17 个单位。M(1)的可决系数R2为0.91,M(2)的可决系数R2为0.93,可以看出模型的可决系数接近于1,说明模型拟合较好。M(1)的DW值为2.0346,M(2)的DW值为2.0866,可以发现两模型的DW值都接近于2。考虑将搜索数据中的噪声影响后,利用HHT变换将搜索数据中的高频噪声滤除,剩余的部分与客流量拟合发现,拟合优度有显著上升,且搜索数据与客流量之间的影响系数增大1 倍。上述模型的残差均通过了平稳性检验,且所有模型系数都通过了5%显著性检验。

4 模型预测

通过上述的模型拟合测试,发现加入网络搜索数据后的模型效果要优于没有加入网络搜索的时间序列模型,经过HHT噪声过滤的模型又进一步优于搜索数据模型。利用这3种训练模型对北京市预测期旅游客流量进行预测,利用MAPE(mean absolute percentage error)和MAE(mean absolute error)作为预测效果评估参数,预测误差指数公式见表3。同时,为完善基准模型的比较类别,加入BP神经网络预测模型作为参照。

表3 预测误差指数公式

选取时间序列模型和BP 神经网络作为基准模型。BP 神经网络模型是一种按误差逆传播运算法训练的多层前馈网络,能学习和存储大量的输入-输出模式映射关系,学习规则使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。图2为4种基准模型的预测效果对比。

从表4可以看出,在预测未来12期的北京市旅游客流量时,时间序列模型的MAPE和MAE均是最大的,说明时间序列模型的预测误差最大。神经网络的预测效果略好于时间序列模型,搜索数据优于神经网络预测,预测误差最小的是经过噪声过滤的搜索数据预测模型,未来12期总体预测误差MAPE为5.25%,MAE 为136.49。同时出现一个很明显的现象:在未来1-12月的12期预测中,其他月份整体预测误差较小,而三个高峰期中暑期客流量预测误差最低,5 月和10 月旅游小高峰的预测误差相对较大,这也与之前的分析一致:“五一”和“十一”旅游小高峰更多游客是未提前规划的旅行,而暑期高峰则是“计划中的旅行”。

图2 预测期内预测模型的效果对比

表4 模型预测误差对比

5 结论

本文详细阐述了网络搜索数据与北京月旅游客流量之间的相关理论关系,并建立了客流量预测理论框架,考虑了2个比较重要的影响:本地搜索干扰的影响和旅游高峰期的预测问题。融合了百度指数关键词,并使用相关矩阵和相关系数时滞分析法使得关键词的选取更加全面与合理。基于噪声过滤的网络搜索数据月旅游客流量预测模型拟合度最好,预测误差显著下降。基于网络搜索数据的方法对北京月旅游客流量监测具有更强的时效性,一般传统统计数据的发布期至少存在着1个月的滞后期,而本文所提出的预测方法可以提前1 个月预测,对于旅游景区的统筹规划和交通出行的提前安排都具有十分重要的指导意义。

猜你喜欢
客流量百度北京市
北京市:发布《北京市2022年能源工作要点》
北京市丰台区少年宫
北京市勘察设计研究院
北京市营养源研究所
Robust adaptive UKF based on SVR for inertial based integrated navigation
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用
基于嵌入式系统的商场客流量统计算法
百度年度热搜榜
基于AFC数据的城轨站间客流量分布预测