基于Wi-Fi探测数据的公共场所客流预测方案

2018-03-22 02:20
信息通信技术与政策 2018年2期
关键词:误差率客流量客流

李 炜 杭州东信北邮信息技术有限公司,北京邮电大学网络与交换技术国家重点实验室副教授

1 引言

随着无线网络通信的快速普及,通过无线网络提供设备来侦测用户设备相关信息变得越来越容易,这为客流分析及人群移动性等研究课题提供了新的方法和途径。本文将利用无线通信技术(Wi-Fi)来获取用户信息,结合用户周围的环境信息(地理位置信息)来对现实世界中的客流及用户行为进行分析的技术称为基于Wi-Fi探测数据的客流分析。基于Wi-Fi探测数据的客流分析对用户、大型活动负责人乃至场馆经营者都具有很大价值,用户将受益于个性化服务,大型活动负责人将使用户最大化地参与活动,场馆经营者将全面了解并掌控场馆的客流情况并进行有效的管理控制。

本文通过在公共场所提供智能Wi-Fi信号设备进行Wi-Fi信号探测,收集到包括设备MAC地址、RSSI信号强度、信号时间戳等在内的设备数据。收集到数据之后,使用滑动窗口加权平均的方案对数据进行清洗。然后,通过开源Web可视化工具对统计结果进行可视化展现,同时提供交互可视化工具。之后,采用改进的基于滑动窗口的二次指数平滑算法对短时客流进行了预测。同时,对不同区间的真实客流数据进行了实地统计,利用回归分析的方法,建立了各区间内Wi-Fi探测数据和真实客流量的回归方程,从而为公共场所经营者提供了分时段的客流准确数据参考。

2 数据预处理与可视化

如图1所示,本研究内容包括基于Wi-Fi设备信号探测系统、Wi-Fi探测数据采集系统、Wi-Fi探测数据可视化平台等项目。首先,Wi-Fi设备信号探测系统中,在智能Wi-Fi设备上部署了基于openWRT研发的程序,能够侦测环境中的Wi-Fi信号帧并以一定格式(设备MAC地址、设备信息、RSSI强度、时间戳等)上报给服务器。而Wi-Fi探测数据采集系统中,服务器端接收分布式的Wi-Fi设备上报的探测数据,进行储存并通过长连接形式传送给数据使用方。Wi-Fi探测数据可视化分析系统中,服务端通过长连接从数据采集系统中获取探测原始数据,通过对原始数据进行处理,得到侦测到的每一设备的设备信息、驻留时长以及某一探测点的实时客流、历史客流、客流变化等信息,并将相关数据存储在数据库中。探测数据可视化呈现子系统,包括实时数据监控面板、历史数据分析面板、设备分组管理面板、系统用户管理面板4个部分。

图1 数据收集分析可视化系统结构图

本文基于可视化平台提供的某一月每一天的Wi-Fi探测数据进行客流趋势分析和统计,然后将统计分析和预测结果反馈给可视化平台进行可视化呈现,两者相辅相成。

3 客流预测算法分析

3.1 基于二次指数平滑算法的趋势预测

同一天不同时段的客流量是一个典型的时间序列上的趋势预测问题,对于趋势预测问题,指数平滑算法是一个常用的经典算法。指数平滑算法一般分为一次指数平滑算法、二次指数平滑算法、三次指数平滑算法。一次指数平滑算法像拥有无限记忆且权值呈指数级递减的移动平均法。越近的历史记录对当前平滑值的计算权值越大。一次指数平滑算法足够简单、易于理解,但一次指数平滑法中没有考虑序列中的趋势信息,得到的预测结果并不适合于具有趋势的时间序列,如果用来处理有趋势的序列,平滑值将始终滞后于原始数据。而且如果数据波动较大,波动的变化将需要多次迭代才能收敛。在一个客流波峰过程中,如果在波峰开始部分预测的比较准确,那么在接下来的时间内预测值将始终低于实际值。在波峰之后,预测值又将始终高于实际值。调整的过程较慢。

对于一次指数平滑算法无法预测趋势的问题,业界一般采用二次指数平滑算法来解决,二次指数平滑算法保留了平滑信息和趋势信息,使得模型可以预测具有趋势的时间序列。

3.2 基于三次指数平滑算法的趋势及周期预测

二次指数平滑算法很好地解决了一次指数平滑算法没有体现时间序列趋势性的问题,但对于具有周期性的时间序列数据,没有将周期性(或者季节性)考虑进去。例如,对于客流数据,多日期、同时段的客流数据可能具有规律性,每个月相同日期的客流也可能具有规律性。从时间轴的视角上看,也就是客流变化可能会具有每月和每天的周期性。针对此类问题,业界现有的解决方案有三次指数平滑算法等。三次指数平滑算法也叫做Holt-Winter指数平滑算法,三次指数平滑算法相比二次指数平滑算法,增加了第三个变量来描述周期性。

但本文研究的基于Wi-Fi探测数据的客流统计问题,数据量较大,同时指数平滑算法是一种递归算法,迭代运算,逐步收敛,通过递归循环将空闲时间的历史记录用于当前的预测中。过多的样本量会使递归序列变长,加大运算量和运算空间,会给系统性能造成负担。

3.3 改进的基于二次指数平滑算法的预测方案

针对此问题,本研究通过观察客流数据的可视化结果得知,客流变化具有严格的周期性,每天的客流数据构成一个周期,因而使用三次指数平滑算法进行从头迭代来考虑周期性的必要性较小。通过对多日期同时段的客流数据进行纵向对比,从日期序列上对当前时段客流量进行预测,从而考虑客流周期性的影响。通过对同一天不同时段的客流量数据进行迭代运算来从时间序列上对当前时段客流量进行预测,从而考虑趋势性的影响。在两个时间序列上均采用基于滑动窗口的二次指数平滑算法进行计算,便可使用较少的计算量实现客流预测的趋势性和周期性。

si为基于同一天时间序列的当前平滑值。

xi+h为基于同一天时间序列的当前预测值。

基于相同的公式,可以得到yi+h,代表基于多日期同时段的时间序列得到的当前预测值。

之后,可以将一天内的客流趋势预测结果和周期性的预测结果通过平衡参数进行加权平均,从而得到误差率更低的预测结果。

最后,通过对客流数据进行合理的时段分区和实际客流统计,并通过回归分析,可以得到不同时段内实际客流值和Wi-Fi探测值之间的回归方程,最后求得实际客流值的预测公式。

4 算法应用和结果分析

本文选取了在某物业小区部署的Wi-Fi设备在某月的Wi-Fi探测数据来进行分析。该月每日客流总量在200人左右,本文选取了某一天(该月20日)的客流数据进行统计分析。

4.1 单日客流数据分析

首先,本研究在同一天不同时段的时间序列客流数据上应用了二次指数平滑算法。通过试验,择优设定参数s0=x0,t0=0,α =0.75,β =0.7,h=1。执行数据处理程序,得到的数据经过可视化之后,效果如图2所示。

分析数据可知,在数据变化较为平稳时,该预测方案能保持95%以上的准确率。通过计算,在该种方案下,客流预测的平均误差率是10.32%,即平均准确率为89.68%。进一步观察可视化结果并结合数据分析可以发现,当数据变化率较大时,该种预测方案的预测结果会出现较大的误差率。主要原因是客流趋势在预测点之前处于单调增加或者单调减少的趋势中,负责记录趋势因素的参数起的作用过大,这一问题将在接下来的基于多日期、同时段时间序列的二次指数平滑算法的应用中尝试解决。

4.2 多日期同时段客流数据分析

在多日期同时段时间序列的客流数据分析中,本研究根据现有的数据粒度,将一天划分为48个时间区间,每个区间存在一个客流数据值。在算法实现程序中,本研究构造了48个数组,每个数组里面有当前月份当前日期之前的N天内同一时段的客流数据值。对于每个数组,应用二次指数平滑算法进行了预测。

由二次指数平滑算法的公式可知,实际客流量的历史记录以加权平均的方式影响当前的预测,距离当前预测时间越久,对预测结果的影响越小。为此,设计了滑动窗口的方法。通过控制滑动窗口的大小,减少预测时的计算量。不同滑动窗口下该预测方案的误差率变化如图3所示。

从相关数据可以看出,在滑动窗口为6或1时,该方案的误差率相对较小,为15%左右;考虑到充分利用历史数据和减少误差率的需求,本研究把滑动窗口值设定为6。

图2 同一天不同时段的时间序列的预测结果

图3 预测结果准确率随计算的历史天数的变化

此时经过计算,该预测方案下的平均误差率为15.31%,略高于基于同一天内的时间序列的预测方案。分析可知,在多日期同时段由于时段跨度较大,客流趋势的规律性弱于在同一天不同时段的客流趋势规律性,因而得到了相对较高的误差率。在接下来的综合方案中,会根据这一情况调整该方案所得预测结果的权重。

4.3 单日与多日客流数据结合的预测

在上文中,无论基于单日不同时段时间序列的预测方案,还是基于多日同时段时间序列的预测方案,都只考虑了时间序列的趋势性或者周期性因素中的一个,无法兼顾两者。本研究提出了结合同一天内的时间序列和多日期同时段时间序列使用二次指数平滑算法进行预测的方案。假设基于多日期同时段时间序列预测结果是xi+h,基于多日期同时段时间序列的预测结果是yi+h,使用以下公式将两个预测结果进行加权平均。其中r是可变参数。

在试验过程中,对不同r的取值下误差率的情况进行了试验计算,得到了不同的r下平均误差率的变化如图4所示。

计算结果显示,当r=0.63时,结合方案可以取得最低的误差率为8.34%,相比基于同一天内的时间序列的预测方案误差率下降了19%,相对基于多日期同时段时间序列的预测方案误差率下降了45%。试验结果表明,该方案确实能够提升基于二次指数平滑算法的预测方案的准确率。

图4 总误差率随参数r的变化趋势

4.5 基于实际客流统计和回归分析的预测方案校正

为了研究Wi-Fi客流统计数据和实际客流直接的关系,本研究在该月对该物业小区的实际客流进行了统计,统计结果显示,实际客流与Wi-Fi探测客流之间的相关性在高峰期和低峰期有较大差别。本研究采取了有序聚类Fisher算法,划分了每天的客流峰值区间,并建立了Wi-Fi探测客流量x和实际统计客流量y的回归方程,结果如表1所示。

表1 不同时段预测客流量和实际统计客流量的回归方程

每个客流量区间的回归方程的显著性检验指标|R|均大于0.85,说明Wi-Fi探测所得的客流量和实际统计的客流量y存在一定程度的线性相关性,可以将Wi-Fi探测数据所得的客流量通过回归方程近似计算出实际客流量。

5 结束语

本文利用部署在某物业小区的Wi-Fi提供设备采集的客流数据,通过对同一天不同时段的时间序列和多日期同时段的时间序列的客流数据分别应用二次指数平滑算法,并通过试验确定了平衡参数,对两个纬度的预测结果进行加权平均,使得最后的综合预测结果相比单一维度的预测结果平均误差率降低19%~45%,准确率保持在92%左右。之后,通过对实际客流量进行人工统计并与Wi-Fi探测结果在不同的峰值区间进行回归分析得到相应时段的回归方程,进一步提高了预测客流量的准确率。由于时间和条件所限,本文中使用的数据量还不够大,进行试验验证的样本数量也有限,实际统计客流的方式也可换用更为先进的方式。在今后的研究中,还会进一步完善试验条件从而得到更加完善的预测方案和实际效果。

[1]张明光,张钰,陈晓婧,等.基于Holt-Winter超短期负荷预测的配电网状态估计算法[J].兰州理工大学学报,2016,42(2):92-96.

[2]朱翠涛,王艳欢.基于滑动窗口的指数平均动态电源管理预测算法[J].中南民族大学学报(自然科学版),2009,28(04):102-105.

[3]方开泰.有序样品的一些聚类方法[J].应用数学学报,1982,5(1):94-101.

[4]杨智伟,赵骞,赵胜川,金雷,毛羿.基于公交IC卡数据信息的客流预测方法研究[J].交通标准化,2009(09):115-119.

[5]茆诗松,丁元,周纪芗.回归分析及其试验设计[M].上海:华东师范大学出版社,1981.

猜你喜欢
误差率客流量客流
客流增多
城市轨道交通节假日期间大客流行车组织思考与实践
生化检验全程中质量控制管理方式及应用意义
降低评吸人员单料烟感官评分误差率探讨
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用
基于嵌入式系统的商场客流量统计算法
无线传感器网络定位算法在环境监测中的应用研究
电工仪表测量中容易忽略的几个问题
基于自学习补偿的室内定位及在客流分析中的应用