张立强 迟明雨 于梅菊
摘要:本文针对美国匹兹堡市每月的盗窃犯罪数据,利用几类常见的一阶整值时间序列模型对数据进行拟合,根据AIC和BIC标准,结果表明负二项的INAR(1)模型拟合效果是最优的,最后基于负二项的INAR(1)模型给出了该组数据的预测。
关键词:整值时间序列;INAR(1)模型;拟合;预测
在现实生活中,我们经常能够遇到有关计数的数据,例如某地区某种传染病每月的患病人数,商场中某种产品每天的销售件数,某种珍稀物种每年的存活数,某辖区每月发生的犯罪数等等。此类数据的共同特点是均取非负整数值,因此,建模的方法与通常取连续值的时间序列有很大的不同,研究的过程中也存在着更多的困难.关于整值时间序列的研究最早始于上世纪的80年代,发展至今,大致上分为稀疏模型和状态空间模型两大类,其中尤以稀疏模型的研究最为普遍。最早的也是应用最广的稀疏模型是INAR(1)模型,它是在传统的一阶自回归模型AR(1)的基础上将所有的乘法运算替换为二项稀疏运算“°”而得到的。近些年来,有关二项稀疏算子推广的研究从未间断过,随着各种各样新的稀疏算子的出现,越来越多的稀疏模型被提出来,更多的关于利用稀疏算子建模的问题可以参考文献Weiβ(2008)[1]和Scotto et al. (2015)[2]。本文以美国匹兹堡市第28区每月的盗窃犯罪数据为例,拟用三种常用的一阶整值自回归模型对数据进行拟合,通过分析比较,选取拟合效果最好的模型对该数据进行预测。
1 广义INAR(1)模型的定义及性质
2 美国匹兹堡市盗窃数据的分析与预测
在本节中,我们利用上面的三种模型去分析一组关于盗窃的数据(http://www.forecastingprinciples.com/Crime/crime%20data.htmalHYPERLINK"http://www.forecastingprinciples.com/Crime/crime%20data.htmal"),该数据记录了从1990年1月至2001年12月美国匹兹堡市第28区每月的盗窃数量,其样本均值为5.889,样本方差为9.148,图1给出了该组数据的样本路径图、自相关函数(ACF)图和偏自相关函数(PACF)图。从图中可以发现延迟为1的自相关系数是0.332,且自相关图大致呈现出一种指数衰减趋势,因此我们判断这组数据可能来自于一个INAR(1) 过程。
首先,我们分别利用上面的三种模型去拟合该组数据,然后用条件极大似然(CML)的方法去估计模型中的未知参数(α,λ)′。为了评价拟合的效果,我们选用赤池信息准则(AIC)、贝叶斯信息准则(BIC)和观察值与预测值之差的均方根(RMS)来进行衡量,具体结果总结在下表中。从表下我们发现模型Ⅱ的AIC值、BIC值和RMS值均最小,因此得到模型Ⅱ对该组数据的拟合效果是最好的。在时间序列里一个通常的构造预测的方法是利用条件期望,因为从条件期望出发构造出的预测具有最小的均方误差[4]。最后我们基于模型Ⅱ将条件期望的取整作为犯罪数据的预测,预测结果如图2所示。从图2中我们可以看出,利用模型Ⅱ对该组犯罪数据的拟合效果是比较好的,基本上能够刻画数据的变化的趋势。
3 结语
在大数据的背景下,科学的犯罪预测方法可以高效地帮助公安机关利用历史的数据及时地预测犯罪活动的趋势和社会治安的走向。本文以美国匹兹堡市每月的盗窃数据为例,给出了基于一阶整值时间序列的犯罪数据的分析与预测.为大数据下,利用数据分析和建模技术来预测犯罪提供了一种可行的思想和方法。
参考文献:
[1]Wei,C H. Thinning operations for modeling time series of countsa survey [J].Asta Advances in Statistical Analysis,2008,92,319343.
[2]Scotto, M.G, Wei, C H, Gouveia, S. Thinningbased models in the analysis of integervalued time series: a review [J].Statistical Modelling,2015,15,590618.
[3]Gauthier, G and Latour, A. Convergence forte des estimateurs des paramètres d'un processus GENAR(p) [J].Annales des Sciences Mathematiques du Quebec,1994,18,4971.
[4]何书元,应用时间序列分析[M].北京:北京大学出版社,2003.
基金項目:吉林省大学生创新创业训练计划(项目编号:201710202013)
*通讯作者:于梅菊,通化师范学院数学学院讲师。