易燕飞,郝艺达
(长春工业大学,长春 130000)
基于ARMA模型的时间序列挖掘
易燕飞,郝艺达
(长春工业大学,长春 130000)
[摘 要]数据挖掘作为时下IT等领域研究的重点与难点,对其重要内容之一的时间序列进行分析与挖掘很有必要。实践表明,利用ARMA模型来分析与挖掘时间序列能取得较好效果。因此,本文在详细介绍时间序列基本概念和ARMA模型相关内容的基础上,对基于ARMA模型时间序列的挖掘进行了深入探究。
[关键词]ARMA模型;时间序列;挖掘
对数据挖掘进行研究有利于人们对数据及其潜在价值进行充分利用,有利于推动IT等相关行业的快速发展。而时间序列作为数据挖掘的一个重要分支,在其中所具有的重要地位不言而喻。目前,很多领域都涉及时间序列分析,如教育、金融、工业、医疗等。随着时间序列分析的不断深入,利用ARMA模型对其进行挖掘既是时代发展的必然趋势,也是对ARMA模型优势的一种充分体现。
所谓时间序列,指的是按照时间先后顺序对某个变量进行观测所得到的一组观测值。根据该定义可知,任何一个时间序列都可用若干个二元组(时间变量,观测变量)来表示,根据观测时间间隔的不同,时间变量可是时、分、秒等,也可是一些单调递增的物理量,如温度。观测变量反映的是时间序列所具有的实际意义,如电压、血压、销售数量等。
相关研究学者提出,可根据时间序列的值建立一个参数数学模型,但要保证所建参数化模型能真实准确反映出时间序列的基本特征,以为后续时间序列的分类、聚类等操作提供必要的依据和参考。该模型即为ARMA模型(自回归移动平均模型),其基本思想是任何一个变量当前的取值,不仅会受它本身过去取值的影响,而且会受过去与现在各种随机因素的共同影响。依照该思想,可建立出相应的数学模型。目前,较为常用的平稳时间序列参数化模型主要包括AR模型(自回归模型),MA模型(移动平均模型)和ARMA模型(自回归移动平均模型)。
3.1时间序列基本特征提取
在今天的社会环境下,基于ARMA模型对数据挖掘中的时间序列分析是当前该领域应用十分普遍的一种分析方法。利用ARMA模型对时间序列进行挖掘与分析需要提取时间序列的基本特征,具体提取步骤如下。首先,借助相关工具绘制出时间序列的时序图,通过时序图对待分析时间序列的基本特征仔细观察,包括时间序列的周期性、趋势变化等,观察后对该时间序列是否为平稳序列初步判定。如果初步判定该时间序列为非平稳序列,则可利用差分运算来将此时间序列本身的周期性与趋势变化消除。接着,对原始时间序列的自相关函数和偏相关函数进行计算,并对自相关函数的衰减速度认真观察,同时通过ADF检验来确定时间序列的平稳性,若时间序列为非平稳序列,则需要利用差分运算将这种不平稳性消除,使之变成平稳时间序列。然后,对变换后时间序列的自相关函数和偏相关函数仔细观察,同时结合赤池信息量准则(AIC)和贝叶斯信息准则(BIC),对ARMA模型与自回归和移动平均相关的两个阶数数值进行准确确定。最后,利用最小二乘法计算出ARMA模型两阶数的估计值,并用该估计值来表示时间序列。
3.2时间序列的聚类
在数据挖掘研究当中,聚类算法是一种非常重要的分析方法,目前已被广泛应用到医学、心理学等诸多领域。若序列中的数据随时间变化而变化,则这种数据称为动态数据。反之,称为静态数据。显然,时间序列属于一种典型的动态数据,而其所具有的最显著特征即为时域性。目前,时间序列的聚类分析主要有两种思路:通过一定处理将时间序列映射到静态数据上,以数据转换或特征提取等方式实现时间序列的聚类分析,修改静态数据聚类分析方法,使之也能对时间序列进行聚类分析。
基于ARMA模型对时间序列进行聚类分析的一般过程为:首先,利用ARMA模型对时间序列进行模拟拟合,即将时间序列用一组向量表示出来,确定模拟拟合后时间序列的序列个数;然后,对系数向量进行标准化处理,以系数向量的欧氏距离作为相似度测量,再利用同样的方法得到首次聚类结果,从结果中得出每一序列数据在聚类分析中的贡献率,计算前n个贡献率达到一定数值的权重,并将其与模拟拟合得到的参数向量相乘;最后,将新得到的系数向量进行标准化处理,利用同样的聚类方法得出最后的聚类结果。
由上文分析可知,利用ARMA模型来分析时间序列,既方便快捷又高效准确。而基于ARMA模型的时间序列分析在医疗、金融、经济等各行业中的应用,能有效促进各行业发展,提高各行业相关计算与检测的准确率,是今后数据挖掘领域研究的重中之重。
主要参考文献
[1]孙承杰,刘丰,林磊,等.基于时间序列聚类和ARMA模型的检索量预测[J].华南理工大学学报:自然科学版,2011(4).
[2]马亮亮.一种基于Hilbert-Huang变换和ARMA模型的时间序列预测方法[J].江汉大学学报:自然科学版,2014(1).
[3]曹净,丁文云,赵党书,等.基于LSSVM-ARMA模型的基坑变形时间序列预测[J].岩土力学,2014(2).
[4]韩晓飞,丁晓光,张永奇,等.基于ARMA模型的GPS基准站坐标时间序列分析[J].测绘与空间地理信息,2014(12).
[收稿日期]2015-12-04
[中图分类号]TP311.13
[文献标识码]A
[文章编号]1673-0194(2016)02-0164-01
doi:10.3969/j.issn.1673 - 0194.2016.02.126