赵玉新
摘要:该文数据来自数据堂网站,主要使用R语言为工具,进行数据分析,本次分析主要侧重于某型号轿车的时间序列分析,首先提取该轿车每月的销量情况,作为历史数据,然后进行分析预测,得出结论。
关键词:R语言;数据分析;轿车销量;时间序列分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)05-0016-03
时间序列是以固定时间间隔为单位的一列数据,最常见的比如某只股票的每日股价走势图,每天的气象数据等。时间序列分析是统计分析的一个重要内容,由于基于历史数据可以进行预测,因此几乎每种统计分析软件都有时间序列的分析及预测功能。
时间序列常见的分析方法有:简单平均法、加权平均法和移动平均法等。还有time series里面两个强大的算法: Holt-Winters 和 ARIMA。
R语言具有功能强大的程序包,在数据计算,统计分析以及数据挖掘等方面都所向披靡,本文介绍轿车销量时间序列数据在R中统计分析及预测的实现。
1 数据情况
从图中可以看出,是大众朗逸31个月的销售数据,没有明显的周期和季节趋势,2013年1月,创下销售记录,48267台,应该是春节前,是车辆销售旺季。2011年7月出现了销售销售的低谷,销量只有3000多台。
3 时间序列检验分析
3.1自相关检验
对于非平稳数列的数据,ACF自相关图不会趋向于0,或者趋向0的速度很慢。自相关图中的两条虚线表示置信界限,是自相关系数的上下界。
下面绘制原始数列的自相关图:
從以上几幅图进行分析,图4中的时序图,可以看出有连年递增趋势,为非平稳序列。从自相关检验结果看,自相关系数长期大于零,进一步表明为非平稳序列;单位根检验结果p值显著大于0.05,也判断其为非平稳序列。
4 ARIMA建模分析
4.1非平稳序列差分
差分,即Integrated。 一阶差分是把原数列每一项减去前一项的值。二阶差分是一阶差分基础上再来一次差分。差分一直得到平稳序列为止。R中使用diff()函数对时间序列进行差分运算。
6 结束语
以上是笔者对朗逸轿车月度销售数据分析研究,主要使用R语言的时间序列分析方法,绘制序列图,检验其是否为平稳序列,非平稳序列进行差分处理,直到平稳为止。然后使用ARIMA方法进行分析建模,再进一步完成预测。
参考文献:
[1] 张良均,等 .R语言与数据挖掘[M].
[2] 数据堂网站. http://www.datatang.com/.