郭伟伊
摘要:随着大数据时代的到来,科学合理的利用历史数据成为获取信息的便捷途径之一。搜索指数记录了数以亿计的搜索关注与需求,为企业把握市场动态提供必要的数据基础。据此,以OPPO手机在百度指数网站上的搜索指数为例,基于R-Studio软件工具,并采用时间序列预测未来3个月OPPO手机的搜索指数。结果表明,预测值与实际值之间的误差全部小于误差阈值,该模型可以进行有效预测。
关键词:R语言;数据分析;搜索指数;时间序列
中图分类号:F27文献标识码:Adoi:10.19311/j.cnki.16723198.2017.29.033
1文献综述
1.1基于时间序列分析的相关研究
应用时间序列分析的目的就是给定一个已被观测了的时间序列,预测该序列的未来值。常用的时间序列模型有平滑法、组合模型、AR模型、MA模型、ARMA模型、ARIMA模型等。基于这些时间序列模型,国内研究者针对产品价格、天气情况等目标进行了预测,研究模型也从单一模型转向集成模型。李哲敏等設计了动态混沌神经网络时间序列预测模型,该模型在农产品价格时间序列短期预测研究上将具有广阔的应用前景。黄建风,陆文聪基于小波-NAR神经网络技术,结合悉尼日均气温和日降雨量数据进行建模,该预测优于其它模型。段青玲等提出了基于时间序列的水产品价格预测模型,该模型为水产品价格的预测提供依据。
其实,不管是单一模型,还是集成模型,只要依赖于真实的历史数据,在模型的选择和构建上都可以实现预测目标,只是精度上有所不同。同时,基于前人的研究发现,利用R语言进行统计分析的研究相对于SPSS、Minitab等统计软件少之又少,而R语言具有功能强大的程序包,在数理统计、数据挖掘等方面都出类拔萃。
1.2基于搜索指数的相关研究
搜索指数反映了数以亿计的搜索关注与需求,为研究市场交易行为、消费者行为等研究提供了必要的数据依据。张崇等证实了搜索数据与居民消费价格指数之间存在先行滞后关系和谐整关系。任乐,崔东佳实证了搜索数据与月旅游客流量之间存在协整关系。
近几年,大部分研究者一般通过对搜索时输入的关键词的统计分析,从而建立预测模型,但预测的准确度是否可靠有待斟酌。值得注意的是,研究者缺少对现成搜索指数的分析及利用。例如百度指数网站上存在大量不同行业、不同品牌的搜索指数,其根据月、季、年为单位进行了详细展示,这些搜索指数具有真实性、科学性。因此,对现有数据的再次利用为未来的研究提供了方便。
2实证分析
基于以上对时间序列和搜索指数的相关研究分析,本文提出基于R语言,并利用时间序列分析中的ARIMA模型对OPPO手机在百度上的搜索指数进行预测。
2.1数据来源及处理
本文所采用的搜索数据来源于百度指数网站,时间范围为2014年1月至2017年4月。为了能够更好的预测OPPO手机品牌在百度上的搜索指数,将这些数据按月为单位记录在Excel上,并把文件命名为OPPO.csv进行保存。
本文采用R-Studio软件进行统计分析及预测。首先,将文件OPPO.csv在R-Studio中打开:
>data<-read.csv("./OPPO.csv",header=T)
根据这些历史数据,可以绘制出OPPO月度搜索指数时间序列图:
>plot.ts(data,xlab="月份",ylab="搜索指数/千万")
从图中可以清晰地看出40个月中OPPO手机的月度搜索指数,没有明显的周期和季节趋势,但是整体处于逐渐上升的趋势。
2.2时间序列检验分析
对于以上序列,将进行纯随机性和平稳性检验,并根据检验结果的不同选择合适的分析方法。从图1的时序图可看出,OPPO手机搜索指数不具备周期性,并且有逐月递增趋势。因此,可以初步确认为非平稳序列。为进一步判断序列是否为非平稳的,可以选择自相关图检验或单位根检验。
自相关图检验。利用自相关图进行平稳性检验的结果取决于自相关系衰减的速度,当自相关系数比较快的衰减趋向于零,并在零附近随机波动时,即为平稳序列;当自相关系数衰减速度比较慢时,即为非平稳序列。
>acf(data)
从自相关检验结果看,自相关系数长期大于零,表明该序列为非平稳序列。
单位根检验。若检验序列存在单位根表明为非平稳序列,否则为平稳序列。本文利用adf.test()函数对其进行单位根检验,运用此函数需下载tseries包。
>library(tseries)
>adf.test(data)
从单位根检验结果看,p值为0.4517,大于0.05,因此也判断其为非平稳序列。
2.3ARIMA建模分析及预测
从以上分析中得出,OPPO手机搜索指数为非平稳序列。对此序列进行差分、检验、定阶,就可建立ARIMA模型进行预测。
非平稳序列差分。若序列经过一阶差分后还未达到平稳,将再次进行差分运算,以此类推,直到成为平稳序列为止。R语言中使用diff()函数对时间序列进行差分运算。
>diffData<-diff(data)
一阶差分后再进行单位根检验:
>plot.ts(diffData,xlab="月份",ylab="搜索指数残差/千万")
>adf.test(diffData)
一阶差分后,时序图在均值附近平稳波动,单位根检验p值为0.04537,小于0.05,所以一阶差分后序列表现为平稳。
模型定阶。从一阶差分后的自相关图可以看出,ACF没有收敛趋势,并显示出拖尾性。所以考虑选用AR模型拟合一阶差分后的序列,即对原始序列建立ARIMA(1,1,0)模型。endprint
>arima<-arima(diffData,order=c(1,1,0))
白噪声检验。ARIMA模型是否符合白噪声检验,采用Box.test()函数进行检验。当p值大于0.05时,表示通过白噪声检验;否则未通过。
>Box.test(diffData,type="Ljung-Box")
从白噪声检验结果中得到,p=0.2038,其值明显大于0.05,所以通过白噪声检验。
模型預测。R语言中可以利用forecast数据包对未来的序列值进行预测,本文预测未来3个月OPPO手机的搜索指数。
>forecast(arima,h=3,level=c(99.5))
误差分析。将预测值与实际值进行误差分析,结果显示平均绝对误差为0.81、均方根误差为0.92、平均绝对百分误差为0.19。本文根据实际情况,将误差阈值设为1。结果表明,预测值与实际值之间的误差全部小于误差阈值。因此,可以采用此模型进行预测。
3总结与展望
首先,本文综述了基于时间序列分析和基于搜索指数的相关研究内容;其次,对百度指数网站上现成的OPPO手机搜索指数进行了分析,并预测了未来3个月的搜索指数。通过实证分析发现,利用R-Studio软件建立ARIMA模型可以实现预测,且预测值与实际值之间的误差较小。对OPPO手机搜索指数进行预测可以准确了解市场动态,指导企业进行策划营销活动、宣传、经营管理等,为巩固产品地位或进一步深化市场做准备。
同时,该预测方法也存在一定的缺点和不足,尤其是模型较单一,缺乏搜索指数与其他研究对象之间的内在机理研究,例如搜索指数与销售量、产品价格、宣传力度等的相关性关系研究,这也是下一步研究的重点。
参考文献
[1]李哲敏,许世卫,崔利国,张建华.基于动态混沌神经网络的预测研究——以马铃薯时间序列价格为例[J].系统工程理论与实践,2015,(08):20832091.
[2]黄建风,陆文聪.基于小波-NAR神经网络的气象要素时间序列预测与天气指数彩虹期权估值[J].系统工程理论与实践,2016,(05):11461155.
[3]段青玲,张磊,魏芳芳,肖晓琰,王亮.基于时间序列GA-SVR的水产品价格预测模型及验证[J].农业工程学报,2017,(01):308314.
[4]张崇,吕本富,彭赓,刘颖.网络搜索数据与CPI的相关性研究[J].管理科学学报,2012,(07):50-59+70.
[5]任乐,崔东佳.基于网络搜索数据的国内旅游客流量预测研究——以北京市国内旅游客流量为例[J].经济问题探索,2014,(04):6773.endprint