林扬啸
摘要:大数据是21世纪的热点话题之一,统计学是传统的数据分析学科。利用百度指数提供的“用户关注度”功能,本文选取2012年-2016年5年260周的百度周平均搜索指数为研究对象,以百度搜索指数来反映社会关注热度,研究大数据与统计学关注热度之间有无相关性,以及大数据搜索指数发展的趋势变化。根据图形分析与相关系数的计算,可知大数据与统计学搜索热度呈现正相关关系,该关系线性程度不大,多为非线性关系。根据大数据的季平均搜索指数、每四周平均搜索指数的变化趋势研究表明,大数据搜索指数不存在明显季节性,存在明显的正趋势性;其搜索熱度自2012年初至2015年2季度以来呈明显上升趋势,其后增长速率放缓,呈现更为显著的波动性,由此可知2015年2季度为其明显的一个转折点,符合其发展趋势的模型有修正指数模型,以及龚珀兹曲线模型和皮尔曲线模型这两个生长曲线模型,结果显示三个模型的拟合度均较理想,其中龚珀兹曲线的拟合度最高。根据拟合结果,从大数据搜索指数反映的社会关注热度来看,大数据搜索指数的发展已趋于饱和趋势,其饱和值为4300左右。
关键词:大数据;统计学;百度指数;趋势外推
中图分类号:F27 文献识别码:A 文章编号:1001-828X(2017)001-0000-02
引言
现代社会,数据量呈爆炸式增长趋势,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。2012年以来,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。而统计学作为传统的数据分析方法,在拥有海量数据的现代社会既有着巨大的机遇,但由于大数据突破了传统统计学关于样本和总体界定等等限制,也对传统统计学的分析方法提出了前所未有的冲击和挑战。在现实生活中,并没有一门基于大数据的专业产生,各大企业往往通过招收统计学、计算机、数学等相关专业的人才来满足其大数据分析工作的要求,尽管如此,关于大数据的热门是否捧热了统计学之类的相关学科的说法一直众说纷纭;此外经过了几年的对大数据关注的大热,市场逐渐对其回归理性,甚至出现了“大数据泡沫”这样的质疑声音。本文借助百度搜索指数,对2012年-2015年每一周大数据、统计学两词条的反映其关注热度的搜索指数进行定性、定量分析,实现以下目的:
观察从百度搜索指数中反映出的人们对于大数据、统计学度的变化趋势,了解在人们关注度方面二者有无相关性、有怎样的相关性,即大数据的大热有没有带来统计学关注度的变化。
通过建立统计模型,观察大数据关注热度5年来的变化,了解现实中其在关注度发展过程中所处的阶段,即现实中对大数据的关注依然处于上升阶段还是已经趋于饱和。采用定量、定性结合的分析方法,将统计学和大数据的搜索指数时间序列作线图,并计算线性相关系数,观察两者的变化规律,并计算两者有无线性相关关系。为满足消除随机性波动和保留足够数据量的需要,分别计算大数据搜索指数的每四周、每季度加权平均值。观察图形有无季节性、周期性波动;观察图形是否存在转折点,以此为基础选择统计模型。根据图形识别的结果,建立可能的统计模型,并通过比较R方值的方法来选择适当的模型。
一、中国统计学发展与大数据发展的相关性分析
用横坐标表示周次,纵坐标表示搜索指数,将大数据和统计学的搜索指数时间序列在一个图中分别做折线图,从图像中可以看出,57周以前,统计学的搜索热度大于大数据的搜索热度,57周以后,大数据搜索热度逐渐超过统计学搜索热度。90周之后,大数据和统计学的变动趋势呈现一定的相似性,例如都在214周时达到谷值,而后回升。在178周大数据搜索达到峰值,182周统计学搜索量达到峰值,在此期间统计学的增长略落后于大数据的增长,但是分布的形状大体一致。
2.季平均值线性相关系数=0.292112357
结果分析:两组数据的线性相关程度都不高,其中季平均线性相关系数略高于周平均线性相关系数。说明大数据与统计学的搜索指数之间并不存在明显的线性相关关系,但是从图中看出二者变化趋势具有相似性,因此猜测二者可能具有某种非线性相关关系。
因为相关关系并不等于因果关系,因此对于如上结果我们做出两种假设:
在90周以后,统计学的分布类似并且略落后于大数据的增长,这可能是由于人们对于大数据的关注,引发了人们对于统计学这个相关学科的关注。
两者类似的分布形态,可能是由于全国所有用户搜索频次的周期性、随机性变动所引致的,大数据、统计学搜索指数变动之间并没有直接的因果关系。
二、中国大数据需求量预测模型
由于原始数据有260周,波动性过大,为了得到更为准确的结论,我们仅对其按每季度、每四周两种方式计算加权平均值得到的时间序列作讨论,其目的是(1)平滑随机波动;(2)判定按每季度和每四周平均哪个有季节性;(3)每季度平均更能反映长期趋势,但数据较少,只能以季为单位预测未来值;每四周平均的数据较多,且可以进行更短期的预测。
1.季节性、趋势性的判定
(a)图形判别法
建立按季平均和按每四周平均的横坐标为季度或周次,纵坐标为搜索指数的折线图,按季节平均、按每四周平均,大数据搜索指数都不存在明显的季节性;另外由于后一年的值往往大于前一年的值,因此可以判定其存在趋势性。
(b)建立一元线性回归方程并检验显著性
季平均值:;
每四周平均值:;
由于两个时间序列一元线性回归的R2均显著,所以大数据搜索指数显然存在线性趋势。
结论:上述过程从图形和计算两个角度得出了以下结论:大数据搜索指数并不存在明显的季节性,不适合使用时间序列分解法;大数据搜索指数存在明显的趋势,一元回归有较好的拟合优度,但是一元回归使用的前提是时间序列不存在明显的转折点,为了进一步确定更好的拟合模型,我们继续如下讨论。
2.转折点的判定
作横坐标为季度,纵坐标为搜索指数的折线图,可以看出,2015年2季度为一个明显的转折点,在这之前,类似于线性一元增长;在之后,2015年3季度仅为3989,2015年4季度仅为4015,并无太大增长,此后呈现下降上升交替出现的形式。
3.模型选择结论
因为不存在在明显的季节性,所以不选择时间序列分解模型;又因为有明显的转折点,所以不应对所有数据采取一元回归的方式;搜索指数的变化类似于先增长后稳定,符合上述条件的模型有:
(1)修正指数模型;(2)龚珀兹曲线模型;(3)皮尔曲线模型。
4.模型的建立
基于matlab软件,模型拟合结果如下:
(1)修正指数模型:
特点:该模型0
(a)每季平均值:。保留两位小数后得到如下预测函数:
当t趋于无穷大时,搜索指数趋近于6389.78。
(b)每四周平均值:。保留两位小数后得到如下预测函数:
当t趋于无穷大时,搜索指数趋近于6650.56。
每期预测值原始数据见附表4。
(2)龚珀兹曲线模型:
特点:属于生长曲线模型,形状类似于S形,可以描述并判断事物经历的发生、发展到成熟的过程。
(a)每季平均值
5.模型比较
每季平均R2值,修正指数曲线模型为0.9516,龚珀兹曲线模型为0.9582,皮尔曲线模型为0.9539;每四周平均R2值,三者分别为0.902、0.9075、0.9033。
三个模型的R2均达到了显著性水平,可知模型拟合度很高,其中按每季平均计算的拟合优度,由于平滑了更多的随机性因素,拟合度都大于按每四周平均计算的拟合优度。龚珀兹曲线模型的R2值最高,其次是皮尔曲线模型,再次是修正指数曲线模型。
结果分析:大数据搜索指数不存在季节性,但存在明显的周期性。從2012年以来,其搜索指数呈快速递增趋势,2015年2季度左右以后,其增速放缓,逐渐呈现饱和趋势。在饱和度的预测方面,修正指数t无穷大的条件难以实现,我们主要根据后两个模型进行判定,得到了大数据搜索指数已经趋于饱和,并且饱和值位于4200-4600左右的结论,即市场对于大数据搜索的热度,已经从狂热趋于理性。
参考文献:
[1]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(1):5-9.
[2]云舟工作室.MATLAB6数学建模基础教程[M].北京:人民邮电出版社,2001.
[3]曹挺.统计学是新世纪具有辉煌前景的学科[N].中国信息报,2002.