姜咏梅,倪中华
(1.九州职业技术学院,江苏 徐州 221116; 2.商丘职业技术学院,河南 商丘 476000)
基于大数据背景的相关系数研究
姜咏梅1,倪中华2
(1.九州职业技术学院,江苏 徐州 221116; 2.商丘职业技术学院,河南 商丘 476000)
随着信息技术的发展,我们迎来了大数据时代,许多领域都出现了海量的数据.探求纷繁复杂的数据之间的相关关系比寻找因果关系更受关注,而统计学中的相关系数正是用来描述两个变量之间相关关系的指标.文章先给出相关系数的由来以及在概率论中的定义和性质,再推导出统计学中常见的2个计算相关系数的公式,最后举例计算以提高对相关系数的理解以及应用的能力.
大数据;相关系数;均值;标准差;随机变量
自然界中的各种现象总是普遍联系和相互依存的,客观现象之间的数量联系,也叫相关关系.维克托·迈尔-舍恩伯格在其著作大数据时代[1]12中明确指出,大数据时代最大的转变就是放弃对因果关系的渴求,取而代之关注相关关系.相关关系作为统计学中的一个工具的魅力在于将两个变量的关联精炼成一个描述性数据:相关系数[2]73-74.相关系数是用来说明变量之间在直线相关条件下相关关系密切程度和方向的统计分析指标[3]206-207.例如,人的身高和体重,某种商品的价格与需求,证券市场价格与投资者心理之间都存在着一定的相关关系.而当今社会随着手机、电脑、互联网的普及与发展,我们能获取的数据越来越多,若能对这些数据及时地进行分析和预测它们之间的相关关系,将会深刻影响人们的决策.
1.1 定义的由来
如何来描述两个随机变量的线性相关程度呢.谢明文[4]33-36利用最小二乘法:假设随机变量X与Y具有一定的线性关系,则存在实数a和b,使得Y≈aX+b.为使这种近似程度达到最高,这就要求均方差S=E(Y-aX-b)2达到最小,有
1.2 概率中的定义
设对二维随机变量(X,Y),E(X),E(Y)和E{[X-E(X)][Y-E(Y)]}都存在,则称E{[X-E(X)][Y-E(Y)]}为X与Y的协方差,记作Cov(X,Y),即
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}.
若Cov(X,Y)存在,并且D(X),D(Y)存在且都不为0,则称
为X与Y的相关系数[5]112-113.把(2)式带入(1)式得
由(3)式可以得出相关系数的性质如下:
1) -1≤ρXY≤1.
2) 若|ρXY|的值越大,则X与Y的相关程度越高;若|ρXY|的值越小,则X与Y的相关程度越低.
3)ρ=1为完全正相关;ρ=-1为完全负相关,表明随机变量之间为完全线性相关,即函数关系.ρ=0表明随机变量之间无线性相关关系.
设x1,x2,…,xn为来自总体X的一组样本观测值,y1,y2,…,yn为来自总体Y的一组样本观测值,ρ表示总体的相关系数,r表示样本的相关系数,σxy表示两组变量的协方差,σx表示X的标准差,σy表示Y的标准差,则有
由概率知识得
将上面3个式子带入(4)式得
即相关系数可以表示成两组变量的协方差与两组变量标准差乘积的商,(5)式也是统计学中常用的计算公式之一.
(6)式也是统计学中计算相关系数的一个常用公式.
相关系数可以反映两组变量之间相互关联的程度并且不受变量单位的限制(由(2)式可以看出我们把随机变量单位化了),也就是说我们可以计算体重和身高之间的关联性,哪怕它们的单位分别是千克和厘米.
3.1 传统统计学中相关系数的计算
由于以前的条件所限,搜集总体的数据比较困难,所以传统统计学中用来计算相关系数的数据往往是对总体进行抽样,用样本观测值对总体进行推测.比如我们想考察某个城市青少年的体重和身高的相互关系,我们可以应用公式(5)借助于Excel计算体重与身高的相关系数,具体步骤为:
1) 选取一个样本(比如取10个人),获取样本中每一位青少年体重与身高的观测值;
2) 求出体重与身高的平均值和标准差;
3) 将每个人的体重和身高转换成标准值:
(体重-平均体重)/ 体重标准差、(身高-平均身高)/ 身高标准差;
4) 将每个人体重标准值与身高标准值相乘;
5) 将第4步得到的乘积相加再除以总人数(即10),就得到体重与身高的相关系数.(见表1)
表1 身高体重相关系数
3.2 大数据背景下相关系数的计算
在大数据时代,我们可以采集事物整体的全部数据,并且得到的数据是动态的而非静态的,因此我们能够用两者之间的相关关系来捕捉到事物的现在和预测未来,而非传统的只是检验过去.如我们想考察某个企业的产量与单位成本的相互关系,我们可以搜集到它们的全部数据,然后按照如下步骤计算出两者的相关系数.
1) 分别求出产量和单位成本的平方;
2) 求出产量与单位成本的乘积;
3) 分别求出产量、单位成本、产量的平方、单位成本的平方、产量与单位成本乘积的和;
4) 代入公式(6)计算得出相关系数.
根据经验可将相关程度分为以下几种情况:1)|r|≥0.8,一般称为高度线性相关; 2)0.5≤|r|<0.8,为显著线性相关;3)0.3≤|r|<0.5,为低度线性相关;4)|r|<0.3,为无线性相关.
对比上述两种相关系数的计算方法,我们可以得出:传统统计学是先算出样本中体重与身高的相关系数继而推测总体的身高和体重之间的相关关系.比如样本的体重与身高的相关系数是0.97,从而得出总体的身高和体重为高度线性相关,也就是说一般情况下身高高的人体重也重,当然也不排除个别情况,身高矮体重也是重的.由于抽取样本的有限性,可能会隐藏一些数据,从而使得到的结果与实际有偏差.但在大数据背景下,就可以很好的解决这个问题,因为我们用的是该企业产量和单位成本的全部数据,这样就能更全面地考察该企业,从而给决策者提供有益参考.
在大数据时代,我们的核心任务是预测,而相关系数是统计中常用的分析数据的工具,它可以将大量繁杂无序、单位不同的复杂数据加工成一个简洁、优雅的描述性数据,给人们提供有益参考.事物之间的相关关系可能不会准确地告知事物发生的内在原因,但是它会提醒人们事物之间的相互联系[6]23-28,从而为社会的经济发展提供帮助.但需要注意的是相关关系不等于因果关系,也就是说两个变量存在高度相关关系并不代表其中一个变量的改变是由另一个变量的变化引起的.举个例子,身高和体重存在高度的正相关关系的意思不是你想长高就多吃饭增加体重就可以了.当然现在有许多流行的统计软件,如SAS、SPSS和R语言等来分析处理大数据,我们不光要会计算还要会分析数据和理论联系实际.
[1] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周 涛,译.杭州:浙江人民出版社,2013.
[2] 查尔斯·惠伦.赤裸裸的统计学[M].曹 槟,译.北京:中信出版社,2013.
[3] 陈正伟.新编统计学[M].北京:北京邮电大学出版社,2012.
[4] 谢明文.关于协方差、相关系数与相关性的关系[J].数理统计与管理,2004,23(3).
[5] 王玉孝,姜炳麟,汪彩云.概率论、随机过程与数理统计[M].北京:北京邮电大学出版社,2010.
[6] 秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(6).
ResearchonCorrelationCoefficientBasedonBigDataBackground
JIANG Yongmei1, NI Zhonghua2
(1.JiuzhouCollegeofVocationandTechnology,Xuzhou221116,China;2.ShangqiuPolytenic,Shangqiu476000,China)
With the development of information technology, people ushered in the era of big data and there are many areas of massive data. The correlation between the complicated data is more concerned than looking for causality while the statistics of the correlation coefficient is used to describe the relationship between two variables. The paper first gives the origin of correlation coefficient and its definition and characteristics in probability theory, and then it deduces several common formulas for calculating correlation coefficient. Finally it gives examples of calculation to improve the understanding of this concept and applicable ability. Theory and practice are combined closely in this way.
big data; correlation coefficient; mean; standard deviation; random variable.
O211.5;O212.1
A
1671-8127(2017)05-0068-04
2017-04-28
姜咏梅(1981- ),女,山东烟台人,九州职业技术学院副教授,理学硕士,主要从事概率论与数理统计研究。
[责任编辑梧桐雨]