李 武
(天津大学 科学技术发展研究院,天津300072)
我国科技经费是指统计年度内全社会实际用于研究与试验发展经费投入(简称RD),包括基础研究、应用研究和试验发展的经费支出。目前,我国科技经费投入保持增长态势。国家财政科技支出稳步增加,2013年,国家统计局、科学技术部、财政部联合发布了《2012年全国科技经费投入统计公报》(简称《公报》)。《公报》数据显示,2012年全社会研究与试验发展经费投入首次突破万亿元大关,RD经费投入强度(RD经费投入与国内生产总值之比)再创历史新高。这就反映了我国在深化科技体制改革、加快国家创新体系建设方面又迈出了坚实的一步。本文将用最大信息系数MIC来判断GDP与RD经费投入的相依程度,从而为我国宏观经济政策的制定提供参考和依据。
表1给出我国1995—2013的国内生产总值GDP和全国RD经费投入的数据,并计算出了RD经费投入强度,下面利用表1数据来对GDP和RD经费进行相关性分析。
考虑两个随机变量的相关性,如果这两个随机变量的联合分布服从高斯分布,应直接运用线性相关系数,如果数据不服从高斯分布,此时应考虑能描述单调相关的秩相关系数或者其他关系的相关系数。由于两个指标都不服从正态分布,首先考虑秩相关系数,秩相关系数主要有Spearman和Kendall两种,它们可以度量两个变量之间的单调关系。
表1 我国历年RD经费投入与GDP情况
关于spearman和kendall系数的计算,可以通过R语言的函数cor.test来完成。以秩相关系数来构建统计量,原假设就是两个变量之间存在相关性,在原假设成立条件下,统计量服从t分布。R语言的宏包pspearman改进spearman系数计算方法,不再局限于t分布,而是提前设置的原分布。所以我们这里计算了spearman系数、kendall系数和改进的spearman系数来判断相关性。如果检验的相伴概率大于0.05,不拒绝原假设,说明两个变量之间存在相关性;系数越接近零,说明相关性越小。从计算结果看出各种系数均为1,表明我国GDP和科研经费投入之间存在相关性(见表2)。
表2 我国GDP与RD经费秩相关系数检验
距离相关Dcor(Distance correlation)是Székely和Rizzo提出的一种新的相关性度量,它以观测值的距离作为度量的依据。Dcor等于零表示随机变量X和Y独立。距离相关Dcor取值在[0,1]之间,其中大于0.05表示变量之间存在相关性,距离相关Dcor系数还可以用来检验多维随机变量的独立性。距离相关Dcor系数计算,可以通过R语言energy宏包dcor函数完成,经过计算得到Dcor检验结果为0.992 607 8,因此认为我国GDP和科研经费投入之间存在相关性。
平均互信息指数是信息论中比较重要的一个概念,可以用来判断系统的非线性相关性。考虑由两离散系统{s1,s2,…,sn}和{q1,q2,…,qn}构成的系统S和Q,定义两系统互信息。
其中Psq(si,qj)为同时出现事件si和qj的概率,Ps(si)为出现事件si的概率,Pq(qj)为出现事件qj的概率。
采用R软件宏包bioDist中的函数mutualInfo可以计算两个系统的互信息指数。经计算得到我国GDP和科研经费投入之间的两两互信息指数为1.576 029,这说明我国GDP和科研经费投入之间存在很强的相关性。
以上通过几种相关性检验方法,进行简单的介绍和验证,可以看出我国GDP和科研经费投入存在相关性,下面将用最新的最大信息系数MIC的方法进行验证说明。
哈佛大学Broad研究院的研究人员在Science杂志上发表了题为“Detecting novel associations in large data sets”的文章,这是相关系数比较新的研究成果。该算法可以对各种类型的相关进行快速估计,能够发现更为一般的函数联系。这种方法被称为MINE(Maximal Information-Based Nonparametric Exploration),研究人员无需事前对其寻找的关系类型有所了解,就检测由多种因素驱动的复杂模式。MINE基于最大信息系数MIC,其依据的理念是,如果两个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。通过搜寻这种“最适合”的网格,计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。
下面主要介绍MINE的核心概念,令D={(x,y)}为x和y的n个次序样本。样本空间在X-O-Y平面分割,分别统计落入每个小格的样本数。则MIC定义如下:
其中B(n)=nα为网格搜索大小。I*(D,X,Y)为所有X-Y网格上的最大互信息指数(maximum mutual information),落入某网格概率以落入该网格的点数除以总点数得到。其他统计量都从X-Y网格上的互信息指数导出。
MAS(Maximum Asymmetry Score)定义如下:
MEV(Maximum Edge Value)定义如下:
MCN(Minimum Cell Number)定义如下:
MINE各种系数计算通过R语言的minerva宏包函数mine完成,其输入可以是两个数值向量x和y,也可以是一个矩阵,还有5个参数master,alpha,C,n.cores,var.thr可供选择。参数默认值为:
master=NULL,alpha=0.6,C=15,n.cores=1,var.thr=1e-5.
master参数控制变量x的选择,可以是一列数据,也可以是多列数据,剩下的列数据作为变量y。alpha参数控制网格分割的大小,网格分割大小B(n)=nα。如果样本数据小,可以提高alpha值以得到更精确估计。由于本文样本数据只有18组,提高其值到0.9。参数C决定X-Y网格搜索的起点,参数alpha和参数C联合控制近似精度和运行时间。参数n.cores 设置并行计算,如果样本数据不是很大,取默认值即可。参数var.thr设置允许的样本最小方差,如果样本方差过小,MINE方法无法计算。
表3给出了我国GDP与RD经费MINE计算结果。MIC值在[0,1]之间,如果为零,说明两个变量之间独立;如果越接近1,说明相关性越强。MIC-R2表示MIC系数和线性相关系数的差值,大多数值在0.6以上,说明它们之间线性关系很不显著,更多的是非线性关系。MAS衡量了非对称的强弱,MEV指出边缘网格上系数大小,MCN值在2,3之间,说明有2,3个网格起到主要作用。从计算结果中可以看出,MIC值为0.998 000 9,非常接近于1,说明我国GDP与RD经费相关性很强。
表3 我国GDP与RD经费MINE结果
通过上述秩相关系数、距离相关Dcor系数、互信息指数、MIC等各种相关性检验,说明了我国GDP与RD经费的相关性,下面将通过独立性检验,说明假设不成立,证明其相关性。
HHG独立性检验是一种功效很高的非参数检验,可以是任何维数的两个随机向量,任何形式的相关性都可以作为对立假设。因此,HHG检验可以判断两个随机向量之间是否存在相关性。下面以全国RD经费投入为随机变量X,国内生产总值GDP为随机向量Y,来进行独立性检验。HHG独立性检验可以通过R语言的HHG宏包来实现,通过计算得到HHG检验结果如表4所示。
从表4的计算结果可以看出,相伴概率均小于0.05,拒绝原假设,认为两个随机向量(或者随机变量)之间存在相关性。也就是说我国GDP与RD经费的独立性检验不通过,二者存在相关性,这就进一步验证和说明了相关性验证的正确性。
表4 HHG检验结果
笔者首次利用2011年哈佛大学Broad研究院的研究人员在《Science》杂志上提出的最大相关系数MIC来判断GDP与RD经费投入的相依程度。计算MIC值为0.998 000 9,非常接近于1,说明GDP的增长与RD经费投入相关性很高。同时还计算了spearman系数、kendall系数和改进的spearman系数来判断二者的相关性,计算结果均为1,验证了二者存在相关性。还计算了距离相关Dcor系数、计算结果为0.992 607 8,也非常接近1,因此认为我国GDP和科研经费投入之间存在相关性。另外还计算了我国GDP和科研经费投入之间的两两互信息指数,计算结果为1.576 029,也说明了二者存在相关性。
通过对这几种方法的比较发现:MIC方法可以对各种类型的相关性进行快速估计,并且能够发现更为一般的函数联系。因此,MIC方法比较适合判断GDP与RD经费投入的相依程度,而且计算比较快速有效。
另外,笔者还应用了最新的统计学方法HHG独立性检验进行了验证和说明。计算结果表明,相伴概率均小于0.05,拒绝原假设,也就是说我国GDP与RD经费的独立性检验不通过,二者存在相关性。
从本文分析结果可以推断我国的国内生产总值GDP的增长与RD经费投入有很大的相关性,同时从表1的GDP与RD经费投入的数据也可以看出我国RD经费投入和GDP同时呈上升趋势的,这也进一步验证了本文所得相关性结论的正确性。
所以,我国加大RD经费投入将为我国的经济增长以及建设创新型国家方面起关键性作用。本文的分析结果为我国相关宏观经济政策的制定提供一定理论参考。
[1]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.
[2]史道济.相关系数与相关性[J].统计科学与实践,2002,(4):22-24.
[3]Sz′ekely G J,Rizzo M L,et al.Brownian distance covariance[J].The annals of applied statistics,2009,(4):1236-1265.
[4]Reshef D.N.,Reshef Y.A.,Finucane H.K.,Grossman S.R.,etc.Detecting Novel Associations in Large Data Sets[J].Science,2011,(6062):1518-1524.
[5]Speed T.A Correlation for the 21st Century[J].Science,2011,(6062):1502-1503.
[6]Efron B,Hastie T,Johnstone I,et al.Least angle regression[J].The Annals of statistics,2004,(2):407-499.
[7]宋琳曦.天津移动关键绩效指标MIC和LASSO分析及规则集成预测[D].天津:天津大学,2014.