张秋颖
摘 要: 首先梳理出科技产出能力的所有可能的影响因素,并在数据可获得的前提下,以2000-2008年为时间维,采集科技产出能力及其影响因素的相关数据,然后对科技产出能力及其影响因素之间的相互关系进行回归分析,并利用多元线性回归分析方法从所有相关因素中筛选出影响程度较高的因素,构建科技产出能力的影响因素与预测模型,并对模型进行检验。
关键词: 回归分析法 科技产出能力 影响因素分析 预测研究
一、回归分析理论简介
回归分析方法是多元统计分析的各种方法中应用最广泛的一种。它是处理多个变量间相互依赖关系的一种数理统计方法。
1.多元线性回归
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。多元回归分析方法是根据实际问题的要求,在众多相关变量中,考查其中一个或几个变量与其余变量的依赖关系。
2.多元线性回归模型
称此模型为经典多元线性回归模型,其中Y是可观测的随机向量,?藓是不可观测的随机向量,C是已知矩阵,β,σ是未知参数,并设n>m,且rank(C)=m+1.
3.回归预测的步骤
第一步:获取自变量和因变量的观测值。
第二步:绘制XY散点图。
第三步:写出带未知参数的回归方程。
第四步:确定回归方程中参数值。
第五步:判断回归方程的拟合优度。
第六步:进行预测。
4.回归模型的检验
(1)判定系数R
用来判断回归方程的拟合优度,通常可以认为当R大于0.9时,所得到的回归曲线拟合得较好,而当R小于0.5时,所得到的回归曲线很难说明变量之间的依赖关系。
(2)t统计量
如果对于某个自变量,其t统计量的p值小于显著水平(或称置信度、置信水平α),则可认为该自变量与因变量是相关的。
(3)F统计量
如果F统计量的P值小于显著水平(或称置信度、置信水平),则可认为方程的回归效果显著[1]。
二、回归分析法的应用
本文根据黑龙江省高校2000-2008年的理工类科技数据进行回归分析,文中数据来源于《历年统计年鉴》。我们将研究2000-2008年中影响黑龙江省高校科技产出能力的因素并作出回归模型,以便于预测其他年份的科技产出能力。
文中高校的科研产出能力用高校当年产出的论文与著作的加权和衡量,高校当年的经费使用情况我们采用当年经费支出的数据[3]。我们用Y来表示黑龙江省21所高校科技产出能力(单位:项),为黑龙江省21所高校当年经费支出总数(单位:百元),为黑龙江省高校当年投入的人员总数(单位:人)。把这九年的数据录入到SAS中,输出结果见表1[2]。
表1 输出结果
The REG Procedure
Model:MODEL1
Dependent Varible:y
Analysis of Variance
Sourc DF Sum of Squares Mean Square F Value pr>F
Model 2 46454159 23227079 11.61 0.0087
Error 6 12002893 2000482
Corrected Total 8 58457052
Root MSE 1414.38400 R-Square 0.7947
Dependent Mean 9727.88889 Adj R-Sq 0.7262
Coeff Var 14.53948
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value pr>|t|
Intercept 1 -348.67105 4372.23945 -0.80 0.4566
X1 1 0.00400 0.00082996 4.82 0.0030
X2 1 0.23290 0.11848 1.97 0.0969
表1的输出结果中截距项的p值为0.4566大于显著性水平α,显著性水平α取为0.05,截距项在模型中不显著,可以将截距项去掉,修改程序重新拟合模型,输出结果见表2。
表2 输出结果
The REG Procedure
Model:MODEL1
Dependent Varible:y
Analysis of Variance
Sourc DF Sum of Squares Mean Square F Value pr>F
Model 1 896874210 2095.20175 236.57 <0.0001
Error 7 13269242 1895606
Uncorrected Total 8 2103.98725
Root MSE 1376.81007 R-Square 0.9854
Dependent Mean 8.17193 Adj R-Sq 0.9957
Coeff Var 6.62214
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value pr>|t|
X1 1 0.00360 0.00709 84.58 <0.0001
X2 1 0.14238 0.00721 8.09 0.0030
1.回归方程
2.回归方程显著性检验的结果
均方误差MSE=13269242/7=1895606,它是模型中误差方差σ的估计;该表还给出检验统计量F值为236.57,P值小于0.0001,这表示拟合的模型是高度显著的,该模型解释了这组数据总变差中的主要部分。
3.回归系数显著性检验的结果
该输出中参数估计表不仅给出回归方程的系数,并给出检验∶β=0(i=0,1,…,m)的结果:见该图的最右边列Prob>|T|(即显著性概率P值),若给定α=0.05自变量x的P值均小于0.05,说明这个模型是高度显著的[4]。
4.有关的回归统计量
决定系数R=0.9854,标准差σ的估计量为1376.81007回归平方和U=896874210残差平方和Q=13269242.
输出的方差分析表显示,各项指标都较好,说明模型拟合较好,同时这是一个意义直观且便于应用的二元线性模型。模型表明:每年的综合成果数与当年用于课题的经费投入成正相关关系,即经费投入越多,相应的成果产出也较多;同时综合成果数与当年用于课题的人员投入也成正相关关系,也就是说,投入的人员多也意味着有较多产出,因而从这几年理工类课题的人员投入趋势看,其一直都在增加,各个高校似乎也抓住了这一规律。
当然,基于这一关系,我们便可以进行合理预测和控制。我们已知2009年黑龙江省高校投入的经费总数为2503876千元和人员投入的总数为35746人,应用以上模型预测2009年黑龙江省的综合成果总数14103.5项。而2009年综合成果总数的真实值为15308.8项。相对误差为7.9%,根据区间估计的理论我们可求出回归函数在x=2503876,x=35746处的值的置信水平为0.95的置信区间为[10464.66908,17742.26908]而我们的真实值又确实落在其中,所以又一次证明了我们的模型较好,我们可以通过这个模型进行预测,为政府部门的决策提供参考。
参考文献:
[1]李卫东.应用多元统计分析[M].北京大学出版社,2008.
[2]黄燕,吴平.SAS统计分析及应用[M].机械工业出版社,2005.
[3]蒋明.SAS软件在回归分析中的应用[J].计算机与农业,2003(8):15-16.
[4]刘仁义,陈士俊.高校教师科技绩效评价指标体系与权重[J].统计与决策(理论版),2007(3):135-137.