基于多元线性回归分析的高校在校大学生人数预测模型构建

2022-09-07 02:32:48秦秋生
科技风 2022年22期
关键词:回归方程线性显著性

秦秋生

广西农业职业技术大学 广西南宁 530007

1 多元线性回归分析及其基本原理

1.1 多元线性回归分析

为寻求一个近似数学表达式来描述若干个变量之间的相关关系,应用数理统计方法所进行的统计方法称为回归分析法,所求出的数学表达式通常称为回归方程模型。回归分析是确定两个或两个以上变量因素间相互依赖的定量关系的一种统计方法,在回归分析研究中,如果一个变量(我们称之为因变量或被解释变量)与其他若干个变量(我们称之为自变量或解释变量)之间存在线性相关关系,把这类线性回归分析称为多元线性回归分析。多元线性回归分析的主要思路是:对于给定的实际问题,找出某一个因素及对其有显著影响的其他若干几个因素,并通过从一组已知观测值出发,运用相关理论及统计软件对其进行方差分析后建立一个数学模型表达关系方式,进而对该模型的显著性、可信度和拟合优度及标准误差等进行统计检验。若检验通过,说明所建立的回归模型合理可靠,回归方程显著性好、拟合优度强,最后,用该回归模型对所给问题进行预测与控制,从而为做出某些决策提供参考和借鉴。

1.2 多元线性回归模型的一般形式

假设随机变量y与一般变量x1,x2,x3,…,xk的线性回归模型如下:

y=β0+β1x1+β2x2+β3x3+…+βkxk+ε

(1)

其中,未知参数为β0,β1,…,βk(共k+1个),线性回归常数为β0,线性回归系数是β1,…,βk;将y称为被解释变量(也叫因变量),而x1,x2,x3,…,xk是k个可以精确测量并可控制的一般变量,称为解释变量(即自变量)。k≥2时,称上式(1)为多元线性回归分析模型,ε是随机变量。

1.3 多元线性回归分析的模型检验

1.3.1 检验回归模型的拟合优度

对以上假设的多元线性回归模型,我们可以利用可决系数R2去度量样本回归线对样本观测值的拟合优度:

样本可决系数R2的取值为0≤R2≤1,R2的数值与1越接近,则回归方程的拟合优度越高,回归线性拟合的效果会越好;反之,如果R2的数值与0越接近,那么回归线性拟合的效果会越差。

1.3.2 统计量F检验回归方程的显著性

即要检验模型的自变量x1,x2,x3,…,xk从整体上对随机变量y是否有显著影响。提出假设:

H0:β1=β2=…=βk=0,H1:β1,β2,…,βk不全为零,为建立对H0进行检验的F统计量,利用总离差平方和的分解式即SST=SSR+SSE,构造F检验统计量如下:

在正态假设之下,当原假设H0:β1=β2=…=βk=0成立时,F服从F(k,n-k-1)分布。因此,可以利用F统计量对回归方程的总体进行显著性检验。给定显著性水平α,查F分布表,得到临界值Fα(k,n-k-1)。如果F>Fα(k,n-k-1),那么,假设H0被拒绝,此时表明回归效果显著;如果F≤Fα(k,n-k-1),那么,H0被接受,此时回归效果不显著。

此外,也可以根据输出的检验P值来判定回归方程的显著性:若p<α,则拒绝原假设H0从而采用假设H1,可见P值越小,即F统计量越大,则回归方程越显著。

2 利用多元线性回归分析模型对高校在校大学生人数预测

2.1 对影响普通高等学校在校大学生人数的因素的分析

为了构建普通高等学校在校大学生人数的预测模型,首先应分析在校大学生的人数所受的影响因素主要有哪些方面。一般而言,有条件接受高等教育的人数受政府对当地教育实施的政策、教育经费、当地的生产总值及人们生活水平、人们的观念、人们可支配收入、人均地区生产总值、招生人数、高校数量等因素的影响。本文主要先对定量因素进行分析,主要考虑当地每年的招生人数、人均地区生产总值GDP、高校的数量这三个影响较为显著的因素。由当地统计局网站中的统计年鉴,可得到2010—2020年间当地每年的高校在校大学生人数、招生人数、高校的数量、人均GDP的数据(见表1)。

表1 在校大学生人数的影响因素

2.2 在校大学生人数预测模型的建立

2.2.1 判别y与x1,x2,x3相关关系

为了大致分析y与x1,x2,x3的关系,首先,利用表1的数据分别作出y对x1,y对x2,y对x3的散点图,同时得出相应的相关系数值。

图1 y对x1的散点图

图2 y对x2的散点图

图3 y对x3的散点图

由上述图1~图3可知,y与x1,x2,x3都具有线性分布趋势,显示可决系数R2分别是0.984、0.942、0.934,相关系数分别为0.9920、0.9706、0.9664,均与1非常接近,可见,在校大学生人数y与这些因素x1、x2、x3的线性关系都很强,它们的趋势图形都是用线性模型拟合。因此可以考虑建立多元线性回归模型,进行多元线性回归分析。

2.2.2 在校大学生人数预测模型的建立

结合以上分析,可以初步建立如下最初的多元线性回归模型:

(2)

其中,β0、β1、β2、β3是待估计的参数。

运用Excel做多元回归分析,得到以下回归模型的统计结果与方差分析结果(详见表2和表3):

表2 回归模型的统计结果

表3 回归模型的方差分析结果

(3)

2.2.3 多元线性回归预测模型的检验

(2)回归方程显著性的F检验:查表α=0.05的临界值Fα(k,n-k-1)=F0.05(3,7)=4.35,F的值691.5825,远大于临界值4.35,检验P值为p=5.1262E-09<0.05,即检验P值小于显著水平α=0.05,可见,模型自变量x1、x2、x3从整体上对因变量y有显著性影响,可认为自变量与因变量有较强的线性关系。所以,可以认为线性回归效果好,回归方程整体是显著的。以上两种统计方法判断检验结果均合理、一致,则可说明回归模型是较科学合理,也更为准确。

2.2.4 利用模型对高校在校大学生人数的预测

根据最终多元线性回归预测模型(3),我们可以对以上某地区2010年至2020年的在校大学生人数进行预测同时,把模型预测值与实际观测值进行比较,可求出两者的绝对误差与相对误差(下表4)。

表4

从以上表格可以看出,实际观测值与模型预测值的绝对误差与相对误差都非常小,说明预测值与实际观测值很接近。而且,可以计算出2010—2020年这11年间平均相对误差仅为0.0099,即0.99%,准确程度高达99.01%,因此采用该线性回归模型预测高校在校大学生人数是合理可靠的。

结语

本文通过对多元线性回归分析的研究建立了某地区高校在校大学生人数预测模型,并对模型进行了有效的检验和预测,相对误差极小,准确程度较高,模型合理可用。若已知当地区2021—2025年每年的招生人数、人均地区GDP及高校数量,即可以利用以上预测模型预测该地区在“十四五”规划期间高校在校大学生人数规模,进而给当地政府在“十四五”规划期间制定高等教育招生、就业及高等教育质量和人才培养工作方面的政策提供借鉴和参考依据。

猜你喜欢
回归方程线性显著性
渐近线性Klein-Gordon-Maxwell系统正解的存在性
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
走进回归分析,让回归方程不再是你高考的绊脚石
基于显著性权重融合的图像拼接算法
电子制作(2019年24期)2019-02-23 13:22:26
二阶线性微分方程的解法
基于视觉显著性的视频差错掩盖算法
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定
知识产权(2016年8期)2016-12-01 07:01:32