基于R语言回归分析的教育统计应用研究

2015-11-22 03:00张毅宁
鞍山师范学院学报 2015年2期
关键词:因变量回归方程线性

张毅宁

(鞍山师范学院物理科学与技术学院,辽宁鞍山114007)

变量之间的相互关系大致可分为两种类型,即函数关系和相关关系.函数关系是指变量之间存在的相互依存关系,可用函数表达出来;相关关系是指变量的数值变化不存在完全确定的依存关系.相关关系包括平行关系和依存关系.相关分析主要刻画两类平行关系变量间相关程度,两类变量不分因变量与自变量.回归分析不仅要对依存关系分析自变量与因变量的影响,而且还要根据回归方程进行预测和控制.回归分析是确定两个或两个以上变量间相互定量关系的一种统计分析方法[1].回归分析是统计学的核心,在教育统计的应用十分广泛,现将回归分析教育应用实例运用R语言加以分析.

1 回归分析的分类

数理统计的对象是数据变量,数据变量尺度可分为:定类尺度(Norminal)变量(或哑变量)、定序尺度(Ordinal)变量、定距尺度(Interval)变量、定比尺度(Scale)变量(或连续型变量).变量的级别也从低到高,一般上级变量可以加入下一级变量的分析.按自变量的多少,可分为一元和多元回归分析;按自变量和因变量之间的关系类型,可分为线性和非线性回归分析.从实用的数据变量的类型可对回归分析做如表1的分类[2].

表1 基于数据类型应用的回归类型表

2 线性模型

线性回归模型就是指因变量和自变量之间的关系是直线型的.其数据必须满足以下统计假设:

(1)正态性:对于固定的自变量值,因变量值成正态分布;(2)独立性:自变量值之间相互独立;(3)线性:因变量与自变量之间为线性相关;(4)同方差性:因变量的方差不随自变量的水平不同而变化[3].分析过程还包括参数估计、显著性检验和回归诊断等.

实例分析:对表2中学生身高、体重、胸围与坐高数据,分析体重与其他变量的关系.

2.1 多元线性回归模型

多元线性回归模型是一元线性回归即经典回归的拓展.R语言处理二者方法基本一致.R语言实现如下:

library(car);mydata=read.table("clipboard",header=T);mylm1=lm(weight~.,mydata)mystep=step(mylm1);summary(mystep),运行结果见表3.

表2 学生身体状态表(局部)

表3 回归系数

Residual standard error:2.16 on 27 degrees of freedom

Multiple R-squared:0.8959,Adjusted R-squared:0.888 2

F-statistic:116.2 on 2 and 27 DF,p-value:5.435e-14

vif(mylm1)#vif(膨胀因子)大于10说明存在复共线性#

height为 6.561 357,chest为 2.589 136,sit为 7.865 129,均小于 10,则其多元线性回归方程

2.2 回归诊断

回归诊断主要检测其正态性:normalQ-Q;线性:Residuals vs Fitted(残差图与拟合图);同方差性:Scale-Location Graph(位置尺度图)与 Residuals vs Leverage(残差与杠杆图)[4].R 语言实现如下:par(mfrow=c(2,2));plot(mystep)其运行结果如图1.

2.3 回归统计分析数学方法

普通最小二乘回归是现今最常见的回归统计分析数学方法.但当两个或两个以上变量存在共线性时,处理方法还包括:岭回归(ridge regressioin),lasso回归,适应性lasso回归和偏最小二乘回归[5].这些笔者另文讨论.

3 广义线性模型

广义线性模型是线性模型的推广.此模式假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由链结函数建立起可解释其相关性的函数.R语言glm()的参数[6]使用见表4.

表4 R语言链结函数表

3.1 Logistic 模型

实例分析:对表5中某教学机构(3名教师teacher:1,2,3)、学业水平较低的学生(原两科成绩,score1,score1)进行考试辅导(辅导时间time:月,辅导方法method:1,2),对是否通过入学考试进行Logistic模型广义线性模型分析.

表5 教学机构教学情况表(局部)

R 语言实现如下:mydata=read.table("clipboard",header=T)

myglm=glm(entrance~score1+score2+time+method+teacher,mydata,family="binomial")mystep=step(myglm);summary(mystep)运行结果如表6.

表6 回归系数

p=e(-4.3271+0.1192*score1-2.9654*teacher)/(1+e(-4.3271+0.1192*score1-2.9654*teacher)),其中 Intercept没有达到显著值.

3.2 poisson 模型

实例分析:对表7中收入水平income(高中低:1,2,3)、教学满意程度satisfy(满意、不满意:1,2)分别对应的人数number进行poisson模型广义线性模型分析.

表7 不同收入水平教育满意程度表

R 语言实现如下:mydata=read.table("clipboard",header=T)

myglm=glm(number~.,family=poisson(link=log),mydata);summary(myglm)运行结果如表 8.

表8 回归系数Coefficients

4 非线性回归

统计数学模型因变量与自变量之间的回归关系函数不是线性的,也不能通过转换的方法将其变为线性的参数.这类模型称为非线性回归模型.

实例分析:对表9中多组学生随时间(天数)英语单词记忆率进行非线性回归分析[7].

表9 学生英语单词记忆率表

4.1 R语言一元非线性回归

R 语言实现如下:mydata=read.table("clipboard",header=T)

mylm2=lm(remember~day+I(day^2),mydata);mylmlog=lm(remember~log(day),mydata);

mylmexp=lm(log(remember)~day,mydata);mylmpow=lm(log(remember)~log(day),mydata);

par(mfrow=c(2,2))

plot(mydata$day,mydata$remember);lines(mydata$day,fitted(mylm2));

plot(mydata$day,mydata$remember);lines(mydata$day,fitted(mylmlog));

plot(mydata$day,mydata$remember);lines(mydata$day,exp(fitted(mylmexp)));

plot(mydata$day,mydata$remember);lines(mydata$day,exp(fitted(mylmpow)));

par(mfrow=c(1,1))#结果填入表10,保留两位小数,下同#

summary(mylm2)$coef summary(mylm2)$r.sq;summary(mylmlog)$coef;

summary(mylmlog)$r.sq;summary(mylmpow)$coef;summary(mylmpow)$r.sq;

summary(mylmexp)$coef;summary(mylmexp)$r.sq

运行结果见图2.

表10 一元非线性回归方程与结果

4.2 R语言多元非线性回归

针对表10中指数曲线模型不可用,采用多元指数非线性回归以改善其回归方程[8,9].R语言实现如下:

mynlsexp=nls(remember~a+(0.49-a)*exp(-b*(day-8)),mydata,start=list(a=0.1,b=0.01));plot(mydata$day,mydata$remember);lines(mydata$day,fitted(mynlsexp));

summary(mynlsexp2)其运行结果如图3,表11.其模型为:

表11 多元非线性回归参数Parameters

5 展望

R语言在教学中的应用,既能让学生感受统计学的基本原理,又能让学习者感受到计算机辅助的便捷性.教育回归分析是统计学应用的重要组成部分之一,R语言回归分析函数十分丰富,其中还有一些回归方法如决策树回归、boosting回归、人工神经网络回归、支持向量机回归等在教育教学中的应用仍有待于进一步研究与应用.

[1]回归分析.百度百科[EB/OL].http://baike.baidu.com,2014-05-10.

[2]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.

[3]Robert I.Kabacoff.R 语言实战[M].北京:人民邮电出版社,2013.

[4]吴喜之.复杂数据统计方法:基于R的应用[M].北京:中国人民大学出版社,2013.

[5]薛毅.统计建模与R软件[M].北京:清华大学出版社,2007.

[6]汤银才.R语言与统计分析[M].北京:高等教育出版社,2008.

猜你喜欢
因变量回归方程线性
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
二阶整线性递归数列的性质及应用
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
非齐次线性微分方程的常数变易法
线性回归方程知识点剖析
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛