基于R软件的LPRE和LS估计的比较

2019-02-27 11:54刘惠篮明浩
读与写·教育教学版 2019年1期

刘惠篮 明浩

摘 要:《应用回归分析》是统计专业本科生的必修课程,编程能力也是统计专业学生所需具备的一项专业技能。本文,基于统计软件R,比较LS(最小二乘)与LPRE(最小乘积相对误差)估计。一方面强调学生R编程能力,另一方面通过随机模拟分析,让学生进一步理解高斯马尔科夫定理。

关键词:LPRE估计 LS估计 R软件 应用回归分析

中图分类号:G642 文献标识码:A 文章编号:1672-1578(2019)01-0016-02

1 引言

《应用回归分析》是一门重要的本科生专业课,线性模型是一类重要的回归模型。LS估计是线性模型中最重要的估计之一。同时高斯马尔科夫定理保证了LS估计在一定的条件下(高斯马尔科夫条件),是最小方差线性无偏估计。

R软件是一种统计软件,由于其完全免费性,及强大作图能力,受到广大统计工作者的喜爱。通过学习统计软件,能让学生更加灵活的处理实际问题。理论与实际相结合,能够让学生更好的理解课程中的知识点。

本文通过编写函数,随机模拟,比较LS估计与LPRE估计的表现。可以提高学生对R软件的使用能力,加强学生对高斯马尔科夫定理的理解。

2 模型简介

线性模型是回归分析中最重要的一类模型,其结构如下:

Y=Xβ+ε (1)

其中,Y是n×1维因变量,X是n×p维自变量样本矩阵,β是p×1维未知参数,ε是n×1随机误差向量。

现实中,有些响应变量的取值范围是非负的,此时如果仍用线性模型对数据进行分析,是不合理的。对模型可考虑使用乘积模型,形式如下:

Y=exp(Xβ)+ε (2)

其中,Y是n×1维非负因变量,X是n×p维自变量样本矩阵,β是p×1维未知参数,ε是n×1维非负随机误差向量。

Chen等(2016)在最小化乘积相对误差(LPRE)的思想下,考虑了乘积模型的参数估计问题。具体来说,需要求取,使得

达到最小。通过简单计算可得:

LPRE(β)

由于最后一项与β无关,因此可以考虑最小化以下的目标函数:

LPRE(β)=Yiexp(-Xiiβ) +Yi-1exp(Xiiβ)-2

以上的LPRE函数是关于的非线性且无限次可微函数。R软件中的nlm函数,可用于求解多元变量非线性函数的极小值点。编写LPRE函数:

LPRE=function(X,Y){

n=nrow(X);p=ncol(X)

c=lm(log(Y)~X+0)$coeff

obj=function(t){

sum(Y*exp(-X%*%t)+(1/Y)*exp(X%*%t))

}

beta=nlm(obj,c)$estimate

# Reporting

result = list(betahat=beta)

return(result)

}

观察模型(2),两边同时取对数,可以得到如下线性模型:

logY=Xβ+logε (3)

该模型的响应变量为logY,随机误差为logε,其中ε是正的随机误差向量。对于线性模型(3),我们可以得到其LS估计:

=(XTX)-1XT(logY)

3 数值比较

我们考虑如下的乘积模型,设置样本量为30,自变量的维数为3,参数β的真实值为(3,1.5,2),每一个自变量都来源于随机产生的标准正态分布随机数,且随机误差是来自于[0.5,1.608]上的均匀分布随机数(保证E(ε)=E(ε-1),此条件为LPRE估计满足渐近正态性所需条件)。有了以上的数据,就可以得到乘积模型中Y的值。

为了比较说明LPRE方法和LS方法的效果,我们重复试验500次,记录下两种方法的MSE,相关代码如下:

n=30;p=3;beta=c(3,1.5,2)

X=matrix(,n,p);Y=rep(0,n);epsion=rep(0,n)

MSE_LPRE=0;MSE_LS=0

BetaLPRE=matrix(,500,p)

BetaLS=matrix(,500,p)

for(a in 1:500){

for(j in 1:p){

X[,j]=rnorm(n)

}

epsion=runif(n,0.5,1.608)

Y=exp(X%*%beta)*epsion

BetaLPRE[a,]=LPRE(X,Y)$betahat

BetaLS[a,]=lm(log(Y)~X+0)$coeff

MSE_LPRE=as.vector(t(as.vector(BetaLPRE[a,])-beta)%*%(as.vector(BetaLPRE[a,])-beta))+MSE_LPRE

MSE_LS=as.vector(t(as.vector(BetaLS[a,])-beta)%*%(as.vector(BetaLS[a,])-beta))+MSE_LS

}

得到LPRE方法和LS方法500次模拟的平均MSE分别为:

> MSE_LPRE/500

[1] 0.01199179

> MSE_LS/500

[1] 0.01226336

通過比较可以发现, LPRE估计的MSE(0.01199)小于LS估计的MSE(0.01226),也就是说,在这种情况下,LPRE估计的效果比LS估计的效果好。

这是由于以上的例子中,随机误差是来自于[0.5,1.608]上的均匀分布,logε不满足高斯马尔科夫条件,在这种情况下,LPRE估计优于了LS估计。

4 结语

通过在《应用回归分析》课程中,介绍近年来统计学工作者的一些研究工作,通过R软件实现相应结果,并和最小二乘方法相比较,让学生提高编程能力,并认识到LS估计并不是在所有情况下都优于其他方法。

参考文献:

[1] 唐年胜,李会琼.应用回归分析[M].科学出版社,2014.

[2] 何晓群.多元统计分析(第四版)[M].中国人民大学出版社, 2015.

[3] 薛毅,陈丽萍. 统计建模与R软件[M].清华大学出版社,2007.

[4] Chen K. Lin Y. Wang Z. Ying Z. Least product relative error estimation[J].Journal of Multivariate Analysis,2016,144:91-98.

[5] 胡大海.基于乘积相对误差准则的模型研究[D].中国科学技术大学,2017.

作者简介:刘惠篮(1988-),贵州贵阳人,女,博士,贵州大学数学与统计学院讲师,研究方向:统计建模。

明浩(1997-),河南信阳人,男,贵州大学数学与统计学院学生,研究方向:统计建模。