林盼盼, 张凤月, 王立春
(北京交通大学理学院,北京 100044)
线性模型是现代统计学中应用最为广泛的模型之一,生物、医学、经济和管理等领域的众多现象都可以用线性模型近似描述.目前,关于其无约束条件下的参数估计方法已经十分成熟,但在许多情况下,需要对约束条件下的回归参数进行估计.约束条件可能是真实的,例如,经济计量中支出份额模型要求支出总和等于收入或者成本函数中投入价格的总和为常数;约束条件也有可能是假定的,例如,解决复共线性时往往会对参数施加约束条件.众所周知,当回归自变量存在着近似线性关系时,最小二乘估计表现不理想,有时某些回归参数的估计的绝对值异常大,有时回归参数的估计值的符号与问题的实际意义相违背等.因此,在约束条件下对回归参数进行估计具有重要意义.
线性贝叶斯估计是由Rao[1]首先提出并且持续受到关注,相关的文献有[2-4].Wei 和Zhang[5]在加权平方损失下获得了回归参数的线性贝叶斯估计,并且证明了在均方误差矩阵准则和Pitman closeness 准则下线性贝叶斯估计相对于最小二乘估计的优越性;进一步,Zhang 等[6]研究了分块线性模型中回归参数的线性贝叶斯估计的优良性;Qiu 等[7]考察了平衡损失下回归参数的线性贝叶斯估计.然而,上述文献关注的多是无约束条件下回归参数的估计问题.
本文主要结合贝叶斯方法讨论在约束条件下的回归参数的估计问题,提出了回归参数的线性贝叶斯估计并论证其优越性.文章安排如下:第2 节,提出线性贝叶斯估计的表达式;第3 节,考察其性质;第4 节,借用蒙特卡洛模拟和实际数例佐证其性质;第5 节,给出结论.
考虑下面的约束线性模型
其中rank(X)=p, rank(R)=m <p,σ2为方差参数.
若d ̸= 0,设β0是(2)式的特解,有R(β −β0) = 0.令β1= β −β0,上述模型可以转变为
这里y1=y −Xβ0,故(2)式中只考虑d=0 的情形.
将所有满足约束条件的β 记为集合Gβ={β :Rβ =0},那么,由约束条件可知
这里M(R′)⊥表示R′的列向量张成的子空间M(R′)的正交补空间.因此,可将β 与无约束最小二乘估计ˆβ =(X′X)−1X′y 建立如下关系式
由于A 列满秩,所以τ 的广义最小二乘估计为
从而β 的约束最小二乘估计为
和
将(7)式代入下式,有
此处
为对称幂等矩阵.定理证毕.
假设π(β)为参数β 的先验分布,并满足下列条件
由(11)式可得b=(I −B)E(β)=(I −B)µ,因此
这里H =A[A′(X′X)A]−1A′,且我们利用了下列事实
和
下面给出线性贝叶斯估计的性质:
和
因此,由无偏性的定义有
由协方差矩阵的定义有
将B =Σ(σ2H +Σ)−1代入上式并化简得
于是,由(17)和(20)式有
注意到,由σ2H+Σ ≥Σ >0 可推得(σ2H+Σ)−1≤Σ−1,因此,Σ(σ2H+Σ)−1Σ ≤Σ.从而
定理证毕.
证明 由均方误差矩阵的定义知
和
由(23)式和(24)式知
定理证毕.
本小节利用蒙特卡洛模拟阐明线性贝叶斯估计的优越性.
设模型如下
其中rank(X)=p, rank(R)=m <p,σ2为方差常数.
若根均方误差越小,则说明相对应的估计量对真值近似的效果越好.
其中
由(9)式可获得剩余参数βp−m的先验分布π(βp−m),再和样本似然函数f(y|βp−m)结合来获得βp−m的后验分布f(βp−m|y).为了研究先验分布的类型对估计量估计效果的影响,对于β 选取两种先验分布:正态先验和均匀先验,且为了便于比较,两种分布在模拟时选取的均值与协方差矩阵相等.
情形1由于β 具有正态先验,导出剩余参数βp−m具有正态先验Np−m(β0,Σ0),从而βp−m的后验为
此为正态分布Np−m(β1,Σ1),其中
C1和C2为常数.
情形2由于β 具有均匀先验,导出剩余参数βp−m具有均匀先验,即βp−m在区域D 上服从均匀分布,从而βp−m的后验为
此为截断的正态分布Np−m(β2,Σ2)ID(βp−m),其中ID(βp−m)为示性函数,C3和C4为常数.
注意到二次损失下,βp−m的贝叶斯估计为后验均值.在表1 至表4 中,我们针对不同的β 维数和不同约束条件个数的组合进行了模拟.
表1: p=2 和m=1 时,估计量的根均方误差
表2: p=3 和m=1,且剩余参数的各分量先验独立时,估计量的根均方误差
表3: p=3 和m=1,且剩余参数的各分量先验不独立时,估计量的根均方误差
表4: p=3 和m=2 时,估计量的根均方误差
由表1 至表4 可知,当β 的维数、约束条件个数和先验分布相同时,三种估计量与真值β 的距离随着样本量的增大均有减小的趋势,表明随着样本信息增多,估计效果越好;此外,从表1、表2 和表3 中可以发现,正态先验分布下LBE与BE近似相等,且它们与β 的距离均小于CLS与β 的距离,而均匀先验分布下ˆβLBE与β 的距离小于CLS和BE与β 的距离.还可以发现,无论βp−m的各分量独立与否,LBE均有着良好的近似效果.进一步,在表4 中,三种估计量与真值的距离近似相等且与表2 和表3 对比存在明显减小,此表明随着约束条件增多,有关回归参数的信息增加,LBE、CLS和BE的近似差异逐渐减小.总体来看,线性贝叶斯估计不仅具有显示表达式,其在模拟方面也要优于约束最小二乘估计和贝叶斯估计,而且对于先验分布的改变具有一定的稳健性.
下面研究当先验参数改变时,估计量的根均方误差的变化情况.这里考察正态先验下的情形,取p = 2 和m = 1,且选取的先验均值相同、相关系数相同,但先验的方差不同,如表5 所示.
表5: 正态先验分布的参数取值
表6: 正态先验分布下,ˆβCLS 和ˆβLBE 的根均方误差
图1: 正态先验分布下,根均方误差随样本量的变化
下面用硅酸盐水泥的数据来验证我们的结论.数据来自于文献[8],并且被Hamaker[9],Gorman 和Toman[10]以及Nomura[11]广泛分析.数据主要探究的是硅酸盐水泥在凝固和硬化过程中产生的热量与四种化合物所占百分比的关系.这四种成分是:铝酸三钙、硅酸三钙、铁铝酸四钙和硅酸二钙,分别记为X1, X2, X3, X4.固化180 天后产生的热量用每克水泥所含的卡路里来计算,并用y 表示.Hald 和Friedman[8], Gorman 和Toman[10]以及Daniel 和Wood[12]对该数据用非齐次线性回归模型进行拟合,如公式(26),收集数据如下
其中矩阵X 是13×5,第一列为常数列,剩余4 列分别对应变量X1, X2, X3, X4,对应参数分别为β0, β1, β2, β3, β4,并且矩阵X′X 的特征值为
X′X 的条件数为最大特征值与最小特征值之比,即14372006,故可以认为矩阵X 存在严重的复共线性.根据Ka¸ciranlar 等[13]的建议,添加约束条件:β1−β2+β3=0,并且该约束条件在5%的显著水平下是不被拒绝的.令β3= −β1+β2,代入(26)式中,化为如下无约束模型
令
故
y =X1θ+ε, ε ~N13(0,σ2I13),
β =(β0,β1,β2,β3,β4)′的先验均值和协方差阵及相应的模拟结果如下:
这里βp−m各分量独立时计算所得
βp−m各分量不独立时计算所得
表7: 正态先验分布下CLS 及LBE 与BE 的距离
表7: 正态先验分布下CLS 及LBE 与BE 的距离
β E(β) Cov(β) ‖ˆβCLS −ˆβBE‖ ‖ˆβLBE −ˆβBE‖βp−m各分量独立 01210 4 0 0 0 0 0 9 0 −8 0 0 0 16 16 0 0 −8 16 25 0 0 0 0 0 25 141.190 0.024 βp−m各分量不独立 01210 4 0 0 0 −4 0 9 6 −2 0 0 6 16 10 0 0 −2 10 13 0−4 0 0 0 25 141.422 0.010
本文主要研究了约束线性模型中回归参数的线性贝叶斯估计的表达式及其性质,证明了线性贝叶斯估计相对于约束最小二乘估计的优越性,并利用蒙特卡洛模拟和数值实例验证了相关理论结果.