王理峰
(南京铁道职业技术学院 数学系,南京 210031)
的定义为:若随机变量服从 p(x),则称p(x)dx为随机变量x的微分熵。
在分子生物学、分子物理学及化学中,热力学性质的计算(包括熵)是非常重要的问题。分子的内熵取决于内部原子的随机振动,其振动的幅度决定了热力学性质和分子的形状。为了计算分子的熵,研究者提出了许多概率模型,其中最简单的是正态分布模型。若p维随机变量的密度函数是:
的熵为:
在分子生物学中,通常用 Hp(∑)的极大似然函数(Mle)来估计熵Hp(∑),∑的极大似然估计为为样本协方差矩阵,n为随机样本的大小),则Hp(∑)的极大似然估计[1]。从统计学上看,定是最优的,可以找到更好的估计去代替它。
熵Hp(∑)的估计等价于估计ln | ∑ |,许多学者研究了广义协方差阵的行列式 | ∑ |以及 | ∑-1|的估计问题,对于ln | ∑ |的估计,Misra等(2005)[2]首次在二次损失下进行了研究。本文将在更具有广泛意义的Linex损失下给出ln| ∑ |的最优仿射同变估计δc*,研究其性质,通过计算观察δc*能否改进分子生物学中通常采用的极大似然估计,特别在高维情况下,δc*是否更具优良性。
为了以下计算和讨论的需要,首先介绍几个定义及引理。
定义1[1](:Wishart分布)若A~Wp(μ,∑),n>p,∑>0,则A的密度函数为:
定义2[1]:(逆Wishart分布)若 B~IWp(n,V),n>p ,V>0,则B的密度函数为:
引理1[1]:若 A~Wp(μ,∑),μ>p,∑>0,则:
引理2[1]:若V~Wp(n,∑),A~Wp(n,I),则:
其中 x[r]=x(x+1)…(x+r-1)。
引理3[1]:(1)若 A~Wp(n,∑),则 A-1~IWp(n+p+1,∑-1);(2)若 B~IWp(n,V),则 B-1~Wp(n-p-1,V-1)。
引理4[3]:(Jensen不等式),设测度 u(X)=1,f:X→(a,b)是可积函数,φ:(a,b)→R是凸函数,则:
引理5[4]:在给定的Bayes决策问题中,若给定先验分布 π(θ)下,θ 的 Bayes估计 δB(X)是唯一的,则它是可容许的。
令 X1,…,Xn为服从正态分布 Np(μ,∑)的随机样本分布 (n>p+1),其中 μ∈Rp,∑p×p> 都未知。利用 X1,…,Xn来估计熵估计,相应的
X、S相互独立,(X,S)为最小充分统计量,因此可仅通过(X,S)来估计ln | ∑ |。
下面介绍一下仿射同变估计,Hp(∑)的估计问题在下面的仿射变换下是不变的:(X,S)→(CX+D,CSC'),(μ,∑)→(Cμ+D,C∑C'),其中C 为任意的 p×p阶非奇异阵,D为 p×1维向量。在这种仿射变换下ln| ∑|→ln | ∑|+ln| C|2,因此要求估计δ(X,S)满足:对于任意的 p×p阶非奇异阵C、对于任意的 p×1维向量D,有:
称满足式(1)形式的估计δ(X,S)为仿射同变估计。
由Misra等(2005)[2]知,任意的仿射同变估计具有如下形式:
其中,c为某一实常数。ln| Σ|仿射同变估计不依赖θ=(μ,∑),若记损失函数为 L(δc,ln| ∑ |),则风险函数R(δc,θ)=EθL(δc,ln| ∑ |)=ΔR(δc),偏差 B(δc,θ)=ΔB(δc)。
若记损失函数为 L(δ,ln| ∑ |)=(δ-ln| ∑ |)2,ln| ∑ |的最优仿射同变估计为(证明详见Misra等[2]):
本文所采用的损失函数为 Linex损失,即L(δ,θ)=b{ea(δ-θ)-a(δ- θ)-1},它由Varian(1975)[5]提出来的。当 | a|足够小时,有Taylor展开知Linex损失变成二次损失,而b仅是一个系数,不失一般性,常假定b=1,关于Linex损失的性质详见Zellner(1986)[6]。本文中取a=1,此时 Linex损失为 L(δ,θ)=eδ-θ-(δ-θ)-1。
定理1:在Linex损失下,ln | ∑ |的最优仿射同变估计为:
而 Linex 损失为严格下凸函数,则 R(δc(X,S),θ)在 c*处取得唯一的最小值,最优仿射同变估计为δc*(X,S)=ln|S|-c*,综上即证。
下面的定理将说明最优仿射同变估计δc*也是Bayes估计。
定理2:当 (μ,∑)的先验分布为:
在Linex损失下,最优仿射同变估计δc*也是Bayes估计,并且是唯一的Bayes估计。
证明:给定(μ,∑)时,X~Np(μ,∑),S~Wp(N-1,∑),X、S独立,则(X,S)的似然函数为:
给定(X,S)时,(μ,∑)的后验分布为:
∑的后验分布为:
乘上正则化因子,∑的后验分布为:
由定义2知,∑~IWp(n+p,S),则由引理3知∑-1~Wp布。
在 Linex 损失下,后验风险为 E∑(L(δ,ln| ∑ |))= ∫L(δ,ln | ∑ |)P(∑|(X,S))d∑ ,令:
所以ln| ∑ |的Bayes估计为:
由于 Linex损失是严格下凸函数,则 δB是 E∑(L(δ,ln | ∑|))唯一的极小值点,即 δc*为ln | ∑ |唯一的 Bayes估计。
性质1:在仅依赖于 | S|的估计类中,最优仿射同变估计δc*为Linex损失下ln | ∑ |的可容许估计。
证明:由定理2知,在Linex损失函数下,最优仿射同变估计δc*也是Bayes估计,并且是唯一的Bayes估计。由引理5知,最优仿射同变估计δc*为ln| ∑ |的可容许估计。
plnn=c1,而 δc0(X,S)为 ln| ∑ |的无偏估计[2],由此可知最优仿射同变估计δc*和极大似然估计δc1都是ln| ∑ |的负的有偏估计,δc1比 δc*与ln | ∑ |偏离的远。
性质2:记则在Linex损失下,有如下结论:
(1)最优仿射同变估计 δc*与 ln | ∑ |的偏差为:B(δc*,ln|∑ |)=Eθ(δc*-ln | ∑ |)=c0-c*
(2)极大似然估计δc1与最优仿射同变估计δc*的绝对(n-i)为 p的增函数。
(3)最优仿射同变估计δc*的风险
(4)极大似然估计 δc1的风险
(5)极大似然估计δc1与最优仿射同变估计δc*的风险差 D(p)=R(δc1)-R(δc*)是 p(1≤p≤n-1)的增函数。
(6)Linex损失下,最优仿射同变估计δc*的风险最小,则 R(δc*)≤R(δc0)。
证明:(1)因为 δc0为 ln| ∑ |的无偏估计[2],所以 Eθ(δc0-ln| ∑|)=0。最优仿射同变估计 δc*与ln| ∑ |的偏差为:
(2)极大似然估计δc1与最优仿射同变估计δc*的绝对偏差为:
(3)在Linex损失下,最优仿射同变估计δc*的风险-c0+c*-1=c*-c0
(4)在Linex损失下,极大似然估计δc的风险为:
(5)极大似然估计δc1与最优仿射同变估计δc*的风险差记为 D(p)=R(δc1)-R(δc*),则:
当0<x<y<1时,由中值定理,∃ξ∈(x,y),lnx-lny
+lnn-ln(n-p-1)=ln(n-p-1)-lnn+lnn-ln(n-p-1)=0
即证 D(p)=R(δc1)-R(δc*)是 p(1≤p≤n-1)的增函数。
(6)由定理1知,R(δc*)为 R(δc(X,S))的唯一最小值,故 R(δc*)≤R(δc0)。
为了具体的度量最优仿射同变估计δc*对分子生物学中通常采用的极大似然估计δc1的改进程度,采用如下两个指标。
(1)极大似然估计δc1与最优仿射同变估计δc*的绝对偏差:
(2)极大似然估计δc1与最优仿射同变估计δc*的相对风险率:
对于不同的的n和 p(n≥p+1),计算 | B(δc1)-B(δc*)| 和RI(δc1,δc*),结果具体见表1。
从表1中可以看出,极大似然估计δc1和最优仿射同变估计δc*的绝对偏差与相对风险率随着维数 p的增加而增大,δc*改进了分子生物学中通常采用的极大似然估计δc1,特别是在高维(如分子遗传学)情况下,δc*更具有良性,另外对于比较大的 p,δc1与δc*相比和ln ||∑ 偏差越来越严重。
表1 不同n和p情况下,| B (δc1)-B(δc*)| 和 RI(δc1,δc*)比较