Linex损失下多元正态分布熵的最优仿射同变估计

2018-10-30 03:43王理峰
统计与决策 2018年19期
关键词:增函数后验分子生物学

王理峰

(南京铁道职业技术学院 数学系,南京 210031)

0 引言

的定义为:若随机变量服从 p(x),则称p(x)dx为随机变量x的微分熵。

在分子生物学、分子物理学及化学中,热力学性质的计算(包括熵)是非常重要的问题。分子的内熵取决于内部原子的随机振动,其振动的幅度决定了热力学性质和分子的形状。为了计算分子的熵,研究者提出了许多概率模型,其中最简单的是正态分布模型。若p维随机变量的密度函数是:

的熵为:

在分子生物学中,通常用 Hp(∑)的极大似然函数(Mle)来估计熵Hp(∑),∑的极大似然估计为为样本协方差矩阵,n为随机样本的大小),则Hp(∑)的极大似然估计[1]。从统计学上看,定是最优的,可以找到更好的估计去代替它。

熵Hp(∑)的估计等价于估计ln | ∑ |,许多学者研究了广义协方差阵的行列式 | ∑ |以及 | ∑-1|的估计问题,对于ln | ∑ |的估计,Misra等(2005)[2]首次在二次损失下进行了研究。本文将在更具有广泛意义的Linex损失下给出ln| ∑ |的最优仿射同变估计δc*,研究其性质,通过计算观察δc*能否改进分子生物学中通常采用的极大似然估计,特别在高维情况下,δc*是否更具优良性。

1 预备知识

为了以下计算和讨论的需要,首先介绍几个定义及引理。

定义1[1](:Wishart分布)若A~Wp(μ,∑),n>p,∑>0,则A的密度函数为:

定义2[1]:(逆Wishart分布)若 B~IWp(n,V),n>p ,V>0,则B的密度函数为:

引理1[1]:若 A~Wp(μ,∑),μ>p,∑>0,则:

引理2[1]:若V~Wp(n,∑),A~Wp(n,I),则:

其中 x[r]=x(x+1)…(x+r-1)。

引理3[1]:(1)若 A~Wp(n,∑),则 A-1~IWp(n+p+1,∑-1);(2)若 B~IWp(n,V),则 B-1~Wp(n-p-1,V-1)。

引理4[3]:(Jensen不等式),设测度 u(X)=1,f:X→(a,b)是可积函数,φ:(a,b)→R是凸函数,则:

引理5[4]:在给定的Bayes决策问题中,若给定先验分布 π(θ)下,θ 的 Bayes估计 δB(X)是唯一的,则它是可容许的。

2 Linex损失下熵的仿射同变估计

令 X1,…,Xn为服从正态分布 Np(μ,∑)的随机样本分布 (n>p+1),其中 μ∈Rp,∑p×p> 都未知。利用 X1,…,Xn来估计熵估计,相应的

X、S相互独立,(X,S)为最小充分统计量,因此可仅通过(X,S)来估计ln | ∑ |。

2.1 仿射同变估计

下面介绍一下仿射同变估计,Hp(∑)的估计问题在下面的仿射变换下是不变的:(X,S)→(CX+D,CSC'),(μ,∑)→(Cμ+D,C∑C'),其中C 为任意的 p×p阶非奇异阵,D为 p×1维向量。在这种仿射变换下ln| ∑|→ln | ∑|+ln| C|2,因此要求估计δ(X,S)满足:对于任意的 p×p阶非奇异阵C、对于任意的 p×1维向量D,有:

称满足式(1)形式的估计δ(X,S)为仿射同变估计。

由Misra等(2005)[2]知,任意的仿射同变估计具有如下形式:

其中,c为某一实常数。ln| Σ|仿射同变估计不依赖θ=(μ,∑),若记损失函数为 L(δc,ln| ∑ |),则风险函数R(δc,θ)=EθL(δc,ln| ∑ |)=ΔR(δc),偏差 B(δc,θ)=ΔB(δc)。

若记损失函数为 L(δ,ln| ∑ |)=(δ-ln| ∑ |)2,ln| ∑ |的最优仿射同变估计为(证明详见Misra等[2]):

2.2 Linex损失函数

本文所采用的损失函数为 Linex损失,即L(δ,θ)=b{ea(δ-θ)-a(δ- θ)-1},它由Varian(1975)[5]提出来的。当 | a|足够小时,有Taylor展开知Linex损失变成二次损失,而b仅是一个系数,不失一般性,常假定b=1,关于Linex损失的性质详见Zellner(1986)[6]。本文中取a=1,此时 Linex损失为 L(δ,θ)=eδ-θ-(δ-θ)-1。

2.3 Linex损失下熵的最优仿射同变估计

定理1:在Linex损失下,ln | ∑ |的最优仿射同变估计为:

而 Linex 损失为严格下凸函数,则 R(δc(X,S),θ)在 c*处取得唯一的最小值,最优仿射同变估计为δc*(X,S)=ln|S|-c*,综上即证。

3 最优仿射同变估计的性质

下面的定理将说明最优仿射同变估计δc*也是Bayes估计。

定理2:当 (μ,∑)的先验分布为:

在Linex损失下,最优仿射同变估计δc*也是Bayes估计,并且是唯一的Bayes估计。

证明:给定(μ,∑)时,X~Np(μ,∑),S~Wp(N-1,∑),X、S独立,则(X,S)的似然函数为:

给定(X,S)时,(μ,∑)的后验分布为:

∑的后验分布为:

乘上正则化因子,∑的后验分布为:

由定义2知,∑~IWp(n+p,S),则由引理3知∑-1~Wp布。

在 Linex 损失下,后验风险为 E∑(L(δ,ln| ∑ |))= ∫L(δ,ln | ∑ |)P(∑|(X,S))d∑ ,令:

所以ln| ∑ |的Bayes估计为:

由于 Linex损失是严格下凸函数,则 δB是 E∑(L(δ,ln | ∑|))唯一的极小值点,即 δc*为ln | ∑ |唯一的 Bayes估计。

性质1:在仅依赖于 | S|的估计类中,最优仿射同变估计δc*为Linex损失下ln | ∑ |的可容许估计。

证明:由定理2知,在Linex损失函数下,最优仿射同变估计δc*也是Bayes估计,并且是唯一的Bayes估计。由引理5知,最优仿射同变估计δc*为ln| ∑ |的可容许估计。

plnn=c1,而 δc0(X,S)为 ln| ∑ |的无偏估计[2],由此可知最优仿射同变估计δc*和极大似然估计δc1都是ln| ∑ |的负的有偏估计,δc1比 δc*与ln | ∑ |偏离的远。

性质2:记则在Linex损失下,有如下结论:

(1)最优仿射同变估计 δc*与 ln | ∑ |的偏差为:B(δc*,ln|∑ |)=Eθ(δc*-ln | ∑ |)=c0-c*

(2)极大似然估计δc1与最优仿射同变估计δc*的绝对(n-i)为 p的增函数。

(3)最优仿射同变估计δc*的风险

(4)极大似然估计 δc1的风险

(5)极大似然估计δc1与最优仿射同变估计δc*的风险差 D(p)=R(δc1)-R(δc*)是 p(1≤p≤n-1)的增函数。

(6)Linex损失下,最优仿射同变估计δc*的风险最小,则 R(δc*)≤R(δc0)。

证明:(1)因为 δc0为 ln| ∑ |的无偏估计[2],所以 Eθ(δc0-ln| ∑|)=0。最优仿射同变估计 δc*与ln| ∑ |的偏差为:

(2)极大似然估计δc1与最优仿射同变估计δc*的绝对偏差为:

(3)在Linex损失下,最优仿射同变估计δc*的风险-c0+c*-1=c*-c0

(4)在Linex损失下,极大似然估计δc的风险为:

(5)极大似然估计δc1与最优仿射同变估计δc*的风险差记为 D(p)=R(δc1)-R(δc*),则:

当0<x<y<1时,由中值定理,∃ξ∈(x,y),lnx-lny

+lnn-ln(n-p-1)=ln(n-p-1)-lnn+lnn-ln(n-p-1)=0

即证 D(p)=R(δc1)-R(δc*)是 p(1≤p≤n-1)的增函数。

(6)由定理1知,R(δc*)为 R(δc(X,S))的唯一最小值,故 R(δc*)≤R(δc0)。

4 最优仿射同变估计与极大似然估计的数值对比

为了具体的度量最优仿射同变估计δc*对分子生物学中通常采用的极大似然估计δc1的改进程度,采用如下两个指标。

(1)极大似然估计δc1与最优仿射同变估计δc*的绝对偏差:

(2)极大似然估计δc1与最优仿射同变估计δc*的相对风险率:

对于不同的的n和 p(n≥p+1),计算 | B(δc1)-B(δc*)| 和RI(δc1,δc*),结果具体见表1。

从表1中可以看出,极大似然估计δc1和最优仿射同变估计δc*的绝对偏差与相对风险率随着维数 p的增加而增大,δc*改进了分子生物学中通常采用的极大似然估计δc1,特别是在高维(如分子遗传学)情况下,δc*更具有良性,另外对于比较大的 p,δc1与δc*相比和ln ||∑ 偏差越来越严重。

表1 不同n和p情况下,| B (δc1)-B(δc*)| 和 RI(δc1,δc*)比较

猜你喜欢
增函数后验分子生物学
中国生物化学与分子生物学会2022年活动计划表
SPOC混合教学模式下分子生物学课程思政建设探索
一个对数不等式的改进
一种基于折扣因子D的贝叶斯方法在MRCT中的应用研究*
基于贝叶斯理论的云模型参数估计研究
我为高考设计题目(2)
高考导数模块过关卷答案与提示
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
ABO亚型Bel06的分子生物学鉴定
基于后验预测分布的贝叶斯模型评价及其在霍乱传染数据中的应用