Linex损失下多元正态分布熵的最优仿射同变估计

2018-10-30 03:43王理峰

统计与决策 2018年19期

王理峰

（南京铁道职业技术学院数学系，南京 210031）

0 引言

的定义为：若随机变量服从 p(x)，则称p(x)dx为随机变量x的微分熵。

在分子生物学、分子物理学及化学中，热力学性质的计算（包括熵）是非常重要的问题。分子的内熵取决于内部原子的随机振动，其振动的幅度决定了热力学性质和分子的形状。为了计算分子的熵，研究者提出了许多概率模型，其中最简单的是正态分布模型。若p维随机变量的密度函数是：

的熵为：

在分子生物学中，通常用 Hp(∑)的极大似然函数(Mle)来估计熵Hp(∑)，∑的极大似然估计为为样本协方差矩阵，n为随机样本的大小），则Hp(∑)的极大似然估计[1]。从统计学上看，定是最优的，可以找到更好的估计去代替它。

熵Hp(∑)的估计等价于估计ln | ∑ |，许多学者研究了广义协方差阵的行列式 | ∑ |以及 | ∑-1|的估计问题，对于ln | ∑ |的估计，Misra等（2005）[2]首次在二次损失下进行了研究。本文将在更具有广泛意义的Linex损失下给出ln| ∑ |的最优仿射同变估计δc*，研究其性质，通过计算观察δc*能否改进分子生物学中通常采用的极大似然估计，特别在高维情况下，δc*是否更具优良性。

1 预备知识

为了以下计算和讨论的需要，首先介绍几个定义及引理。

定义1[1]（:Wishart分布）若A~Wp(μ，∑)，n＞p，∑＞0，则A的密度函数为：

定义2[1]：（逆Wishart分布）若 B~IWp(n，V)，n＞p ，V＞0，则B的密度函数为：

引理1[1]：若 A~Wp(μ，∑)，μ＞p，∑＞0，则：

引理2[1]：若V~Wp(n，∑)，A~Wp(n，I)，则：

其中 x[r]=x(x+1)…(x+r-1)。

引理3[1]：（1）若 A~Wp(n，∑)，则 A-1~IWp(n+p+1，∑-1)；（2）若 B~IWp(n，V)，则 B-1~Wp(n-p-1，V-1)。

引理4[3]：（Jensen不等式），设测度 u(X)=1，f:X→(a，b)是可积函数，φ:(a，b)→R是凸函数，则：

引理5[4]：在给定的Bayes决策问题中，若给定先验分布 π(θ)下，θ 的 Bayes估计 δB(X)是唯一的，则它是可容许的。

2 Linex损失下熵的仿射同变估计

令 X1，…，Xn为服从正态分布 Np(μ，∑)的随机样本分布 (n＞p+1)，其中 μ∈Rp，∑p×p＞都未知。利用 X1，…，Xn来估计熵估计，相应的

X、S相互独立，(X，S)为最小充分统计量，因此可仅通过(X，S)来估计ln | ∑ |。

2.1 仿射同变估计

下面介绍一下仿射同变估计，Hp(∑)的估计问题在下面的仿射变换下是不变的：(X，S)→(CX+D，CSC')，(μ，∑)→(Cμ+D，C∑C')，其中C 为任意的 p×p阶非奇异阵，D为 p×1维向量。在这种仿射变换下ln| ∑|→ln | ∑|+ln| C|2，因此要求估计δ(X，S)满足：对于任意的 p×p阶非奇异阵C、对于任意的 p×1维向量D，有：

称满足式（1）形式的估计δ(X，S)为仿射同变估计。

由Misra等（2005）[2]知，任意的仿射同变估计具有如下形式：

其中，c为某一实常数。ln| Σ|仿射同变估计不依赖θ=(μ，∑)，若记损失函数为 L(δc，ln| ∑ |)，则风险函数R(δc，θ)=EθL(δc，ln| ∑ |)=ΔR(δc)，偏差 B(δc，θ)=ΔB(δc)。

若记损失函数为 L(δ，ln| ∑ |)=(δ-ln| ∑ |)2，ln| ∑ |的最优仿射同变估计为（证明详见Misra等[2]）：

2.2 Linex损失函数

本文所采用的损失函数为 Linex损失，即L(δ，θ)=b{ea(δ-θ)-a(δ- θ)-1}，它由Varian（1975）[5]提出来的。当 | a|足够小时，有Taylor展开知Linex损失变成二次损失，而b仅是一个系数，不失一般性，常假定b=1，关于Linex损失的性质详见Zellner（1986）[6]。本文中取a=1，此时 Linex损失为 L(δ，θ)=eδ-θ-(δ-θ)-1。