基于最优线性无偏预测任意协方差下估计错误发现率

2018-06-15 06:46王湘玉张宝学齐春香
统计与决策 2018年10期
关键词:假设检验协方差线性

王湘玉,张宝学,齐春香

(1.河北科技师范学院 工商管理学院,河北 秦皇岛 066004;2.首都经济贸易大学 统计学院,北京 100070;3.东北师范大学 数学与统计学院,长春 130024)

0 引言

多重假设检验是高维统计推断的基本问题,也是目前统计研究的热点问题之一,应用的领域非常广泛。比如,在金融学中,需要对数以万计的原假设同时进行检验,用以确定哪个客户经理的能力更强。再如,在全基因组相关性研究中,希望在大量的基因数据中找到与某性状或疾病相关的SNP位点,同样需要同时对数以万计的原假设进行检验。而在进行多重假设检验的过程中,一个非常重要的问题,就是如何更好地控制总体的错误率。

Benjamini和Hochberg(1995)[1]提出了多重假设检验的FDR标准(E[V/R],即在m个原假设中,错误拒绝的原假设个数V占拒绝的原假设个数R的比例的期望)。之后,Storey(2002)[2]、Efron(2010)[3]等众多学者对FDR进行了更为深入的研究。然而大部分的研究往往都是基于原假设相互独立为前提。但是这种假设往往较为严苛,很难达到。因为实际问题中的原假设通常具有某种相关性。举例来说,如果某个原假设是显著的,那么在它附近的其他原假设就有更大的可能性也是显著的。

也有一些学者针对原假设相关的情况做了一些研究,比如Benjamini和Yekutieli(2001)[4]在正回归相依情况下研究了FDR的估计问题。再如,Storey等(2004)[5]在弱相关情况下估计FDR。但是这些相关关系都过于特殊,急需找到一种在原假设的任意相关情况下的FDR估计方法。

Fan等(2012)[6]提出了一种任意协方差结构下的FDP(False Discovery Proportion,即V/R)估计方法。然而在估计随机变量W时,将其当作参数,采用L1估计方法。实际上,所得的模型是一个混合效应模型,对此,本文基于最优线性无偏预测方法,估计随机变量W,进而提出一种新的FDP估计方法,最终估计FDR。

1 最优线性无偏预测

最优线性无偏预测[7]是针对混合效应模型,估计随机变量的一种方法。对于混合效应模型y=Xβ+Zu+ε,其中y是有N个观测的向量;X是N×p的已知矩阵;β是p×1的未知向量(p个未知常数),看作固定效应部分;Z是N×q的已知矩阵;u是q×1的随机向量,看作随机效应部分;ε是随机误差项,是N×1的随机向量。

显然有 E(u)=0,E(ε)=0 ,定义:

Var(u)=D'Var(ε)=R'Cov(u'ε')=0

因此,V=Var(y)=Var(Zu+ε)=ZDZ'+R

Henderson(1950)[8]得到β和u的最优线性无偏预测:

由公式[9]可得:

2 基于最优线性无偏预测估计FDP

2.1 理论分析

定义由n个样本构成的第j个SNP位点的基因型数据为个样本的表现型数据为Y=(Y1' …'Yn)T。现考虑和的边际线性回归可以得到βj的最小二乘估计。

这样可以同时检验p个假设:

其中,原假设表示第j个SNP位点与性状无关。

将标准化,记为 Z1'…'Zp,则有其中是 X 相关系数矩阵,∑的第(k ' l)个元素为rkl,对角元素为1。

因此,检验问题(2)等价于:

通过对∑进行特征分解,得出其中 λ1≥…≥λp是 ∑ 的p个特征值,γ1'…'γp是对应的p个特征向量,那么这样 Zi可被分解成:

其中k。W1'…'Wk相互独立,且与K1'…'Kp独立。W=(W1…,

对于混合效应模型(4),当 y=Z'X=0'Z=L'u=W'D=Ik'R=A时,带入式(1)可得:

针对混合效应模型(4),取前75%p(记为m)个最小的对应m个最小的 | μi|,并且将L的分量对应排序后,取前m行,从而对应有的形式,取A=A11,这样可以将这些 ||Zi看成是在原假设式(6)下:

其中Z是有m个观测值的m×1向量是m×k矩阵;W 是k×1随机向量,是随机效应部分;K是m×1随机向量,是随机误差项。并且有,V=Var(Z)=∑=Var(LW+K)=LL'+A。

Tipping和Bishop(1999)[10]基于高斯潜在变量角度提出下述概率模型,此模型体现了主成分分析的思想:

其中

在原假设下,

因此,将模型(6)替代为模型(7),有:

进而由式(5)可得到W 的估计为:

下面估计σ2,Z的密度函数是:

似然函数为:

对数似然函数为:

由得到:

从而得到:

最终可以估计σ2,带入式(8)中得出:

这时,可以得出任意协方差结构下的FDP估计:

其中是标准正态分布的累积分布函数是标准正态下的分位数,ηi的估计记为。

2.2 模拟及结果

检验统计量现考虑以下六种模型下的协方差阵结构。其中,Xi产生过程分别如下:

(1)等相关模型其中 ∑为对角元素是1,其余元素是1/2的矩阵。

(2)Fan和Song[6]的模型令N(0'1),且:

其中

(3)独立柯西模型:对于是独立同分布的柯西分布的随机变量,其中x0=0'γ=1。

(4)三因子模型:对于 X=(X1'…,Xp),取 Xj=ρ(1)Wj(1)其 中

(5)双因子模型:对于 X=(X1'…'Xp),取其中

(6)非线性因子模型:对于取

其中

令SNP位点个数 p=1000,n=100'σ=2,错误的原假设个数 p1=50,原假设下 β0=0,备择假设下 β1=1,做1000次模拟。上述六种相关模型下的FDP估计值与真值比较结果如图1所示。

图1

图2为六种模型的FDP估计值与真值的相对误差(即

图2

从模拟结果可以看出,本文给出的FDP估计值在真值附近波动,理论上合理。

3 结论

多重假设检验是高维统计推断的基本问题,也是目前统计研究的热点问题之一,应用领域十分广泛。比如,金融领域内,要得知哪个客户经理的能力更强。再如,全基因组相关性的研究中,要在大量的基因数据中寻找与性状或疾病相关的SNP位点,往往都需要同时对数以万计的假设进行检验。而在进行多重假设检验问题时,往往需要控制总体错误率FDR。棘手的是,实际问题中的原假设往往具有一定相关性。对此,本文提出一种新的估计FDR的方法,即在检验统计量的任意协方差结构下,对混合效应模型使用最优线性无偏预测方法估计随机变量W,从而估计FDP,进而估计FDR。模拟表明,本文给出的FDP估计值在真值附近波动,理论上比较合理。

但是由于采用最优线性无偏预测的方法,估计FDP在运算速度上不够快捷,还有待在今后的研究中进一步地完善。

[1]Benjamini Y,Hochberg Y.Controlling the False Discovery Rate:A Practical and Powerful Approach to Multiple Testing[J].Journal of the Royal Statistical Society,SeriesB,1995,(57).

[2]Storey J D.,A Direct Approach to False Discovery Rates[J].Journal of the Royal Statistical Society,2002.

[3]Efron B.Correlated Z-Values and the Accuracy of Large-Scale Statistical Estimates[J].Journal of the American Statistical Association,2010,(105).

[4]Benjamini Y,Yekutieli D.The Control of the False Discovery Rate in Multiple Testing Under Dependency[J].The Annals of Statistics,2001,(29).

[5]Storey J D,Taylor J E,Siegmund D.Strong Control,Conservative Point Estimation and Simultaneous Conservative Consistency of False Discovery Rates:A Unified Approach[J].Journal of the Royal Statistical Society,2004,(66).

[6]Fan J,Han X,Gu W.Estimating False Discovery Proportion Under Arbitrary Covariance Dependence[J].Journal of the American Statistical Association,2012.

[7]王松桂,史建红,尹素菊,吴密霞.线性模型引论[M].北京:科学出版社,2004.

[8]Henderson C R.Estimation of Genetic Parameters[J].Ann.Math.Statist.,1950,(21).

[9]Benameur S,Mignotte M,Destrempes F,et al.Estimation of Mixtures of Probabilistic PCA with Stochastic EM for the 3D Biplanar Reconstruction of Scoliotic Rib Cage[J].Image Processing,2004,(5).

[10]Tipping M E,Bishop C M.Probabilistic Principal Component Analysis[J].Journal of the Royal Statistical Society,1999.

猜你喜欢
假设检验协方差线性
线性回归方程的求解与应用
假设检验结果的对立性分析
高效秩-μ更新自动协方差矩阵自适应演化策略
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
基于高频数据的大维金融协方差阵的估计与应用
ℝN上带Hardy项的拟线性椭圆方程两个解的存在性
用于检验散斑协方差矩阵估计性能的白化度评价方法
统计推断的研究
二维随机变量边缘分布函数的教学探索