基于Lasso含缺失数据的高斯图模型的模型选择

2018-12-13 11:20:26陈婷长春工业大学数学与统计学院
消费导刊 2018年22期
关键词:坐标轴高维协方差

陈婷 长春工业大学数学与统计学院

一、引言

高斯图模型是一种基于高斯分布假设的无向循环图,也被称为协方差模型选择。Meinshausen and Bühlmann[1]使用Lasso的方法对高维稀疏图进行协方差选择。Yuan[2]将多元线性回归和协方差逆阵中的元素联系在一起,通过线性规划的方式有效地求解高维协方差逆阵的估计。Dempster[3]提出了EM算法,Jiang[4]等提出了E-MS算法,并证明了其收敛性和相合性。

本文主要给出了含有缺失数据的情况下基于E-MS算法的高斯图模型选择的具体步骤即相应的理论推导。第二部分为符号说明;第三部分为理论推导;第四部分为模拟实验;第五部分为结果分析。

二、符号说明

则领域选择问题就转化为求如下的Lasso回归模型:

三、理论推导

E-MS的领域选择算法原理:

为了把上式最小化,采用坐标轴下降法。

当含有缺失数据时,采用E-MS算法,需要进行E步和MS步,在E步中,给出单调下降序列,然后利用BIC准则选最优的。

MS步要进行模型选择最小化上式,用坐标轴下降法,易知期望中包含的项为:

算法步骤如下:

输入:观测数据矩阵X

1.观测样本的分布,按一定的缺失率进行随机缺失;

3.进行如下循环,直至收敛;

4.利用坐标轴下降法得到 的领域,根据完全数据阵Ex求一个图结构G;

5.利用IPS算法求出图结构的极大似然估计。

四、模拟实验

p表示顶点个数,表示样本容量,prec表示正确发现率,mcc表示马修斯系数,tpr表示特效度,tnr表示灵敏度,acc表示真值。在不同样本下进行分析,运用R软件,使用的软件包是:mvtnorm包、MASS包、Matrix包。

表4 .1 缺失率在10%时进行模拟的结果

五、结果分析

在表4.1中可以看出,当p=10时,随着n的个数的增大,prec的值在增大,说明正确发现率在提高,即估计出协方差中正确划分有边的个数与正确划分边的个数的比值在提升;tpr的值有所增大,即估计出的协方差中正确划分有边的个数同正确划分有边的个数与错误划分无边的个数的和的比值在提升;tnr的值有所增大,说明灵敏度在提高,即估计出的协方差中正确划分无边的个数同正确划分无边的个数与错误划分无边的个数的和的比值在提升;acc的值在增大,说明估计出的协方差中正确边的个数也在逐渐变多。当p=15时,随着n的个数的增大,prec、tpr、acc的值同p=10的情况一样,但灵敏度的值在减小,这是在今后的研究中需要改进的地方。

猜你喜欢
坐标轴高维协方差
用坐标轴平移妙解斜率和(或积)为定值问题
一种改进的GP-CLIQUE自适应高维子空间聚类算法
测控技术(2018年4期)2018-11-25 09:46:48
基于加权自学习散列的高维数据最近邻查询算法
电信科学(2017年6期)2017-07-01 15:44:37
巧用仿射变换妙解高考解析几何题
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器
自动化学报(2016年8期)2016-04-16 03:38:55
一种基于广义协方差矩阵的欠定盲辨识方法
一般非齐次非线性扩散方程的等价变换和高维不变子空间
高维Kramers系统离出点的分布问题
纵向数据分析中使用滑动平均Cholesky分解对回归均值和协方差矩阵进行同时半参数建模
关于协方差的U统计量检验法