王硕杨 陈锐峰
山东大学
基因与寿命关系的统计分析
王硕杨 陈锐峰
山东大学
在人体众多基因当中,人类的寿命只与某些特定的基因高度相关。本文以两组独立的基因组,每组200个基因作为研究对象,通过线性回归模型的方法,对众多基因进行筛选,找到与人体寿命高度相关的基因。额外的,本文还应用了广义相关性测量的方法对基因进行筛选,通过结果的对比比较找到最佳的结果。
基因;制药;线性回归;一般相关性测量
本文首先检验所用数据的正态性,即所用数据是否满足正态假设。筛选自变量是本文研究的重中之重,首先本文采用了线性回归的思想和方法筛选自变量。在第一部分中,本文采取了前进法、后退法以及逐步回归的方法,结合AIC、BIC作为基本准则,对自变量进行筛选。进而,本文采用交叉验证的方法对得到的多个结果进行优化。
线性回归过程:
1.1boxcox变换
1.2数据清理:本文采用R语言中的函数OutlierTest() 与cook's distance的理论来检验异常值,最终遵循保守的做法,保留下了除去因变量缺失或为0以外的所有数据。
1.3多重共线性的检测:研究发现,一些自变量具有非常大的VIF值,进而本文发现多重共线性普遍存在于自变量之间,进而本文需做进一步的改善来消除多重共线性。
1.4自变量筛选:自变量的筛选是线性模型中最重要的一部分。本文采用了前进法、后退法以及逐步回归法的方法筛选自变量,并且均分别结合了AIC、BIC作为筛选准则。对于以上提及的两种准则,试验分别产生了3个线性回归模型。然后,本文通过交叉验证的方法,将两组数据组分别分成10个片段,找到使得CV值达到最小的模型作为本文该部分的最佳模型。
1.5线性回归模型结论
剩余寿命作为因变量:基于交叉验证的模型:就第一组数据组而言,基于AIC准则并采用前进法的模型被认为是自变量选择的最佳模型。就第二组数据组而言,基于AIC准则并采用后退法的模型被认为是自变量选择的最佳模型。筛选模型之后,明显发现多重共线性得到了显著的改善,VIF图也证实了这一说法。基于lasso回归的模型:就第一组数据组而言,最终保留下了4个高度相关的自变量(基因):PYY, FLJ20323, FNDC4, CELP;就第二组数据组而言,最终保留下了6个与因变量高度相关的基因:BRP44L, PYY,FNDC4, SLC38A3, CASKIN2, SPIN。
2.1函数选择
2.2GMC过程
选择一个函数。 设定λ1和λ2的值,或者设定单个λ的值。 然后预先规定一个参考值,选取跑完数据之后自变量系数大于该规定的参考值的自变量,记录下筛选出来的自变量的指数,将其余的自变量的系数设定为0. 随后通过筛选出的自变量的系数计算出广义相关性测量的值。改变λ1和λ2的值,或者改变单个λ的值, 重复第二至第四三个步骤。 通过循环改变λ1和λ2的值(或者是改变单个λ的值)100次,找到结果最大的广义相关性测量的值并找到相应的自变量,即本文得到的最终的模型。这些得到的自变量便是与因变量高度相关的基因组。基于不同的预定的模型,重复步骤1至步骤6的过程,对每个模型找到使得广义相关性测量达到最大值的自变量及广义相关性测量的值,进而进行比较。
2.3GMC 模型结论
剩余寿命作为因变量:方法1:当采用函数g3(x)= x3时,两个数据组的广义相关性测量达最大值,并且值比其他四个函数均大恨多。因此最终本文选择模型函数g3(x)= x3。方法2: 对于第一个数据组,当采用函数g4(x)= ex时,广义相关性测量达最大值。此时函数g3(x)= x3同样可以得到非常大的结果。对于第二个数据组,当采用函数g3(x)= x3时,广义相关性测量达最大值。因此总的而言,函数g3(x)= x3最稳定,即为本文的最佳选择。
函数的选取在GMC的运用中是至关重要的,不同的函数可能会得到迥异的广义相关性测量的值。从最终的结果我可以知道,当本文选取二次或三次函数时,得到的结果要优于其他函数得到的结果,尤其是三次函数表现最佳。这也就是说,因变量和拟合值之间很有可能是存在二次方或者三次方的关系的。同时本文注意到,因变量与自变量之间的相关关系也有可能因为R优化的局限性而被隐藏。举个例子说明,广义相关性测量的值在第二种方法中采用指数函数关系时突然变得很大,当出现这样的情况时,我还需要做进一步的检测。额外地,当本文对beta的值进行两次优化时,结果会变得更高效,即广义相关性测量的值会变得更大,然而这样得到的结果非常接近于1,即失去了方法存在的意义。最后,本文还直接对总体自变量进行了抽样选取,但结果发现这样得到的结果不能覆盖所有可能得到的结果,甚至不到其十分之一。
[1]Carroll, R. J. and Cline, D. B. H. (1988). An asymptotic theory for weighted least- squares with weights estimated by replication. Biometrika,75, 35-43.
[2]Carroll, R. J. and Ruppert, D. (1984). Power transformations when ftting theoret- ical models to data. J. Am. Stat. Assoc, 79, 321-328.
王硕杨(1994-),男,汉族,山东省青岛市人,数学学士,单位:山东大学,研究方向:数理统计。
陈锐峰(1994-),男,汉族,重庆市人,学生,统计学士,单位:山东大学,研究方向:数理统计。