杨师华
【摘要】致病位点的查找定位对研究遗传性疾病有非常重要的意义,其中对多性状标签组合关联分析问题的方法研究比较缺乏.本文构建的基于Lasso回归的遗传位点关联分析模型,不仅可以解决多标签关联分析问题,还兼顾了传统统计检验方法的准确性和机器学习方法的高效性.
【关键词】关联分析;Lasso回归;特征选取;多标签;遗传位点
遗传性疾病的关联遗传位点探测是生物信息主要研究的问题之一,它对遗传疾病的研究、诊断和药物研发等均起到至关重要的作用.遗传性疾病与遗传位点的关联分析是典型的“高维低样本”问题,人类全基因組中具有代表性的遗传位点至少上万个,然而与特定性状相关的样本往往只有几百到几千个.如何根据较少的样本数据在上万个遗传位点信息当中选取与性状关联的少数位点,是本文主要解决的问题.
全基因组关联分析普遍采用统计分析的方法.若检验单一位点在病例组和对照组的关联作用,多采用卡方检验和让步比,并通过多重假设检验进一步筛选[1].也有结合主成分分析构建位点与表现型之间的逻辑回归模型进行位点筛选,该模型灵活度更高,并且还能同时分析多个位点或其他影响因素的共同关联作用[2].复杂疾病由于是多种因素多个位点通过错综复杂的相互作用导致的,因此,其关联分析多采用随机森林等机器学习方法[3].上述方法基本只能用于单标签问题,即针对单一性状的位点关联分析.但有些研究需要分析多个性状共同相关的位点,因此,需要能用于多标签问题的关联分析.本文旨在构建能高效解决多标签关联分析问题的模型,分析数据来源于2016年全国研究生数学建模竞赛B题“具有遗传性疾病和性状的遗传位点分析”.
一、方法与模型描述
数据中给出了1 000个样本的10个相关联性状的信息及其相应的9 445个位点的编码信息,需要找出与10个性状共同关联的一个或几个位点.其中,每个性状的表现型用0或1表示,0为没有该性状,1为具有该性状,则一个样本的表现型信息可用十位的01组合表示,如0000000101.遗传位点信息由基因型表示,基因型分三种:XX、XY和YY,本文分别用0,1和2表示,该编码也代表了突变等位基因Y的个数.通过对原始信息的编码转换,就能获得计算机可以识别和计算的数据结构.
原始的样本表现型由10个0或1的性状编码组成,若把这10个性状编码作为训练标签,则对应多标签问题.本文把样本的表现型编码视为一个10位长的二进制编码,再把二进制编码表示为十进制编码,如0000000101的十进制编码为5,则每种性状组合对应一个十进制编码,这样就能把多标签问题转换为单标签问题.此外,由于9 445个位点信息中含有较多的冗余位点,所以需要剔除无效位点从而降低维度.在1 000个样本中十进制编码为0(即完全正常)的样本有300个,把非完全正常的样本设为患病组,完全正常的设为对照组,如果一个位点的基因型分布在患病组和对照组之间高度相似,说明该位点对患病与否影响不大,可视为无效位点.通过计算位点基因型分布的余弦相似度,去除相似度大于等于0.99的位点,最终得到244个有效位点.
接下来构建关于有效位点和十进制标签的Lasso回归模型.Lasso回归是Tibshirani[4]提出的一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于某个常数的约束条件下,使得残差平方和最小化.传统的逐步回归分析和AIC准则和BIC准则进行最优模型选择时,计算过程不但存在随机误差,而且会漏掉重要的变量,使得模型误差很大.Lasso的主要优点在于可以估计模型参数的同时选择特征变量,还保持良好的解释性能[5].Lasso回归模型具体描述如下:
目前解决Lasso问题最常用的算法是最小角回归算法,它寻求归一化正则路径是一种残差拟合的过程,在每次回归的基础上选择新的变量,这样就使得每次拟合的残差不断缩小.这种计算残差的方法把标签变量和已经选好的变量相互结合,因此,寻找Lasso方程最优解的过程也是特征选择的过程.
二、结果分析与总结
上述模型算法通过R软件实现并计算.当约束值λ足够大时,路径中将包含所有的特征变量,因此,选其接近1时所包含的位点,结果为:rs2273298,rs7543405,rs7368252,rs4646092,rs12145450,rs1883567,rs2143810,rs1541318,rs4391636,rs3013045,rs9659647,rs7555715,rs11121557和rs7522344.此结果与利用一般统计检验方法得到的结果基本一致,说明模型具有可靠性,同时能在保证准确性的前提下尽可能多地找出相关位点,说明它比一般统计方法效率更高.
【参考文献】
[1]凃欣,石立松,汪樊,等.全基因组关联分析的进展与反思[J].生理科学进展,2010(2):87-94.
[2]Yi H,Wo H,Zhao Y,et al.Comparison of dimension reduction-based logistic regression models for case-control genome-wide association study:principal components analysis vs.partial least squares[J].The Journal of Biomedical Research,2015(4):298-307.
[3]邹亮,黄琼,李骜,等.基于随机森林和富集分析的阿尔茨海默症GWA研究[J].中国科学:生命科学,2012(8):639-647.
[4]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J].Journal of the Royal Statistical Society,2011(3):267-288.
[5]胡一睿,曲荣华,徐佳静.Lasso与其他变量选择方法的模拟比较[EB/OL].北京:中国科技论文在线[2010-09-07].http:∥www.paper.edu.cn/releasepaper/content/201009-150.