基于XGBoost的质量性状基因互作检测方法

2020-07-04 02:27郭颖婕李傲刘晓燕郭茂祖

智能计算机与应用 2020年3期

郭颖婕李傲刘晓燕郭茂祖

摘要：在质量性状全基因组关联分析GWAS中，以基因作为研究单位的基因-基因相互作用检测方法，以其在统计效力与生物可解释性方面的优势备受关注。然而现有方法中多数对基因之间互作形式给出了强假设，降低了算法对互作关系的检测性能。针对已有方法存在的局限性，本文提出一种基于XGBoost的基因互作检测方法geXGB。XGBoost作为一种流行且高效的机器学习方法，可以拟合基因型数据与表型之间的作用关系，并利用预测概率与加和模型之间的偏差表征相互作用关系的程度。geXGB对相互作用形式不作假设，增强该方法对不同形式相互作用的检测能力。仿真与真实实验结果表明：该方法能够有效进行不同类型相互作用的检测，可以应用于全基因组关联研究。

关键词： XGBoost; 基因相互作用; 单核苷酸多态性位点; 质量性状; 全基因组关联分析

【Abstract】 Among the various statistical methods for identifying gene-gene interaction in qualitative genome-wide association studies （GWAS）， gene-based methods have recently grown in popularity as they confer advantages in both statistical power and biological interpretability. However， most of these gene-based methods make strong assumptions on the form of the relationship between traits and SNPs， resulting in limited statistical power. The paper proposes a gene-based method based on XGBoost， a popular and highly effective method in machine learning， to model the relationship between genotype and traits， and then measure the interaction of gene pairs by the deviation of the predicted probability from a multiplicative model. This method makes fewer assumptions on the exact form of interaction， which may overcome some of the shortcomings in previous methods. In experiments with both simulation study on pure and strict disease models and real world data， the proposed method outperforms previous approaches in detecting interactions accurately.

【Key words】 XGBoost; gene-gene interaction; single nucleotide polymorphism; qualitative trait; genome-wide association studies

0 引言

研究基因-基因相互作用已被證实对于揭示复杂性状遗传调控机制至关重要。目前已有许多基于SNP位点间相互作用的检测方法。统计类的检测方法通过设计表征相互作用强度的统计量，检测显著的相互作用关系，例如基于优势比（odds ratio，OR）的统计量[1]、基于连锁不平衡（linkage disequilibrium，LD）的统计量[2- 3]、基于单体型（haplotype）的统计量以及基于熵的统计量[4-5]等。另一类方法则采用人工智能方法的思想，例如采用将为技术的多因子降维方法（multifactor dimensionality reduction，MDR）[6]、基于树模型的TEAM（tree-based epistasis association mapping）方法[7]、通过优化存储策略加速计算的BOOST（Boolean operation-based screening and testing）方法[8]，以及基于贝叶斯理论的BEAM（Bayesian epistasis association mapping）系列方法[9]等。这些基于位点的检测方法面临最大的挑战是维数灾难。由于算法需要考虑所有的SNP或SNP组，成对或者高阶的相互作用关系检测次数随着相互作用关系阶数呈指数级增长，随之而来的对统计显著性的校正会导致统计效力的弱化。因此，本文研究以基因为单位，将一个基因中的所有SNP看做一个整体来检测基因-基因相互作用。

基因是生物功能表达的基本单位。基于基因的相互作用研究有3点明显的优势，可阐释分述如下。

（1）基于基因的方法可以大大减少所需的检验次数，20 000基因之间成对检测互作关系运算量远远小于300万SNP之间成对检测互作关系。

（2）2组基因之间可能存在多对SNP间的相互作用，组内的SNP之间也可能存在连锁不平衡关系，这些同时存在的作用关系会隐性地呈现在以基因为单位的模型中，更利于相互作用的检测。

（3）基于基因的方法可以更好地利用已有的生物学背景知识，缩小研究范围。例如可以检测那些蛋白质互作网络（protein-protein interaction，PPI）中已经呈现互作关系的蛋白质编码基因之间的关系，或者某个调控通路（pathway）内基因之间的相互作用关系。

目前，在以基因为单位的相互作用研究中，Peng等人[10]在疾病组与对照组中分别对2个基因进行典型相关性分析（Canonical Correlation Analysis，CCA），并设计统计量CCU来度量2个基因在疾病与对照组中相关性指标的差异程度，用于表征相互作用的强度。该方法的局限性在于CCA只能度量2个基因之间的线性关系。Larson等人[11]和Yuan等人[12]针对上述方法存在的问题，将CCU扩展到KCCU，在做典型相关性分析之前，将核函数作用在疾病和对照组中两个基因的数据上，从而增强模型对非线性关系的解释能力。Jin等人[13]提出了GBIGM，一种基于熵的非参数假设检验方法。通过分析2个基因共同作用时与考虑只有单个基因时的熵的变化（即信息增益），并利用随机置换类标签的方式获得相互作用的显著性p值。Emily[14]开发了AGGrGATOr，该方法首先计算两基因间所有SNP对的Wald统计值，并将一组Wald统计值结合成为一个显著性p值用于度量2个基因之间是否存在相互作用。此前，Ma等人[15]成功地将这一策略用于数量型性状的基因互作检测中。

本文中，研究提出一种基于机器学习算法eXtreme Gradient Boost（XGBoost）的相互作用检测方法geXGB（gene-base exchanged eXtreme Gradient Boost）。该方法使用交换策略产生新的测试数据集，并通过计算该测试集在训练过的XGBoost模型上的预测值与加和模型之间的偏差来度量相互作用关系的强度。geXGB无需对相互作用显式建模，因此可以检测到更多类型的互作关系。此外，geXGB作为一个非参数化模型，在数据驱动的全基因组关联研究中的应用更为灵活有效。

1 方法

1.1 基因互作检测问题描述

2 实验与结果

2.1 仿真数据生成

为了评估geXGB方法检测基因-基因相互作用性能，所有的模拟数据集中均设置了50个SNPs，其中有2个SNP之间有相互作用，此外48个SNPs是随机生成的。50个SNPs被分为5个基因，每个基因包含10个SNPs。2个相互作用的SNP被分在不同的基因里。本次研究按照方法是否可以将相互作用的基因排在第一位来衡量方法的性能。模拟中使用GAMETES软件[17]来生成基因型数据，该工具可以生成严格的相互作用模型，即相互作用的2个基因均不存在主效应。

模拟实验中，为了研究遗传率和样本大小对方法性能的影响，研究设置了2组不同的实验环境。第一类情况下，测试了5个不同的遗传率值（0.01，0.025，0.05，0.1，0.2）和2种不同的次等位基因频率（minor allele frequence，MAF）取（0.2，0.4）。這些模型的患病率均设置为0.2，样本大小设置为3 000;对于遗传率和MAF的10种参数组合，均生成10个模型，由此获得100个模型。对于每个模型生成100个数据集，由此共获得10 000个数据集。第二类情况下，固定遗传率为0.025，MAF为0.2和0.4，患病率为0.2，样本量为10 000。然后从10 000个样本中按照不同的样本大小无放回抽取样本生成新的样本集用于考察样本大小对方法性能的影响。数据集大小分别为 2 000，3 000，4 000和5 000。每个数据大小均生成100个数据集。

2.2 仿真实验结果

实验中选用了3种基于基因的基因互作检测方法作为对比方法，分别是：KCCU[11- 12]，AGGrEGATOr[14]和GBIGM[13]。对于每个模型下的100个数据集，如果方法将相互作用的一对基因排在第一位，则算作选中。方法在每个模型的统计效力用选中数据集的百分比来表示。

第一类模拟情况下各方法的统计效力值见表1。图3是表1数据的盒图。图4为4种方法在不同模型下的平均效力比较。表1中，粗体为每个模型下最优的方法效力值，值越大表明方法检测性能越好。由图4可知，geXGB具有最优的平均性能，在多数模型下都大幅超越其它对比方法。AGGrEGATOr在MAF=0.2且遗传率大于0.05的情况下可以达到与geXGB几乎相同的性能。但在更小的遗传率情况下，geXGB表现出更好的检测性能。当遗传率为0.01，MAF=0.2时，在6个模型上排位第一，在3个模型上排位第一;而相同遗传率情况下，当MAF=0.4时，geXGB与AGGrEGATOr排位第一的模型个数比为9：2。当MAF=0.4时，AGGrEGATOr在各模型下的平均效力要高于KCCU。但在某些模型下，当AGGrEGATOr效果不好时，统计效力甚至比KCCU还要低。从图3可以看出，相较于geXGB，AGGrEGATOr方法在各模型上的效力浮动各大，而geXGB则更为稳定。

此外，由图4可知KCCU与AGGrEGTOr具有相似的性能模式，但AGGrEGTOr普遍优于KCCU。GBIGM几乎无法检测到此类严格的相互作用关系，这个结果与Emily的模拟结果一致。

由模拟实验结果可知，本文提出的geXGB是一种十分有效的基因互作检测方法。较之其他对比方法，geXGB可以适用于更为广泛的遗传模型下基因互作的检测。

3 结束语

检测基因-基因相互作用的研究在阐明人类复杂疾病致病机理方面具有重要意义。本文提出一种基于XGBoost的方法geXGB用于检验基因间相互作用。研究定义基因型数据的对数优势比，将基因之间的互作转化为基因联合的对数优势比与单独基因函数之和之间的偏差。这一假设对基因之间互作形式没有限定，增强了方法可检测基因相互作用的类型。仿真数据实验结果表明，geXGB在遗传率、MAF与样本规模三个参数的多种组合设定下，均有优于其它对比方法的统计效力，且方法效力随遗传率、MAF和样本规模的增大呈现单调递增趋势。以上结果表明该方法在基因互作检测中的有效性。

參考文献

[1] EMILY M. IndOR： A new statistical procedure to test for SNP-SNP epistasis in genome-wide association studies[J]. Statistics in Medicine， 2012， 31（21）： 2359.

[2]WU Xuesen， DONG Hua， LUO Li， et al. A novel statistic for genome-wide interaction analysis[J]. PLoS Genetics， 2010， 6（9）： e1001131.

[3]UEKI M， CORDELLL H J. Improved statistics for genome-wide interaction analysis[J]. PLoS Genetics， 2012， 8（4）： e1002625.

[4]DONG Changzheng， CHU Xun， WANG Ying， et al. Exploration of gene–gene interaction effects using entropy-based methods[J]. European Journal of Human Genetics：EJHG， 2008，16（2）： 229.

[5]KANG Guolian， YUE Weihua， ZHANG Jifeng， et al. An entropy-based approach for testing genetic epistasis underlying complex diseases[J]. Journal of Theoretical Biology， 2008， 250（2）： 362.

[6]RITCHIE M D， HAHN L W， MOORE J H. Power of multifactor dimensionality reduction for detecting gene-gene interactions in the presence of genotyping error， missing data， phenocopy， and genetic heterogeneity[J]. Genetic Epidemiology， 2003， 24（2）： 150.

[7]ZHANG Xiang， HUANG Shunping， ZOU Fei， et al. TEAM： Efficient two-locus epistasis tests in human genome-wide association study[J]. Bioinformatics， 2010， 26（12）： i217.

[8]WAN Xiang， YANG Can， YANG Qiang， et al. BOOST： A fast approach to detecting gene-gene interactions in genome-wide case-control studies[J]. American Journal of Human Genetics， 2010， 87（3）： 325.

[9]CORDELL H J. Detecting gene-gene interactions that underlie human diseases[J]. Nature Reviews Genetics， 2009， 10（6）： 392.

[10]PENG Qianqian， ZHAO Jinghua， XUE Fuzhong. A gene-based method for detecting gene-gene co-association in a case-control association study[J]. European Journal of Human Genetics：EJHG， 2010， 18（5）： 582.

[11]LARSON N B， JENKINS G D， LARSON M C， et al. Kernel canonical correlation analysis for assessing gene-gene interactions and application to ovarian cancer[J]. European Journal of Human Genetics：EJHG， 2014， 22（1）： 126.

[12]YUAN Zhongshang， GAO Qingsong， HE Yungang， et al. Detection for gene-gene co-association via kernel canonical correlation analysis[J]. BMC Genetics， 2012， 13： 83.

[13]JIN Li， HUANG Dongli， GUO Mazu， et al. A gene-based information gain method for detecting gene-gene interactions in case-control studies[J]. European Journal of Human Genetics， 2015， 23（11）： 1566.

[14]EMILY M. AGGrEGATOr： A gene-based gene-gene interActTiOn test for case-control association studies[J]. Statistical Applications in Genetics and Molecular Biology， 2016， 15（2）： 151.

[15]MA L， CLARK A G， KEINAN A. Gene-based testing of interactions in association studies of quantitative traits[J]. PLoS Genet， 2013， 9（2）： e1003321.

[16]CHEN Tianqi， GUESTRIN C. XGBoost： A scalable tree Boosting system[C]//the 22nd ACM SIGKDD International Conference.San Francisco， CA， USA：ACM，2016：785.

[17]URBANOWICZ R J， KIRALIS J， SINNOTT-ARMSTRONG N A， et al. GAMETES： A fast， direct algorithm for generating pure， strict， epistatic models with random architectures[J]. BioData Mining， 2012， 5（1）： 16.

智能计算机与应用2020年3期

智能计算机与应用的其它文章: 生物信息学方法预测增强子及其作用位点综述; 基于可变参数滑模控制的四旋翼无人机的姿态控制; 一种面向不确定极大团枚举的高效验证算法; 基于ERNIE的命名实体识别; 基于有限范围内自发光特征物的机器人双目定位研究; 改进布谷鸟算法在锂电池剩余寿命预测中的应用