基于Logistic回归惩罚函数的遗传位点分析

2021-11-20 00:32庄虹莉
计算机时代 2021年11期

DOI:10.16644/j.cnki.cn33-1094/tp.2021.11.003

摘  要: 探讨将基于惩罚函数的变量选择方法应用到遗传位点分析。以2016年9月16日的全国研究生数学建模竞赛B题的数据为例,首先对每个位点的碱基对(A、T、C、G)编码方式数值化处理,最后用数值化后的数据进行建模,并将单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与遗传性疾病显著相关的遗传位点,分别与出题者提供的标准答案进行对比,结果显示双层变量选择Logistic cMCP模型能够准确的定位到与遗传性疾病显著相关的遗传位点。因此将其运用到具有遗传性疾病和性状的遗传位点分析是值得研究的。

关键词: Logistic回归; 惩罚函数; cMCP; 遗传位点

中图分类号:O          文献标识码:A     文章编号:1006-8228(2021)11-09-03

Genetic locus analysis based on penalty function in Logistic regression

Zhuang Hongli

(JINSHAN College of  Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)

Abstract: Discuss the application of the penalty function based variable selection method in genetic locus analysis. Taking the data of question B of the National Graduate Mathematical Modeling Competition on September 16, 2016 as an example, the base pair (A, T, C, G) coding method of each site is numerically processed, and modeling with final numerically processed data, the univariate selection Logistic SCAD, the group variable selection Logistic Group SCAD model, and the two-layer variable selection Logistic cMCP model are located to genetic sites that are significantly related to genetic diseases, and compare with the standard answers provided by the questioner. The results show that the two-layer variable selection Logistic cMCP model can accurately locate genetic sites that are significantly related to genetic diseases. Therefore, applying it to the analysis of genetic locus with genetic diseases and traits is worth studying.

Key words: Logistic regression; penalty function; cMCP; genetic locus

0 引言

人體中携带的DNA是人的遗传密码的载体。DNA由分别带有A,T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子,基因则是DNA长链中有遗传效应的一些片段,在这些片段中有一些特定位置的单个核苷酸经常发生变异引起DNA的多态性,我们称之为位点[1]。通过大量研究表明,人体的许多表现型性状差异以及对药物或者是否患病等都可能与某些位点相关联或多个位点的基因相关联。常用的统计方法多要求样本量要远大于变量数,而在基因数据中解释变量的维数往往远大于样本量即“大[p]小[n]”数据,导致传统的统计方法不再适用。

基于惩罚函数的变量选择是在线性回归模型的参数估计中,在原有的最小二乘或极大似然函数的基础上加入惩罚函数项得到新的惩罚目标函数[2],从而实现变量选择和参数估计。惩罚函数的变量选择方法的优点在于:能同时实现变量选择和参数估计,从而计算效率高,而且当[p?n]时,均保持优良的性质。目前已有成青(2014)在“大[p]小[n]”的基因数据上应用岭回归、LASSO以及弹性网分析了数据的稀疏性[3]。本文将惩罚函数的单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与遗传性疾病显著相关的遗传位点。

1 惩罚函数的变量选择[2]

1.1 Logistic回归模型

对于普通线性回归的Logistic模型,条件概率可表示为:

其中[X]为解释变量;[y]为响应变量;成功概率[p=p1,p2,…,pnT],[pi]是指取第[i]次观测值时因变量为1的概率;[β0]为截距,[β]为解释变量的系数向量。

Logistic回归分析通常通过最大似然法实现参数估计,最大似然函数:

在似然函数中加入不同惩罚项,就得到不同的惩罚函数的变量选择方法。

1.2 单变量选择LogisticSCAD

SCAD是由Fan和Li[4]提出的一种在Lasso基础上发展的非凹的惩罚函数,是实现单个变量选择方法。将SCAD加载到Logistic模型中,就得到LogisticSCAD。

其中[ptβj]是SCAD的惩罚项,定义如下:

其中[t>0]为罚参数,[α>2]为调整参数。

1.3 组变量选择Logistic Group SCAD

Wang等[5]提出了Group SCAD惩罚的方法,将Group SCAD加载到Logistic模型中,就得到Logistic Group SCAD。

其中[pt]是SCAD的惩罚项。这里提到的惩罚项都是[L2]的惩罚项,组间可以进行变量选择,组内不可以进行变量选择。

1.4 双层变量选择Logistic cMCP

组变量选择的时候具有“All-In, All-Out”的特点。而双层变量选择方法对其进行改进,使之既能在选择组变量的同时对组内变量进行选择。

在Huang等[6]和Liu等[7]中提出了复合MCP (composite MCP,cMCP)惩罚的方法,将cMCP加载到Logistic模型中,就得到Logistic cMCP。

2 数据预处理

本文数据来源于2016年9月16日的全国研究生数学建模竞赛B题。数据是针对某种遗传疾病,提供了1000个样本信息,包括是否患病信息(0表示正常,1表示患病),每个样本均包含9445个位点的编码信息,以及其对应的基因信息。竞赛题目要求:首先对每个位点的碱基(A、T、C、G)编码方式数值化处理,最后用数值化后的数据定位到与该疾病最有可能的一个或多个致病位点。

采用碱基(A、T、C、G)的编码方式获取每个样本每个位點的信息,每个位置只有三种编码方式。如在位点rs100015位置,不同样本的编码都是T和C的组合,有三种编码方式TT、TC和CC,因此采用三个不同的数字进行数值化,即将TT数值化为1,TC数值化为0,CC数值化为-1,将9445个位点做同样的处理。该数值化方法符合杂合子为0,纯合子为1或-1的遗传生物学的背景,该数值化方法是合理的。

3 结果分析

由于提供的数据集中响应变量是0或1,符合Logistic模型,现对Logistic模型实现变量选择。数据集中包含9445个位点(解释变量),1000个样本,典型的“大[p]小[n]”,传统的方法失效。庄虹莉等人详细研究了惩罚函数的变量选择应用到Logistic模型实现变量选择的可行性[8],且精度较高。因此,本文直接将惩罚函数的Logistic模型应用于定位与该疾病最有可能的一个或多个致病位点。

由于Logistic Group SCAD和Logistic cMCP惩罚函数变量选择方法是组变量的选择,因此需对解释变量进行分组,本文通过位点所在的基因片段进行分组,即将解释变量分成300组。

将惩罚函数单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与该遗传性疾病显著相关的遗传位点,并得到相应的效应估计值(参数估计)和显著性检验。详细见表1。

对表1进行分析,得到Logistic cMCP的效果较Logistic SCAD和Logistic Group SCAD更好。

⑴ Logistic SCAD模型的[p<2.19×10-8],Logistic Group SCAD模型的[p<2.19×10-8],,Logistic cMCP模型的[p<2.2×10-16],均通过检验,说明惩罚函数的变量选择应用到Logistic模型实现与该疾病最有可能的一个或多个致病位点的定位具有可行性。

⑵ 针对出题者给出的rs2273298位点是该疾病最有可能的一个致病位点,三种方法均定位到了这个位点,但是Logistic SCAD多定位14个位点,Logistic Group SCAD多定位到8个位点,Logistic cMCP多定位到5个位点,而Logistic cMCP将最少的不显著变量选入模型,模型的复杂度较小,因此cMCP-L是效果最好,而多定位的5个位点可能也是后期研究该疾病致病的可能因素。

4 总结

本文将基于惩罚函数的变量选择方法应用到遗传位点分析。以2016年9月16日的全国研究生数学建模竞赛B题的数据为例,考虑到给定的样本数据是典型的“大[p]小[n]”,传统方法失效,而惩罚函数的变量选择可以很好的处理这类数据,实现SNP致病位点的识别,且结构更加精简,预测精度和稳健性能提升。因此本文将单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与遗传性疾病显著相关的遗传位点,均与出题者提供的标准答案进行对比,结果显示Logistic cMCP模型能够准确的定位到与遗传性疾病显著相关的遗传位点,模型的复杂度更小,计算效率较高。但本文仅分析建模的数据,该数据噪音较小,下一步将惩罚函数的变量选择方法应用于实际实验数据研究。并且基于惩罚函数的双层变量选择方法对于具有组效应的高维问题可以进行有效地处理,这为大数据时代下的高维数据处理奠定了基础。

参考文献(References):

[1] 潘东东,李正帮,张维等.全基因组关联研究综述[J].应用概

率统计,2014.1:84-103

[2] 姜叶飞.惩罚变量选择方法比较分析及其在信用卡信用风

险中的应用[D].厦门大学,2014.

[3] 成青.高维基因数据中的变量选择[D].西南交通大学,2014.

[4] Fan J, Li R. Variable Selection via Nonconcave Penalized

Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association,2001.96(456)1348-1360

[5] Wang L, Chen G, Li H. Group SCAD regression analysis

for microarray time course gene expression data.[J]. Bioinformatics,2007.23(12):1486-1494

[6] Huang J, Breheny P, Ma S. A Selective Review of Group

Selection in High-Dimensional Models[J]. Statistical Science A Review Journal of the Institute of Mathematical Statistics,2012.27(4):481-499

[7] Liu J, Huang J, Ma S. Integrative Analysis of Multiple

Cancer Prognosis Datasets Under the Heterogeneity Model[M].Topics in Applied Statistics. Springer New York,2013:3509-3521

[8] 庄虹莉,李立婷,林雨婷,温永仙.基于Logistic回归惩罚函数

的疾病诊断[J].中国卫生统计,2017.34(1):139-143