CpG岛识别算法综述

2018-09-04 09:37李梦琪黄岚翟光超翟文豪吴环
软件导刊 2018年6期

李梦琪 黄岚 翟光超 翟文豪 吴环

摘 要:DNA甲基化是一种常见的表观遗传过程,普遍存在于动植物等各种真核生物中,具有调控基因表达等功能,并影响遗传物质的稳定性。非甲基化的CpG双核苷酸在基因组中一般呈现局部聚集模式,被称为CpG岛(CpGIsland,简称CGI)。CGI的非正常甲基化常與癌症、生长异常等现象关联。因此,准确识别CGI并预测其甲基化状态具有重要意义。综述了目前主流的CGI计算识别方法,分析其优缺点,并讨论了CGI识别算法研究的未来方向。

关键词:CpG岛识别;生物信息;表观遗传

DOI:10.11907/rjdk.173059

中图分类号:TP312

文献标识码:A 文章编号:1672-7800(2018)006-0005-03

Abstract:DNA methylation is a common epigenetic process that exists ubiquitously in eukaryotes. DNA methylation can regulate gene expression and destabilize genetic materials. While the majority of the CpGdinucleotides is methylated, the unmethylateddinucleotides tends to gather together and form dense groups locally, which are called CpG islands (i.e. CGIs). The abnormal methylation of CGIs were found related to cancer and growth abnormality. Therefore, accurate identification of CGIs and prediction of their methylation status bears great biological importance. This article reviewed the mainstream computational CGI detection algorithms, analyzed their strengths and limitations, and discussed future research directions of CGI detection algorithms.

Key Words:CpG island detection; bioinformatics; Epigenetics

0 引言

DNA甲基化是一种重要的表观遗传过程,且广泛存在于动物、植物等各种真核生物中。在DNA甲基化转移酶(DNA Methyltransferase,DNMT)的作用下,甲基基团合成到5′-CpG-3′中胞嘧啶的第5位碳原子上,形成DNA甲基化。近年来,随着全基因组甲基化测序技术的发展和普及,DNA甲基化的生物意义逐步揭示出来。研究表明,DNA甲基化现象广泛存在于基因组各元件中,包括启动子、基因本体、增强子、沉默子和转座子,可影响遗传物质稳定、基因表达、染色体活性、转座子沉默、组蛋白修饰等生物过程。

在人类基因组中,70%~80%的CpG双核苷酸都处于甲基化状态,且散布于基因组的各个位置。相反,非甲基化CpG则呈现出局部聚集的模式,称为CpG岛(CpGIsland,以下简称CGI)[1]。在正常生物过程中,CGI是不易被甲基化的,而其非正常的甲基化状态往往影响基因表达[1],进而与癌症[2]、植物生长异常[3]等表观遗传学现象相关联。因此,识别基因组中的CGI并预测其甲基化状态有着重要的生物学意义。此外,由于CGI与启动子区域的强关联,CGI也被认为是能有效预测启动子元件的基因组标记[4]。

目前,用于识别CGI的方法主要分为实验检测法和计算识别法两类。实验检测法主要包括亚硫酸氢钠法(Sodium Bisulfite,BS-seq)和免疫沉淀反应法(MeDIP-seq)[5]。这些方法利用不同的实验手段将甲基化和非甲基化的胞嘧啶分离,再对分离后的DNA序列进行高通量测序或芯片检测。其优点是准确率高且无歧义,缺点是代价大。近年来,多种CGI计算识别法被陆续提出,这些方法通过建立CGI的计算模型进而对给定DNA序列中的CGI进行识别。CGI甲基化模式分析已成为生物信息分析中的重要组成部分。本文综述目前主流的CGI计算识别方法,重点从计算模型、适用物种两方面进行分析和比较。

1 CGI计算识别方法分类

虽然CGI有着重要的生物学意义,然而目前仍缺乏严格定义。Gardiner-Garden和Frommer[6]在1989年首次以脊椎动物的测序数据为基础开展了CGI的大规模计算分析,并提出CGI的3个量化条件:长度大于200bp、GC含量高于50%、观测CpG与期望CpG的比率(Obs-CpG/Exp-CpG)不低于0.6(本文称之为GGF定义)。这些条件对后续CpG岛识别算法的研究产生了深远影响。实际上,目前主流CGI检测算法大都融合了这3个因素中的1个或多个部分。

根据这些因素的组合方式,CGI检测算法可分为两类:基于规则的方法和基于统计特征的方法。基于规则的方法利用人为设定的阈值过滤并发现CGI区域,具有知识表示清晰且易于理解的优点。不足之处是比较依赖于专家知识,泛化能力有限。比如,基于单一阈值的识别算法很难区分CGI和人类基因组中的Alus元件,因为Alus元件一般长度为280bp,其GC含量和Obs-CpG/Exp-CpG比率也较高,符合CGI的量化条件[6];基于统计特征的CGI识别方法大多应用机器学习技术挖掘CGI片段区别于其它DNA序列片段的特征,进而构建CGI识别模型,再应用模型对新序列中的CGI片段进行预测和识别。该方法的特点是泛化能力较强。根据所采用的机器学习模型类型,CGI识别方法可进一步分为基于监督式学习和基于非监督式学习两类,下面依次进行分析。

2 典型的基于规则的CGI识别方法

基于规则的CGI识别方法也称为滑窗(Sliding Window)方法,即根据预先设定的阈值对DNA序列进行滑窗式扫描和过滤,符合阈值的DNA片段即被认为是CGI。此类算法的代表有GGF[6]、CpGIS[7-8]、CpGProD[9]等。其中,Takai和Jones[7]在分析人类第21和22号染色体后,在Gardiner-Garden和Frommer方法基础上提出更严格的标准:%GC≥55%,长度≥500bp并且Obs-CpG/Exp-CpG≥0.65。实验结果表明,新阈值能有效过滤绝大多数Alus和未知序列,而基因5'端CGI的数量仅略有减少。

CpGProD仍采用基于阈值的滑窗方法,其特点是侧重于识别哺乳动物基因组中与启动子区域和转录起始位点(TSS)关联的CGI。

滑窗方法的优点是规则直观、易于理解,不足之处是识别精度容易受阈值和滑窗大小影响,且对专家知识的依赖程度较高。因此,随着测序技术发展和测序成本的降低,甲基化DNA序列数据日益增多,使基于统计分析和统计特征的预测方法逐渐成为CGI识别算法的主流。

3 典型的非监督式CGI识别方法

非监督式识别方法是指以非监督式(Unsupervsied)机器学习模型为基础构建的CGI识别算法。该方法通常包含两个步骤:①采用聚类算法将相邻CpG位点聚集形成CpG聚簇(即CpGClusters);②依据GC含量、统计显著性、分布差异等条件筛选CpG聚簇,符合条件的聚簇即被认为是CpG岛。

CpGCluster算法[10]是典型的无监督式CGI识别算法。基于CGI中的CpG分布比在非CGI中分布更加紧凑的假设,CpGCluster首先使用聚类算法将相邻CpG位点聚集形成CpG簇(CpGClusters),再根据统计显著性从中筛选出CGI。其聚类过程类似于基于密度的聚类:从5端到3端扫描基因组,若两个连续CpG位点间距离小于阈值,则要么将其合并形成一个新的CpG聚簇,要么将其合并加入一个已有的CpG聚簇中。

CpGCluster算法有两个主要参数:相邻CpG位点聚集形成CpG聚簇的最短距离,以及CpG聚簇的统计显著值,只有超过该阈值的CpG聚簇才被认定是CpG岛。由于不再限定CGI的最短长度,CpGCluster往往能发现非常短的CGI。因此,CpG聚簇的最短距离阈值参数起着决定性作用。在人类基因组上的实验表明,可以选择基因组中所有相邻CpG间距离的中位值作为阈值,这也是该算法推荐的缺省设置。

ClusterPSO[11]将CpGCluster算法与Gardiner-Garden和Frommer(GGF)定义相结合。首先应用CpGCluster算法生成CpG聚簇,再对每个CpG聚簇向上游和下游分别扩展200bp,形成符合GGF定义的候选CGI。同时,将GGF定义转换为粒子群优化(PSO)算法的目标函数,通过搜索找到能使目标函数值最大化的CGI区域划分。

此外,Kakumani等[12]基于CGI中核苷酸C后连接核苷酸G的概率往往大于其在非CGI中的概率,设计了基于最大化信噪比的CGI识别算法;GaussianCpG[13]在基于距离聚类形成CpG聚簇后,采用高斯模型和GC含量两个参数筛选CpG聚簇中的CpG岛。CpG_MI[14]则通过计算相邻CpG距离的互信息发现CGI。

由此可见,基于非监督式学习模型的CGI识别方法有两个关键因素:一是CpG位点间的距离计算方法,其决定了CpG聚簇形态;二是CpG聚簇筛选条件,其决定了CGI的最终构成。在基于规则的识别方法基础上,此类方法能融入更多描述CGI区域的统计特征,表达力更强,也更加灵活。

4 典型的监督式CGI识别方法

监督式CGI识别方法是指利用监督式(Supervised)机器学习算法构建CGI识别模型。与非监督式学习相比,监督式学习需要有标注数据,即已知是CGI和不是CGI的DNA片段。学习算法根据标注数据建立识别模型,确定模型参数。在CGI识别问题上,目前主要采用的监督式学习算法有两种:分类和序列预测。

CGI分类是指将DNA序列片段分为CGI和非CGI两类。比如,Bock等[15]以人类21号和22号染色体中的CGI为训练数据,应用支持向量机模型(SVM)构建了CGI分类器,同时对众多CGI关联特征进行评估,涵盖DNA序列模式、重复性分布模式、DNA螺旋结构、转录因子结合点信息等6个方面,进而使用这些属性预测全基因组中CGI的表观遗传状态。利用监督式学习模型的优势之一是能够进行特征评估和选择,比如与典型表观遗传功能和遗传状态相结合,往往比单纯基于序列的预测模型更能揭示CGI的表观遗传学意义和基因表达调控机制。

近年来,随着计算性能的提升和大数据的发展,深层神经网络模型被广泛用于各类机器学习任务。在CGI识别问题上,Wang等[16]将染色体间交互作为特征之一,以堆叠去噪自编码器为基础,设计了针对人类基因组CpG位点甲基化状态的预测算法,并重点验证了算法在非编码长RNA(lncRNA)中CpG位点甲基化狀态预测的有效性。该算法从甲基化测序数据中生成训练数据集,采用留一交叉验证法训练并验证算法有效性。

基于序列学习的监督式CGI识别方法主要运用隐马尔可夫(HMM)、条件随机场(CRF)等序列学习算法,对DNA序列进行预测。Wu[17-18]、Spontaneo[19]先后提出基于隐马尔可夫模型的CGI识别算法;Wu等以无脊椎动物基因组为基础进行测试,发现基于规则的方法并不适用于无脊椎动物基因组;Spontaneo等仍以人类基因组为基础进行测试,并通过提供图形界面,简化了人工查验CGI的过程;刘维和陈崚[20]提出一种基于CRF的CGI识别算法。

与非监督式学习模型相比,监督式学习方法往往能更好地针对特定物种或组织,发现代表性更强的CGI特征,从而更好地揭示甲基化模式及其表观遗传学意义。此外,监督式学习模型的扩展性更好,比如可通过使用不同训练数据集将同一模型扩展到不同物种的DNA序列。

5 结语

DNA甲基化是一种广泛存在于各类真核生物中的重要的表观遗传过程。CpG岛的准确识别及其甲基化状态预测有助于准确定位启动子、识别基因,揭示甲基化与癌症、生长异常等表观遗传现象的关联机制,有着重要的生物学意义。本文综述了目前主流的CpG岛计算识别方法,对其机制、适用物种进行了分析和比较。分析发现目前CpG岛的研究对象仍主要集中于脊椎动物,适用于其它物种的CpG岛识别算法还有待研究。在3类方法中,监督式CGI识别方法能更好地揭示CGI的表观遗传学意义,而随着测序技术的普及应用,产生了大量甲基化测序数据,为监督式CGI识别模型提供了数据基础,因此也可能是未来CGI研究的主要方向。

参考文献:

[1] DEATON A M, BIRD A.CpG islands and the regulation of transcription[J]. Genes & Development,25(10):1010-1022.

[2] ISSA, J-P.CpG island methylator phenotype in cancer[J].Nature Reviews Cancer,2004,4:988-993.

[3] FINNEGAN E J, PEACOCK W J, DENNIS E S. DNA methylation, a key regulator of plant development and other processes[J]. Current Opinion in Genetics & Development,2000,10(2):217-223.

[4] LARSEN F, GUNDERSEN G, LOPEZ R,et al.CpG islands as gene markers in the human genome[J]. Genomics,1992,13(4):1095-1107.

[5] WEBER M, DAVIES J, WITTIG D, et al. Chromosome-wide and promoter-specific analyses identify sites of differential DNA methylation in normal and transformed human cells[J]. Nature Genetics,2005,37:853-862.

[6] GARDINER-GARDEN M, FROMMER M. CpG islands in vertebrate genomes[J]. Journal of Molecular Biology,1989,196(2):261-282.

[7] TAKAI D, JONES P A. Comprehensive analysis of CpG islands in human chromosomes 21 and 22[J]. PNAS, 2002, 99(6): 3740-3745.

[8] TAKAI D, JONES P. The CpG island searcher: a new WWW resource[J]. Silico Biology,2003,3(3):235-240.

[9] PONGER L, MOUCHIROUD D.CpGProD: identifying CpG islands associated with transcription start sites in large genomic mammalian sequences[J]. Bioinformatics,2002, 18(4):631-633.

[10] HACKENBERG M, PREVITI C, LUQUE-ESCAMILLA P L, et al. CpGcluster: a distance-based algorithm for CpG-island detection[J]. BMC Bioinformatics,2006,7:446.

[11] YANG C H, LIN Y D, CHIANG Y C, et al. A hybrid approach for CpG island detection in the human genome[J].PLoS ONE,2016,11(1):e0144748.

[12] KAKUMANI R, AHMAD O, DEVABHAKTUNI V.Identification of CpG islands in DNA sequences using statistically optimal null filters[J]. EURASIP Journal on Bioinformatics and Systems Biology,2012(1):12.

[13] YU N, GUO X, ZELIKOVSKY A,et al.GaussianCpG: a Gaussian model for detection of CpGisland in human genome sequences[J]. BMC Genomics,2017,18(Suppl 4):392.

[14] SU J, ZHANG Y, LV J,et al.CpG_MI: a novel approach for identifying functional CpG islands in mammalian genomes[J]. Nucleic Acids Research,2010,38(1): e6.

[15] BOCK C, WALTER J, PAULSEN M,et al.CpGisland mapping by epigenome prediction[J]. PLoS Computational Biology,2007,3(6): e110.

[16] WANG Y, LIU T, SHI H, et al.Predicting DNA methylation state of CpGdinucleotide using genome topological features and deep networks [J]. Scientific Reports,2016,6:19598.

[17] IRIZARRY R A, WU H, FEINBERG A P. A species-generalized probabilistic model-based definition of CpG islands[J]. Mammalian Genome: Official Journal of the International Mammalian Genome Society,2009,20(9-10):674-680.

[18] WU H, CAFFO B, JAFFEE H A,et al.Redefining CpG islands using hidden Markov models[J]. Biostatistics (Oxford, England),2010,11(3):499-514.

[19] SPONTANEO L, CERCONE N.Correlating CpG islands, motifs, and sequence variants in human chromosome 21[J]. BMC Genomics,2011,12(Suppl 2):S10.

[20] 劉维,陈崚.一种新的CpG岛的位置识别算法 [J].小型微型计算机系统,2012(7):1557-1563.

(责任编辑:黄 健)