基于直推式学习的视网膜致病基因预测模型

2016-06-08 06:08王小刚
计算机应用与软件 2016年5期
关键词:置信度眼部视网膜

董 超 王小刚

(复旦大学计算机科学技术学院 上海市智能信息处理重点实验室 上海 200000)



基于直推式学习的视网膜致病基因预测模型

董超王小刚

(复旦大学计算机科学技术学院 上海市智能信息处理重点实验室上海 200000)

摘要生物信息学的一个重要目的是帮助人类深入地认识疾病的过程、遗传特性和潜在的治疗方法。然而,发现致病基因往往是一项复杂而艰巨的工作,比如一些遗传性的眼部疾病。在综合了收集到的众多基因表达数据的基础上,提出一种双层的直推式机器学习(TTP)模型,用于发现潜在的视网膜致病基因。里层用于从多维的Human BodyMap 2.0和眼部组织基因表达谱中分别获取贡献度;在外层学习中,里层获取的贡献度将和Crx和ChIP-Seq数据一起学习得出致病基因的排序结果。实验结果表明,在致病基因预测上,直推式学习的准确度要优于传统的监督学习。另外,还发现一个有趣的现象,数据的集成并不是总能得到有利的结果。

关键词直推式学习致病基因预测机器学习集成

0引言

在生物信息学和生物医学领域,致病基因的发现一直是一项颇具挑战的任务。计算型致病基因的发现方法在相关领域研究中的需求正与日俱增。

视网膜是位于眼睛内表面的一个神经组织。由于视网膜:①可以被直接观察和记录;②可以从视野和视角来衡量其功能性;③可以通过光学相干断层扫描来量化其构造[1]。因此,视网膜也被认为是比较适合于研究遗传性疾病的组织。

人类基因众多,因此仅从生物角度去验证基因是否与视网膜疾病相关费时且费力。本文提出一种基于直推式学习的视网膜致病基因预测模型,将基因组中基因按其与视网膜致病基因相关程度进行排序,从而可以让生物研究人员将精力集中在这些相关程度较高的少量基因上,加快致病基因的发现和潜在治疗方案的提出。

1背景介绍

在以前的致病基因预测研究中,采用过多种类型的生物数据。其中,一些方法基于相同疾病基因位点间的功能标注过表达[2];一些方法采用了致病基因基于序列的共性来为候选基因进行排序[3];还有一些方法表明了物理上相互关联的蛋白质有作用于相同细胞过程的趋势,并以此作为发现致病基因的线索[4]。然而,大多数方法都是严重地偏向于一些被广泛研究的基因[5]。

随着生物技术的飞速发展,大量的组学数据不断产生。对于视网膜疾病,小鼠视网膜特异性基因网络[6]收集了不同类别的基因表达数据、蛋白质互作数据、基因本体论标识数据库。PULP[1]集成了多个公开的基因组数据源,包括小鼠视网膜CRX转录因子的感光细胞特定信号、人类视网膜的RNA-Seq数据、Human BodyMap 2.0中的16个组织数据以及10个眼部子器官的Microarray表达数据。PULP将这些数据集成到一个机器学习模型中用于进行致病基因的排序[7]。

为了充分利用收集到的数据,一些基因预测方法采用了监督式学习。例如在人类互作蛋白网络中采用K近邻方法来识别致病基因[8]。另外,基于与致病基因紧密关联的基因往往也与疾病有关这个假设,小鼠视网膜特异性基因网络采用了贝叶斯网络来预测致病基因[6]。

事实上,只有少量的基因已知与疾病相关,大部分基因都是未知的,也就是无标签的。因此,监督式学习在这里存在致命的缺陷就是有标签的数据比例太小而不能提供足够的分类信息。尽管判断一个基因是否与疾病相关是一项花费巨大的工作,但随着高通量测序的发展,生物数据却随手可得。这些无标签的数据可以有效地改善仅在少量有标签数据集中学习的结果[9]。因此,出现了一些将有标签数据和无标签数据一起学习的方法。PULP将所有的无标签数据均视为负样本并对所有基因进行留一验证,再根据监督学习得出的结果对基因按照其是致病基因的可能性进行排序。事实上,PULP所用的仍然是一种监督式学习方法,而且正样本和负样本巨大的差异可能会导致模型的片面性。

在机器学习中,有两种主流的处理无标签数据的方法,分别是半监督学习和直推式学习。半监督学习旨在任何可能的数据集上构建泛化模型,而直推式学习仅关注现有数据集上的最优泛化。换句话说,半监督学习是无界的,因为其测试数据是未知的,而直推式学习是有界的,所有的测试数据在训练时均已包含其中。

本文提出了一种双层直推式学习模型用来对视网膜致病基因进行预测(TTP模型)。本文收集了多种类型的基因表达谱数据,包括了人类组织特异性表达数据和人类10个眼部子器官的microarray数据,另外,还收集了小鼠的Crx ChIP-Seq数据。由于基因表达数据占据了所收集数据的大部分,为了平衡其他组学数据的影响,我们提出了双层直推式学习模型。里层用于从不同类型的数据中获取各自的贡献度,包括基因表达数据,Human BodyMap 2.0的组织特异性数据以及人类10个眼部子器官的特异性数据。外层学习将里层得到的贡献度结合Crx ChIP-Seq数据再次进行建模。其中,里层和外层都基于直推式学习。

2实验材料和方法

2.1数据和材料

公开的Human BodyMap 2.0 RNA-Seq数据可以从网络获取(SRA编号ERP000546),包括了甲状腺、睾丸、卵巢、白细胞、骨骼肌、前列腺、淋巴、肺、脑、脂肪、肾上腺、乳腺、结肠、肾脏、心脏和肝脏。由于Human BodyMap 2.0中并没有包含视网膜,因此我们将私有的人类视网膜RNA-Seq数据加入到了Human BodyMap 2.0数据集中。

对于RNA-Seq数据,原始RNA-Seq读段数都通过Tophat[10]进行序列比对。再用Cufflink[11]获取基因水平的表达数据FPKM(Fragments Per Kilobase exon model per Million mapped reads)。在比对过程中,采用UCSC的h19作为参照。

公开的人类眼部子器官数据(GEO编号GSE41102)代表了19个眼部子器官的表达谱,其中包含有视网膜。

Crx是一种作用于感光细胞分化的转录因子,是维持标尺和椎体正常功能所必须的同源结构域蛋白。因此该蛋白的调控基因的异变很有可能引起视网膜功能性的丧失。

2.2已知视网膜致病基因和候选基因列表

我们从RetNet(https:://sph.uth.edu/retnet/)中人工选取出166个已知的视网膜致病基因。RetNet提供了导致遗传性视网膜疾病的基因和基因位点列表。在本实验中,这些基因被标记为正样本。

另外,最近一项研究得出了一个包含640个基因的潜在的视网膜相关基因列表。为了得到无偏见的对比,我们仅保留了同时也出现在候选基因列表里的452个基因。在下文中,我们称该候选列表为Cilia。

2.3实验方法

本文设计了一个基于双层直推式学习模型用于视网膜致病基因的预测,简称TTP。

我们采用了svm-light[12]作为直推式学习软件,svm-light是用C语言实现的SVM,其中包含一种大规模直推式SVM算法[13]。

在所收集的数据中,每种类型的数据是不均衡的。相比于一维的ChIP-Seq数据,基因表达数据往往是多维的。在传统的集成式方法中,这些维度被同等对待,从而导致隐藏在ChIP-Seq数据中的信息被大量的基因表达数据冲淡。因此,为了所有类型的数据都能得到有效的利用,我们设计了一个双层模型。在里层,将对每个基因基于基因表达数据计算出其余疾病关联的置信度。外层中,这些置信度将和ChIP-Seq数据一起进行计算得出最终的置信度。最终,我们将所有基因按照置信度降序排序,越高的置信度就代表该基因与视网膜疾病相关度越高。

基因表达数据被自然的分成两个视图:Human BodyMap 2.0加上人类视网膜数据,以及人类10个眼部子器官数据。这些数据从粗粒度和细粒度的角度提供了信息。我们分别对这两个视图采用直推式SVM计算出对应的置信度,进而将这些置信度送入外层直推模型。

对于一般分类问题,正样本和负样本都是必须的。由于无法确定基因是否与疾病完全不关联,所以负样本采用了随机采样方式。为了减小采样偏见带来的影响,我们随机采样了1 000次,取平均置信度作为结果。其中,每次采样的负样本数为正样本数的三倍。每组数据都将采用TTP进行分析。

3结果分析

我们的研究目的在于得到与视网膜疾病相关基因的候选基因排序表,并提供给相关生物研究人员。为了评估结果,我们采取了两方面的标准:①采用TTP预测出的致病基因是致病基因的可能性大于随机选择的p-value值;②排在前K个基因中已知致病基因的个数。我们运行了1000次TTP并将平均置信度作为排序标准。

3.1交叉验证

为了评估模型,采用了3倍交叉验证。在每次交叉验证中,随机选取三分之一的已知致病基因正样本和三倍于已知致病基因的负样本作为测试集,每次交叉验证中随机选择100次。如表1所示,测试集中超过一半的正样本排在前1200个基因中(fold change=5.84)。

表1 交叉验证中前K基因中已知致病基因覆盖率

3.2与其他视网膜致病基因预测工具的对比

我们将TTP与另外两个最新的视网膜致病基因预测工具进行了对比,分别是PULP和OTDB(眼部组织数据库)[7]。其中,OTDB包含了十个眼部子器官的microarray数据,PULP是一种集成式工具。我们从https://github.com/ahwagner/PULP和https://genome/uiowa.edu/otdb/上分别下载了PULP的源码和OTDB的实验结果。在PULP中,根据分类器的表现对比[1],采用了 逻辑回归作为基因排序的分类器。同时,在OTDB中,我们计算了每个基因在视网膜中的分布相对于在其他9个眼部器官分布的z-score值,并且按照z-score降序排列。这个有序基因列表可能有助于发现一些与视网膜异常相关的基因。

为了和其他预测工具对比模型,用PULP和OTDB的数据分别运行了双层直推式学习。我们设计了TTP-ocular,该模型和TTP不同的地方就在于其仅使用了OTDB的数据,而TTP使用的数据和PULP是一样的。

我们采用了Wilcoxon秩和检验方法来评估每个工具的结果的有序基因列表:PULP、OTDB、TTP和TTP-ocular。P-value值如表2所示。这些p-value值均为1000次Wilcoxon检验的均值。每次检验中,我们将所有已知致病基因在结果列表中排序的总和与随机选取基因的排序总和进行对比。另外,我们也对比了前K个基因中已知致病基因出现的个数,如表2所示。

表2 PULP、OTDB、TTP、TTP-ocular的结

TTP和PULP使用的数据完全相同,因此可以得出直推式学习在利用无标签数据的方面要优于PULP对待无标签数据的方法。另外,通过对比TTP-ocular和OTDB可以发现直推式学习可以得到比仅仅计算z-score值更好的结果。

前K个基因的对比表明直推式学习模型更能有效地将致病基因排在靠前部分。如表2所示,在OTDB和TTP-ocular中,TTP-ocular前K个基因中致病基因的个数几乎是OTDB的两倍。

通过表2中的对比数据,我们还发现了一个有趣的现象:数据集成得越多,不代表一定获得更好的预测效果。OTDB的眼部microarray数据仅仅是PULP中使用的一部分数据。然而PULP和TTP的预测结果都比OTDB差。即使是基于相同的模型,集成更多数据的TTP的预测结果也要差于TTP-ocular。这就驱使了我们进一步去探索每一种类型数据的作用。在表3中,我们设计了一系列的对比实验来单独描述每一种类型数据对最终预测结果的影响。

表3 Human BodyMap 2.0和10个眼部子器官数据分别对致病

如表3所示,Human BodyMap 2.0的数据和眼部子器官数据的结果比较相似,两者的相关系数为0.481,表明这两种数据提供的信息比较类似,从而不能为集成带来更好的结果。为了获得更好的效果,集成数据源的多样性是一个必要的因素。Human BodyMap 2.0和眼部子器官数据都是基于表达水平的数据,这也就提醒我们可以采用不同类型的组学数据,包括蛋白组学数据,代谢组学数据以及基因变异数据等。

4结语

在本文中,我们集成了不同类型的基因表达谱数据,包括了Crx ChIP-seq数据、Human BodyMap 2.0中16种组织器官的RNA-Seq数据以及10个眼部子器官的microarray数据。

由于比较难以获取这些现有数据的标签,并且我们的任务仅是解决一个特定的问题,因此,采用了一个双层直推式学习的模型将不同类型的基因表达数据和组学数据进行集成并对候选基因进行预测。内层用于平衡不同维度的表达谱数据的贡献度,外层将内层结果结合一些单维的组学数据再次建模来获取基因预测结果。为了评估该双层模型,我们将结果和以现有的一些视网膜致病基因预测工具进行了对比。对比结果显示我们的模型能更好地将致病基因排在靠前部分。

在本文的模型中,由于难以获取负样本标签,随机选择的负样本可能会给分类结果带来意料之外的偏见。然而,一些组织以及被证实与视网膜存在较大差异,比如外周血、肝脏以及肌肉。我们认为这些组织的特异性基因可以作为更好的负样本数据源。

随着越来越多的组学数据出现,数据集成是大势所趋。本文也表明了有效地选择数据源进行集成非常重要,更多的生物过程数据以及更多类型的数据往往会为集成带来更好的结果。

随着生物信息学和生物医学的不断发展,我们相信本文的工作将给生物学和相关研究人员的工作提供较大的帮助。

参考文献

[1] Wagner A H,Taylor K R,Deluca A P,et al.Prioritization of Retinal Disease Genes:An Integrative Approach[J].Human Mutation,2013,34(6):853-859.

[2] Turner F S,Clutterbuck D R,Semple C A M.POCUS:mining genomic sequence annotation to predict disease genes[J].Genome biology,2003,4(11):R75-R75.

[3] Ea A,Rr A,Kl E,et al.Speeding disease gene discovery by sequence based candidate prioritization[J].Bmc Bioinformatics,2005,6(1):55.

[4] Oti M,Snel B,Huyen M A,et al.Predicting disease genes using protein-protein interactions[J].Journal of medical genetic,2006,43(8):691-698.

[5] Rm P,F Di Cunto.Computational approaches to disease-gene prediction: rationale,classification and successes[J].FEBS Journal,2012,279(5):1754-1760.

[6] Hackler L,Zack D J,Hu J F,et al.Computational analysis of tissue-specific gene networks:application to murine retinal functional studies[J].Bioinformatics,2008,26(18):2289-2297.

[7] Wagner A H,Anand V N,Wang W H,et al.Exon-level expression profiling of ocular tissues[J].Experimental eye research,2013,111:105-111.

[8] Li Y,Xu J Z.Discovering disease-genes by topological features in human protein-protein interaction network[J].Bioinformatics,2006,22(22):2800-2805.

[9] Zhou Z H.Learning with unlabeled data and its application to image retrieval[M].PRICAI 2006:Trends in Artificial Intelligence.Springer Berlin Heidelberg,2006.

[10] Trapnel C,Pachter L,Salzberg S L.TopHat: discovering splice junctions with RNA-Seq[J].Bioinformatics,2009,25(9):1105-1111.

[11] Trapnel C,Williams B A,Pertea G,et al.Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation[J].Nature biotechnology,2010,28(5):511-515.

[12] Joachims T.Making large scale SVM learning practical[R].Advances in kernel methods:support vector learning,1999.

[13] Joachims T.Transductive inference for text classification using support vector machines[C]//ICML,1999,99:200-209.

PRIORITISATION MODEL FOR RETINAL PATHOGENIC GENES BASED ON TRANSDUCTIVE LEARNING

Dong ChaoWang Xiaogang

(ShanghaiKeyLabofIntelligentInformationProcessing,SchoolofComputerScienceandTechnolgy,FudanUniversity,Shanghai200000,China)

AbstractOne of the major goals of biological science is to help people understand disease process, heritability and potential treatment in depth. However, it is usually a daunting job to discover the pathogenic genes, such as some inherited ocular diseases. On the basis of colligating numerous collected gene expression data, we presented a two-layer transductive machine learning (TTP) model used for finding potential retinal pathogenic genes. Its inner layer is in charge of gaining contribution degrees from multiple-dimensional features profile of Human BodyMap 2.0 and ocular tissues gene spectrum separately. In outer layer learning, the contribution degree obtained by inner layer will learn together with Crx and ChIP-Seq data to derive the prioritisation of the pathogenic genes. Experimental results showed that the transductive learning method did perform better than the traditional supervised learning method in accuracy on predicting pathogenic genes. In addition, an interesting finding was that the data integration was not always helpful.

KeywordsTransductive learningPathogenic genes predictionMachine learningIntegration

收稿日期:2014-12-18。国家自然科学基金项目(61472086)。董超,硕士生,主研领域:生物信息学,数据挖掘。王小刚,硕士生。

中图分类号TP3

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.008

猜你喜欢
置信度眼部视网膜
深度学习在糖尿病视网膜病变诊疗中的应用
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
家族性渗出性玻璃体视网膜病变合并孔源性视网膜脱离1例
高度近视视网膜微循环改变研究进展
正负关联规则两级置信度阈值设置方法
为什么要做眼部检查
戴眼罩有助消除眼部疲劳
如何消除用电脑后的眼部疲劳
复明片治疗糖尿病视网膜病变视网膜光凝术后临床观察