疾病相似度方法研究

2014-04-29 00:44程亮王亚东
智能计算机与应用 2014年5期
关键词:基因功能术语本体

程亮 王亚东

摘 要:本文研究了集成语义与基因功能关联的疾病相似度方法。综合的加权的人类基因关联网络可用于衡量疾病相关的基因集之间的关联分值;疾病术语对以及它们在疾病本体中的共同祖先相关的基因数可用于计算疾病术语的语义关联分值。这两类关联被用于计算集成的疾病相似度。通过从文献中搜集相似的疾病对作为基准集,对疾病相似度算法的性能进行了有效的评价,证实了集成的疾病相似度方法优于已有的其他方法。

关键字:语义关联;基因功能关联;基因关联网络;疾病本体;疾病相似度

中图分类号:TP301 文献标识号:A 文章编号:2095-2163(2014)05-

Research on Method of Disease Similarity

CHENG Liang, WANG Yadong

(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

Abstract: Semantic and gene functional associations between disease have been integrated for calculating disease similarity in this work. A comprehensive weighted human gene association network can be used to measure relative score between gene sets of diseases. A pair of disease terms and their common ancestors in disease ontology can be used to measure semantic association score. These two types of association are integrated to calculate diseases similarity. A benchmark set of similar diseases was explored from literature. And the performance of the integrated method has been evaluated based on the benchmark set. The result of experiment shows that the integrated method achieves a high true positive rate and a low false positive rate.

Key words: Semantic Association; Gene Functional Association; Gene Association Network; Disease Ontology;Disease Similarity

0引 言

近年来,相似度的研究在生物医学领域正受到各方的高度关注,如:基因序列相似度[1]、生物本体术语的相似度[2]、药物相似度[3]等。而相似度就是指定量估算事物的相似性,事物间的相似性则主要由事物之间的共同属性进行决定并确定。一个具体的事物,总是有许许多多的性质与关系,在此即将一个事物的性质与关系都称做该事物的属性。事物的形状、颜色、气味、美丑、善恶、优劣、用途等都是事物的性质;而包含、被包含、整体、部分、大于、小于、压迫、反抗、朋友、热爱、同盟、矛盾、等则都是事物的关系。并且任何属性都是属于某种对象的。比较事物的相似度就是定量评估事物间的共同属性。

疾病相似度则是对疾病与疾病之间相似性的量化过程。疾病相似性是疾病与疾病之间的共同属性。疾病的属性包括:疾病与疾病之间的共同关系、疾病与疾病之间共同的关联因素。疾病与疾病之间的共同关系又包括:疾病与疾病之间的包含关系,如:‘乳腺癌包含‘男性乳腺癌和‘女性乳腺癌。‘乳腺癌与‘男性乳腺癌及‘女性乳腺癌的关系是包含与被包含的关系。‘男性乳腺癌与‘女性乳腺癌即通过‘乳腺癌得到了关联。疾病与疾病之间共同的关联因素包括:共同的致病基因、共同的治疗药物、共同的代谢产物等。例如,基因‘NOS3和‘AGTR2是疾病‘乳腺癌和‘糖尿病的共同的致病基因;药物‘caffeine和‘cisplatin都是疾病‘乳腺癌和‘卵巢癌的治疗药物;代谢产物‘D-Glucose和‘3-Methylhistidine都是疾病‘类型2糖尿病和‘阿尔茨海默氏病共同相关的代谢产物。

1 疾病相似度发展现状

如图1所示,计算疾病相似度的方法通常可以从两个角度考虑:基于语义关联计算疾病相似度、基于疾病相关的基因计算疾病相似度。生物医学领域经常利用本体计算术语的语义相似度,如:基因本体[4]、人类表型本体[5]等。尽管如此,这些方法中却只有很少一部分已用于计算疾病相似度。Resnik设计的方法即是其中最为常见的方法[6],该方法更多是应用于基因本体计算基因功能、细胞构成、生物学过程术语的相似度,而且若与其它多种方法(union-intersection、longest shared path、JC)[7]相比,则具有明显的优势[8]。Resnik的方法是利用本体中的‘is_a关系计算术语相似度,该方法计算疾病对之间的相似度主要依赖于疾病对信息量最大的共同祖先节点。而Lin的方法[9]则改进了Resnik的方法中对信息熵的比较方法,从理论角度对Resnik的方法进行了一定的完善。Resnik和Lin的方法最近已由研究人员写入R包[10],以方便计算疾病的相似度。Wang等人提出的方法对Resnik的方法进行了更深层的优化[11]。该方法在计算疾病对相似度时,不仅考虑了疾病对的信息量最大的共同祖先节点,还考虑了疾病对其它的共同祖先节点。该方法的优越性在基因本体中得到了更好的体现,并且已用于计算医学主题词中的疾病术语语义相似度。

疾病的关联不仅体现在疾病相关的本体上,而且体现在共同的致病基因上。因此,研究人员同样关注如何基于疾病的致病基因计算疾病的相似度。目前存在两种基于基因计算疾病相似度的方法。第一种是基于共同的疾病基因(based on overlapping gene set - BOG)的方法[12]。该方法比较疾病之间共同相关的基因数目,由此而获取疾病相似度。若与基于语义的角度计算相似度相比,该法从一个全新的角度发现相似的疾病对。因此,该方法能发现新的未知疾病关联。尽管如此,在计算疾病相似度时,该方法却未考虑疾病基因之间的功能关联,而显然可见的是这种关联对疾病相似度却有着一定影响。第二种方法则基于过程相似性(process similarity based - PSB)计算疾病相似度[13],其中,过程指的是致病基因相关的基因本体的生物学过程术语。该方法考虑了疾病基因的功能关联,因此对BOG方法有了很大的提高。PSB与Resnik、Lin、LC和JC的方法相比,也呈现了良好的性能。基因间的功能关联包含很多方面,如:基因共表达、蛋白质相互作用、基因本体术语等。另外,为了提高疾病相似度方法的性能,FunSim方法利用综合加权的人类基因关联网络[14]计算疾病相似度。

2 集成的疾病相似度算法

本文集成了疾病之间的基因关联和语义关联,提出了集成的疾病相似度算法FunSimWang,计算公式如下:

(1)

其中, 和 是一对疾病, 和 分别是 和 相关的基因集, 和 则分别是 和 包含的基因数; 表示 和 信息量最小的共同祖先节点, 表示 的第i个祖先节点, 表示了 和 之间的功能相似度,而 表示的是‘is_a关系表达的语义关联参数。基于Wang等人的研究, =0.8。

3 验证过程

在图2中,圆圈表示疾病本体[15]中的疾病术语,圆圈之间的联系表示疾病术语之间的‘is_a关系,其中箭头指向为父节点,另外一个则是子节点。相似的疾病基准集包括两个疾病集,并分别来自于两篇文献。具体地,一个疾病集来自于Suthram等人的研究[16]。该研究利用表达谱数据设计算法寻找到相似的疾病对,再利用药物进行验证。另外一个疾病集则来自于Pakhomov等人的研究[15],该数据集通过两个医学专家的联合验证而最终得到[17]。在此将这两部分疾病集合并为基准集,共有47个疾病,70个疾病对。以基准集作为正例,同时从疾病本体中随机的抽取700个疾病对作为反例。更利用五种相似度算法计算相似度,比较得到的相似度接受者操作特性曲线(receiver operating characteristic curve – ROC curve)[18]。该验证方法共产生了100个随机的疾病对,分别实验了100次,以提高实验的真实可靠性。

4实验结果与分析

图3(a)给出了通过每种方法得到的ROC曲线,图的横坐标表示特异性,图的纵坐标表示敏感性。由图可知,通过每种方法得到的ROC曲线下方的面积分别为:Resnik(63.14%)、Lin(66.17%)、Wang(68.04%)、BOG(78.10%)、PSB(89.52%)、FunSim(94.37)、FunSimWang(95.36%)。对于每种方法而言,ROC曲线下方的面积(AUC)越大,表名方法性能越好。而由图3中ROC曲线下方的面积清楚显示了Wang的方法比Resnik的方法有了一点提高,且Wang的方法和Resnik方法得到的面积非常接近。显而易见,在基于基因的方法中,BOG方法的性能是最差的。尽管通过PSB方法得到了很高的性能,FunSim仍然将PSB方法的性能提高了5%左右。在融合了基因功能和语义关联后,FunSimWang方法已将性能提高到接近100%。

为了避免实现结果由于偶然的因素造成,研究中随机生成了100份疾病对集合,并进行了100次实验。实验结果如图3(b)所示。图中横坐标是疾病相似度方法,纵坐标是平均的AUC值。由该图可知,平均的AUC值分别为:Resnik(0.6345)、Wang(67.84%)、BOG(76.57%)、PSB(89.84%)、FunSim(94.15%)、FunSimWang(0.9556)。所得结果与图3(a)的结论亦保持了一致。

在七种疾病相似度方法中,Resnik的方法利用最大信息量共同祖先的信息熵识别疾病间的语义关联。在基准集中,有一些疾病对仅存一个共同的祖先节点(根节点)。因此,根据Resnik方法,这些疾病对的疾病相似度即为0。例如:疾病对‘diabetes mellitus (DOID:9351)和‘Alzheimers disease (DOID:10652)的相似度为0,因为在疾病本体中,该疾病对的最大信息量共同祖先是根节点,而根节点的信息量为0。为了避免错误地理解相似的疾病对,SemSim中就没有使用信息量。如此一来,发生以上的情况时,疾病相关的基因功能关联就能发挥应有作用。图3中的ROC曲线表明SemFunSim方法取得了最高的AUC值,这即充分验证了被集成进来的语义关联对识别真阳性率和减少假阴性率已获明显提高。

5 结束语

本文提出了一种新的疾病相似度算法。该算法融合了语义关联与基因功能关联。语义关联是指疾病与疾病之间通过疾病本体的‘is_a关系建立的关联。基因功能关联指的是疾病相关的基因之间存在的功能关联,包括:基因本体术语关联、蛋白质相互作用关联、共表达关联等。本文利用基准集(70个相似的疾病对)及100个来自疾病本体的随机集(700个疾病对),对FunSimWang方法进行了性能评估。而且,在ROC曲线之下的面积已经达到了95.56%,该结果表明FunSimWang获得了一个非常高的真阳性率和非常低的假阴性率。

参考文献:

[1] FLETCHER C E, DART D A, SITA-LUMSDEN A, et al. Androgen-regulated processing of the oncomir miR-27a, which targets Prohibitin in prostate cancer [J]. Human molecular genetics, [2] PESQUITA C, FARIA D, FALCAO A O, et al. Semantic similarity in biomedical ontologies [J]. PLoS computational biology, 2009, 5(7): e1000443.

[3] PORTER M F. An algorithm for suffix stripping [J]. Program: electronic library and information systems, 1980, 14(3): 130-137.

[4] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium [J]. Nature genetics, 2000, 25(1): 25-29.

[5] ROBINSON P N, MUNDLOS S. The human phenotype ontology [J]. Clinical genetics, 2010, 77(6): 525-534.

[6] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy; proceedings of the 14th international joint conference on Artificial intelligence[C]// Morgan Kaufmann Publishers Inc,1995.

[7] JIANG J J, CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy [J]. arXiv preprint cmp-lg/9709008, 1997.

[8] GUO X, LIU R, SHRIVER C D, et al. Assessing semantic similarity measures for the characterization of human regulatory pathways [J]. Bioinformatics, 2006, 22(8): 967-973.

[9] LIN D. An information-theoretic definition of similarity; proceedings of the Proceedings of the 15th international conference on Machine Learning[C]//San Francisco, CA: Morgan Kaufmann.

[10] LI J, GONG B, CHEN X, et al. DOSim: an R package for similarity between diseases based on Disease Ontology [J]. BMC bioinformatics, 2011, 12(2): 266-276.

[11] WANG J Z, DU Z, PAYATTAKOOL R, et al. A new method to measure the semantic similarity of GO terms [J]. Bioinformatics, 2007, 23(10): 1274-1281.

[12] MATHUR S, DINAKARPANDIAN D. Automated ontological gene annotation for computing disease similarity [J]. AMIA Summits on Translational Science proceedings AMIA Summit on Translational Science, 2010, 2010(2): 12-16.

[13] MATHUR S, DINAKARPANDIAN D. Finding disease similarity based on implicit semantic similarity [J]. Journal of biomedical informatics, 2012, 45(2): 363-371.

[14] CHENG L, LI J, JU P, et al. SemFunSim: a new method for measuring disease similarity by integrating semantic and gene functional association [J]. PloS one, 2014, Accept,

2012, 21(14): 3112-27.

[15] SCHRIML L M, ARZE C, NADENDLA S, et al. Disease Ontology: a backbone for disease semantic integration [J]. Nucleic acids research, 2012, 40(Database issue): D940-946.

[16] SUTHRAM S, DUDLEY J T, CHIANG A P, et al. Network-based elucidation of human disease similarities reveals common functional modules enriched for pluripotent drug targets [J]. PLoS computational biology, 2010, 6(2): e1000662.

[17] PAKHOMOV S, MCINNES B, ADAM T, et al. Semantic similarity and relatedness between clinical terms: an experimental study [C]//proceedings of the AMIA Annual Symposium Proceedings, American Medical Informatics Association,2010.

[18] HEAGERTY P J, ZHENG Y. Survival model predictive accuracy and ROC curves [J]. Biometrics, 2005, 61(1): 92-105.

猜你喜欢
基因功能术语本体
保幼激素环氧水解酶基因在蠋蝽滞育过程中的表达模式及其功能研究
Abstracts and Key Words
对姜夔自度曲音乐本体的现代解读
西瓜噬酸菌Ⅲ型分泌系统hrcQ基因功能分析
基因组编辑系统CRISPR—Cas9研究进展及其在猪研究中的应用
药用植物萜类生物合成β—AS基因研究进展
《我应该感到自豪才对》的本体性教学内容及启示
Care about the virtue moral education
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势