基于XG-B00ST和多数据源的药物重定位预测

2020-05-25 02:30李苗苗

软件导刊 2020年2期

李苗苗

摘要：新药物研发时间长、成本高，但成功率低，为了提高收益比，药物重定位即旧药新用受到了广泛关注。从临床和实验角度鉴定药物的新用途需要耗费大量人力和物力，从计算角度预测药物新用途成为研究热点;并且，随着药物和疾病相关的大量多层次组学数据积累，通过挖掘药物相关数据鉴定药物新用途成为可能。重点挖掘药物化学结构、药理性质、药物靶蛋白功能、疾病表型等数据得到相应特征，并将这些药物疾病特征进行整合，再将特征输入XG-BOOST模型进行预测。实验结果表明，该方法准确率达87.9%，较逻辑回归、随机森林具有更高的预测精度。

关键词：药物重定位;XG-BOOST模型;预测精度

DOI：10. 11907/rjdk. 191526 开放科学（资源服务）标识码（OSID）：

中图分类号：TP301文献标识码：A 文章编号：1672-7800（2020）002-0110-04

英标：Drug Reposition Prediction Based on XG-BOOST and Multi-source Data

英作：LI Miao-miao

英单：（Business School， University of Shanghai for Science and Technology， Shanghai 200090， China）

Abstract： The development of new drugs is long and costly， but the success rate is low. Therefore， in order to improve the yield， drug relocation， that is， the new use of old drugs has received extensive attention. The clinical and experimental identification of new uses of drugs requires a lot of manpower and material resources， and predicting the new use of drugs from a computational perspective has become a research hotspot in recent years. On the other hand， in recent years， the rapid accumulation of a large number of multi-level omics data related to drug-related and disease has made it possible to identify new drug uses by mining drug-related data. In this paper， the characteristics of the chemical structure， pharmacological properties， drug target protein function， disease phenotype， etc. of the drug were obtained， and the characteristics of these drugs were integrated. Finally， the feature is input into the XG-BOOST model for prediction. The experimental results show that our method has higher prediction accuracy than logistic regression and random forest.

Key Words： drug reposition;XG-BOOST model;prediction accuracy

0 引言

药物从最初的实验研究到最终批准上市，整个阶段需要13～15年，耗资20～30亿美元[1]。而近两年数据显示，新药研究数量与最终上市数量的比例还不到1%。因此越来越多的公司开始对现有的药物分子进行筛选，以期挖掘出药物的新疗效，这也就是人们常说的药物重定位。与新药研发相比，药物重定位只需3～5年时间，药代动力学等不确定性显著减小;并且，用于开展药物重定位研究的药物通常已经通过了临床试验的几个阶段或是已经上市，这使得研发成本及风险明显降低，周期缩短。因此，药物重定位是目前解决新药开发高投入低成功率问题的有效方法之一[2]。

随着药物重定位技术的不断发展和成熟，成功的实例也越来越多。其中具有代表性的如阿司匹林，原来用于解热镇痛和抗风湿，后来发现可以用于感冒、发热、头痛、牙痛、关节痛、风湿痛心肌梗死以及预防术后血栓的形成[3]。再如沙利度胺，原来用作镇静剂，后来发现能够对恶心、失眠、孕吐产生作用。而近期研究表明，它可能适用于麻风病，多发性骨髓瘤，中到重度麻风结节性红斑以及Ⅱ型糖尿病[4]。尽管药物重定位蕴含着巨大潜力，但是药物新疗效的发现并不容易，因为大部分药物的新用途可能与原本的适应症并无明显关系。近年来，大规模的基因组、表型数据以及药物的化学与生物活性数据的爆炸式增长，又为药物重定位提供了机遇。有研究人员基于药物重定位的生物学依据，即一药多靶和一靶多治提出了多种假设，从而实现了药物的重定位。基于这种假设，具有相同属性的药物倾向于有相同或相似疗效，因此可以用于治疗相同或相似疾病。例如，Iwata等[5]通过比较药物在癌细胞系上的Pathway信息，发现了可以用于抗癌的新药物;Iorio F等[6]依据数据库中不同的小分子药物所影响的基因表达谱发现血管扩张药物法舒地尔可与抗精神药物三氟拉嗪通过组合方式治疗退行性疾病;Ken等[7]通过假设作用于相似靶标或者Pathway的药物可能会产生相似的副作用，然后通过评估8种常规阿尔兹海默症病药物的共同副作用，发现了25种可能可以用于该疾病的新药物。同理，基于相似的疾病倾向于被相同或相似的药物所治疗的假设，Hu等[8]通过基因表达谱构建了疾病相似性网络，发现躁郁症和遗传痉挛性截瘫有着相似的发病机制，因此认为治疗躁郁症的药物可以用于遗传痉挛性截瘫。此外，基于药物与疾病特征之间的负相关思想，已经提出了几种利用疾病相关特征寻找药物新适应症的方法。例如，Azam等[9]根据KEGG数据库中所给出的信号通路，基于基因表达特征在疾病状态和药物状态的扰动方向相反，则该药物可以用于治疗该疾病的假设，构建了全局生物分子网络，从而发现了可能可以用于治療IPF（特发性肺纤维化）的8种新的治疗药物。还有研究人员根据药物疾病的负相关性预测抗溃疡药物甲氰咪胍可以用来治疗肺腺癌[10-11]。此外，基于靶标药物重定位的基本思想即发现已有药物的未知靶标，提出假设：如果已知药物可以结合的靶标是其原用途以外，并且是某种疾病的关键分子，那么这种药物可以用于治疗该疾病。基于此假设，预测出很多药物潜在的新靶标。例如，恩他卡朋原来是用于治疗帕金森疾病的，后来发现可以作用于结核病中的结合杆菌酶，使其丧失活性，从而达到治疗结核病的效果[12]。例如，致幻剂DMT与血清素受体之间的关系就是基于此种原理发现的[13]。

与之前通过单一或较少数据源提取特征相比，通过药物的化学结构、副作用以及靶标相关数据和疾病表型数据等多种数据源提取出更多的特征，然后将药物疾病特征根据已知的公式进行关联整合，最后应用于新的模型，即XG-BOOST模型进行预测。

1 数据源

本文应用XG-BOOST模型预测已有药物的潜在适应症，具体流程如图1所示。首先，将获得的药物信息与疾病信息通过计算机处理成一个个二阶矩阵，矩阵中的每个元素表示药物与药物的相似度（或疾病与疾病的相似度），然后将每个药物矩阵与疾病矩阵分别整合成一个个低秩矩阵，每个低秩矩阵分别表示一个特征。最后，通过这些特征数据以及参数调节获得一个性能更优的模型，该模型可以进一步用于预测新的潜在药物疾病关联。

1.1 药物疾病的黄金标准集

本次用于训练的黄金标准集来自多个数据源，其中疾病主要来自OMIM，药物来自DrugBank数据库，这是一个混合的化学信息资源，具有详细的药物数据和全面的目标信息。通过使用UMLS（Unified Medical Languange System）将药物、药物的适应症和疾病名称进行匹配。为确保关联的可信度，要求药物与疾病必须有多种关联，最终得到包括1 244种药物疾病关联的黄金标准集，其中包括来自DrugBank数据库的443种药物，以及OMIM中所列举的256种疾病。

1.2 药物疾病相似性

1.2.1 药物相似性

定义四组衡量药物与药物相似策略：

（1）化学相似性。药物的SMILE分子式可以直接从DrugBank数据库中获得，通过RDKit数据包处理成分子指纹，最终获得的药物和药物相似性得分是基于指纹的二维Tanimoto系数。

（2）副作用相似性。药物的副作用通过SIDER库获得，这是个线上开源的数据库，每个药物副作用之间相互独立，没有关联，因此可以通过Jaccard系数求得药物之间的相似性，即用交集比上并集。

（3）ATC相似性[14]。ATC代码共有7位，其中第1、4、5位是字母，第2、3、6、7位为数字。ATC系统将药物分为5个级别，分别为解剖学、治疗学、药理学、化学、化合物上的分类。两种药物成分的K级药物疗效相似性定义为：

（4）Go相似性。药物相关的基因语义相似性得分通过软件GoSemSim获得，基因之间的功能相似性广泛应用于生物信息学，Go相似性则主要用于评估基因之间的功能相似性。

（5）ppi相似性。药物靶蛋白相互作用的相似性主要是通过已知靶蛋白之间的相互作用构建出人类靶蛋白相互作用网络，其中靶蛋白相互作用关系可以从HPRD数据库中获得，该数据库也是一个在线的开源数据库。通过计算出两个靶蛋白之间的最小距离，将最小距离进行归一化从而得到这两个靶蛋白的相互作用得分。将两个药物对应的靶蛋白两两作用后求出得分平均值，即为两个药物的ppi相似性。

1.2.2 疾病相似性

对于疾病，主要采用疾病的表型特征，使用的疾病相似性由van Driel等[15]构建。疾病相似性由基于疾病表型的MinMiner计算获得，其计算类似于广泛用于信息检索的术语频率—逆文档频率技术。简而言之，通过使用医学主题标题词汇（Mesh）的解剖学（A）和疾病（C）部分，将每种疾病描述为特征向量，以从其OMIM记录中自动提取Mesh术语，其中特征向量中的每个值表示Mesh概念与表型的相关性。每个概念的相关性是通过文档中概念的实际计数加上概念下位词的相关性总和计算得到。一对疾病{di，dj}之间的相似性通过计算两个网格概念向量之间的余弦相似性ti={ti1，ti2，…，tik}和tj={tj1，tj2，…，tjk}得到。为了计算药物化学相似性，将每种化合物描述为基于PubChem指纹880维的二维向量，其中如果相应的指纹包含在药物中，则向量中的元素为1，否则为0。用Tanimoto系数计算出两种化合物之间的二维相似度，其定义为普通指纹数与指纹总数的比率。

1.2.3 药物疾病整合

将药物的4种相似性与疾病mesh相似性整合成5个特征，即特征1为药物化学结构相似性-mesh相似性，特征2为药物副作用相似性-mesh相似性，特征3为药物atc相似性-mesh相似性，特征4为Go相似性-mesh相似性，特征5为药物ppi相似性-mesh相似性。对于一对药物疾病的关联得分（dr，di），计算步骤如下：首先，将之前得到的黄金标准集中的每一对关联表示为（dr，di），计算所求药物和已知药物之间的相似性S（dr，dr）与所求疾病和已知药物关联的疾病之间的相似性S（di，di）。根据Perlman等[16]提出的方法，将这两个相似性得分通过计算加权平方根合并成一个相似性得分。

以特征1为例，需将某种药物m与黄金标准集中的药物n求基于化学结构的相似性得分，然后求出该药物m对应的疾病与药物n对应疾病基于mesh的相似性得分，这样会得到1 244个相似性数据。选取最大的一个作为该组药物疾病的关联得分，并以相同的方法求出另外几组特征。

1.3 数据集

数据集的正集由黄金标准集组成，为了完善特征数据，事先删除存在数据缺乏的药物。最终标准集包括1 244组药物疾病对，负集的数据量是正集的两倍大小，它由随机产生的药物疾病对构成。简而言之，就是在所有185 609个药物疾病对中，去掉正集，剩下随机抽取3 866个作为负集。

2 XG-BOOST模型

2.1 監督学习

监督学习就是训练带标签数据的学习。比如，有10万条数据，每条数据都包括50个特征，还有一个标签。而标签的内容取决于学习问题，如果数据是病人进行癌症诊断做的各项检查结果，标签就是病人是否得癌症，是为1，否为0。监督学习就是要从这10万条数据中学习根据检查结果诊断病人是否得癌症的知识，而学习的范围就限定在这10万条数据中，形象的理解就是，在这10万条带标签数据的“监督”下进行学习。

2.2 模型原理

XG-BOOST是一个监督学习模型，它是多个CART树（分类回归树）组合后的模型，这种组合后的模型一般都具有更强大的泛化能力[17-19]。因此，XG-BOOST模型最终的预测值就是每棵树的预测值之和。对于分类问题，由于CART树的叶子节点对应的值是一个实际分数，而非一个确定的类别，这将有利于实现高效的优化算法，这也是XG-BOOST运算快的原因所在。該模型的数学表示如下：

K是指树的棵数，F表示所有可能的CART树，f表示一个具体的CART树，整个模型由K个CART树组成。

模型表示出来后可进一步表示出模型的目标函数，如式（4）所示。

该目标函数包含两部分，第一部分是损失函数，第二部分是正则项，正则项由K棵树的正则化项相加而来。

2.2.1 目标函数

训练该模型的任务就是最小化目标函数，寻找一组最佳参数组。XG-BOOST模型的参数优化不是直接优化整个目标函数，而是分步骤优化目标函数，先优化第一棵树，再优化第二棵树，直至最后一颗树。过程如下：

2.2.2 正则化项

对于一棵树的正则化，作出如下定义：

首先，一棵树有T个叶子节点，这T个叶子节点的值组成了一个T维向量w，q（x）是一个映射，用来将样本映射成1～T的某个值，也即它分到某个叶子节点，q（x）其实代表了CART树的结构，w_q（x）自然就是这棵树对样本x的预测值。

有了上述定义，XG-BOOST的正则化项如下：

这里的参数[γ]和[λ]都是XG-BOOST自己定义的，在使用该模型时，这两个参数可以自己调节，[γ]越大表示希望获得结构越简单的树，因此对较多叶子节点的树惩罚越大。[λ]越大也表示希望获得结构越简单的树。

3 结果分析

运用上述方法预测潜在的药物疾病关联，并将该方法与逻辑回归、随机森林进行比较。

3.1 性能评估

K折交叉验证常用的是5、10、20折，在折数选择问题上，不同折数的计算成本和效果均存在差异，因此需要进行权衡。本文采用5折交叉验证，并通过AUC、F-measure及精度等常用性能指标对模型进行评价，具体性能指标如表1。

3.2 性能分析

进一步绘制得到AUC，即ROC曲线面积，其中横轴表示真负率，纵轴表示真正率或灵敏度。在整个预测过程中，正样本被预测出来的比率越大越好，与之对应的负样本被预测为正样本的比率越小越好，也即ROC曲线越靠近坐标系左上角，分类效果越好。根据图2可以看出，XG-BOOST的性能最好，随机森林次之，最后是逻辑回归[20]。XG-BOOST部分预测结果如表2所示。

4 结语

传统新药开发耗时长且风险高，旧药新用作为另一种研究范式受到广泛关注。近年来，随着药物和疾病数据的快速积累，挖掘各层次生物医学数据预测药物新用途成为系统生物领域的研究热点。本文从药物的化学结构、药理性质、副作用、靶蛋白功能和疾病表型等数据中挖掘出有信息量的特征，然后应用于XG-BOOST模型，并与逻辑回归、随机森林模型性能作对比。实验结果表明，本文方法性能更优，原因在于其整合利用了药物化学结构、靶蛋白、药理、表型等各层次数据;在特征构建完后，采用XG-boost模型。

但该方法仍有一些问题待研究解决，如数据的黄金标准集是通过使用UMLS将Drugbank中的药物、药物适应症和OMIM中的疾病名称进行匹配得到的，因此获得的药物疾病关联不完善;并且负集是随机产生的一个两倍大的集合，这会存在许多不确定性。随着更多关联的产生，预计可以构建更多具有生物学意义的集合，使得预测结果更准确。

参考文献：

[1] 杨光，郝逸凡. 基于互信息法的抗前列腺癌药物重定位分析[J]. 沈阳师范大学学报：自然科学版，2019（1）：34-37.

[2] 刘艳飞，孙明月. 网络药理学在中药研究中的应用现状与思考[J]. 中国循证医学杂志，2017（11）：1344-1349.

[3] 张永祥. 药物重定位——网络药理学的重要领域[J]. 中国药理学与毒理学杂志，2012（6）：779-786.

[4] WANG Y Y，CUI C F，QI L Q，et al. DrPOCS：Drug repositioning based on projection onto convex sets[J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics，2019，16（1）： 154-162.

[5] IWATA M，HIROSE L. Pathway-based drug repositioning for cancers： computational prediction and experimental validation[J]. Medical Chemtsry，2018， 61：9583-9595.

[6] IORIO F. Discovery of drug mode of action and drug repositioning from transcriptional responses[J]. Proc Natl Acad Sci. USA，2010，107（33）： 14621-14627.

[7] MCGARRY K， GRAHAM Y. RESKO： Repositioning drugs by using side effects and knowledge from ontologies[J]. Knowledge-based Systems，2018，160： 34-48.

[8] HU G，AGARWAL P. Human disease-drug network based on genomic expression profiles[J]. PLoS One，2009，4（8）： 6536.

[9] NAFISEH A. A novel computational approach for drug repurposing using systems biology[J]. Bioinformatics，2018，34（16）：2817-2825.

[10] LI Y. Gene expression module-based chemical function similarity search[J]. Nucleic Acids Res，2008，36（20）： 137.

[11] WANG G. Expression-based in silico screening of candidate therapeutic compounds for lung adenocarcinoma[J]. PLoS One，2011，6（1）： 14573.

[12] KINNINGS S L. Drug discovery using chemical systems biology： repositioning the safe medicine Comtan to treat multi-drug and extensively drug resistant tuberculosis[J]. PLoS Comput Biol.，2009，5（7）： 1000423.

[13] KEISER M J. Relating protein pharmacology by ligand chemistry[J]. Nat Biotechnol，2007，25（2）： 197-206.

[14] 陈范曙. 基于信息整合的药物相关信息挖掘方法研究[D]. 2016.

[15] VANDRIEL M A. A text-mining analysis of the human pheome[J]. Eur J Hum Genet，2006，14：535-542.

[16] ASSAF G， GIDEON Y. PREDICT： a method for inferring novel drug indications with application to personalized medicine[J]. Molecular System Biology， 2011，7（496）.

[17] MASON L， BAXTER J，BARTLETT P L.Boostig algorithms as gradient deacent[C]. Conference on Advantage in Neural Information Processing Systems，2000：512-518.

[18] DIOGO M，KATHERINE M. Next-generaion machine learning for biological network[J]. Cell，2018，173：1581-1592.

[19] KHADER S， K W J， B S G，et al. priortizing small molecule as candinates for drug repositioning using machine learning[EB/OL]. https：//www.biorxiv.org/content/10.1101/331975v1，2018.

[20] 王博. 基于Logistic Regression的數学成绩预测系统的研究[D]. 南昌：南昌大学，2018.

（责任编辑：孙娟）

软件导刊2020年2期

软件导刊的其它文章: 一种基于叠加Logistic映射分布的FWA-PSO新算法; 云环境下结合改进粒子群优化与检查点技术的容错调度算法; 基于波束域LC-GSC的降秩波束形成算法; 海工装备案例库知识推荐方法研究; 基于非参数回归法的掺粉煤灰混凝土抗硫酸腐蚀能力预测; 2017年中国内地电影复杂网络建模与分析