基于双聚类的药物重定位研究热点分析

2019-10-17 00:39:26吕少妮
医学信息学杂志 2019年8期

张 庆 轩 扬 吕少妮

(济宁医学院医学信息工程学院日照 276826)(济宁医学院管理学院日照276826)(济宁医学院医学信息工程学院日照 276826)

1 引言

双聚类算法是在1971年由Hartigan提出的,又被称作同时聚类[1],是对数据矩阵中的样本和变量同时进行聚类,在对象及其属性两个方向上,针对对象及其属性提取它们的联合信息,发现潜在的布局模式,在应用上比许多单向传统聚类方法更具有优势[2]。药物重定位(Drug Repositioning)指开发药物新的适应症,即利用相关技术方法对已有药物进行重新筛选、组合或改造从而发现其新用途的过程[3]。制药公司试图寻求低成本的替代品以避免在新药研发中带来的风险以及昂贵的研发经费。在临床安全性研究已经完成的条件下,重新定位有助于以更低的成本及更短的时间,发现疾病新的治疗方法。因此近年来药物重定位越来越多地引起研究人员和开发商的关注。基于此,本研究对Medline数据库收录的药物重定位相关论文中的高频主题词进行共现聚类分析,总结药物重定位的研究热点并对其进行分析。

2 数据来源与方法

2.1 数据来源

数据来源于Medline数据库,由美国国家医学图书馆编辑出版,是国际上生物医学领域最熟知及普遍应用的权威数据库,迄今收录文献达2 900万篇。所用的检索策略为"Drug Repositioning"[Majr],检索时间为2018年12月6日,共得到相关文献627篇。

2.2 方法

以XML格式套录检索结果,利用书目共现分析系统BICOMB[4]统计并抽取文献记录中的主要主题词与副主题词,按照出现频次由高到低进行排序,选取频次≥6的47个主题词/副主题词作为高频词。其中出现频次最高的前3位主题词/副主题词分别为:药物重定位/方法(Drug Repositioning / methods)、计算生物学/方法(Computational Biology/methods)、抗肿瘤药物/药理学(Antineoplastic Agents / pharmacology)。该47个高频词占所有与药物重定位相关主题词的累计比例为45.68%。根据高频词在每篇文献记录中出现次数对其进行统计,形成高频词词篇矩阵。将词篇矩阵输入gCLUTO软件,采用系统聚类法对所得词篇矩阵进行聚类分析,聚类分析的结果可以反映出高频词之间的亲疏关系,根据高频主题词的聚类结果以及主题词之间的语义关系,总结出药物重定位的研究热点。

3 结果

3.1 聚类结果(图1)

其中横轴代表文献,纵轴代表聚类的主题词/副主题词。两词聚集到一起的距离越短,关系越密切。

图1 药物重新定位研究高频主题词的共现聚类

3.2 类成员对象对聚类贡献率

首先根据每一类高频词的含义以及这些主题词之间的语义关系总结出每一类主题词所代表的研究热点,即药物重定位的研究热点,如主题词神经保护药物/治疗应用(Neuroprotective Agents/therapeutic use)和阿尔茨海默病/药物疗法(Alzheimer Disease/drug therapy)距离较近,关系密切,首先聚成一类;抗菌药/治疗应用(Anti-Bacterial Agents/therapeutic use)再与前面两个词合成一类,依此类推。通过分析这些主题词的语义关系就能得出它们所代表的类团含义标签,综合各个类别的类标签可以得出该主题的研究热点。其次,利用gCLUTO软件计算各类成员对聚类贡献率的指标(描述度和区分度),选择对每一类形成贡献最大的来源文献作为表示该类内容的类标签文献[5]。通常选取描述度分值最高者作为该类的类标签文献,见表1。确定类标签文献后再对文献内容进一步分析,进而阐释该类研究方向的具体内容。通过文献的高频主题词和副主题词进行共现聚类分析,可将该领域的研究热点分为两大方面,5个主题。

表1 类成员对聚类贡献率指标

4 分析

4.1 基于疾病的药物重定位

4.1.1 药物重定位在胶质母细胞瘤的应用 胶质母细胞瘤是一种5年生存率有限的脑肿瘤,需要开发新的治疗方案提高患者的存活率。现有用于其他症状的药物可能具有潜在的抗癌作用,为患者的生存带来显著益处。该类涉及的主题词主要包括Glioblastoma / drug therapy、Brain Neoplasms / drug therapy、Antiviral Agents / therapeutic use、Antiviral Agents / pharmacology等。研究内容为利用现有用于其他症状的药物为胶质母细胞瘤的治疗提供新的选择。如利巴韦林是用于丙型肝炎治疗的抗病毒药物,也是目前唯一已知用于靶向eIF4E的临床批准药物,实验证明利巴韦林与替莫唑胺或放疗联合可增加神经胶质瘤细胞的细胞死亡[6];重新利用一些穿过血脑屏障并具有潜在抗癌活性的旧药物,为胶质母细胞瘤提供新的治疗选择[7];糖原合酶激酶(GSK)-3β已成为胶质母细胞瘤的治疗靶标。通过抑制GSK-3β的活性研究当前批准的药物对胶质母细胞瘤的治疗效果,在实验环境和对复发性胶质母细胞瘤患者的临床研究中,将现有药物与替莫唑胺重新定位[8]。

4.1.2 药物重定位在罕见病领域的应用 包括主题词Rare Diseases/drug therapy、Drug Design、Pharmaceutical Preparations/metabolism等。研究内容为通过对已经批准用于其它疾病的药物治疗罕见病。临床对大部分罕见病的致病机制尚不清楚,而罕见病的治疗药物则更少,仅有约5%的罕见病有治疗药物[9]。药物重新定位是最大化药物潜力的一种方法。面对为罕见病开发新疗法的巨大困难,制药公司正在寻求“重新利用”已经批准用于其他疾病的药物治疗罕见病[10-12]。促进罕见病治疗的一种有效策略是找到现有药物与罕见病之间的联系,如通过利用系统的药物重定位方法,发现肿瘤药物在治疗罕见病方面具有很大的再利用潜力[12]。

4.2 基于生物信息学的药物重定位

4.2.1 基于计算生物学进行药物重定位 涉及的主题词包括Computational Biology/methods、Drug Repositioning/methods、Drug Discovery/methods、Computer Simulation等。研究内容为通过计算生物学的方法进行药物重新定位。如构建分类器,基于化学相互作用和化学相似性预测药物适应症[13];提出系统的计算方法,建立药物相似性网络,通过整合化学结构相似性和基因语义相似性产生的“表达谱”来重新定位药物,以确定给定药物的潜在新型适应症[14];在药物发现中应用共表达推断将遗传多样性细胞组中的药物反应和基因表达与靶肿瘤中的基因表达模式相关联,识别和重新利用化合物[15];神经退行性疾病如阿尔茨海默病药物再利用的生物信息学方法,使用基于机制的药物-靶标相互作用建模方法,重新定位候选药物[16-17]。

4.2.2 应用数据库和专业软件发现有价值信息 该类包括主题词Pharmaceutical Databases、Data Mining / methods、Algorithms、Computer Simulation、Software等。研究内容为利用药物相关的大数据如药物和靶点数据库、关于信号通路的数据库等提高药物重定位的效率。如开发细胞遗传学平台,将国际人类细胞遗传学命名系统中的核型转换为可用于计算分析的机器可读模型。通过计算药物——基因相互作用数据产生药物-基因-疾病3联体,识别药物再利用的潜在机会[18]。通过与所研究药物相互作用或受其影响的药物靶点分析阐明其作用机制和临床功能。基于公共数据库的药物靶标信息的途径富集分析可以提供阐明药物作用机制和重新定位的新方法,因此有利于发现新的疾病治疗方法[19]。

4.2.3 基于数据挖掘的药物重定位 研究内容为利用药物-基因-疾病3者数据结合复杂的文本分析识别药物的潜在新用途。如开发并评估一种基于网络的计算方法(MD-Miner)用于预测有效药物并揭示在信号通路水平上的潜在药物作用机制[18];通过分析“组学”数据,包括基因组学、表观基因组学、蛋白质组学和代谢组学数据,生成抗阿尔茨海默病(AD)蛋白靶标列表,开发排序算法用于筛选抗AD靶标的药物[20]。

5 结语

快速发展的生物信息学向公众提供了药物作用机制关联性和临床信息,这一因素促进了药物重定位的快速发展。药物重定位在当前的药物研究中起着越来越重要的作用。通过对高频主题词进行聚类分析可以总结出药物重利用的研究热点主要集中在疾病治疗业务信息学应用等方面。一是基于疾病的药物重定位:研究内容主要为利用现有用于其他症状的药物为胶质母细胞瘤的治疗提供新的选择以及通过对已经批准用于其他疾病的药物治疗罕见病。二是基于生物信息学的药物重定位:研究内容主要为对药物和疾病相关的高通量组学(如基因组、转录组、蛋白组和代谢组等)以及医药大数据进行挖掘和分析,进而为药物研发提供有质量的假说和线索。