吕艳华,赵宏霞,李 琦,梁傲雪,于 琦
山西医科大学管理学院,山西 030001
自闭症谱系障碍是由于生物性神经系统发育障碍引起的疾病,主要症状有社会沟通能力障碍、兴趣狭窄及重复行为特征[1]。目前自闭症的发病机制和病因尚未完全明确,且尚无特效药物,目前临床治疗药物多为对症治疗药物,如抗抑郁药、抗精神病药、镇静安眠药,主要针对自闭症症状的治疗药物仅有10 种[2]。联合国数据显示,截至目前,全球大概有超过7 000 万人正遭受自闭症的困扰[3]。面对庞大的自闭症患病群体,寻找潜力药物和特效药物迫在眉睫。随着计算机技术的发展及各种药物数据库的建立,基于基因药物大数据的药物预测成为重要的预测手段,利用计算机技术可以从现有的海量知识中进行隐性的知识关联,挖掘潜在的关系信息,为科研人员提供有价值的线索。本研究运用计算机技术抽取自闭症相关文献中的三元组并构建自闭症药物实体知识图谱,深层次挖掘潜在的信息,发现自闭症药物治疗潜力药物,有助于完善应用三元组进行知识发现的理论,丰富自闭症药物治疗手段,为药物治疗提供新思路。
药物知识发现是生物医学领域知识发现的一个分支研究,其本质是发现跨领域知识间隐性关联的特定类型数据挖掘应用[4]。1986 年,Swanon[5-6]提出了非相关文献知识发现方法,并利用该方法发现了鱼油治疗雷诺氏病和镁治疗偏头痛的科学假设,且两个假设后来分别被科学实验所证实,当时采用的是人工阅读MedLine 文章标题的方法。后来,Swanson[7]开发出了Arrowsmith,它是一种基于文献的交互式知识发现系统,输入查询词查找整个MedLine 数据库并收集标题或摘要中出现该词的所有文章。这是基于对标题和短语的共现分析。之后他们采用Arrowsmith 来确定雌激素与阿尔茨海默病之间存在的联系,结果表明雌激素的抗氧化活性可能与阿尔茨海默病有关[8]。但这种方法仍需要人工设置停用词列表,并对Arrowsmith生成的许多虚假连接进行分类。到了21 世纪初,Hristovski等[9]提出了用于医学领域的交互式发现支持系统BITOLA,术语和关系来自MedLine 数据库和统一医学语言系统(the Unified Medical Language System,UMLS),这种方法是基于关联规则来发现医学术语之间 的 关 系。2005 年,Hristovski 等[10]在BITOLA 中 整合了有关疾病染色体定位以及候选基因染色体定位的知识,使其更适合于发现疾病的候选基因。与此同时,Weeber 等[11]基于ULMS 开发了一个支持工具DAD,使用该系统来寻找药物沙利度胺的潜在治疗作用,结果显示沙利度胺可能对急性胰腺炎、慢性丙型肝炎、幽门螺杆菌引起的胃炎和重症肌无力有治疗作用。但这些研究必须人工审查、阅读大量的MedLine 引文,而且有大量的虚假关系需人工分类辨别,无法明确、科学地解释发现的关系。2006 年,Hristovski 等[12]提出使用语义谓词来进一步完善基于文献的知识发现方法,初步试验表明这种方法可以发现以前那些方法无法发现的新关联。Ahlers 等[13]的研究进一步证明,采用语义谓词进行知识发现减少了由人工审查的关系数量,并且对发现的结果更具解释力,他们采用这种知识发现模式,发现了5 种在抗精神病药物和癌症之间提供联系的生物分子:脑源性神经营养因子、肝脏细胞色素P4502D6(CYP2D6)、糖皮质激素受体、催乳素(PRL)和肿瘤坏死因子(TNF)。可见,药物知识发现经历了从人工阅读文章标题的共现分析到基于关联规则的分析,再到加入语义谓词,可见有效结合语义关系进行实体识别是提高药物知识发现效率的趋势和关键环节。
知识图谱本质上是一种基于图的语义网络,表示不同实体之间的关系,通常以三元组“主语-谓语-宾语(subject-predicate-object,SPO)”的形式表示知识。知识图谱具有强大的语义关联能力、信息组织能力和知识融合能力,可以将实体及实体间的关系属性进行细粒度的语义表示[14]。首先,它可以兼容实体间的语义关系与挖掘的特性,可以根据实际情况预设语义关系或对语义关系进行筛选,使其更符合实际研究情况,符合药物知识发现的逻辑[14];其次,将文献中的语义三元组向ULMS 中规范化的术语与语义关系进行映射,具有高标准、高效率与易解释等优点[4];而且可以运用复杂网络和图挖掘算法对其进行挖掘,实现细粒度、深层次、隐含的知识发现。目前,知识图谱在问答系统[15]、推荐系统[16]、机器翻译[17]等领域发挥了重要作用,在金融安全[18]、医学诊断[19]、军用[20]、电力[21]领域展示出很好的应用前景。知识图谱在药物发现领域的应用主要是用于发现药物新的适应证,减少药物不良反应等[14,22-24]。
综上所述,基于三元组构建的知识图谱在药物知识发现领域的应用具有一定的依据,对药物再利用、药物开发有一定的意义。在以往基于知识图谱开展药物知识发现研究的基础上,本研究在知识发现全面性、挖掘方法先进性、结果有效性验证方面进行了改进,使之更适用于药物知识发现。首先,知识发现更全面,除共现关系外,采用Neo4j 数据库描述实体间的关系,定义了实体间复杂的语义关系,并从语义层面深入分析了实体间的语义关系及其涵义;其次,挖掘方法更先进,采用了基于语义的路径分析方法,并在路径分析中增加了靶点与靶点之间的关系,更符合药物知识发现逻辑;最后,采用临床实验数据库(https://clinicaltrials.gov)对结果进行有效性验证。
本研究使用SemRep、Metamap 工具从自闭症相关文献中识别自闭症相关实体、属性、语义关系,抽取三元组并对三元组清洗、归类后储存在Neo4j 图数据库中,采用路径发现深入挖掘自闭症重要药物和潜力药物。
本研究所需的实体、属性及语义关系数据均来自PubMed 数据库。检索词为“autism spectrum disorder”[MeSH],检 索 时 限 为 建 库 至2023 年2 月1 日,共 下 载40 662 条题录数据。
采用基于ULMS 的工具SemRep、Metamap 进行自然语言处理和术语映射,对获取的文献记录进行处理,对实体、语义关系、属性等信息进行抽取,获得实体在ULMS 超级词表中的相应概念及概念间的语义类型和语义关系。SemRep、Matamap 可自动执行分词、语义分析、短语映射、语义谓词归一化、语义约束等操作。
基于40 662 条题录数据,共抽取到224 675 条SPO,结合Fiszman 等[25-26]提出的SPO 清洗原则和相关学者的研究,制定清洗流程:1)否定谓词在本研究没有意义,对否定谓词进行剔除。如NEG_ADMINISTERED_TO,NEG_AFFECTS,NEG_ASSOCIATED_WITH,NEG_CAUSES,NEG_AUGMENTS 等。2)考虑到每篇文献的贡献相同,对SPO 进行合并,同1 篇文献中重复出现的SPO 只计1 次。3)出现频次太低的SPO 无统计意义,选择出现频次≥3 次的SPO。4)结合专业知识,筛选与本研究相关的有关疾病、靶点、药物实体SPO,具体语义类型见表1。在数据存储前对三元组进行清洗、归类后人工复审、专家复审。筛选后共获得6 883 条SPO,再经过人工复审、专家复审后得到5 140 条。
表1 实体类别-语义类型对照
使用Neo4j 数据库进行知识存储。Neo4j 数据库是一种高性能的图数据库,可对数据进行创建、查询、更新、删除等操作,且操作灵活方便。本研究中将自闭症相关药物实体作为节点,标签表示实体属性,实体间的关系作为边,以三元组的形式构建实体与实体间的关系。
采用路径发现进行知识发现。通过定义实体属性和关系构建推理规则,根据节点数量可产生不同长度的路径;预定义开始实体和语义关系,设定路径长度,到达药物节点,实现药物预测。此知识发现模式与Swanson 经典的ABC 发现模式一致,即如果AB 之间有直接关联,BC 之间有直接关联,那么AC 之间就被认为有隐含关联。本研究在前期学者研究的基础上,加入靶点与靶点之间的关联,有研究显示靶点之间的共现同样具有生物学意义,他们之间的共现关系有助于挖掘更深层次的生物学信息[27]。
本研究获得的SPO 语义三元组包括了1 262 个头实体、687 个尾实体、18 种实体关系。将每种实体和实体关系的频次作为属性加入图谱中,用于药物预测。实体间的语义关系见表2。
表2 自闭症文献三元组实体间的语义关系
在Neo4j 数据库中使用Cypher 语句设定搜索条件,以疾病作为头节点,基因或靶标作为中间节点,药物为尾节点。根据实际情况选择以下4 种实体作为路径发现的疾病起点:C0004352 Autistic Disorder,C0524528 Pervasive Development Disorder,C1510586 Autism Spectrum Disorders/Autism Spectrum Disorder、C0236792 Asperger Syndrome。药物知识发现路径所依据的语义关系见图1。
图1 路径中实体间的语义关系
基于上述“疾病-靶点-药物”语义关系,本研究共采用3 条路径进行药物知识发现。1)路径1:基于“疾病-靶标-药物”路径的知识发现。以自闭症相关疾病实体为起点,靶标作为中间节点,药物作为尾节点,设定疾病靶标、靶标药物之间的语义关系,进行药物知识发现。设定语句为match(p1:lable {tag: 'disease'})-[r1]-(p2: lable {tag: 'target'}) - [r2] - (p3: lable{tag: 'drug'})WHERE p1.id IN ["C1510586", "C0004352","C0524528","C0236792"]。测算结果见表3、图2。2)路径2:基于“疾病-靶标-靶标-药物”路径的知识发现。以自闭症相关疾病实体为起点,考虑到靶点之间的相互作用,将2 个靶标作为中间节点,药物作为尾节点,设定疾病与靶标、靶标与靶标、靶标与药物之间的语义关系,进行药物知识发现。设定语句为match(p1:lable{tag: 'disease'})-[r1]-(p2:lable {tag:'target'})-[r2]-(p3:lable{tag:'target'})-[r3]-(p4:lable{tag:'drug'}) WHERE p1.id IN["C1510586","C0004352","C0524528","C0236792"],r 为实体间的语义关系。测算结果见表3、图2。3)路径3:根据设定药物、基因或靶标、疾病之间的语义关系进行知识发现。用单点起源路径(single source shortest path)算法,以自闭症相关疾病作为起点,到达图中其他所有药物实体的最短路径。基于语义路径1,发现了5 种自闭症潜在药物;基于语义路径2,发现了6 种药物;基于语义路径3,发现了30 种药物。见表3。
本研究对基于3 条“疾病-靶点-药物”语义路径发现41 种自闭症药物,删除重复项后共得到32 种药物,其中5 种药物(褪黑素、丙戊酸、阿立哌唑、加兰他敏、利培酮)目前已是Drugbank 中被批准通用的自闭症治疗药物,其余27 种药物可视为本研究基于语义路径方法测算得出的潜力药物(见表4)。
表4 基于“疾病-靶点-药物”语义路径的27 种自闭症潜力药物
根据药物的解剖学、治疗学及化学分类系统(ATC)药物分类,本研究预测的潜力药物主要分布在以下类别:5 种属于神经系统精神安定药、7 种属于精神兴奋药,3 种属于消化道及代谢药物,1 种属于呼吸系统药物(见表5)。与已批准自闭症治疗药物的ATC分类基本趋同。
表5 27 种潜力药物在ATC 药物分类及所属类别
采用临床实验数据(https://clinicaltrials.gov)对研究结果中除了Drugbank 数据库中已批准的治疗自闭症药物aripiprazole(阿立哌唑)、melatonin(褪黑素)、valproic acid(丙戊酸)、galantamine(加兰他敏)、利培酮(risperidone)外的27 种潜力药物进行结果验证。
催产素、哌醋甲酯、氟西汀在2017 年英国精神药理学会发布的“Autism spectrum disorder:consensus guidelines on assessment,treatment and research from the British Association for Psychopharmacology”临 床指南中被自闭症的临床治疗用药收录;纳曲酮在2016年苏格兰校际指南网络公布的“Assessment,diagnosis and interventions for autism spectrum disorders”临床指南中自闭症临床治疗信息收录;哌醋甲酯、氟西汀、氟哌啶醇、奥氮平、丁螺环酮在2020 年美国儿科学会“Identification, evaluation, and management of children with autism spectrum disorder”临床报告中的自闭症临床治疗信息收录;促胰液素、镁在2007 年苏格兰校际指南网络公布的“Assessment,diagnosis and interventions for autism spectrum disorders”自闭症药物治疗信息收录。作用症状见表6。可见,在27 种潜力药物中,已有9种药物在临床中被用于自闭症及其相关症状的治疗,这在一定程度上体现出本研究所采用药物发现方法的有效性和准确性,同时也说明基于语义路径发现的其他药物对于自闭症治疗研究具有较高的可参考价值。
表6 9 种潜力药物在临床诊疗指南中的作用症状
在27 种预测药物中,除了上述9 种药物外,另有10 种药物均有学者正在研究他们与自闭症治疗的关系及作用,并提供了大量的临床实验证据,进一步表明这些药物可能为自闭症治疗研究具有较大潜力的药物,研究人员可重点关注。见表7。
表7 19 种潜力药物在临床实验数据库中的验证结果
预测的结果中除上述可以在临床实验数据库中验证的药物外,clomipramine(氯米帕明)、ergocalciferol(麦角钙化醇)、nitric oxide(一氧化氮)、resveratrol(白藜芦醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(对乙酰氨基酚)、huperzine B(石杉碱乙)尚未查到其与自闭症治疗的临床实验数据。在PubMed 中查询文献发现,药物clomipramine(氯米帕明)、nitric oxide(一氧化氮)、resveratrol(白藜芦醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(对乙酰氨基酚)在预测结果中出现,用于少数或者个别病例临床使用或动物实验,尚未进入临床实验。ergocalciferol(麦角钙化醇)、huperzine B(石杉碱乙)在预测结果中出现,在PubMed 中未查到文献其与自闭症的关系,可能属于未知关联药物,可进一步进行理论研究或实验探究其与自闭症潜在的关系,验证其是否可用于自闭症的治疗。
本研究获得自闭症药物相关三元组5 140 条,实体1 949 种,实体关系18 种,构建了自闭症药物知识图谱,定义了自闭症药物实体间的语义关系,并分析了实体间的语义关系及语义涵义。采用路径分析的知识发现方法,通过3 种路径“疾病-靶标-药物”“疾病-靶标-靶标-药物”、单点起源路径进行药物知识发现,发现药物32 种;筛选出自闭症潜力药物27 种,采用临床实验数据库(https://clinicaltrials.gov)对预测的药物结果进行验证分析,验证了19 种药物正处于临床研究中,进一步验证了本研究方法的有效性。基于以上研究结果和验证分析,认为本研究方法可为药物重定位提供一定的理论基础,可以为传统药物发现提供新的思路,为以后的临床实验和研究提供决策支持。