李自青,闫玉清*,邢雁霞,解瑯明,韩飞宇,张年萍,5*
(1.山西大同大学医学院,山西大同037009;2.山西大同大学呼吸病与职业病研究所,山西大同037009;3.哈尔滨师范大学生命科学与技术学院,黑龙江哈尔滨150025;4.山西威奇达光明制药有限公司,山西大同037000;5.山西大同大学中西医结合心血管病研究所,山西大同037009)
先天性心脏传导阻滞(Congenital Heart Block,CHB)是一种完全性房室传导阻滞的心脏病,一般在妊娠的18~24 周之间发生,主要表现是胎心缓慢,阻断部位多位于房室结处,并伴有系统性红斑狼疮或干燥综合征的发生。目前主要治疗方法是儿童期手术,手术越早治疗效果就越好,手术中有超过2/3 的患儿需要置入永久性心脏起搏器。此类手术不但费用高,而且术后还要面临并发症、后遗症、起搏器损坏等隐患,极大地影响患儿的生活质量。药物治疗可以避免这些麻烦,但目前缺乏特异性治疗药物,辅助性治疗药物多为化学合成药,药效慢且效果不明显,而且药物的毒副作用大。因此对先天性心脏传导阻滞相关蛋白药物靶点的研究对特异性药物的研发具有重要意义。
胎儿先天性心脏传导阻滞的发生与母体抗Ro/SSA 和抗La/ SSB 抗体阳性相关。研究发现,母体相关性抗SSAGRo52 抗体可通过胎盘转运进入胎儿体内,与胎儿心脏细胞的交叉反应分子特异性结合,引起心脏钙离子通道异常和心肌细胞凋亡,从而引发一系列炎症反应,使胎儿心脏钙化和纤维化,造成Ⅱ度或者Ⅲ度房室传导阻滞,而La 抗体可能依赖于Ro52 抗体发挥作用[1]。CHB 是一种进展性疾病,Ⅰ度传导阻滞是CHB 的发病早期,Ⅱ度传导阻滞在药物干预下可能可逆,而完全性传导阻滞是不可逆的。糖皮质激素在早期可能阻止疾病的进展,但疗效并不确切[2]。确定特定疾病的靶标分子是现代新药研发的基础,药物在体内的作用位点包括蛋白质和核酸等,其中绝大多数是蛋白质。目前,有关先天性心脏传导阻滞的药物作用靶点蛋白研究还不够透彻。
本研究在构建CHB 相关蛋白阳性集合和候选阴性集合的基础上,运用语义相似性计算两个集合的功能相似性,预测出20 个潜在的药物靶点,并利用多个数据库对预测的蛋白及编码基因进行富集分析,挖掘潜在的CHB 药物靶点的功能、通路、MicroRNA、SNP,为特异性药物的研发奠定基础。
本研究时间为201609—201812月。
以“Congenital Heart Block”“association study”“genetic association”为检索词在 NCBI 中 PubMed 数据库查找相关文献571 篇(图1),论文入选标准见文献[3],通过全文阅读得到与CHB 直接相关的基因21个,构建CHB阳性集合。
图1 文献检索流程
在 DrugBank 数据库中以“atrioventricular block”“heart block”“cardiac conduction”或“congenial heart block”多个检索词进行检索,获取与CHB疾病相关的药物及其作用靶点,删除信息项和重复数据,得到601 种药物和685 个相关蛋白。通过疾病间临床遗传表型的相似性对预处理过的数据进行优化和筛选,以CHB 与心律失常、心脏衰竭存在的关联信息和疾病间信息作为筛选标准,筛选出156 个CHB 相关基因构建CHB 候选阴性集合。
通过在线网络平台GOEAST 富集分析GO 数据库中的生物学过程分支,将基因集转换为GO 节点集。通过比较两个GO 节点集的相似性可以得出两个基因集合的语义相似性,GO 节点集相似性算法参照Lin[4]算法,得分越高,两个集合间功能就越相似。
在全基因组中随机选取与所研究的基因集合容量一样大的基因集合2 个,选取100 次,计算其相似性得分,将CHB阳性基因集合和阴性基因集合的相似性得分与随机得分进行permutation test 检验,当P<0.05时,差异显著。
Endeavour[5]是对候选基因进行优先排序的网络资源。使用一组已知参与生物学过程的基因,即CHB 阳性基因集,选择研究对象物种,包括小家鼠、褐家鼠、秀丽隐杆线虫、人类,提交已知基因,选择数据库,包括本体和注释、蛋白质-蛋白质相互作用、顺式调控信息、基因表达数据集、序列信息和文本挖掘数据库,作为CHB候选基因优化的参照标准,最后提交候选基因。根据已知基因的特征对候选基因进行排序,将几个排名合并到候选基因的全局排名中,从而获得候选基因的优化排序结果。
GeneCodis[6]是对基因进行功能注释的网络平台,整合了多个数据库包括GO、KEGG和SwissProt,可实现对候选基因的GO、通路、SNP、microRNA等富集分析,并通过统计的显著性进行排序。使用方法与Endeavour类似。
通过语义相似性计算得出CHB 阳性基因集与候选阴性基因集的相似性得分是0.596,而两个随机基因集合的平均得分是0.144,P值为0,差异倍数(fold-change,FC)为4.15,相似性得分显著高于随机水平,差异极显著。表明CHB阳性集与候选阴性集的功能具有相关性。
运用Endeavour 网络平台从已知基因间的相似性出发优化候选基因,在排序结果中抽取前20 个基因作为可能的CHB 药物靶点进行下一步富集分析(表1)。
表1 候选基因集中排序前20的基因及编码蛋白
通过GO 数据库对这20 个药物靶点的编码基因进行注释,从分子功能、参与的生物学过程及细胞中的定位三方面进行富集分析(见图2 ~4)。结果表明,20 个基因的功能更多的与离子转运通道有关,参与的过程主要集中于生理过程,蛋白主要定位于细胞和膜上。同时,以整个候选阴性集中所有蛋白的GO 功能分类为背景,这些功能活性也都排在前列。由此可见20 个基因具有代表性,有可能是潜在的与CHB 直接相关的药物靶点。
图2 20个基因所对应蛋白的GO主要功能分类
图3 20个基因所对应蛋白的GO主要过程分类
图4 20个基因所对应蛋白的GO主要定位分类
运用GeneCodis进行通路富集分析(图5),所富集的通路信息来源于KEGG。结果表明,候选的阴性基因集中有18 个基因富集在钙信号传导通路(KEGG 04020),16 个基因富集在MAPK 信号通路(KEGG 04010),15个基因富集在肥厚性心肌病信号通路(KEGG 05410),14个基因富集在致心律失常性右心室心肌病信号通路(KEGG 05412)和扩张性心肌病信号通路(KEGG 05411)。这些结果进一步表明CHB与心律失常、心脏衰竭等心肌病存在关联。
图5 每条通路注释的基因数
运用GeneCards 数据库[7]对所预测的20 个候选基因进行SNP信息检索,共检索到4 538个SNP,其中富集次数大于100次的SNP有11对(见图6),C/T富集次数最多为773次,其次是G/A为623次,A/G为569次。
microRNA 富集分析发现,20 个候选基因主要富集于hsa-miR-770-5p、hsa-miR-519e、hsa-miR-660 和hsa-miR-587 上。随后对整个候选阴性集中的基因进行microRNA 富集,文章列举富集基因数大于13 个的microRNA,其中有15 个基因富集在hsa-miR-770-5p 上,为下一步microRNA 的研究提供了方向。
图6 20个候选基因所富集的SNP
药物作用靶点的研究为新药研发和疾病治疗提供非常重要的依据,但目前针对CHB药物作用靶点的研究还不系统深入,治疗CHB也缺乏特异性药物。虽然已有的研究发现SSA/Ro(52-kDa)、SSA/Ro(60-kDa)、α1-肾上腺素受体、β2-肾上腺素受体以及La/SSB 这些母体自身抗体与CHB 密切相关[8],但仅从已知数据中研究CHB 药物作用靶点,显然具有很大的局限性。
本研究通过CHB 与心律失常和心脏衰竭存在的疾病关联出发,从Drugbank数据库中检索并初步注释优化筛选出156 个CHB 相关基因作为CHB 的候选阴性集合。通过语义相似性计算证明CHB 阴性基因集合与CHB 阳性基因集合之间功能高度相似,进一步运用Endeavour 对候选基因进行优化排序和GO富集分析,发现其中有20个基因编码蛋白是CHB潜在的药物作用靶点蛋白,功能主要与离子通道转运有关,参与的生物学过程主要是生理过程,蛋白更多定位于细胞膜中。通路富集分析也发现CHB候选基因更多参与钙离子信号传导通路,与功能富集分析的结果一致,而钙信号传导通路也是目前研究较多并且认为与CHB相关的信号通络[9]。SNP(single nucleotide polymorphism) 是单个核苷酸的改变引起的DNA 序列多态性,已有的研究发现SNP和microRNA 的表达与心血管疾病的发病有关[10-11]。本研究对候选基因进行的SNP 及microRNA 富集分析,将为今后研究SNP 及microRNA 与先天性心脏传导阻滞的关系提供参考。
本研究运用生物信息学方法研究CHB 相关的药物作用靶点及其相关通路,从生物大数据出发,考虑到疾病之间的关联和相互影响,为下一步的特异性药物的研发提供新的研究方向。本研究运用的语义相似性和富集分析的研究方法为其他疾病相关蛋白的研究提供参考。但本实验对研究结果没有进行验证,缺乏实验数据支持,还需要进一步研究。