曹宗富 王 雷 喻浴飞 陈翠霞 高华方 阳菊华 马 旭*
1. 国家卫生计生委科学技术研究所(北京,100081):2. 国家人类遗传资源中心:3.北京协和医学院研究生院:4. 博奥生物有限公司:5. 福建医科大学
先天性白内障是一组在出生时或儿童早期发生的白内障[1],是一种严重的出生缺陷,是世界儿童期可治疗性致盲的首要原因[2-5]。在精准医学时代,可通过在孕期对胎儿进行致病突变检测,实现出生缺陷干预。然而,先天性白内障具有明显的遗传异质性[6]。大量研究证实,先天性白内障致病基因包括α/β/γ晶体蛋白基因[7-13]、膜蛋白基因[14-17]、调节眼球发育的基因[18-20]、细胞骨架蛋白基因[21-22]等其他基因。同时,群体遗传学研究发现,中国人群与欧洲、非洲、美洲等世界上其他人群相比,具有典型的东亚血统。先天性白内障相关的致病基因和变异在中国人群和世界人群之间频率分布存有差异,以及中国人群先天性白内障突变谱尚不明确。本研究基于PubMed和CNKI知识库,利用计算机文本挖掘技术,筛选先天性白内障相关文献,提取有关先天性白内障基因、变异和人群信息,建立中国人群先天性白内障基因变异数据库,描绘中国人群先天性白内障突变谱。
PubMed和CNKI文献知识库。
1.2.1从PubMed文献知识库中提取先天性白内障相关的基因和变异PubMed E-utilities为编程接口提供了与web搜索相同的结果。以“Congenital cataract”为关键词检索文献摘要,提取相关的表型、基因和变异信息。在文本挖掘过程中,疾病表型信息和基因名称基于字典的方法提取。选择人类表型标准用语(HPO)[23]作为英文疾病名称字典,选择人类基因命名委员会(HGNC)[24]作为基因名称字典。以“Chinese”作为文本挖掘时中国人的标识。变异信息则根据人类基因组变异协会的命名规则以正则表达式识别提取。当存在多对基因和变异关系时,基于语句水平的共现性建立关联规则。该过程主要基于R VarfromPDB包的函数extract_pubmed实现。
1.2.2从CNKI文献知识库中提取先天性白内障相关的基因和变异以“先天性白内障”为关键词,在CNKI页面中进行检索和批量下载。选择中文人类表型标准用语(CHPO)作为英文疾病名称的字典。选择HGNC作为基因名称的字典。同时,文本挖掘字典中加入少数民族名称。与英文文本分词不同:①中文文本不能采用空格为分隔符进行分词;②中文和英文需要通过两次分词过程。第一次分词过程中,变异信息需要单独作为英文进行分词,变异信息提取出来后再加入到字典中,进行第二次中文分词,已经加入字典的词组将作为整体被分割,才可以把所有疾病表型、基因、变异、民族等信息一起提取出来,同时获得每个信息的在一段文本中的位置信息。
利用jiebaR包的函数worker分割文本,以上所有表型、基因和变异字典里收录的词组会自动作为整体进行分割,字典里没有出现的词按照空格进行分割,分割完毕后利用DiGVaRCN包的函数coordinate_get获得每个分词的位置信息。位置信息包括该分词在位置中的段落、段落中的句子、句子中的分词等。利用R DiGVaRCN包的函数relation_resolve提取并解析疾病基因变异关系。根据疾病名称、基因、变异等分词的位置信息,基于句级共现性和分词距离解析疾病基因变异关系。
1.2.3建立先天性白内障基因变异数据库以人工方式对从PubMed和CNKI获取的先天性白内障相关的表型、基因和变异进行逐个检查,以家系或先证者为单位进行整理。在人工检查过程中,根据表型信息,剔除合并其他表型或综合征的先天性白内障相关文献。基因名称按照HGNC进行标准化,变异采用HGVS的命名规则进行标准化,然后对两种来源的信息进行整合,并对变异所在的外显子或内含子信息进行注释。
1.2.4建立中国人群先天性白内障突变谱对建立的先天性白内障基因变异数据库,按照研究人群划分为中国人群和非中国人群。在PubMed来源的研究中,标识了“Chinese”的研究视为中国人群,世界其他地区的研究或者没有明确标识“Chinese”的人群则合并为非中国人群。来自于CNKI的所有研究均视为中国人群。对两种人群在基因、外显子或内含子、变异水平上分别计算变异频率。
其中,i表示某个基因或者外显子(内含子);ni表示该基因或外显子(内含子)上发生突变的家系或先证者数目;N表示所有家系或先证者的数目。
在PubMed中,从750篇检索的文献中挑选出280篇先天性白内障文献,其中115篇来自于中国人群的报道;从CNKI检索的112篇文献中挑选出12篇,全部为中国人群的报道。因此,292篇文献中127篇来自于中国人群研究。在对这些文献挖掘基础上,对提取出来的表型、基因和变异进行了逐个人工检查,建立了先天性白内障基因突变数据库。这些研究共涉及538个先天性白内障先证者,其中208个先证者来自于中国人群相关研究,包括179个常染色体显性遗传家系、5个常染色体隐性遗传的家系、21个散发病例,有3个家系没有明确报告遗传模式。在中国人群中,先天性白内障相关的169个变异分布在32个基因的60个外显子或内含子可变剪切区域上面(表1)。
表1 从PubMed和CNKI上获取的中国人群先天性白内障相关基因
根据已建立的先天性白内障基因变异数据库,对这些变异在基因、外显子或内含子、变异水平分别进行汇总分析,进一步获得先天性白内障在中国人群的突变谱。在基因水平,突变频率在10%以上的基因包括GJA8、CRYGD和GJA3(表1)。在外显子或内含子水平,3次以上突变的外显子或内含子共有21个,累积突变频率达到了74.5%(表2),其中突变频率最高的3个外显子分别是GJA8的第二外显子、GJA3的第二外显子、CRYGD的第二外显子,均在9%以上;还包含了2个内含子剪切区域,分别是CRYBA1基因的第三内含子和MIP基因的第三内含子。在突变水平,3次以上的突变共有7个,累积突变频率仅为19.2%(表3)。
与世界上其他非中国人群比较发现,中国人群先天性白内障高频突变的基因、高频突变的外显子(内含子)和高频突变在分布上大致相似,但也存在一定的差异。而低频突变的基因、低频突变的外显子(内含子)和罕见突变在分布上存在着巨大的差异(图1)。基因FYCO1在巴基斯坦人和阿拉伯人中有报道[25],突变频率在中国人群之外的世界其他人群中占5.18%,但在中国人群先天性白内障先证者中没有报道。同样,还包括LONP1[26]、LIM2[27]、SIPA1L3[28]、TMEM114[29]等基因上的突变,在中国人群先天性白内障先证者中也没有报道。
表2 中国人群先天性白内障先证者中高频突变的基因外显子或内含子
表3 中国人群先天性白内障先证者中的高频突变
图中颜色从深到浅对应突变频率由高到低。黑色为在中国人群先天性白内障先证者中高频突变的基因、外显子(内含子)或突变。每个方格表示每个基因上、外显子(内含子)上或突变的突变频率。 图1 先天性白内障突变谱在中国人群与世界其他人群间差异
本研究建立了一种计算机文本挖掘和人工检查相结合的方法,从PubMed和CNKI中提取先天性白内障相关的基因、变异和人群信息,并建立了中国人群先天性白内障基因变异数据库,在基因、外显子(内含子)和变异水平上分别获得了先天性白内障突变谱。该方法与传统手工检索方法相比,更加准确,效率更高[30-32]。传统方法需要人工阅读大量的文献,从中提取表型和基因型相关信息进行整合,对某一种单基因病可能需要数周来完成且易出错。计算机文本挖掘的参与,可在20min左右完成初步的信息提取工作,并建立信息间关联;人工对提取的结构化数据进行检查,效率也得到极大提升,最大可能地节省了人力,也减少人工数据编译过程中出现的错误[33]。该研究不仅实现了基于PubMed英文文本挖掘,还实现了基于CNKI的中文文本挖掘,可以为基于单基因病临床病历的文本挖掘提供借鉴[34]。
本研究从127篇中国人群先天性白内障相关文献中获取了208个家系或先证者的样本,尽管样本量不够大,但对中国人群先天性白内障仍具有一定的代表性,其突变谱可在一定程度上反映中国人群先天性白内障的遗传基础。同时,观察了中国人群和世界其他人群先天性白内障突变谱之间差异,发现这些差异在基因、外显子(内含子)和突变水平都存在,突变频率越低差异越大。Mathieson等[35]研究发现,罕见变异在人群之间差异对突变谱有着巨大影响。精准医学时代下,先天性白内障突变谱尤其是罕见变异的人群间差异,增加了相关遗传检测产品研究开发的复杂性。因此,了解到先天性白内障突变谱在中外人群之间的差异,对开发针对中国人群先天性白内障相关的遗传检测产品,具有较大的参考价值。如果采用全外显子组测序或者所有致病基因靶向测序的方法,则可以完全避免差异对检出率的影响;如果采用Sanger测序方法选择高频突变外显子及两侧区域进行检测,检出率期望能够达到74%以上;如果采用芯片方法对高频突变位点进行检测,检出率将可能在20%以下,甚至更低。因此,前两种方法都将是可行的,考虑到成本,可采用综合性策略,即先基于高频外显子区域用Sanger测序进行初筛,未检出病例再选择使用新一代测序进行全外显子组筛查。同时,该方法可为其它单基因病的中国人群突变谱获得提供借鉴,为基于全外显子/全基因组测序的临床生物信息学分析流程优化[36]、变异溯源和临床解读提供便利,为婴幼儿和儿童期单基因病相关的出生缺陷早期预防和干预提供必要的参考依据。