黎江溪 张世梅 王玉鑫 赵 跃
(大理大学基础医学院,云南大理 671000)
肥厚型心肌病(hypertrophic cardiomyopathy,HCM)是一种常见且复杂的遗传性心脏疾病,常引发青少年及年轻运动员的心源性猝死[1]。正常心肌细胞规则地组装成平行排列的肌纤维,但HCM患者的肌纤维短宽肥厚,弥漫性肥大,排列紊乱,会引起舒张期功能障碍。众多证据表明,突变的心脏肌节蛋白能增加肌丝对Ca2+的诱捕,导致Ca2+循环紊乱[2],其结果是产生代偿性的心肌细胞肥大。
肌钙蛋白位于肌动蛋白丝上,是横纹肌收缩的中央调节蛋白,包括肌钙蛋白T2、肌钙蛋白I3 及肌钙蛋白C1(cardiac troponin C1,TNNC1)3 个亚基[3]。TNNC1 作为编码与Ca2+诱捕敏感蛋白的最重要基因之一,代表了心脏肌小节的Ca2+敏感元件。因此,TNNC1 基因结构和功能是否正常,决定着粗细肌丝能否正常滑行[4]。有关TNNC1 基因突变与HCM 发病的分子遗传学研究较少,在dbSNP 数据库中仅发现A8V、A31S、E134D、C84Y 和D145E 与HCM 发病相关[5-6],该基因尚存在的其他非同义单核苷酸多态性(non-synonymous single nucleotide polymorphisms,nsSNPs)与HCM 疾病表型的关系还有待挖掘。因此,本研究利用生物信息学方法,对dbSNP 数据库中TNNC1 基因的1 559 个SNPs 位点进行整合分析,筛选出18 个与疾病关联的有害nsSNPs。该研究以TNNC1 基因为示范,分析了其nsSNPs 与疾病表型的关系,这对HCM 的基因突变筛查、辅助临床诊断及有效药物的研发,有着十分重要的理论指导意义。
TNNC1 的基因序列(NG_008963.1)、蛋白质序列(NP_003271.1)及SNP 位点等信息,均来自于美国国立生物信息中心dbSNP 数据库(http:/ /www.ncbi.nlm.nih.gov/)。在分级筛选过程中,把TNNC1基因5′和3′UTR、内含子及同义突变的SNP 去除,即可得到nsSNPs。
基于Mutation Taster 和PolyPhen-2 在线软件,对初步筛选获得的nsSNPs 进行有害性分析。Mutation Taster 软件整合了较为权威的外显子组和千人基因组计划数据库,主要是根据氨基酸替代矩阵,兼顾氨基酸的物理化学特征以及氨基酸的差异程度,利用贝叶斯分类算法来预测突变造成的潜在疾病[7]。结果可定性描述为 disease causing (致病的)和Polymorphism(多态性)。预测评分可在0.00~215,评分越高,代表可信程度越高,当评分>90,认为是可信的。PolyPhen-2 软件则是根据突变氨基酸序列的结构和功能等方面,对被替换的氨基酸进行分析[8],预测得分范围在0.00~1.00。当评分为0.00~0.49,预测为良性(benign);0.50 ~0.89 分,预测为可能损伤(possible damaging),0.90~1.00 分,预测为很可能损伤(probably damaging)。
在Mutation Taster 及PolyPhen-2 软件有害性分析的基础上,运用PhD-SNP 及MutPred 软件,对nsSNPs 与疾病相关性做更深入的分析。PhD-SNP软件基于SVM 算法,主要对目标nsSNPs 中对应的氨基酸突变位置及突变前后的数据集进行疾病关联分析,当评分≥0.4 时认为可信度较高,预测结果判定为中性(neutral)或疾病(disease)[9]。MutPred是基于机器学习的软件,通过可能影响表型的特定分子变化排序列表来集成分子数据,最后确定氨基酸取代后可能的致病性。结果可描述为假设非常可信、假设可信和假设可操作[10]。
基于Swiss Model 数据库(https:/ /swissmodel.expasy.org/interactive/),对前期筛选到的与疾病关联的nsSNPs 进行三维结构模型构建。最后利用VMD 软件[11],对突变前后蛋白结构模型进行可视化分析。
从dbSNP 数据库中获得TNNC1 基因SNP ID共1 559 个,经过人工分级筛选后得到102 个nsSNPs,筛选及预测流程如图1所示。
图1 TNNC1 基因nsSNPs 筛选及预测流程Fig.1 Screening and prediction process of TNNC1 gene nsSNPs
利用Mutation Taster 及PolyPhen-2 有害性分析软件,对在dbSNP 平台上所筛选到的102 个nsSNPs进行有害性分析。在Mutation Taster 软件的预测结果中,3 个(I119V、I119T 和I119M)nsSNPs 被预测为多态性,2 个(I112M、E116D)nsSNPs 为未知意义,剩余97 个为疾病相关。而在PolyPhen-2 软件的预测结果中,35 个nsSNPs 被预测为良性,其余67个均被预测为可能有害的。为了提高筛选的准确性,发现被Mutation Taster 和PolyPhen-2 同时预测为有害的nsSNPs 为64 个。通过参考国内外文献发现,在64 个有害的nsSNPs 中,A8V、A31S、E134D、C84Y 和D145E 在文献中被报道为有害[5-6],与HCM 的发病是相关的,表明预测结果有较高的准确性。研究发现,蛋白保守序列对应其重要的功能区域[12]。图2为Mutation Taster 及PolyPhen-2 软件对突变位点有害性及保守性分析,仅以rs897557713和rs1578263838 位点为代表进行展示。从图2(a)可以看出,rs897557713 位点预测为很可能有害的。从线虫(celegans)、果蝇(dmelanogaster)、斑马鱼(drerio )、 非洲爪蟾 ( xtropicalis )、 小家鼠(mmusculus)、 原鸡( ggallus)、 红鳍东方鲀(trubripes)、猫(fcatus)、黑猩猩(ptroglodytes)和人类(human)等低等到高等物种间的氨基酸序列保守性分析发现,该位点均为L(亮氨酸)较为保守,对维持该蛋白的功能十分重要,不可随意改变,如图2(c)所示。而rs1578263838 位点被预测为良性,从物种间的保守性分析发现,该位点从低等到高等物种间的对应氨基酸不保守可变,在不同物种间可为不同的氨基酸,如果蝇和红鳍东方鲀的该基因位点上可为A(丙氨酸),线虫上可为F(苯丙氨酸)。值得注意的是,在小家鼠和非洲爪蟾上可为M(甲硫氨酸),与突变体一致,因此该位点可变。当由I(异亮氨酸)变为M(甲硫氨酸)后,也能保持蛋白结构和功能的完整性,不影响其生理生化功能。因此,结果表现为良性,如图2(b)和(d)所示。
图2 TNNC1 基因非同义突变位点的有害性(上)及物种间氨基酸保守性(下)分析。(a)rs897557713 位点;(b)rs1578263838 位点Fig.2 Damaging (the top)and amino acid conservation analysis of species (the bottom)were analyzed that non-synonymous mutations in TNNC1 gene. (a)rs897557713; (b)rs1578263838
为了进一步分析前期筛选的nsSNPs 与疾病的相关性,运用疾病关联分析软件PhD-SNP 和Mutpred,对前期Mutation Taster 预测分值>90(可信的)且PolyPhen-2 预测分值>0.9(很可能损伤的)的18 个(G159D、S69R、P52R、D149G、D3V、G140E、N51K、D151V、M47R、G110C、A23D、G140R、K158 N、C35Y、R147C、L48P、F74C 和V44G)nsSNPs 进行下一步的分析。在分析结果中,18 个nsSNPs 均被PhD-SNP 软件预测为疾病相关。同时,MutPred 软件对18 个nsSNPs 预测的结果进行显示:这些突变位点改变了蛋白的理化特性、二级结构或结构域,其结果被认为是可信或非常可信的,如表1所示。此外,对以上蛋白突变位点进行结构域定位发现,除D3V、K158 N 和G159D 外,剩余15 个突变位点均位于蛋白质PTZ00184 结构域。在疾病相关性预测的结果中,其分数与蛋白功能的重要程度呈正相关。在研究结果中发现,PhD-SNP 软件预测为疾病且可能性≥0.40 及Mutpred 软件预测为非常可信的位点有6 个(G140E、D151V、G110C、K158N、G140R和L48P),这些位点的预测结果与疾病发生的关联性和可信度是比较高的。如表1所示,G140E 突变导致氨基酸溶剂的可及性丧失,D151V 突变导致蛋白质卷曲结构功能丧失、G110C 突变改变了无序蛋白质界面,K158N 突变改变蛋白卷曲结构,G140R突变改变氨基酸结合位点,L48P 突变导致蛋白质内部结构折叠紊乱。以上结果可以看出,不同的突变位点对蛋白质的损伤是不一样的,有涉及蛋白结构改变,也有结合位点功能丧失,或改变氨基酸的溶剂可及性。
表1 nsSNPs 有害性及疾病关联性分析Tab.1 Disease associations and harmfulness were analyzed of nsSNPs
为了进一步可视化分析与疾病相关的氨基酸突变位点,基于Swiss Model 数据库进行蛋白三维模型构建。在模型构建过程中,选择序列相似性>99%和重合度>80%且评分最高的模板(RCSB PDB NO. 1AJ4),保证了建模的可信度。模型构建完成后,利用VMD 软件进行可视化分析。在此仅展示代表性nsSNPs,图3(a)表示突变前G(甘氨酸)为非极性脂肪族氨基酸,具有很强的亲水性,溶于极性溶剂,多埋藏于蛋白质内部。图3(b)表示突变后为E(谷氨酸),E 为不带电荷的极性兼酸性氨基酸。氨基酸的极性与非极性、疏水性与亲水性等性质,能影响氨基酸侧链R 基团的功能。
因此,G140E 突变位点对蛋白二级结构的影响无明显变化,但能影响蛋白质氨基酸的溶剂可及性;图3(c)和(d)为L48P 突变,L(亮氨酸)和P(脯氨酸)均为非极性氨基酸,但P 多藏于蛋白质内部。从图中可以看出,突变前后二级结构发生明显变化,导致了蛋白质内部折叠发生紊乱,三维建模与Mutpred 软件预测结果一致。
图3 TNNC1 基因疾病关联nsSNPs 位点野生型和突变型结构模型预测(突变位点用黄色框标注,并进行放大)。(a)和(b)分别代表第140 位野生型G (甘氨酸)和突变型E (谷氨酸);(c)和(d)分别代表第48 位野生型L (亮氨酸)和突变型P(脯氨酸)Fig.3 The structure modeling of predicted pathogenic nsSNPs with wild-type and mutated in TNNC1 gene(Mutated site are emphasized by a yellow box and are locally zoomed). (a)and (b)indicates the position of 140 wild-type G ( glycine )and mutation E(glutamicacid),respectively; (c)and (d)indicates the position of 48 wild-type L (leucine)and mutation P (proline),respectively
人类遗传学领域的巨大挑战之一,是明确SNPs与疾病之间的关系。在基因组中发现了超过1 000万个SNPs,并且发现数量还在持续增加。因此,区分这些SNPs 对蛋白质功能的影响,筛选出与疾病发生有关的遗传变异位点,是实施精准医学和分子诊断的关键[13]。但结合临床样本,在实验室对大规模的SNP 位点进行功能分析,工作量巨大,且价格昂贵。因此,可以使用计算机分析工具,结合生物信息学手段,对可能有害的nsSNPs 进行优先级排序,找出可能与遗传疾病发生相关的nsSNPs 位点,缩小研究范围,降低研究成本,这是一种理想的研究策略[8]。
肥厚型心肌病是最常见的遗传性心脏病,大部分发患者群常与肌节蛋白变异有关。TNNC1 作为编码与Ca2+诱捕敏感蛋白的最重要基因之一,当相关位点发生突变时,导致Ca2+循环紊乱,产生代偿性的心肌细胞肥大,从而引发HCM[2]。生物信息学工具本身基于不同的数据库和算法,灵敏度和准确性有差异。在本研究的初级筛选过程中,使用到Mutation Taster 和PolyPhen-2 软件联合分级筛选,保证了致病相关位点预测的准确性。Schwarz 等[14]的研究显示,MutationTaster 软件集成了来自不同生物医学数据库的信息,并使用了已建立的分析工具,分析了包括物种进化保守性和蛋白质特征丧失等,能较好地预测出潜在的有害变异位点。PolyPhen-2软件集成了UCSC Genome Browser 的人类基因组注释数据库,能预测氨基酸改变后对人类蛋白质结构稳定性和功能的可能存在影响[9]。在初级筛选的过程中发现的64 个有害性nsSNPs 中,包括了5 个已报道的nsSNP 位点(A8V、A31S、E134D、C84Y 和D145E)。Parvatiyar 等[6]在HCM 患者中发现了TNNC1 基因的A31S 突变,该突变增加了Ca2+的敏感性,促使心律失常,导致HCM 的发生。此外,Venter 等[15]用MutPred 软件,成功预测了线粒体DNA 与复杂心血管疾病之间的关系。为了进一步提高预测可靠性,在预测分析突变位点与疾病的相关性时,还联合运用了PhD-SNP 和Mutpred 预测分析软件,首次筛选出18 个致病相关的nsSNPs,这些位点从蛋白的理化特性、二级结构或结构域等方面影响了蛋白质的功能。需要指出的是,各nsSNPs 具体的生物学功能及可能的疾病机制,还有待进一步通过实验深入研究。
本研究基于多种生物医学数据库及平台,以TNNC1 基因为示范,利用生物信息学方法,成功挖掘出TNNC1 基因中18 个与疾病相关的高风险nsSNPs,为进一步研究TNNC1 基因突变与HCM 的疾病表型关系打下理论研究基础。同时,该方法也对其他遗传疾病致病基因nsSNPs 与疾病关联突变筛查具有重要的参考价值。