王朝,张瑄
1 天津市儿童医院(天津大学儿童医院) 天津市儿科研究所 天津市儿童出生缺陷防治重点实验室,天津 300134;2 天津市儿童医院(天津大学儿童医院)肾脏内科
遗传代谢病(IMDs)是一类由基因缺陷导致的内源性物质代谢紊乱性疾病,常伴随着身体的多系统受损和多种临床表现,包括有机酸血症、尿素循环缺陷、溶酶体贮积症(LSD)和氨基酸代谢障碍等,大多数呈常染色体隐性或X连锁隐性遗传,其发生率较低,但危害性较大。大多数IMDs患者临床表现各不相同,通常伴有非特异性症状,如生长发育障碍、肌张力减退、肾脏和肝脏疾病以及智力障碍等[1]。许多IMDs是严重的早发性疾病,早期治疗可改善临床结果,若未及时发现并进行干预,其结果可能是灾难性的,因此在症状出现之前进行筛查至关重要。组学技术是指利用高通量、高分辨率、高灵敏度和高效率的技术手段对生物体内不同层面物质的分子组成进行全面、系统、定量或半定量地检测和分析的技术,是研究生物体内全套DNA、RNA、蛋白质或代谢物等的一类学科,最常见的四种组学技术是基因组学技术、转录组学技术、蛋白质组学技术和代谢组学技术。不同组学反映机体不同层面的信息,相互之间关系密切,既可以单独应用也可以联合使用。具备大数据分析能力后,组学技术进一步发展和普及,将多种组学数据进行整合分析的多组学分析技术已成为疾病研究的新的有力工具,而机器学习和人工智能的出现又推动了组学技术的发展。随着高通量测序技术和质谱技术的出现和成熟,组学技术逐渐应用到了IMDs的临床和科研中,现将组学技术在IMDs筛查、诊断以及发病机制探索中的应用研究进展综述如下。
基因组学是对生物体中全部DNA序列进行研究的学科,以DNA变异为主要研究内容。基因组中的变异分为单核苷酸变异(SNV)和结构变异(SV)。SNV中频率大于1%者被称为单核苷酸多态性(SNP)。编码区基因变异可能影响蛋白质序列,而非编码区的变异则可能影响基因表达和剪接。目前检测DNA变异的技术有Sanger测序、二代测序(NGS)和基因芯片等。临床应用最广泛的是用于基因变异筛查的NGS和用于基因变异确证的Sanger测序。实际应用中,NGS又包括全基因组测序(WGS)和全外显子组测序(WES),前者多用于复杂疾病的遗传学分析,后者多用于致病基因明确的遗传病的检测。全基因组关联分析(GWAS)一般用于较大规模人群的基因型检测[2]。
在IMDs实际应用中,基因组学技术可应用于产前诊断、新生儿筛查(NBS)、疾病诊断和基因变异携带者筛查等。在产前诊断的应用中,有研究者应用外显子组测序对127例不明原因的非免疫性胎儿水肿进行分析,在大约三分之一的病例中发现了诊断性遗传变异[3]。在NBS应用中,迄今为止对IMDs人群进行的最大规模的测序计划中,基于450万婴儿人群的IMDs病例数据分析显示,WES的总体敏感性为88%,特异性为98.4%,而串联质谱(MS/MS)分别为99.0%和99.8%[4],仅从敏感性和特异度讲,WES低于质谱,无法作为NBS中IMDs的主要筛查方法,但它可以作为MS/MS筛查异常婴儿的二级检测,进一步减少假阴性结果,促进疑难病例及时解决。在IMDs诊断应用中,一项单中心研究借助于NGS和Sanger测序,对最常见有机酸血症——甲基丙二酸血症(MMA)基因变异谱进行了分析,结果显示中国天津地区MMA常见变异为MMACHC基因c.609G>A、c.658_660delAAG和c.80A>G,与中国既往研究相一致[5]。利用基因组学技术进行群体变异筛查也对IMDs研究有帮助。影响尿液代谢物水平的罕见遗传变异就和IMDs关系密切,CHENG等研究了4864名受试者中罕见的外显子遗传变异对尿液中1487种代谢产物和53714种代谢产物比率的影响,检测到了涉及30个基因的128个重要关联,其中16个基因已知是IMDs的致病基础[6]。
转录组学是对生物体全部RNA产物进行研究的学科。转录组学分析提供了有关mRNA质量和数量的全面信息,不仅可以在mRNA序列水平上检测遗传变异,而且能够通过评估诸如基因表达水平、异常剪接或基因融合等直接分析遗传变异的影响,例如同义变异也可以引起异常的剪接,对异常剪接的检测不仅可以为外显子变异提供关键信息,而且可以验证非编码区变异的致病性。转录组分析不仅能够帮助分析部分WES结果阴性患者的分子诊断,更重要的是,基于RNA测序(RNA-seq)的转录组分析还可以帮助寻找治疗干预点,如最近报道的对脊髓性肌肉萎缩症中剪接缺陷的反义寡核苷酸治疗[7]。
在疾病诊断的探索性研究中,研究者利用RNAseq对205例WES检测结果阴性的孟德尔遗传病病例进行分析,对其中16%的病例做出了基因诊断,主要诊断依据是异常的mRNA表达量,其中表达量减少50%者提示只有单一等位基因表达,符合显性遗传病中单倍剂量不足的发病机制[8]。有研究者[9]通过RNA-seq实验性诊断Sanger测序阴性的4名男性黏多醣贮积症(MPS)Ⅱ患者,结果显示患者IDS基因表达水平明显下降,IDS基因第8、9外显子出现跳读,此项研究验证了转录组分析在MPS Ⅱ中的诊断价值。在疾病机制探索的应用中,OUSSALAH等[10]利用转录组学分析未找到病因的MMA的发病机制,发现PRDX1基因剪接位点变异激活了包含双向启动子的MMACC/CCCD163P和TESK2的反义转录,进而导致MMACHC和TESK2基因的沉默,这是MMA新致病机制的重要发现。在MPS研究中,为了研究与行为相关的基因表达是否在MPS中发生了变化,研究者对所有MPS类型的细胞系进行了转录组学分析,评估了与行为相关的基因的表达,发现MPS不同类型在这方面存在显著差异,MPS ⅢA型的变化最严重,而MPS ⅣA和MPS Ⅵ型的变化最低[11]。PIERZYNOWSKA等还使用RNA-seq分析了MPS患者是否更容易感染COVID-19,在对MPS细胞系中可能参与SARS-CoV-2发展的基因的表达水平进行检测后,发现在大多数MPS类型中,可能促进病毒进展的4个基因(GTF2F2、RAB18、TMEM97、PDE4DIP)表达下调,而可能干扰病毒繁殖的2个基因(FBN1、MFGE8)的表达则上调。尽管MPS的特征——呼吸道狭窄和出现黏稠黏液是COVID-19的危险因素,但最终的转录组学分析表明MPS细胞对SARS-CoV-2感染的敏感性可能更低,而不是更高[12]。在金属离子代谢病研究方面,研究者使用RNA-seq比较了暴露于铜的野生型HepG2细胞和ATP7B基因敲除细胞之间的基因表达模式,结果表明细胞通过激活自噬以应对铜过载,防止铜诱导的细胞凋亡。在缺乏ATP7B的疾病,如肝豆状核变性患者的治疗中,旨在激活这种自噬途径的药物可能会降低患者的铜毒性[13]。
蛋白质组学可以揭示在疾病状态中起着至关重要作用的蛋白质的合成、稳定性、降解和信号传递水平的异常。然而目前IMDs的蛋白质组学研究仍然较少,多数研究集中在特定的细胞器或功能上。用于研究蛋白质组学的主要技术有两大类,一类是质谱技术,另一类是基于抗体的技术,如ELISA、Western blot等。基于质谱的定量蛋白质组学技术在方法上可分为标记和无标记两大类,根据检测物的不同通常又分为非靶向蛋白质组学和靶向蛋白质组学。根据研究目的的不同,蛋白质组学又可以分为三个不同的类别:表达蛋白质组学、结构蛋白质组学和功能蛋白质组学[14]。近年来,基于液相MS/MS的蛋白质组学分析被更广泛地用于IMDs,这种既可以分析组织也可以分析体液的技术,可以同时对数千种蛋白质的表达谱进行定性和定量分析。蛋白质组学分析已经成为表征患者分子特征的强大工具。
在对MMA的发病机制研究中,COSTANZO等[15]利用蛋白质组学揭示甲基丙二酰-CoA变位酶(MUT)调节细胞结构和增加对应激的敏感性。该研究对MUT变异的HEK 293细胞进行了无标记的定量蛋白质组学和生物信息学分析,发现了变异的细胞结构和形态的改变以及ROS的过量产生。此外,他们还观察到参与细胞骨架、细胞粘附、细胞运输、线粒体和氧化过程的蛋白质的改变。MUT-KO细胞通过线粒体功能障碍和氧化还原过程失衡增加对丙酸和H2O2诱导的应激的敏感性。在对LSD的研究中,DOYKOV等[16]对法布里病(FD)患者尿样进行了蛋白质组学分析,将早期或无症状FD患者的尿样与健康对照组的尿样进行了比较,结果显示,在早期或无症状FD疾病组中,6种尿蛋白水平升高。据此推测,尿白蛋白水平升高可能提示症状前状态。ZHANG等[17]使用免疫捕获和基于质谱的蛋白质组学相结合的方法定量分析干血斑和颊拭子样本中的麦芽糖酶蛋白和α-L-艾杜糖醛酸酶蛋白,发现这两种蛋白的缺失分别与婴儿庞贝病和严重MPS Ⅰ相关。
代谢组学的研究对象是生物体内相对分子量小于1000的小分子物质。代谢组学分为非靶向代谢组学和靶向代谢组学。非靶向代谢组学可对样本中提取的所有代谢物进行分析,这在新生物标志物的发现中非常重要。与传统筛查方法相比,非靶向代谢组学的诊断率可以提高5倍,可识别更广泛的IMDs谱系[18]。非靶向代谢组学的缺点是目前数据库中可能没有足够的可供使用的相关注释。靶向代谢组学只对预先设定的代谢物进行检测和分析。总的来说,在单一酶缺陷如何影响多种途径以及如何通过治疗的形式克服这一缺陷方面,代谢组学可以提供多通路变化的综合信息,具有很大的发挥空间。目前代谢组学出现一些新的方法策略,如基于通路的非靶向代谢物富集分析方法在IMDs诊断中可以发挥重要作用。有研究者[19]利用批外参考人群改进IMDs筛查中的非靶向代谢组学筛选,提高了通量和检测准确性,为在临床环境中使用大量批外参考样本提供了可能性。此外自动化数据处理也被应用到了代谢组学,有潜力促进非靶向代谢组学在代谢病诊断筛查中的应用[20]。新的分析平台也促进了代谢组学的发展,如Renata DX筛选系统是一个完全集成的流动注射MS/MS系统,经过性能评估可用于常规实验室NBS项目中的高通量干血斑分析。
在临床应用中IMDs与代谢组学的关系最为密切,从代谢组学中获益最多,其中最常见的应用就是代谢病筛查,NBS项目多使用靶向代谢组学技术。非靶向代谢组学也可以用于IMDs的诊断,比如以无偏倚诊断方法用于诊断戊糖磷酸途径非氧化分支疾病。代谢组学另一重要应用是探索发现新的疾病标志物,这当中主要用到非靶向代谢组学。有研究者应用非靶向代谢组学分析揭示了尿素循环障碍的多途径干扰和新的临床生物标志物。与红外离子光谱学联合使用,非靶向代谢组学确定了吡哆醇依赖性癫痫的新标记物2S,6S-/2S,6R-氧丙基哌啶-2-羧酸(2-OPP)[21]。代谢组学分析也是疾病机制探索的重要手段,例如代谢组学分析结果显示,经典半乳糖血症不仅损害Leloir途径,还涉及其他代谢途径,包括糖酵解、磷酸戊糖途径和红细胞中的核苷酸代谢。整合代谢组分析揭示了妊娠期糖尿病孕妇粪便代谢组和新生儿血液代谢组之间的新联系。
除了上述广泛应用而被熟知的组学技术外,还有一些比较少见的组学分析技术也被应用到了IMDs的研究中。表型组学是研究一种或一类疾病所有临床表型的学科,结合IMDs生化表型的基于文本的表型谱分析促进了IMDs的诊断。糖组学旨在识别特定疾病中产生的全部聚糖的结构和功能,也识别编码糖蛋白的所有基因。有研究者以糖组学方法分析先天性糖基化障碍和LSD。除此之外,还有其他一些研究IMDs的组学技术,如放射组学和脂质组学等。
前文所述均为单一组学的研究,都是在一个层面上对疾病生理和病理进行分析。随着组学技术的不断涌现和高通量数据分析能力的提高,将多个组学联合起来应用于IMDs研究的综合分析方法成为一种突破单一组学局限性的重要方法。例如NBS一般利用MS/MS法鉴定血液中升高的代谢物来检测IMDs,这是一种经济而快速的测试,然而这类检测可能会遗漏部分疾病,而且对一些非特异性的分析物的后续检测可能耗时且复杂,而基因组技术有可能更准确地识别不适用于MS/MS检测的疾病,因此将基因组学与代谢组学整合的方法就很有必要,这也是多组学整合中最常见的。两者结合首先可以明显提高IMDs识别,例如以先代谢物筛查后高通量测序的方法对3-羟基异戊酰基肉碱代谢异常新生儿进行诊断和遗传学分析[22],非靶向代谢组学与基因组学整合的方法还可以显著增强IMDs中对基因变异致病性的确认。此外,利用转录组学可以帮助提高基因组学应用过程中的基因诊断,如使用WES和RNA-seq联合策略可以诊断以视网膜营养不良为主要临床症状的过氧化物酶体生物发生障碍患者。更多组学结合如利用基因组学、转录组学和代谢组学与功能基因组学整合的方法诊断了6例疑难IMDs病例,分别是半乳糖血症、Ⅰ型黏多糖病、枫糖浆尿病、高苯丙氨酸血症、瓜氨酸血症和尿素循环缺乏症。在机制探索方面,通过整合基因组、转录组、蛋白质组和代谢组数据以及表型特征的分析显示,三羧酸循环障碍和谷氨酰胺代谢失调是单纯型MMA的重要发病机制,以此为靶点筛选的化合物酮戊二酸二甲酯是一种有前景的治疗药物。
综上所述,随着现代生物技术的不断发展,组学技术在IMDs的应用中得到了广泛的关注和探索。从基因组学、转录组学、蛋白质组学、代谢组学到多组学等多个角度,组学技术已经为研究IMDs提供了全面的视角和深入的分析。这些研究成果不仅深化了人们对IMDs发生机理的认识,而且也为疾病的早期诊断、治疗和预防提供了新的思路和方法。