多组学技术应用于化学品风险评估的研究进展

2021-01-24 15:03魏若瑾李济彤常静杨璐潘一帆王会利朱莉飞
生态毒理学报 2021年2期
关键词:基因组学组学化学品

魏若瑾,李济彤,常静,杨璐,潘一帆,王会利,*,朱莉飞

1. 中国科学院生态环境研究中心环境生物技术重点实验室,北京 100085 2. 中国科学院大学,北京 100049 3. 北京市水产科学研究所,北京 100086

现代工业的迅速发展满足了人们日益增长的物质需求,但也产生了越来越严重的健康和环境安全问题[1]。以各种方式进入到环境中的化学品种类和数量日益增加,而绝大多数的化学品毒性数据是缺乏的[2]。传统的化学品风险评估依赖于动物实验,难以对大量化学品的毒性进行高效检验与预测,并且对化学品作用机制的研究较为匮乏。为了对化学品毒性进行更加准确、可靠的评估,往往需要大量的毒性数据,不仅需要明确化学品影响生物系统的机制,还需要确定不同毒性通路共同的关键事件,以便更快速、更准确和更全面地评估化合物的潜在风险[3]。因此,亟需建立更科学有效的方法,用于评估那些毒理资料缺乏的化学品的环境风险与健康风险。

与此同时,生物学和毒理学领域也有了一些重大发展。生物信息学、检测技术和计算分析能力的进步,以及在分子水平上对毒理学的理解,都有助于我们获得更大数量、更多类型的可用信息和可靠数据,并可以应用于风险评估。正如Bradbury等[4]所指出的,我们要摆脱对体内测试的过度依赖,更多地使用计算、分子和体外工具。美国国家科学研究委员会(NRC)提出,需要收集归纳生物系统以及化学品干扰机制的基本信息,从而提高对化学品毒性效应的预测能力[5]。

组学是毒理学研究中强有力的且有很大发展前景的工具。随着各种高通量组学方法在毒理学研究中的应用与发展,我们获得了大量的组学数据,进一步加深了对化学品的毒性效应及分子机制的理解。多组学联合分析的优势主要在于,通过对各种组学数据的综合分析,可以更全面、更系统和更深入地研究化学品在生物体内的作用通路,能够为预测目标化学品的毒性机制提供更为可靠的理论依据和数据支撑[6]。

1 多组学研究的相关技术(Related techniques of multi-omics)

1990年,人类基因组计划(Human Genome Project, HGP)启动[7],催生了组学的研究,包括基因组学、转录组学、蛋白质组学、代谢组学、脂质组学以及表观遗传组学等。组学分析技术已被证明是揭示复杂生物过程的强有力的新工具,并已成功地应用于微生物学、真菌学[8]、植物[9]和医学[10]等领域。

1.1 基因组学

基因组(genome),又称染色体组,指一个物种单倍体的染色体数目,是物种全部遗传信息的总和。基因组学(genomics)这一概念最早是在1986年,由美国科学家Roderick提出,基因组学的目的是对一个生物体所有基因进行集体表征和量化,研究它们之间的相互关系及对生物体的影响,并理解核苷酸序列的意义[11-12]。我们只有2个选择:要么零敲碎打地去发现一个个重要的基因,要么就有选择地测定数个动物(包括人类)的全基因组序列[13]。理所当然的,科学家们做出了科学的选择,启动了人类基因组计划,开始了对基因组学的研究。“基因组序列图”将奠定21世纪生命科学研究和生物产业发展的基础。基因组学包括3个领域:(1)结构基因组学,包括基因定位、基因组作图及测定核苷酸序列[14];(2)功能基因组学,是指对基因功能的识别和鉴定;(3)比较基因组学,是对不同物种的整个基因组进行比较,增强对各个基因组功能和表达机理的认识[14]。基因组学技术正被应用于研究经化学物暴露后生物基因表达的变化,这些信息有助于更好地理解mRNA(转录组学)、细胞和组织蛋白表达(蛋白质组学)以及代谢谱(代谢组学)的信息[15]。目前,常用的基因组学技术有DNA测序[16-17]、下一代测序[18]和单核苷酸多态性微阵列[19]等。

1.2 转录组学

转录组(transcriptome)这一概念最早由Velcuescu等提出,转录组是特定发育阶段或生理状态下细胞中转录出来的所有RNA总和[20-21],发现和解释转录组的复杂性是理解基因组功能的一个关键途径[22]。转录组学是功能基因组学研究的重要组成部分,是一门在整体水平上研究细胞中所有基因转录及转录调控规律的学科[23],依赖于对暴露动物组织中mRNAs水平变化的全基因组测量[24]。转录组学分析的主要目标是识别、表征和分类特定阶段特定细胞、组织中表达的所有转录本,这些转录本可以量化转录组在病理条件下的差异表达[22]。迄今为止,转录组学是最先进和最成熟的组学技术[25]。转录组学技术主要有微阵列技术[26]、基因表达系列分析技术[27]、大规模平行测序技术[28]和RNA测序技术[29]等。

1.3 蛋白质组学

蛋白质组(proteome)一词是1994年由Wilkins和Williams提出的,是指在特定时间、特定条件下,在特定类型的细胞或个体中表达的所有蛋白质[30]。蛋白质组学(proteomics)主要阐明蛋白质的成分、结构、表达和功能模式及各种蛋白质之间的相互作用[31]。与人类基因组计划相呼应,2001年,在美国成立了国际人类蛋白质组研究组织(Human Proteome Organization, HUPO),提出了人类蛋白质组计划[32]。虽然,基因指导蛋白质的合成,但基因表达的水平不能代表细胞内活性蛋白的水平[33]。蛋白质组极其复杂并且随时间变化而改变,蛋白质修饰过程如磷酸化、糖基化等,对细胞内的稳态起至关重要的作用[34]。蛋白质组学对蛋白质翻译和修饰水平的研究进行了补充,是全面了解基因组表达的重要手段[35]。蛋白质组学相关技术的发展促进了对蛋白质的定性定量检测,但它仍然不如转录组学和代谢组学敏感[36]。蛋白质组学可分为:(1)表达蛋白质组学,即对组织、器官、细胞和亚细胞中蛋白质表达谱的研究;(2)结构蛋白质组学,是对蛋白质及其复合物三维结构的测定,从原子分辨率的水平对其作用机制进行解释;(3)功能蛋白质组学,研究蛋白质在定位、折叠和修饰等功能上的不同和差异[37]。蛋白质组学技术有二维凝胶电泳技术[38]、质谱技术[39]等。

1.4 代谢组学

基因组学和蛋白质组学分别从基因和蛋白质层面探寻生命的活动,而实际上细胞内很多生命活动是发生在代谢层面的,基因和蛋白表达的有效的和微小的变化会在代谢物上放大,从而使检测更容易。与蛋白质和基因相比,代谢物会立即对细胞进程造成直接影响,并与毒理学表型密切相关[40]。而且,代谢组学可以使用体液如血液和尿液作为基质,这些体液可以采用较少或无创的方法取样,更加符合动物伦理,更加适用于人体健康的研究[25]。代谢组学的发展是基因组学、转录组学、蛋白质组学及表观基因组学发展的必然结果。代谢组学是从基因到生命有机体的级联过程的最后一步,它展现了生命有机体系统的当前状态,展现了环境与其自身遗传、转录和蛋白质表达共同作用的结果。代谢组学在现有的英文表述中,同时存在2个不同的词汇和概念,即Metabolomics和Metabonomics,Metabolomics研究的是细胞中所有小分子的成分和波动规律,Metabonomics动态跟踪完整生物体中的代谢物,研究其对内因和外因变化应答规律[41]。代谢组学的研究方法分为非靶向代谢组学和靶向代谢组学。非靶向代谢组学是对样品中所有可测量的代谢物进行系统全面的分析,靶向代谢组学则只对特定的代谢物进行定性定量分析[42]。与非靶向代谢组学相比,靶向代谢组学只对已知可能具有生物学效应的几种或几类代谢物进行偏向性研究,数据处理更加简单,分析更具有针对性[43]。Chai等[44]采用超高效液相色谱-质谱联用技术(UPLC-MS/MS)进行靶向代谢组学分析,探讨多氯联苯(polychlorinated biphenyls, PCBs)PCB91和PCB149对斑马鱼胚胎和幼体的毒性作用。PCB91/149暴露后,胚胎和幼体内的独特代谢物大多为氨基酸,对22种氨基酸进行定量分析,对22种其他代谢物进行半定量分析,对暴露期间显著改变的特征代谢物进行代谢途径分析,在胚胎和幼体中观察到的共同途径是精氨酸和脯氨酸代谢,丙氨酸、天冬氨酸和谷氨酸代谢,表明这2种代谢途径参与了细胞生长发育的遗传调控和表观遗传调控。应用于代谢组学最广泛的技术有色谱法、质谱法[45-46]及核磁共振法[47]等。

1.5 生物信息学

组学技术,特别是基因组学和蛋白质组学,产生了大量关于全基因组基因表达谱、蛋白表达以及蛋白质与外源性物质(特别是有毒物质)相互作用的数据,使研究跨越从分子到系统的多个复杂尺度[48]。对这些庞大数据进行处理和分析,进一步明确生物学机制,需要利用生物信息学这门关键学科。生物信息学结合了统计学、计算机科学和生物学等学科[7],以计算机为工具,用数学和信息科学的方法对生命现象开展研究,已经成为组学研究的前沿学科之一[14]。目前,越来越多公开的生物信息数据库可通过因特网访问,例如Genbank、PDB(Protein Data Bank)和EMBL(European Molecular Biology Laboratory)等[49]。生物信息学分析的过程包括:(1)数据处理和分子识别;(2)统计数据分析;(3)通路分析;(4)数据建模[50]。生物信息学方法随着组学技术的发展而发展,但是对于方法的应用还没有建立起一个统一的标准,这是生物信息学面临的挑战,因为不同的生物信息学方法应用于相同的数据集可能产生截然不同的结论[51]。

2 多组学技术在化学品风险评估中的应用(Application of multiple-omics techniques in chemical risk assessment)

多组学是多种高通量组学技术的联合应用,主要包括基因组学、转录组学、蛋白质组学及代谢组学等手段,对相关数据进行综合分析,从而对作用机制进行更加深入的了解。早期的研究仅使用单一的组学技术进行毒理机制分析,然而,生命调控过程并不仅仅存在于单一层面,而是涉及到基因组、转录组、蛋白质组及代谢组等多个层面的共同作用。因此,联合多组学技术,更加全面、系统地对化学品进行致毒机制研究和风险预测是势在必行的。

2.1 风险预测

随着全球化学品统一分类和标签制度在各国的实施,对化学品鉴定及危险性预测技术的要求越来越高[52]。为快速识别并预测化学品的危险性,许多学者开始将多组学技术应用于化学品风险预测。Simoes等[53]为了揭示一种草甘膦类除草剂对土壤跳虫的毒性机制,应用RNA测序和霰弹枪蛋白组学分别评估转录和蛋白表达差异。在Illumina HiSeq2000平台上进行下一代测序,使用Bowtie软件将测序结果与转录组进行比对,使用limma和edgeR软件包,通过广义线性模型进行回归分析,并对伪发现率进行校正,得到差异表达的转录本。使用基质辅助激光解吸电离串联飞行时间质谱(MALDI-TOF/TOF)对预处理后的样品进行分析,使用ProteinPilot软件对多肽和相应预测蛋白进行鉴定和相对定量。研究发现,此类除草剂暴露会影响正常的细胞呼吸和脂质代谢,诱导氧化应激,并导致蜕皮和生殖等生物生命周期活动发生损伤。Chatterjee等[54]应用了基于DNA微阵列的转录组学和基于GC-MS的脂质组学,对无定形纳米二氧化硅粒子处理的人肝癌细胞(HepG2)进行生物信息学分析。研究使用MetaboAnalyst软件进行代谢组学通路分析,使用IMPaLA软件进行转录组学和代谢组学的通路整合分析,使用SPSS软件对数据进行单因素方差分析。综合显著改变的基因和代谢物的通路分析,发现对胆固醇生物合成通路的调节取决于无定形纳米二氧化硅粒子的比表面积,比表面积越大,诱导胆固醇的水平越高。这一研究结果将为纳米材料暴露提供一个监管信号的范例。最重要的是,可以调整无定形纳米二氧化硅粒子的表面积来控制诱导的胆固醇水平,并且为进一步的生物应用设计安全的方法。Gavin[55]利用转录组学和代谢组学技术,用非靶标方法进行大型溞的银暴露研究,避免了传统假设驱动研究方法的潜在局限性。使用IMPaLA软件进行转录组学和代谢组学数据集的联合通路分析,用Fisher精确检验进行数据分析。研究发现,银暴露导致嘌呤核苷的积累与氧化应激无关,尽管鸟苷和肌苷显著增加的确切原因需要进一步研究,这2种代谢物已被证明可以作为银暴露的潜在标志物,从而用于风险预测、疾病诊断等。

2.2 致毒机制研究

化学品的毒性可能是急性毒性,也可能是慢性毒性,或是长期毒性、遗传毒性和生殖发育毒性等等,只通过常规的急性毒性试验难以准确评估其毒性效应及致毒机制,因此,亟需更加科学合理的技术,如多组学技术来进行化学品的致毒机制研究。Gonzalez-Ruiz等[56]在对3D神经细胞的三甲基锡暴露实验中,构建了一个完整的框架来分析通过多因素、多平台和多组学研究所获取的数据,从而揭示三甲基锡诱导的生物合成路径、神经元分化和信号转导过程的改变。研究使用ANOVA multiblock OPLS(AMOPLS)方法将不同液相色谱-质谱联用(LC-MS)平台的代谢组学数据进行合并,分析不同实验要素对三甲基锡暴露的影响,使用Proteome Discoverer软件对多肽和蛋白质进行定性定量分析,通过将蛋白质组学和代谢组学得到的互补生化信息结合,可以更好地了解暴露于化学品后发生的复杂细胞变化。在此研究中,选择的平台依赖于生物图谱数据库,能够同时将各种组学数据集与这些图谱进行匹配。在一些图谱中,显著修饰蛋白的比例高于显著修饰代谢物的比例,而在其他图谱中则相反,说明2种组学方法的结合提高了可信度。Wilmes等[57]结合转录组学、蛋白质组学、代谢组学与药代动力学方法,研究了培养的人肾上皮细胞(RPTEC/TERT1)暴露于环孢素A(CsA)(一种有肾毒性的药物)中的毒性效应。研究采用Illumina HT 12 v3芯片阵列(约47 000个转录本)进行转录组学分析;采用同位素标记相对和绝对定量(isobaric tags for relative and absolute quantification, iTRAQ)技术标记多肽,用高效液相色谱-质谱联用(HPLC-MS)技术测定,进行蛋白质组学分析;采用轨道离子阱(Orbitrap)进行代谢组学分析。研究发现,在高CsA浓度时,细胞内会同时出现线粒体紊乱、氧化应激和内质网应激现象。Grison等[58]研究了低剂量铀对大鼠肾脏的慢性毒性。在此研究中,使用LC-MS分析样本,将数据使用SIMCA-P软件进行多元统计分析,使用Cytoscape的插件Metscape和MetaboAnalyst构建代谢网络,检测发现受到最显著影响的2个代谢通路是烟酸-烟酰胺和不饱和脂肪酸的生物合成。转录组学相关分析采用RNA微阵列技术,所得原始数据使用R软件分析,当调整后的P值低于0.5则说明基因发生差异表达,分析显示有49个基因发生差异表达,其中,Nt5c2、Sirt6、Nnt、Nmnat1和Enpp3等基因可能与代谢物发生直接或间接的功能联系。此研究结果揭示了慢性低剂量铀暴露后,激活与氧化应激和炎症免疫反应相关基因的细胞过程。

3 挑战及展望(Challenges and prospects)

尽管多组学技术较传统的动物实验有巨大优势,但将多组学技术应用于化学品风险评估中,仍然面临一些挑战。

把多组学技术应用于风险评估的首要挑战就是如何与有害结局建立联系[59]。风险评估的目的在于评估特定暴露方案造成有害结局的可能性。在人类健康评估中,有害结局可以被定义为个体出现疾病或不适。在生态评估中,有害结局可以定义为对种群及生态系统造成的影响。从本质上来讲,组学终点反映的生物现象是较低层面的,例如分子层面、生物化学层面,而风险评估和有害结局通常关注器官、个体和种群层面。因此,要想将组学技术有效应用于风险评估中,就要在组学响应和有害结局之间建立科学可信的联系。建立此种联系的生物学依据基于对基因、转录、蛋白质和代谢等的理解。由于生物系统是复杂的,我们对生物系统的理解是有限的,在应用组学技术的时候可能会出现假阳性的结果[59],因此,运用多组学方法,多方面、多角度地对有害结局路径中的关键事件进行分析比单一的组学方法更有说服力。

多组学技术应用于风险评估的另一大挑战就是研究手段的标准化。尽管经过几十年的研究,组学方法仍未能从科学研究转向监管应用[60]。组学技术的监管实用性意味着监管研究必须具有可重复性和可解释性,用于监管目的的数据生成过程需要标准化。目前,众多机构与学者正致力于此。例如,欧盟的致癌基因组学项目为研究组学检测的可重复性以及评估相关的生物信息学方法提供了一个良好的平台[61];美国食品和药物管理局(FDA)组织了MAQC(Microarray Quality Control)项目,旨在建立基因芯片、新一代测序技术规范及数据分析标准[62-64];DNA元素百科全书联盟(ENCODE)是由美国国立卫生研究院(NIH)资助的跨国项目,自2003年开始运作,一直是基因组学领域分析手段标准化的主要贡献者[65]。

传统的健康风险评估是依据流行病学、动物实验和体外实验等数据确定人体暴露后是否会对健康造成不良影响以及造成不良影响的性质和特点,此种方法较多组学技术工作量大,数据不足。目前,越来越多的学者把多组学技术应用于人群暴露健康风险评估中。Luyten等[66]探讨了母体的空气污染暴露可能对胎儿产生的不利影响,发现探索基因组、转录组、表观基因组、蛋白质组和代谢组的整个代谢途径比其他方法更有代表性。Yao等[67]探讨了全氟/多氟烷基化合物(perfluoroalkyl and polyfluoroalkyl substances, PFASs)暴露对人类健康产生的不利影响,发现PFASs会向细胞发出化学信号,进而向组织甚至器官发出信号,最终导致疾病。检测并理解这些信号可以通过高通量组学技术来解决,包括转录组学、表观基因组学、蛋白质组学和代谢组学。

毫无疑问,在未来,新化学品仍然会以一个相当快的速度投入生产并进入市场,对化学品进行风险评估的压力将会越来越大,工作量将会越来越重,对理解毒性机制的要求将会越来越高。为了促进人类健康,维护环境安全,风险评估需要应用更可靠的新技术、新手段。随着毒理机制研究的不断深入,生物信息数据的大量收集,以及数据处理软件的持续改进,多组学在化学品风险评估中必将起到越来越重要的作用。

猜你喜欢
基因组学组学化学品
影像组学在肾上腺肿瘤中的研究进展
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
山西在谷子功能基因组学研究领域取得重大突破
新疆和西藏少数民族的群体基因组学研究
系统基因组学解码反刍动物的演化
危险化学品安全监管实践与探索
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
华法林出血并发症相关药物基因组学研究进展
《危险化学品目录(2015版)》解读