梁中洁,杨晓勤
(苏州大学医学部基础医学与生物科学学院,江苏苏州 215123)
人类基因组计划的基本完成标记着后基因组时代的来临。在面对基因组功能分析这一主要任务中,其核心思想是以系统和联系的观点来看待生物体内的物质,研究遗传信息如何通过基因经转录向功能蛋白质传递,基因功能如何由其表达产物蛋白质及代谢物来体现。与基因组、转录组及蛋白质组相比,代谢组学研究的代谢物组更接近生命活动的下游。DNA、mRNA 以及蛋白质的存在为生物过程的发生提供了物质基础,而代谢物的变化可以反映发生了的生物学事件[1]。
与基因组和蛋白质组的复杂序列数据库相比,代谢组学的代谢物信息库相对简单。代谢物的种类相对较少,物质的分子结构也要简单得多。此外,代谢物作为生命活动的下游信号,对代谢产物的分析能更加准确有效地反映生物体的生理状态。同时,代谢组学也存在局限性。目前的代谢组学分析不能将生物体所有的代谢产物全面涵盖。在针对样本的数据采集过程中,大多实验仪器存在动力学局限性。
作为全局系统生物学的基础和系统生物学的一个重要组成部分,代谢组学是典型的交叉学科,其研究内容涉及仪器分析、化学计量学和生物化学等学科。普遍认为代谢组学这一概念是由Jeremy Nicholson教授于1999年提出来的。Nicholson教授也因为他在代谢组学发展上的开拓性贡献,被学术界公认为代谢组学的创始人,被称为“代谢组学之父”。作为生物信息学专业的专业课程,如何将代谢组学的研究方法引入到课堂教学过程中,是生物信息人才培养值得关注的教学研究问题。
在开展代谢组学研究时,第一步是要采集足够量的样本并进行制备。足量的样本可以减少个体差异对结果分析的影响。在样本采集过程中要充分考虑样品的部位、种类及收集样本的时间。在采集人类的组织样本时,要充分考虑年龄因素对代谢物的影响,还要考虑地域、饮食、昼夜等具体因素。在研究微生物样本时,微生物代谢物样品的制备一般分为微生物培养、淬灭和代谢产物的提取。根据研究对象及分析技术的不同,样品后续的提取和预处理方法也不同。在样品存储过程中,最好选择-80℃进行保存。在分析过程中对样本也要有严格的质量控制。
由于代谢物小分子的复杂性,代谢物在分子量、挥发性、电迁移率、极性以及其他理化参数方面差异很大,现有的分析技术很难满足对所有代谢物小分子进行分离检测。因此,在代谢组学研究中经常采用联用技术和多个方法的综合分析。目前代谢组学常用的分离分析手段包括稀薄气液色谱技术(TLC)、高效液相色谱技术(HPLC)、质谱技术(MS)、核磁共振技术(NMR)、红外线光谱技术(IR)及高效毛细管电泳技术(HPCE)等。其中联用手段气相色谱与质谱共用技术(GC/MS)、液相色谱与质谱共用技术(LC/MS)及液相色谱与质谱先后使用技术(LC/MS/MS)兼备色谱的高分离度、高通量及质谱的普适性、高灵敏度和特异性。而作为当前代谢组学研究中的主要技术,NMR具有较高的通量和较低的单位样品检测成本,对样本具有无创性和无偏性,并有良好的客观性和重现性。缺点是动态范围有限,检测灵敏度相对较低,同时购买仪器需要大量的资金投入。同时为了改善灵敏度,研究者们多采用液相色谱-核磁共振联用(LC-NMR)技术。
代谢组学研究产生了大量的数据,这些数据具有高维、高噪声等组学数据特征。从复杂的代谢组学数据中找到有价值的信息成为近年来代谢组学研究的热点[2]。在模式识别分类计算之前,应采用合适的数据预处理方法。处理手段主要包括归一化、标准化及数据转换。其中,归一化主要是对样本进行操作,为了减轻生物个体间较大的代谢物浓度差异或样品采集过程中的差异,可以使用代谢物的相对浓度来校正个体差异对代谢物绝对浓度的影响。标准化是对代谢物进行的操作,主要是为了消除不同代谢物浓度数量级的差别带来的影响。数据转换是指通过对数据进行非线性变换将偏态分布的数据转换成对称分布的数据,以此来满足线性分析技术的要求。
代谢组学数据分析过程主要采用模式识别技术,根据样本的标签信息分为非监督学习方法和有监督学习方法。非监督学习方法是在不使用样本标签的情况下,从原始谱图信息出发对样本进行归类,并采用可视化技术直观地表达出来。主要有主成分分析方法(PCA)、非线性映射及聚类分析等。有监督学习方法是在已知样本标签的情况下建立类别间的数学模型,并利用建立的预测模型对未知的样本进行标签预测。这种方法需要建立用来确认样品归类的训练集和用来测试模型性能的测试集。常用方法有偏最小二乘判别分析(PLS-DA)、支持向量机(SVM)及人工神经网络(ANN)等机器学习方法。
在生物体内,不同基因、蛋白及代谢物相互协调行使其生物学功能,基于通路的分析有助于更进一步了解代谢物的生物学功能。通路显著性富集分析通常以KEGG通路为单位,应用超几何检验,找出与整个背景相比,在差异代谢物中显著性富集的通路。通过通路富集分析确定差异代谢物参与的信号转导通路和生化代谢途径。如果通过传统的KEGG富集分析没有找到研究相关的典型的代谢通路,还可以利用MSEA进行代谢通路的富集分析。另一方面,代谢网络成为揭示海量的生物大分子、代谢小分子及其间的相互作用的重要工具。代谢网络把所有生化反应表示为一个网络,反映所有参与代谢过程的反应物之间以及催化酶之间的相互作用。关于代谢网络的结构、功能和进化的研究已经进行了数十年,并且代谢网络正在从小规模系统演变为系统生物学中的大基因组规模的代谢网络。细胞的代谢网络是生物界的一种无标度网络,具有不同的层次,代谢网络一直处于对环境的变动的响应之中。通过代谢网络结合组学数据的研究更有利于我们对疾病发生发展的认识,为药物研发提供有价值的线索。
目前,代谢组学被广泛应用于多个领域,如疾病诊断及预后、药物开发及毒副作用研究、植物代谢组学和微生物代谢组学等多个方面[3]。在疾病研究中,代谢组学可以用于疾病的诊断、治疗和预后的判断。对病人的代谢物组进行全面的测定,不仅可以用于疾病的诊断,而且可以对疾病从发病开始到疾病加重的整个过程进行监测。
在疾病的诊断过程中,生物标志物(Biomarker) 作为后基因组时代精准医疗的关键词之一,是指一种可客观检测和评价的分子特征。生物标志物可作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子,寻找和发现有价值的生物标志物已经成为当前个性化医疗的研究热点。生物标志物可以是和特定疾病特征相关的基因类信息(如单核苷酸多态性或者DNA的甲基化)、蛋白质(如前列腺特异性抗原)或代谢物(如葡萄糖或胆固醇)等等。众所周知,异常的基因不一定产生功能异常的蛋白质;类似地,异常蛋白质不一定会对代谢物造成不利的影响。因此跟基因组学、转录组学及蛋白质组学的研究相比,代谢组学由于与表型更为接近,更适于疾病分型和标志物发现的研究,从而对疾病发展进度做出有效诊断并及时进行预防和治疗。
代谢组学在药物研究方面也有极大的应用价值。首先,是在药物靶点发现中的应用,通过对整个代谢组进行系统全面地分析,获取大量代谢物的数据对其进行处理,通过差异代谢物分析疾病的发病机制,为生物标志物及潜在的药物靶标提供重要的理论线索。其次,代谢组学在药物毒副反应研究中也有很高的应用价值。理论上讲,无论是药物的毒性还是疗效均是通过药物或者代谢物影响基因表达,改变蛋白质活性,调控内源性代谢网络而对机体产生作用。因此,通过分析血液、尿液或组织的代谢组就有可能获取药物代谢动力学、毒理学及药理学的丰富信息。最后,代谢组学在天然产物研究中发挥了很大的作用。代谢组学中的仪器分析方法对生物体系的代谢物进行定性和定量研究中产生了大量的数据,成为天然产物研究和开发的重要工具。一系列公开、方便且注释良好的代谢组学数据库和全功能软件的开发促进了天然产物大数据的集成、处理和解释。
在药物开发中,代谢组学可用于药物靶标的发现及天然产物的筛选,并在药效及毒副作用评价和临床评价等方面有着广泛的应用。在植物代谢组学中,通过代谢轮廓和代谢指纹图谱进一步了解植物的代谢途径。在微生物代谢组学研究中,代谢组学技术可以用于微生物表型分类、微生物代谢工程及微生物降解环境污染等方面。
随着代谢组学分析及检测技术的进步,积累了大量代谢组学数据。目前,应用广泛的人类代谢组数据库(HMDB)于2007年首次发布,被认为是人类代谢研究的标准代谢组学资源。HMDB包含有关人类代谢物及其生物学作用、生理浓度、疾病相关性、化学反应、代谢途径和参考光谱的综合信息。HMDB可被应用于代谢组学、临床化学、生物标志物发现等研究。药物研究数据库DrugBank包含批准的小分子药物、批准的生物制剂、营养药品、实验药物及药物靶标信息。该数据库还开辟了针对COVID-19的专栏,系统总结了新冠肺炎相关研究情况,帮助研究人员快速地获取所需信息。代谢通路数据库SMPDB是一个交互式的、可视化的数据库,包含仅在人类中发现的3万多条小分子通路。SMPDB是专为支持代谢组学、转录组学、蛋白质组学和系统生物学中的通路阐明和通路发现而设计的。毒素和毒素靶标数据库(T3DB)将详细的毒素小分子数据和全面的毒素靶标信息结合在一起。
代谢组学的研究流程从样本采集到数据收集,涉及大量的仪器分析方法。根据生物信息学专业设计理念,在代谢组学教学大纲的设计中,应当对仪器分析的原理及适用范围做简单介绍,能够使同学们了解不同仪器分析在数据结果处理上的注意问题。同时,在大纲设定过程中,加大对代谢组学数据分析原理及方法的介绍。重点强调跟其他组学数据分析相比,代谢数据在前期数据预处理阶段需要特别注意,不同的预处理方法会对结果产生较大的影响。同时,指导学生开展代谢组学文献调研及阅读工作。作为生物信息的前沿学科,让同学们在课程学习后具有自我学习的能力更有价值。
代谢组学的研究对象是分子量小于1000的内源小分子,适当引入化学信息学的方法将更有利于代谢组学内容的学习。与药物设计课程类似,代谢组学也是研究探讨化学空间和生物学空间联系的一门学科。通过内源代谢物的分析来阐述机体的生理病理状态,在化学信息学方面学习化学分子的结构表达和数学描述,掌握化学信息的处理方法及分子相似性的计算,加深对代谢组学小分子数据库的理解及提高数据检索能力。在此基础上熟悉小分子和蛋白质相互作用预测模型的构建,了解网络药理学中的靶标预测及药物重定位等研究应用[4]。通过对化学空间和生物学空间的探讨,加深对疾病发生机制的理解和指导药物靶标发现。在紧密结合生物信息学科特点的同时,本课程也将积极探索具有本学科特点的教育模式,与德育、智育、体育、美育相融合,培养全面发展的本科人才。
代谢组学是一门涉及多个学科知识的交叉学科,学生进行独立自学的难度很大。课堂教学中,我们的教学应该是理论与实验相结合。在理论教学中,要注意系统知识的传授和方法原理的讲解。在实验教学过程中要与理论教学相吻合,注意方法原理与实际操作及结果分析的融合。在大数据的背景下,根据课程特点和教学内容选择最佳的教学方法是教学改革的一项重要内容。在传统的课堂教学外,加入适合其学生个性发展的“微课”“翻转课堂”等现代教学模式,不仅引领学生把控现在,还得面向未来。在代谢组学数据分析方法掌握的基础上,引导学生开展文献检索及文献调研。发挥同学们的积极主动性,面对日益更新的组学技术及方法,使同学们具有自我学习的能力会使教学效果事半功倍。