孙晓珊,路 鑫,许国旺
(1.中国科学院大连化学物理研究所,分离分析化学重点实验室,辽宁 大连 116023;2.中国科学院大学,北京 100049)
代谢组学[1]是以生物体内分子质量小于1 500的小分子代谢物为研究对象,运用多种分析手段,如质谱(mass spectrometry, MS)[2]、核磁共振(nuclear magnetic resonance, NMR)[3]、色谱-质谱联用[4]等,从整体水平上研究胞内代谢物组成及其与生理、病理相关的变化规律。与其他组学相比,代谢组学更接近于表型,能更准确直接地反映外界环境对生命系统的影响[5],通过与其他组学整合可为生命科学研究提供解决方案[6]。代谢组学已广泛应用于生命科学的诸多领域,如疾病诊断、药物安全性评价、药理研究、营养科学等[7-8]。
生物体内的代谢物数量众多,如人类代谢组学数据库(human metabolome database, HMDB)现已收录超过10万种代谢物[9],且代谢物的理化性质各异、浓度范围跨度9个数量级,代谢组全景分析具有极大挑战[10]。随着代谢组学研究领域的不断拓宽,以及高分辨质谱(high resolution mass spectrometry, HRMS)的快速发展,基于质谱的分析技术逐渐成为组学研究不可或缺的工具。相对于NMR,质谱技术具有检测灵敏度更高、代谢组覆盖范围更广等[11]特点。代谢组学研究中常用的HRMS主要包括:飞行时间质谱(time of flight MS, TOF MS)、傅里叶变换静电场轨道阱质谱(Fourier transform Orbitrap MS, FT Orbitrap MS)和傅里叶变换离子回旋共振质谱(Fourier transform ion cyclotron resonance MS, FTICR MS)[12]。相对于低分辨质谱(如三重四极杆质谱),HRMS具有更高的质量分辨率和质量精度,更有利于发现新的有意义的生物分子,已在非靶向代谢组学研究中得到广泛应用[13]。为了满足不同层面的代谢组学研究需求,近年来不断涌现了基于高分辨质谱的代谢组学新技术,如与微纳尺度液相色谱、多维色谱联用技术,纳喷电离(nanoelectrospray, nESI)高分辨质谱,基质辅助激光解吸电离(matrix-assisted laser desorption/ionization, MALDI)高分辨质谱以及原位电离(ambient ionization, AI)高分辨质谱技术等。此外,定性代谢组学新技术快速发展,使得更深层次的代谢组学数据利用和挖掘成为可能,极大地推动了代谢组学研究。本文将重点介绍近5年来基于高分辨质谱的代谢组学分析技术研究进展。
色谱-高分辨质谱联用是代谢组学研究的主流分析技术之一。代谢物经色谱高效分离后进入质谱,可显著降低质谱离子抑制,有利于代谢物的定性和定量分析。与气相色谱相比,超高效液相色谱(ultrahigh performance liquid chromatography, UHPLC)具有分离速度快、分离效率高、灵敏度高、重复性好、无需衍生化处理、与高分辨质谱兼容性好等优势,且具有多种分离模式,对代谢组的检测覆盖度更高[14],已成为与高分辨质谱联用的首选色谱系统[15]。UHPLC-HRMS是非靶向代谢组学研究中最常用的分析技术之一[16],可获得丰富的代谢物定量、定性信息。Nature Protocols已陆续发表了以血浆[4]、组织[17]和尿液[18]为研究对象的基于UHPLC-HRMS代谢组分析范本。
当前代谢组学研究对象面向微量化、复杂化及规模化,因此亟待发展灵敏度更高、覆盖度更好、检测速度更快的分析技术[16,19]。使用亚二微米颗粒填料的超高效微柱液相色谱(Micro-UHPLC)与高分辨质谱联用技术得到了关注。Micro-UHPLC系统更接近于常规UHPLC系统,通过结合快速梯度条件可显著提高分析通量。如Gray等[20]发展了一种用于高通量代谢组学研究的基于快速微柱超高效液相色谱-高分辨质谱的代谢谱方法(rapid microbore metabolic profiling,RAMMP),采用HSS T3micro-UHPLC色谱柱(1 mm×50 mm×1.8 μm)代替UHPLC色谱柱(2.1 mm×100 mm×1.8 μm),使用快梯度和0.4 mL/min柱流量将分析时间缩短至2.5 min/样品,即分析时间缩短了近5倍。对服用2-溴苯酚和扑热息痛的700多例小鼠尿液代谢谱分析显示,与传统的UHPLC-MS相比,虽然检测到的质谱特征由19 000减少至约6 000,但2种方法具有相似的重复性及组间区分能力。与分析时间相近的直接进样质谱法相比,RAMMP法具有更好的选择性,更适合大批量样本分析。
为了改善快速micro-UHPLC-HRMS法由于分析物共洗脱导致质谱特征数减少的问题,研究人员将micro-UHPLC与离子淌度质谱(ion mobility spectrometry-MS,IMS-MS)联用,用来增加质谱特征的检出数量,并提高图谱质量。离子淌度质谱是将IMS与质谱联用的二维质谱技术,可提高系统峰容量。通过增加淌度分离维度,提供代谢物分子碰撞截面积(collision cross-section, CCS)信息,实现异构体分辨[21]。如King等[22]使HILIC色谱系统(1 mm×50 mm×1.7 μm)与IMS-HRMS联用,建立了适用于极性代谢物分析的micro-HILIC-IMS-HRMS高通量分析方法。采用0.2 μL进样量,检测到的质谱特征数由micro-HILIC-HRMS法的3 007个增至6 711个。与常规HILIC-HRMS(2.1 mm×150 mm×1.7 μm,3.5 μL进样量)方法相比,分析时间从10 min缩短至3.3 min,溶剂用量节约75%,样本消耗量减少18倍。由于IMS增加了异构体分辨,色谱峰明显变窄,批次间重复性提高。此外,作者还发展了基于micro-RPLC-IMS-HRMS(1 mm×50 mm×1.7 μm,0.2 μL进样量)的高通量脂质组学分析方法[23],分析时间由UHPLC-HRMS(2.1 mm×100 mm×1.7 μm)脂质组学方法的12 min缩短至3.7 min,溶剂用量减少75%;共洗脱脂质由于增加了IMS分离,获得了较好的谱图质量。该方法用于乳腺癌及健康人血浆分析,主成分分析(principal components analysis, PCA)结果显示,2组样本实现了很好的区分,方法稳定,适合大规模样品分析。虽然多项研究结果表明,micro-UHPLC-HRMS方法可提高分析通量,但由于柱外效应[24]以及共流出导致的基质效应,方法的灵敏度受到影响[22]。
纳流液相色谱(NanoLC)可以耦合更低流速的nESI技术,与常规LC-HRMS方法相比,nanoLC-nESI-HRMS具有样本用量少、有机溶剂消耗少、基质效应小、检测灵敏度高等优势[25]。Danne-Rasche等[26]发展了基于nanoLC-nESI-HRMS的脂质高覆盖深度分析方法,采用自制的核壳型C18色谱柱(100 μm×30 cm×2.7 μm),进样量1 μL,流速600 nL/min,分析用时110 min。与传统的LC-ESI-HRMS(2.1 mm×150 mm×2.7 μm)相比,方法检测灵敏度和线性动态范围分别提高了2~3个和1~2个数量级,鉴定到的脂质数量增加了3倍。从酿酒酵母(S.cerevisiae)中鉴定到PA、PE、PC、PS、PG、PI等共447个磷脂类化合物,其中包括低丰度或者共流出的脂质同分异构体。进一步结合半自动数据分析流程,从S.cerevisiae中鉴定到的脂质数目增至894个,共覆盖26种脂质类别,比传统鸟枪法的鉴定率提高4倍[27]。Luo等[28]则将化学同位素标记(chemical isotope labeling, CIL)与nanoLC-HRMS结合,进一步提高微量样本的检测灵敏度。通过采用12C-/13C-丹磺酰氯衍生细胞裂解液,检测少量细胞中的氨基、苯酚类代谢物,样品用量少(pmol级),即使使用100个或1 000个MCF-7乳腺癌细胞,仍可获得数千个代谢物信息。最优条件下,该方法在104个细胞中检测到的代谢物数量比micro-LC-HRMS方法(0.18 mL/min流速,34 min分析时长)在105个细胞中测得的代谢物数量增加37%,显著提高了检测覆盖度。
多维液相色谱(multi-dimensional liquid chromatography, MDLC)采用分离机理不同且相互独立的液相色谱柱系统,经第一维色谱分离的组分在后续分析过程中不会或很少再混合[29]。与传统一维色谱方法相比,可以显著提高柱系统的分离度和峰容量,与高分辨质谱技术联用,有望为复杂代谢组分析提供有效手段。但在线MDLC存在二维流动相不兼容,组分转移至第二维过程中存在严重稀释效应,以及两维分离条件的优化等制约因素[30],限制了其在代谢组学研究中的应用。针对上述瓶颈问题,本课题组[31-33]提出“分而治之”的研究策略,在基于MDLC-HRMS的代谢组学分析新技术方面开展了系统研究。为解决二维流动相不兼容和严重稀释效应导致的色谱峰畸变,以及第二维分离度和灵敏度损失问题,研发了新型停流模式接口[31]。通过引入捕集柱和稀释液,有效解决了二维溶剂不兼容的问题。此外,第一维和第二维均使用常规尺寸色谱柱,结合最佳流速条件,有效避免了第二维高流速带来的严重稀释效应,显著提高了方法灵敏度和分辨率。在新型停流接口基础上,发展HILIC-RPLC-HRMS正交系统,其色谱系统峰容量与文献[34]报道的全二维液相色谱系统相当。采用该系统仅一次进样即可实现复杂不同族、不同脂肪酸链的脂质精细分离。针对现有2D LC技术存在的二维色谱正交性不高、稀释效应严重的问题,进一步将新型停流模式接口技术与具有正交分离机制的多维色谱系统结合,搭建了一种新型在线三维HILIC-RPLC×RPLC-HRMS系统[32],示于图1。复杂样品组分经第一维HILIC色谱柱预分离,被分割成一定数量性质不同的馏分,再经停流接口,使每个馏分均进入RPLC×RPLC全二维系统进行分离。以大豆提取物为模型样本,在同等条件下使用3D HILIC-RPLC×RPLC-HRMS方法鉴定到的黄酮类化合物比传统全二维液相色谱法增加了30%,显示了该方法在复杂样本代谢组分析中的应用价值。
注:a.系统流路图;b.3D TIC色谱图图1 3D LC/HRMS分析大豆样品中黄酮类化合物[32]Fig.1 Analysis of soybean extract by 3D LC/HRMS system[32]
在生物样本中,由于代谢物和脂质极性不同,获取代谢组和脂质组信息通常需要2次分析,且由于部分代谢物信息重叠,增加了数据处理的复杂程度。为此,本课题组采用上述新型停流接口技术,发展了新型停流平行柱2D LC-HRMS系统,仅1次进样即可同时获取代谢组和脂质组的全景信息[33]。具体为:样本首先经第一维预分离柱,根据极性分割成2个馏分,第1个馏分直接转移至C18色谱柱,并在乙腈-水流动相体系下进行代谢组学分析;待C18色谱柱完成分析后,采用疏水性更强的流动相洗脱预分离柱得到第2个馏分,至T3色谱柱进行脂质组学分析。结果表明,该方法1次进样即可检测到3 200多个代谢特征,覆盖了传统代谢组学和脂质组学方法需2次检测到的99%代谢特征,显著提升了检测覆盖度,特别适合于少量样品的高覆盖代谢组学研究。将该系统进一步用于生物体系中不同碳链长度酰基辅酶A的分析,用于解决由于酰基辅酶A极性跨度大导致的常规一维LC-HRMS方法覆盖度低的问题。1次进样有效分离了短链、中链和长链酰基辅酶A,从肝组织提取物中鉴定到90种酰基辅酶A,是迄今为止最大的肝组织酰基辅酶A数据集[35]。上述结果均表明,新型停流平行柱2D LC-HRMS系统具有代谢组覆盖度广、通量高、重复性好等优点,适用于组织、细胞等生物样品的代谢组分析。
近年来,针对正交两维系统溶剂兼容性差的问题,发展了新型调制接口并实现商品化,如活性溶剂调制[36](active solvent modulation, ASM)以及柱头稀释[37](at-column dilution, ACD)技术。ASM是由Stoll等在2017年研发的,该接口更适合于第二维是反相色谱的多维系统[38]。通过在第二维色谱柱前使用第二维流动相稀释样品环中第一维的洗脱液,使分析物在第二维柱头聚集,从而改善第二维色谱峰形、分离度与灵敏度。ACD技术则是Chen等在Waters商业化的一维色谱ACD技术基础上发展起来的,通过在常规二维液相装置接口处额外引入1个传输泵,洗脱样品环中的待分析物;该技术无需分流第一维馏分实现柱头稀释,使用该接口技术的RP×HILIC-Q-TOF联用方法已成功用于植物代谢物分析[39]。MDLC-HRMS由于具有高覆盖、高分辨率的特性,在复杂样品分离分析中得到越来越多的关注,虽然针对二维匹配的难点问题已提出多个解决方案,但实现二维的高效调制仍是构建MDLC-HRMS的关键问题,未来仍需发展新型接口改善二维流动相的兼容性差,进一步提高多维柱系统的实际峰容量和检测灵敏度[38]。
大规模代谢组学分析技术已成为分子流行病学、精准医学以及代谢组全基因组关联研究等领域的重要支撑技术,对理解复杂疾病(病理)生理机制以及疾病的诊断、预防治疗等具有重要作用。色谱-高分辨质谱联用技术的分析通量受色谱分离时间制约,且长时间运行会引起色谱保留时间漂移、重复性差等问题,限制了其在大规模代谢组学研究中的应用[11]。直接进样高分辨质谱(direct injection HRMS, DI-HRMS)方法无需色谱预分离,分析时间、有机试剂消耗大大降低,适合高通量代谢组学分析,特别是样本量受限的微量样本高通量代谢组学研究[40]。
DI-ESI-HRMS主要包括流动注射(fusion injection, FI)与针泵进样方式。由于缺少色谱分离,ESI-HRMS方法存在基质效应,且无法分辨具有相同m/z的代谢物,代谢物鉴定较为困难。Zhu等[41]发展了基于FI-FTICR MS的高通量代谢组检测方法,整个检测过程仅需5 min。与高分辨质谱相比,由于FTICR MS具有超高的分辨率与质量准确度,定性可靠性更高。将该技术用于T2D糖尿病标志物的发现,显示出方法的通量高,且具有较好的重复性。为了提高鉴定准确度,Zang等[42]将FI-HRMS与IMS结合,发展了FI-IMS-HRMS方法,检测时长约3 min(另外需要3 min冲洗时间)。由于增加了代谢物CCS值,提高了代谢物的分离度和定性可靠性,将该方法用于前列腺癌代谢组学研究,前列腺癌患者的诊断准确性为88.3%~89.3%、敏感性为88.5%~90.2%,特异性为88.1%。Sarvin等[40]系统地研究了FI-MS方法导致离子抑制效应的主要因素,表明离子间竞争是导致质谱离子抑制的主要原因,使用灵活可调控的质谱分段采集技术是提高灵敏度和线性动态范围的有效策略。
nESI-HRMS采用纳升级流速,可在显著提高通量的同时,降低基质效应,且可避免液质联用技术的流动相稀释,实现高灵敏度分析。基于nESI-HRMS质谱拼接式采集方式的代谢组学和脂质组学方法已作为范本发表[43]。通过质谱分段采集,有效降低了空间电荷效应,减小了高丰度物质对于低丰度物质检测的影响,提高了检测灵敏度。Chekmeneva等[44]比较了UHPLC-HRMS和DI-nESI-HRMS两种方法分析尿液代谢组,以135例人的尿液分析为例,DI-nESI-HRMS分析仅需9 h,远远少于UHPLC-HRMS所需的5天分析时长。该研究依据性别将样品分为男性和女性2组,虽然DI-nESI-HRMS方法鉴定到的代谢物数目少于UHPLC-HRMS,但差异代谢物与UHPLC-HRMS高度重合,证明DI-nESI-HRMS可作为一种适合大批量样本代谢组学研究的可靠、高通量的快速筛查方法。
代谢物空间分布信息对生物分子作用机理的研究至关重要。如NAD+的时空划分是其代谢和信号传导功能的基础,乳酸的定位和运输模式对癌症的代谢研究具有重要价值[45]。免疫组化是常用的基于抗体-抗原结合以显示组织中特定酶空间分布的方法,但该方法依赖靶向抗体,整个流程耗时长,无法非靶向分析未知特征[46]。高分辨质谱成像技术(mass spectrometry imaging, MSI)可以在较高分辨率下显示代谢物的空间分布信息,检测覆盖度广、无需标记。根据电离方式的不同,目前常用的MSI技术主要有MALDI MSI、二次离子质谱(secondary ion mass spectrometry, SIMS)和Ambient MSI。其中,SIMS方法由于破坏性强、电离效率低,在代谢组质谱成像研究中受限[47]。
MALDI-HRMS作为一种可以提供空间分布信息的检测手段,具有软电离特性且耐盐性好等优点,已被广泛用于生物成像研究。其中,基质对离子化效率起着非常重要的作用。传统基质在小分子代谢物检测方面存在明显不足,如低质量端存在严重的基质背景干扰,基质-样品共结晶的不均匀性导致信号重复性差等[48]。近年来,MALDI-HRMS主要集中在发展样品前处理技术、新型基质、以及MALDI成像电离装置等。
对组织表面进行孵育衍生化预处理是提高目标代谢物检测灵敏度及离子化效率的有效手段之一,但存在反应耗时长(1~12 h)、衍生试剂引起的杂质干扰、衍生产物移位以及衍生化效率低等问题。Guo等[49]利用激光辅助组织转移方式(laser-assisted tissue transfer, LATT)将喷涂有衍生化试剂和基质的厚度为6 μm的组织切片激光销蚀至1 μm,示于图2,由于组织切片厚度减小,降低了基质效应,提高了小分子代谢物在组织表面的衍生化效率,显著缩短了衍生化时间,并在一定程度上降低了代谢物在衍生化过程中转移的可能性。以氨基代谢物为例,相比于传统衍生化方式,用4-羟基-3-甲氧基肉桂醛作为衍生化试剂,待测物质谱信号强度达到最高时的衍生化时间从8 h缩短至5.4 min,氨基酸、神经递质和二肽的MALDI-TOF/TOF MS检测信号提高20~235倍。
图2 LATT作用机理及缬氨酸在组织切片经激光销蚀前后检测灵敏度对比结果[49]Fig.2 Mechanism of LATT and enhancement of on-tissue derivatization for valine[49]
新型MALDI有机基质的发现及合成主要是根据“试错”原则[50],即从大量化合物中进行系统筛选,一般遵循传统有机基质的化学特性,如有较强的紫外吸收、真空环境下低挥发性和含有酸性或者碱性基团。Wang等[51]筛选出一种新型基质——肉桂酸衍生物3,4-二甲氧基肉桂酸(3,4-dimethoxycinnamic acid, DMCA),该基质具有较强的紫外吸收及较低的基质背景干扰,与多种传统基质(2,5-二羟基苯甲酸、α-氰酸-4-羟基肉桂酸、2-硫醇基苯并噻唑、氧化石墨烯和银纳米颗粒)对比显示,代谢物检测覆盖度显著提升。以大鼠大脑和发芽红豆杉种子组织切片为研究对象,在m/z<500范围内,新型基质分别可以检测到200、248个代谢物,而传统基质仅能分别检测到27~149和9~109个代谢物。双极性基质能够显著拓宽代谢物的检测覆盖度,利用同一块组织切片可以同时获得正负离子模式的代谢物信息。Huang等[52]设计并合成了一系列同时含有氨基和羧基双官能团的邻氨基苯甲酸衍生物,其中COOH-NHMe在脂类、蛋白质等生物分子的正负离子模式同时检测中优势明显。Horatz等[50]首次将共轭聚合物作为双极性基质应用到MALDI成像中,由于聚合物具有大π键,可以吸收不同波长的光用于不同紫外波长的仪器;不易挥发、分子质量较大、对低质量端干扰小,并且含有烷基侧链的大分子聚合物可以溶于有机溶剂中,在结晶过程中形成纳米级薄膜。通过银杏叶提取物分析,筛选出4种聚合物候选基质,最终将聚3-十二基噻吩-2,5-二基(poly(3-dodecylthiophene-2,5-diyl),P3DDT)成功应用到小鼠脑组织成像分析中,质谱峰数量与平均峰强度结果表明,该新型基质效果与传统基质2,5-二羟基苯甲酸(正离子模式)和9-氨基吖啶(负离子模式)相当。除有机基质外,具有纳米结构的无机基质由于具有结晶的均匀性、大的比表面积和化学功能修饰等优势,成为取代有机基质的理想候选材料。Iakab等[48]设计了以硅材料为基底,覆盖金纳米颗粒作为激光解吸过程中的固态靶板,并且在表面修饰亲水和疏水基团(羟基和烷基),实现对不同极性代谢物的靶向选择性提取。正负离子模式下,均可检测到手指指纹及动物组织中转移到靶板上的代谢物信息。
通过对MALDI成像电离技术(包括光学器件)的改进,可进一步提高检测灵敏度及成像分辨率。Niehaus等[53]通过结合透射模式几何的基质辅助激光解吸电离质谱成像(t-MALDI-MSI)技术与激光诱导后电离(MALDI-2)方法,开发了新型t-MALDI-2-MSI离子源,提高了像素分辨率。t-MALDI-MSI的空间分辨率可达到1 μm甚至更小,但是小像素点下离子丰度会降低,而MALDI-2技术可以提高脂质和代谢物的离子化效率及覆盖度。通过两者结合,再与高分辨质谱串联,可对组织和细胞培养物实现亚细胞水平上的成像分析,最小像素可达600 nm,多种类别的磷脂和糖脂检测灵敏度提高了1~3个数量级,该结果表明其在细胞生物学的应用潜力。
功能代谢物在生物组织中的空间分布有助于理解生物系统中分子的作用机理,如何在接近生理状态下进行代谢组学分析,对组织特异性分子的病理学研究至关重要。虽然MALDI MSI成像技术已在代谢组学中得到广泛应用,但需要真空环境,且需要基质辅助电离。解吸电喷雾电离(desorption electrospray ionization, DESI)和实时直接分析(direct analysis in real time, DART)电离技术在2004~2005年被相继报道,出现了原位电离的概念[54]。其中以DESI为代表的常压敞开式电离质谱成像已被广泛应用于组织成像研究[47]。相较于MALDI成像技术,基于常压敞开式电离的质谱成像方法,样品前处理简单甚至无需前处理,无需基质辅助离子化,可以有效避免基质干扰,在活体原位代谢组学研究方面极具潜力。
近年来,AIMS技术的发展主要包括离子化装置的研发与改进。鉴于组织样本的复杂性和异质性,Abliz团队[55]发展了一种气流辅助解吸电喷雾电离质谱成像方法(air flow-assisted desorption electrospray ionization, AFADESI-MSI),示于图3。利用高速气流将喷雾溶剂雾化形成带电液滴,带电液体轰击组织表面并实现代谢物的萃取,通过高速空气流可以实现大气压下带电离子的远距离传输,提高检测灵敏度。该方法用于非靶向代谢组学分析,使用乙腈-水(8∶2,V/V)作为喷雾溶剂,在自主研发的成像软件处理下可得到包括胆碱、多胺、氨基酸、肉碱、核苷、核苷酸、有机酸、碳水化合物、胆固醇类、胆酸、脂类等在内的超过1 500种代谢物,具有覆盖度高、灵敏度高、动态范围宽、分析速度快、特异性高等优点;且代谢物的分布与大鼠肾脏、大鼠脑和人食管癌组织的组织学结构和生物功能有良好的空间匹配。此外,Hieta等[56]发展了新型红外激光波束对焦技术,采用激光消融大气压光电离(laser ablation atmospheric pressure photoionization, LAAPPI)和激光消融电喷雾电离(laser ablation electrospray ionization, LAESI)质谱成像,实现了小于100 μm的空间分辨率。LAESI适用于分析小分子和生物大分子,而LAAPPI更适合小分子代谢物和脂质,两者具有较好的互补性,结合使用可以获得更丰富的生物分子信息。采用该方法分析小鼠大脑组织,获得了70 μm的空间分辨率。Stopka等[57]将LAESI与超高分辨质谱21 T FTICR MS联用,直接从生物组织中获得代谢物的同位素信息,通过对分辨率与灵敏度的权衡,在珊瑚叶片中共匹配到106个分子式。
图3 用于原位组织功能代谢物检测的高灵敏度、高覆盖AFADESI-MSI方法的构建[54]Fig.3 Strategy to develop a sensitive and wide coverage AFADESI-MSI method for functional metabolites based molecular histology[54]
原位电离质谱为代谢组学研究提供机遇,但仍面临一些挑战,如检测覆盖度低、数据复杂、定量困难、重复性差等。进一步构建基于原位电离质谱的公共数据库,实现方法的标准化和自动化、以及发展现场检测方法是今后发展的方向[54]。
随着代谢组学技术的发展,特别是高分辨质谱技术的迅猛发展,生物样本非靶向代谢组学分析获得了海量的代谢组数据。基于超高效液相色谱-高分辨质谱技术(UHPLC-HRMS)的非靶向代谢组学方法1次即可实现上万或数万个质谱特征(metabolic feature)的检测,但其中仅1.8%~20%的谱图信息可被注释[58-59],代谢组规模化定性一直是代谢组学研究亟待解决的瓶颈问题之一[60]。
质谱数据库检索是代谢物鉴定的主要方式,代谢物的收录情况直接决定了代谢物鉴定的数量与质量。目前已有多个开源代谢组学质谱数据库,列于表1。如,Metlin数据库目前已收录近百万化合物,收录二级质谱(MS/MS)数量超过4 000 000张[61]。HMDB收录114 100种化合物,其中2 265种化合物有实测LC-MS/MS谱图数据,98 601种化合物为预测LC-MS/MS谱图。为了改进数据库检索鉴定的可靠性及实现代谢组规模化鉴定,本课题组[62]发展了代谢物标准数据库构建策略和方法。从数据采集、色谱保留时间校正、定性分析算法、批量搜索等方面,提出了一整套解决方案,研发出包括2 000多个代谢物标准品的LC-HRMSn智能质谱数据库。该数据库收录数据均在标准操作条件下获取,采用反相UHPLC色谱联用TripleTOF高分辨质谱,正、负电离模式,15、30、45 eV 3个碰撞能量。系统中包括代谢物色谱保留时间、MS1和MS/MS信息等。针对极性化合物,美国加州大学Oliver Fiehn教授团队[63]采用HILIC-Q Exactive和TripleTOF高分辨质谱,建立了包括保留时间、MS1、MS/MS信息在内的1 100多种标样化合物的开源质谱数据库。
表1 代谢组学常用质谱数据库信息统计Table 1 Public mass spectral database information for metabolomics
虽然已有少数代谢组数据库可提供色谱保留时间、精确质量数(MS1)和MS/MS信息,但是基于数据库检索鉴定代谢物的方法存在许多不足:1) 标准化合物样品价格昂贵或难以获得;2) 实验MS/MS谱图有限[64],且MS2谱图质量参差不齐[65],不同类型质谱采集的MS/MS差异较大;3) 数据库收录的代谢物数目快速增加,但由于代谢组在种类、结构、含量和功能等方面极具多样性,现有数据库代谢物的覆盖度仍有限。
基于计算代谢组学的质谱谱学预测(insilico)方法在过去10年间得到快速发展,已成为代谢组学分析流程的重要组成部分[66-67]。Insilico脂质质谱数据库,如LipidBlast[67],Lipid Maps[68]在对具有确定质谱碎裂模式的脂质鉴定方面发挥着重要作用,但对于分子结构更为多样、复杂的代谢组注释仍极具挑战。Insilico质谱数据已成为目前质谱数据库的常用手段,预测算法包括量子化学(如QCEIMS)、自启发式(LipidBlast)、质谱裂解规则(MS-FINDER,MassFrontier,MetFrag,MAGMa)、机器学习或组合机器学习(CFM-ID[69],CSI:FingerID)等[70]。Böcker等[71]发展了一种分子结构识别工具——SIRIUS 4,该工具整合了CSI: FingerID和分子结构数据库用于代谢物的快速鉴定。此外,随着离子淌度质谱技术在代谢组学领域中的应用,将CCS值与高分辨质谱结合来增加代谢物定性的可靠性。朱正江研究员团队将机器学习算法用于大规模预测代谢物CCS值,构建CCS数据库,如构建了包含35 230个代谢物预测CCS的MetCCS[72];包含15 646个脂质预测CCS的LipidCCS[73];用于脂质鉴定的包含m/z、RT、CCS和MS/MS的四维信息的LipidIMMS[73];以及近期构建的包含200多万个小分子的5 000多个实验CCS,1 300多万个预测CCS的AllCCS[74]。
目前,代谢组质谱数据库大多为针对未有实验MS/MS信息的代谢物进行insilicoMS/MS预测[75],而直接预测代谢物的质谱数据库较少[76-77]。其中代表性工作是加拿大阿尔伯特大学厉良教授团队[77]研发的MyCompoundID,其通过对HMDB中收录的8 021个已知内源性代谢物进行insilico生化转化(76种最常见的转化类型),得到375 809个Ⅰ相代谢产物和10 583 901个Ⅱ相代谢产物,并预测了相应的insilicoMS/MS。利用该数据库,可将尿样和血浆中鉴定出的代谢物增加1倍,显示出其在未知代谢物鉴定方面的潜力。本课题组[78]发展了一种不依赖于现有数据库/知识库,实现已知/未知代谢物规模化鉴定策略,该方法基于代谢途径insilico生成代谢物,并研究其质谱特征。以植物中羟基肉桂酸酰胺类化合物为例,首先insilico预测了植物中可能存在的846个羟基肉桂酸酰胺类化合物,构建羟基肉桂酸酰胺数据库,建立了保留时间预测模型,并获取该类物质的二级质谱特征碎片。采用该方法从实际样品中鉴定的数量比文献最好水平高1.4~4.1倍,63.6%羟基肉桂酸酰胺在该植物种属中未见报道,30.3%羟基肉桂酸酰胺从未在植物中报道。该方法基于生物代谢生化反应,突破了物种种属、组织、时空特异性带来的代谢组鉴定瓶颈,特别适合已知/未知次生代谢物的鉴定。但现有insilico代谢物质谱数据库及insilicoMS/MS在用于复杂代谢组鉴定时,仍存在一些不足:1) 采用已知内源性代谢物进行insilico生化转化,多基于统一的常见生化转化反应模式,并未考虑实际生物体内生化反应的多样性和特异性,使得生成的insilico代谢物质谱数据库存在大量冗余,同时覆盖度很有限;2) 基于质谱断裂规则的预测方法,由于规则种类繁多,可能存在相互冲突;3) 基于特定分子的断裂规则,在实际应用中更适合特定类别的代谢物分析。如用于大范围代谢分子预测,预测精度将显著下降;4) 部分算法有赖于训练集的质谱数据,采用不同训练集,预测结果可能不同,鉴定准确度仍需进一步提高[79]。发展更为高效的代谢物预测方法以及稳健的质谱碎裂预测模式和质谱智能解析算法,建立更为全面的代谢物质谱数据库,实现代谢组深度注释十分必要。
续表1
随着基于高分辨质谱的分析新技术不断出现,检测灵敏度、覆盖度、通量及代谢物鉴定等方面已取得长足的进步,对复杂生物体代谢小分子的认识更加全面与深入,推动了代谢组学的发展及其应用领域的拓展。然而,受生物体系复杂性及当前技术水平的制约,仍需进一步提升分析的精度、分辨率、通量以及不同实验室间数据的可比性、可交换性等;需要关注难以获得的小体积样本、大规模临床队列样本的代谢组学分析;亟待发展高通量、可重复的代谢组活体、原位、实时检测技术以及单细胞、亚细胞水平的代谢组学新技术、新方法。代谢组规模化鉴定一直是制约代谢组学发展的瓶颈问题之一,虽然现有代谢组数据库在深度和广度存在不足,但快速增长的开源质谱数据库与共享代谢组数据集为代谢组规模化定性提供机遇。计算代谢组学方法有助于谱学数据的注释,但可靠性和准确性仍有待提高,如何结合代谢物结构数据库、增加新的分离维度信息、发展新型智能学习算法以提高计算代谢组学工具的注释能力和准确性是今后的发展方向。此外,生物体代谢调控网络极其复杂,从全局规模上认识细胞生物功能,需与其他组学数据进行有效整合,多学科的交叉融合将极大促进代谢组学的发展。