吴振龙 ,王英 ,叶文才 *
(1. 暨南大学天然生物活性分子与创新药物研究中心,广东 广州 510632;2. 广东省中药药效物质基础与创新药物研究重点实验室,广东 广州 510632)
天然生物活性分子因其多样的化学结构和广泛的药理活性,一直是药物先导物的重要源泉。据统计,从1981年1月至2019年9月,FDA共批准了1 881个新药,其中约有一半直接或间接来源于天然化合物[1]。然而,近年来,大型制药公司和研发机构对天然生物活性分子的研究兴趣逐渐减少,相关的研发投入也呈逐年下降趋势[2-4]。究其原因,一方面是由于传统的天然生物活性化合物发现过程漫长、费时耗力,且定向性不强,分离过程的盲目性导致大量的已知成分被重复地发现;另一方面,与发现新天然化合物的数量逐年增加相反,近年来所发现化合物的结构新颖性却在逐渐降低,适用于首创新药(first-in-class)研发的新颖结构小分子化合物仍然匮乏[5-6]。针对上述不足和挑战,如何实现已知化合物的去重(dereplication),并快速、定向地发现结构新颖的天然生物活性分子成为了天然药物化学学科关注的热点和难点问题。
近年来,随着现代分析技术、代谢组学、生物信息学、人工智能技术等的快速发展以及各学科之间的交叉融合,天然生物活性分子的发现研究也涌现出了一批新的策略和方法[7-10],如基于液相色谱串联二级质谱(LC-MS/MS)的分子网络技术(molecular networking,MN)和基于核磁共振(NMR)的小分子精确识别技术(small molecule accurate recognition technology,SMART)等。这些新策略和新方法的出现为靶向挖掘结构新颖的天然生物活性分子带来了新的研究思路,目前已广泛应用于植物、微生物、海洋天然产物的发现研究中,掀起了天然产物研究的新浪潮。本文将对部分具代表性的新技术和方法进行总结,以期为进一步开发和利用天然生物活性分子的高效发现策略和方法提供参考。
液相色谱串联质谱(LC-MS)因具有较高的灵敏度、分辨率以及较快的分析速度等优点,可满足对天然产物提取物进行准确的定性和定量分析的要求。前期,已有学者借助化合物在LC-MS中的特征紫外吸收峰和相对分子质量,实现了对天然产物提取物或馏分中目标化合物的靶向分离。但由于特征紫外吸收通常仅适用于分离度较好、样品组成较为简单的组分,而对成分复杂的粗提物则效果不理想。此外,对于一些结构新颖的化合物,其相对分子质量可能与已知成分相同,故在LC-MS中也难以区分。因此,单独使用LC-MS技术无法对复杂天然提取物中的未知成分进行高效识别。
2012年,美国加利福尼亚大学圣地亚哥分校的Pieter Dorrestein教授团队首次提出了基于二级质谱(MS/MS)的分子网络技术,并将其运用于天然生物活性分子的发现研究中[11]。分子网络技术是综合运用现代质谱、生物信息学、计算机等技术所开发的一种二级质谱数据可视化策略。其原理是:结构相同或相近的化合物在同一条件下可产生相同或相似的二级质谱碎片,反之亦然。按照一定的算法将LC-MS/MS图谱中的每张二级质谱图进行比对,并计算各图谱的相似度,以余弦值(0 ~ 1)表示,相似度越高,则余弦值越大。根据计算所得余弦值的大小,可将相似度较高的图谱分别聚集成簇,而相似度较低的图谱则单独成簇,最终可将所有的二级质谱图整合成为一张可视化的分子网络图(见图1)。在该网络图中,每一个节点代表一个化合物,其所包含的二级质谱信息可用节点的名称、颜色、大小、形状等来表示。节点与节点之间的连线则表示两个化合物结构的相关性,其大小可用连线的粗细来表示。通过构建分子网络图,可将复杂的二级质谱信息十分直观地呈现出来,这些信息包括了测试样品中所含有的全部化合物,以及化合物与化合物之间化学结构的关联性。近期,Nothias等[12]在运用MS/MS数据构建经典分子网络的基础上,首次引入了液相色谱的保留时间以及一级质谱数据的信息,开发了基于特征的分子网络技术(feature-based molecular networking,FBMN)。该技术一方面解决了传统分子网络技术在鉴定同分异构体方面的局限性,可区分同分异构体;另一方面,还可通过整合一级质谱数据的离子丰度等信息,对目标化合物进行相对定量分析。
在传统分子网络技术中,化合物的指认通常是通过比对待分析物与已知化合物的二级质谱数据完成,利用该方法所发现的新化合物多为已知化合物的同系物或类似物,其结构的新颖性往往不强。因此,如何实现靶向识别具有新颖骨架的化合物依然面临挑战。天然化合物骨架结构复杂、类型多样,但它们通常来自于简单的生源前体,经转化形成特定的生源砌块,再经进一步的生物合成途径而形成。而天然化合物的生源砌块所对应的结构片段往往会在化合物的二级质谱图中显示出特征性的子离子碎片峰或(和)中性丢失碎片峰,可用于生源砌块的识别。为克服传统分子网络技术在鉴定具有新颖骨架结构化合物方面的不足,笔者所在课题组最近通过集成生源砌块识别技术和分子网络技术,首次提出了基于生源砌块的分子网络策略(building blocksbased molecular network,BBMN)[13]。相比于传统的分子网络技术,BBMN策略在发现新颖骨架结构化合物方面具有明显的优势:一方面,BBMN策略可根据目标化合物的结构特点对复杂提取物中所包含的生源砌块进行快速识别,因而对分析的化合物具有强选择性;另一方面,针对二级质谱数据量庞大、冗杂的特点,BBMN策略在选择性过滤的基础上可简化待分析物的数据集,并通过分子网络技术对数据进行可视化分析,方便研究人员快速锁定目标化合物(见图2)。天然化合物大多由特定的生源砌块组合而成,因此,BBMN策略可广泛应用于其他结构类型天然化合物的发现研究中,有望为传统天然活性化合物的发现研究带来新变革。
图 1 分子网络原理示意图Figure 1 A schematic diagram of molecular networking
图 2 基于生源砌块的分子网络构建流程图Figure 2 A diagram for the building blocks-based molecular network construction
为避免重复分离得到已知化合物,在对复杂的天然提取物进行分离纯化前,快速指认出提取物中所包含的已知化合物尤为重要,该过程通常被称作去重[8,14-15]。2016年,Dorrestein教授和Bandeira教授共同建立了基于LC-MS/MS数据的全球天然产物交互分子网络平台(Global Natural Products Society molecular networking,GNPS)(http://gnps.ucsd.edu)[16],旨在为全世界天然产物化学家提供一个可共享使用的二级质谱数据存储及分析平台。在数据存储方面,GNPS平台提供了开放性的免费数据库Mass Spectrometry Interactive Virtual Enviroment(MassIVE),可通过该数据库查找化合物的原始MS/MS质谱数据,并进行数据共享。该数据库不仅囊 括 了FDA Library、PhytoChemical Library、NIH Clinical Collection、MassBank Spectral Library、HMDB Spectral Library、CASMI Spectral Library等第三方数据库的化合物二级质谱数据信息,还收录了Dorrestein教授实验室及其合作实验室所采集的大量化合物二级质谱数据。目前,MassIVE数据库共收录了大约2万余个天然化合物的共计约23万余张二级质谱图。除存储收录二级质谱数据外,GNPS平台还利用加州大学圣地亚哥分校的计算质谱中心(Center for Computational Mass Spectrometry,CCMS),开发了一系列可处理二级质谱数据的计算机算法和软件,如Dereplicator+、VarQuest等[17-18]。利用这些算法和软件,可将待分析物的二级质谱数据与数据库中的化合物质谱数据进行比对,快速指认出待分析物中所包含的已知化合物。
借助GNPS平台,国内外研究人员已运用分子网络技术对微生物、海洋以及植物来源的天然产物成功开展了去重研究,在快速识别已知化合物的基础上,发现了一系列结构新颖的天然化合物。Yang等[19]运用分子网络技术对一系列海洋和陆地来源的微生物样本进行了研究,通过分别采集各样品的LC-MS/MS图谱,并运用一些已知结构的单体化合物作为“种子”,构建了这些样本的分子网络图。借助于“种子”化合物在网络图中的指示作用,作者快速地识别了12个已知化合物和46个结构类似物,并最终实现了对上述样本中化合物的针对性分离。Moore课题组[20]运用分子网络技术对146种盐孢菌属和链霉菌属菌株在不同培养条件下的次生代谢产物进行了快速检测,从603个样品中获得了近180万张二级质谱的谱图。通过分析比对以上次生代谢产物的分子网络图谱,发现同一菌株在不同培养环境下的生物合成途径较为多样,其次生代谢产物有较大差异。基于以上发现,高效、快速地确定了部分菌株的最优培养条件,并从中获得了一些结构新颖的天然化合物。Fox Ramos等[21]在对夹竹桃科植物Geissopermum laeve的吲哚型生物碱类成分的研究过程中,运用分子网络技术对该植物的茎皮部位开展了进一步的化学成分挖掘。通过一个自建的单萜吲哚生物碱二级质谱数据库(monoterpene indole alkaloid database,MIADB),作者对分子网络图中已知化合物的节点进行了指认,并指导分离了3个新的单萜吲哚生物碱类化合物。此外,Zhu等[22]运用分子网络技术对植物致病真菌Epicoccum nigrum09116进行了化学成分探索,成功分离获得了8个新的二苯并螺缩酮类化合物。有趣的是,该研究除利用分子网络技术进行去重研究外,还利用此技术成功鉴别出了上述新化合物的生物合成中间体。
运用基于生源砌块的分子网络策略,笔者课题组对大戟科白饭树属药用植物一叶萩(Flueggea suffurtiocsa)的总生物碱部位进行了深入挖掘[13]。首先,通过搜索总生物碱部位中所包含的特征生源砌块的离子碎片,即质荷比为84.08的子离子碎片和(或)质荷比为134.06的中性丢失碎片,二者分别对应为一叶萩型生物碱骨架中的哌啶环和苯并呋喃酮结构单元,可从一叶萩总生物碱部位的LC-MS/MS谱图中快速识别含有一叶萩型生物碱生物合成砌块的离子峰。随后,结合化学信息学手段和分子网络技术,成功构建了一叶萩总生物碱部位的基于生源砌块的分子网络图。借助于该网络图,从一叶萩总生物碱部位中快速识别并分离鉴定了3个目标化合物。其中,化合物suffranidine A具有一个十分罕见的8/5/6/5/6/6/6/6八环骨架,并包含一个独特的笼状氮杂双环[6.4.0.03,11]十二烷结构单元。化合物suffranidines B和C是2个高度官能团化的一叶萩型生物碱二聚体,二者分别在一叶萩碱基本母核结构基础上插入了一个额外的C6单元,构建成了2类全新骨架的一叶萩型生物碱。
在天然产物研究中,除发现结构新颖的化合物之外,如何快速寻找具有生物活性的化合物是天然产物化学家所关注的另外一个十分重要的问题[23-28]。从前期的研究经验来看,获得天然生物活性化合物的途径通常有以下2条。1)以结构为导向的分离策略。通过对复杂提取物进行系统的化学成分研究,从中分离获得单体化合物,再对所获得的化合物进行系统的生物活性评价,从而发现具有生物活性的化合物。2)以活性为导向的追踪分离策略。首先对粗提物进行活性评价,再针对活性部位或馏分开展进一步分离,然后评价各次级馏分的生物活性,依次反复,直到获得活性化合物。虽然以上方法均有成功获得药物分子的案例,如紫杉醇、长春碱、青蒿素的发现,但是由于该过程需要耗费巨大的时间及人力、物力成本,无法与现代高通量筛选技术相兼容,已逐渐被制药企业和研究机构所弃用。另外,在近年来的研究中,通过活性追踪方法所分离获得的天然产物大多为已知化合物[29],并经常发生活性“消失”的情况,造成研究往往以失败告终。因此,运用传统的方法高效获取结构新颖的活性天然产物依然面临巨大的挑战。
随着现代质谱技术及生物信息学的快速发展,运用基于LC-MS/MS的分子网络技术指导发现活性天然产物已成为可能[30]。例如,Naman等[31]运用分子网络技术对蓝藻细菌Symplocasp.的细胞毒活性成分进行了研究。在此之前,研究人员已从该细菌中分离鉴定了多个具有显著体外细胞毒活性的化合物。为了从该细菌中获得其他结构新颖的活性化合物,作者采集了不同地域的蓝藻细菌样品并培养富集其次级代谢产物,经初步分离,分别测试各馏分的二级质谱数据及体外细胞毒活性,最终将生物活性结果整合到分子网络图中。在这个带有生物活性标签的分子网络图指导下,作者首先从众多样本中识别细胞毒活性较强的馏分,随后从中排除已报道具有生物活性的已知化合物,最终成功获得了一个新的环状八肽化合物。体外细胞毒活性测试结果显示,该化合物具有较强的抗大细胞肺癌细胞株H460活性,其IC50值为1.1 μmol · L-1。该方法虽然可有效避免重复分离已知的活性化合物,但仍然需要对各次馏分进行反复的活性测试,故研究周期相对较长。
2018年,Nothias等[32]首次提出了基于生物活性的分子网络(bioactivity-based molecular network)策略,并运用该策略从大戟科植物Euphorbia dendroides的提取物中靶向获得了2个新的具显著抗基孔肯雅病毒(CHIKV)活性的二萜类化合物。基于生物活性的分子网络策略主要包括以下3个步骤:1)采集待分析物各馏分的LC-MS/MS数据,运用MZmine、OpenMS等质谱数据处理软件提取谱图中的母离子峰及碎片峰信号,并对各母离子峰进行相对定量分析;2)测试各馏分的生物活性,根据样品质谱数据中母离子峰强度和所测得的样品活性数据结果,运用Pearson相关性分析计算各母离子峰的生物活性分值;3)将活性预测分值整合到质谱数据中,并运用GNPS平台生成基于生物活性的分子网络图。与Naman等[31]的方法相比,基于生物活性的分子网络策略不需要通过反复的分离和活性测试,便可从复杂的天然产物提取物中快速识别出具有生物活性的化合物,显示出了较强的靶向性。
目前,NMR技术是天然产物结构表征最常用、最可靠的方法之一,它提供了测试分子在原子层面的信息,在未知化合物结构鉴定方面具有十分重要的地位[33]。与LC-MS/MS相比较,NMR技术的灵敏度低、测试时间长,但同时NMR也具有LCMS/MS技术所无法比拟的优点,如测试时不破坏样品、数据重现性高、可对难离子化的样品进行测试、可区分同分异构体等。除此之外,通过NMR技术所获取的样品结构信息较MS更为丰富,可对复杂样品中所包含化合物的结构进行准确鉴定[34]。近年来,随着商业化NMR仪器磁场强度的逐渐提高,以及超低温探头的普遍使用,NMR仪器的分辨率和灵敏度均得到了极大提升,可对微克级别的样品进行测试,并同时大大缩短测试时间[35]。另外,二维NMR技术(2D NMR)克服了一维NMR(1D NMR)谱图信号重叠严重的问题,更适用于复杂天然产物的结构分析[36]。最近,研究人员开发了一系列功能强大的2D NMR脉冲序列(如diffusion-ordered spectroscopy,DOSY)、非均一采样技术(nonuniform sampling,NUS)、协方差核磁共振技术(covariance NMR)等[37-42],进一步提高了仪器的分辨率,并缩短了测试时间,使NMR技术可更加广泛地应用于复杂和微量成分的研究中。
在天然产物研究领域,研究人员开发了多种谱图比对算法,利用NMR谱图(尤其是2D NMR谱图)进行去重研究[43-44]。然而,由于样品浓度、杂质峰信号、溶剂效应、官能团之间的相互作用等对化学位移值的影响,上述算法对复杂的NMR谱图信号的识别效率和准确性较差,限制了它们在天然产物去重研究中的推广和应用。为克服上述不足,深度学习(deep learning)等人工智能技术(artificial intelligence,AI)逐渐被应用到复杂2D NMR图谱的精确识别中。相比于传统的机器学习方法,深度学习不需要研究人员的任何设计和参与,在训练过程中即可创建最合适的特征集,尤其适合庞大且未知的数据集[45-46]。
2017年,Zhang等[47]运用非均一采样技术(non-uniform sampling,NUS)和卷积神经网络技术(convolutional neural network,CNN),开 发 了基于异核单量子相关谱(heteronuclear single quantum coherence,HSQC)的天然产物高效发现新策略,并将其命名为小分子精确识别技术(small molecule accurate recognition technology,SMART)。该技术利用siamese神经网络架构对一个包含了2 054张天然产物HSQC谱图的数据集进行深度卷积神经网络训练[48],构建了一个可区分谱图相似度的节点空间。在这个节点空间中,结构相似的化合物在空间上相近,而结构相差较大的化合物在空间上则相离较远。随后,通过一个非均一采样序列,快速采集待分析物的HSQC图谱,并提交至上述训练后的深度卷积神经网络。在接下来的数据分析中,可根据待分析物的HSQC谱图信号在节点空间中的分布来实现对复杂提取物中所含有的已知化合物和新化合物的快速区分(见图3)。
为进一步提高SMART技术识别天然产物HSQC谱图的准确性,Reher等[49]运用JEOL数据库(https://www.j-resonance.com/en/nmrdb)中25 434张天然产物的HSQC谱图以及利用ACD/Labs软件所预测的27 642张天然产物的HSQC谱图进行了卷积神经网络学习,将SMART技术升级到2.0版本。相比于之前的版本,SMART 2.0使用了更多的天然化合物的HSQC谱图作为训练集,这些化合物大约占目前已知天然产物的15%。因此,通过增加训练集的数目极大地提升了SMART技术在识别不同结构类型天然产物HSQC谱图方面的能力。为验证该技术的适用性,作者随后运用该工具对蓝藻细菌Symplocasp.的提取物进行了分析。首先,作者使用1.7 mm TCI微量核磁管溶解了1 mg的馏分样品,运用NUS-ASAP-HSQC序列快速测试了该样品的HSQC谱图(600 MHz,13 min)。随后,运用SMART 2.0对该谱图进行分析,并结合质谱靶向分离技术,从中快速识别并获得了一个结构新颖的大环内酯类化合物symplocolide A。
除SMART技术外,近期还有学者基于HSQC谱开发了metabolomics and dereplication by twodimensional experiments(MADByTE)和atomic novelty scoring技术[50-51]。前者可通过HSQC及TOCSY谱图信息获得复杂混合物的自旋耦合体系特征,并通过构建相关的网络图实现对混合物中的共有质子自旋耦合体系的识别,从而实现去重。后者则 根 据human metabolome database(HMDB)和BioMagResBank库中的HSQC数据列出10 308个信号峰,随后通过计算待分析物中各核磁信号峰与库中相邻最近的信号峰的距离,并进行打分,便可从复杂混合物体系中快速识别与库中化合物结构差异较大的新颖结构化合物。
图 3 小分子精确识别技术工作流程示意图Figure 3 Workflow for the small molecule accurate recognition technology
与基于MS技术的活性成分靶向分离策略类似,利用NMR技术定向地寻找活性成分也是天然生物活性化合物发现研究的重要方向之一,但目前在该领域的研究报道相对较少。迄今,仅有学者基于统计泛多样性分析(statistical heterocovariance analysis,HetCA)方法,将小分子化合物的NMR数据与生物学功能相关联。其中,ELINA是Eliciting Nature's Activities的简称,是由Grienke等[52]基于1H NMR谱的HetCA统计分析所开发的一种活性化合物追踪分离策略。在该策略中,根据提取物或馏分活性测试的结果,对其1H NMR谱信号中的特征峰进行正面(hot)或负面(cold)评分,从而可在未分离前判断活性化合物可能含有的特征信号峰。运用该策略,作者从多孔真菌Fomitopsis pinicola的复杂提取物中发现了具有甾醇硫脂酶抑制活性的羊毛甾烷三萜类化合物。此外,Delsuc课题组[53]开发了一种名为Plasmodesma的计算机程序(https://plasmodesma.igbmc.science),可将复杂天然产物提取物的1D和2D NMR谱图数据进行自动化处理,进而可从中提取出活性相关成分的NMR指纹图谱,从而实现对药效团结构进行快速排查。
近年来,受益于各种现代技术的迅猛发展,天然生物活性分子的发现研究涌现出了一大批基于LC-MS/MS和NMR技术,并集成生物信息学、代谢组学、计算机科学等多学科技术手段的新策略和新方法。通过综合运用这些新策略和新方法,天然药物化学家已开展了诸多创新性的研究工作,并取得了丰硕的研究成果。相比于传统的提取-分离-纯化-活性测试手段,这些新策略和新方法具有更强的靶向性,因而研究效率更高,更加符合现代药物研发对快速筛选获得先导化合物的需求。迄今为止,天然生物活性分子高效发现的新策略和新方法研究仍处于高速发展阶段。随着质谱、NMR等分析技术的分辨率和灵敏度的进一步提升,天然化合物质谱及NMR谱图数据库的逐步扩充、完善并实现资源共享,以及更加精准的计算机算法和更加“聪明”的人工智能技术的不断推出,这些新技术和新方法在天然产物研究中的应用将会更加广泛,并进一步助力天然生物活性分子的高效发现。