赵 楠, 程孟春, 吴玉林,3, 刘 丹, 张晓哲*
(1.中国科学院分离分析化学重点实验室, 中国科学院大连化学物理研究所, 辽宁 大连 116023; 2.中国科学院大学, 北京 100049; 3.河南中医药大学, 河南 郑州 450046)
多肽是由2~100个氨基酸以不同组成和排列方式构成的相对分子质量范围为200 Da至10 000 Da的分子[1]。天然存在的多肽广泛参与人体多种生理过程的调控,充当神经递质、激素、生长因子和抗生素等,具有重要的生物学功能[2,3]。食物来源多肽与人体内源肽结构类似,因此它们可与人体相同受体相互作用以发挥相应的生理功能[4]。食源多肽可以来自蛋白质水解的稳定肽,也可来自动物、植物原生肽。植物多肽在植物的生长、发育、繁殖、防御和应激反应中发挥着各种各样的天然功能[5]。迄今,已报道被分离的上百种植物多肽,如寡肽、环肽、环肽生物碱、糖肽等,从不同角度展现出可喜的生物活性[6],开发前景广阔。因此,对植物多肽分子的全面分析不仅可以更好地理解系统生物学,且有助于药用食品(营养保健品)、药品和改良作物的生产[7]。
多肽组学是生物样品中多肽类物质的综合分析,其目标是系统、全面、定性和定量地研究生物体内源多肽的组成、功能及变化[8],被称为蛋白质组学的“逻辑续集”[9]。目前,多肽组学已被广泛用于生物标志物发现、疾病早期诊断、生物制药等诸多领域[10,11]。然而,多肽组学很少用于中药特别是植物药的质量控制。生物内源多肽结构多样、含量与分子质量动态范围宽泛、内源多肽与代谢物和脂质共存且相对分子质量范围重叠,使得多肽组学分析成为分析化学领域的重大挑战[1]。尽管已有多种分析手段被用于多肽组学,但目前液相色谱-质谱联用(LC-MS)技术由于结合了色谱强大的分离功能和质谱的高灵敏、高通量、高选择性,已经逐渐成为多肽组学研究的主流技术。国内外研究者目前已将LC-MS技术应用于动、植物活性组分、肉制品真实性鉴定等食物来源多肽的研究[12,13]。
人参为五加科(Araliaceae)多年生草本植物人参PanaxginsengC.A.Meyer的干燥根和根茎,被列为全球最受欢迎的天然产物,作为草药、食品添加剂以及保健品使用[14]。人参具有免疫调节、抗肿瘤、抗抑郁、神经保护等多种生物活性[15,16]。2015版《中国药典》收载人参根及根茎均为人参药用部位[17];并按不同形态区域将人参划分成4个部位,即主根、支根、须根和芦头。人参市场中常将上述4个部位分别销售,且市场价值差异较大。因此,阐明人参不同部位的化学差异对于人参的鉴定、药用和质量控制都具有重大意义。
目前已经进行了大量研究以评价人参不同部位的化学差异,但大多数研究仅局限于人参主要活性成分人参皂苷类[18-20]。然而除人参皂苷外,人参还富含多种非皂苷类成分,如多糖、蛋白质、多肽、聚乙炔、挥发油、黄酮、脂肪酸和氨基酸等[21]。随着人参研究不断深入,人参非皂苷类成分也显示出人参药效相关活性。全面描述人参中所有化学成分对人参在全球健康市场中获得科学有效性至关重要[22]。近年来,人参内源性多肽因其良好的药理学性质,如抗炎、镇痛、神经保护、记忆增强、增殖、抗脂解和调节睡眠等作用受到越来越多的关注[23-26]。本团队建立了一种基于纳升液相色谱-质谱(nano-LC-MS)的多肽组学方法,通过数据挖掘和从头测序,结合不同的质谱碎裂方式,对人参提取物中的人参多肽进行全面表征[27]。本研究采用基于超高效液相色谱-高分辨质谱(UPLC-HRMS)的多肽组学技术对人参多肽类成分进行全面分析,表征了人参多肽的结构;建立了模式识别模型用于人参主根、支根、须根和芦头多肽的差异分析,找到不同部位存在的差异多肽,并筛选出人参多肽标志物,为进一步的药理学研究和临床应用提供了理论依据,并为人参质量控制及合理开发、应用提供了新思路。
1290 Infinity超高效液相色谱仪、6520四极杆-飞行时间质谱联用仪(Q-TOF-MS,美国Agilent公司); ACQUITY超高效液相色谱仪(美国Waters公司)、二维线性离子阱静电场轨道肼组合式高分辨质谱仪(LTQ-Orbitrap-MS,美国Thermo公司); Milli-Q超纯水仪(美国Milli-pore公司); YQ-1000C型超声仪(上海易超净公司); 1-16K型微型冷冻离心机(德国Sigma公司)。
甲醇和乙腈(色谱纯)购自德国Merck公司;甲酸(色谱纯)购自天津市科密欧化学试剂有限公司。
本研究共收集来自吉林省集安市4~6年新鲜园参样本49例,全部为大马牙型。样品均有专人采集,并由专业人士进行严格的品种鉴定。
将鲜园参样品的不同形态区域(主根、支根、须根和芦头)分别风干、研磨和过筛以获得均匀粉末。精密称取各粉末100 mg置于2 mL离心管中,加入1 mL 50%(v/v)甲醇水溶液涡旋混合30 s,然后超声提取30 min,并以12 000 r/min高速离心20 min,吸取上清液并过0.22 μm过滤器。
质量控制(QC)样品由每个实际样品提取液(49×4)等体积(50 μL)混合制备而成,以提供代表性样品,用于监控仪器的灵敏度和稳定性。为表征人参多肽成分,分别吸取上述人参主根(n=49)、支根(n=49)、须根(n=49)、芦头(n=49)提取液,每份50 μL分别混合制成人参主根、支根、须根和芦头混合提取液,在氮气流下吹干,并用500 μL含0.1%(v/v)甲酸的20%(v/v)乙腈水溶液复溶。
1.3.1UPLC-QTOF-MS条件
色谱条件 采用ZORBAX RRHD Eclipse Plus C18反相色谱柱(150 mm×3.0 mm, 1.8 μm, Agilent,美国)。柱温为60 ℃;进样体积为5 μL。流动相A为0.1%(v/v)甲酸水溶液,流动相B为0.1%(v/v)甲酸乙腈溶液。梯度洗脱程序:0~15.0 min, 5%B~100%B。流速为0.4 mL/min。
质谱条件 ESI源,采用正离子模式;毛细管温度为350 ℃,干燥气流速为8 L/min,雾化气压力为276 kPa (40 psi),毛细管电压为3.5 kV, Fragmentor电压为200 V, Skimmer电压为65 V;全扫描模式,质谱扫描范围为m/z50~3 000。
样本序列运行采用随机进样方式。实际样品运行前连续5次进样QC样品,用于平衡仪器;实际样品运行中,每20个人参样品插入1个QC样品和溶剂空白样品。
1.3.2UPLC-LTQ-Orbitrap-MS条件
色谱条件 同1.3.1节。
质谱条件 ESI源,正离子模式检测;分辨率设置为120 000;一级数据采集格式为profile,二级数据采集格式为centroid;一级全扫描质量范围为m/z300~2 000;雾化电压为2.0 kV;选择一级质谱图中前5个丰度最高的多电荷离子做二级碎裂;二级质谱碎裂方式为碰撞诱导解离(CID)和高能碰撞诱导解离(HCD),其中归一化的碰撞能量根据需要设定为25%、30%和35%。
将获得的UPLC-LTQ-Orbitrap-MS/MS原始数据导入蛋白质组学质谱软件Peaks Studio 7进行过滤、解卷积、二级质谱图简化及从头测序。具体参数设定:数据过滤阈值为数据品质值大于0.3;过滤后的数据进行自动从头测序,母离子误差<10×10-6,子离子误差<0.5 Da,裂解不指定酶的参与;设定可能的翻译后修饰(PTM): Amidation(Δmass, -0.98), Acetylation (N-terminal)(Δmass,+42.01), Pyroglutamalytion from E(Δmass, -18.01), Pyroglutamalytion from Q(Δmass, -17.03), Methylation from KR(Δmass,+14.02), Disulfide bond(Δmass, -1.01,设定发生位置:C), Dehydration(Δmass, -18.01), Deamidation (NQ)(Δmass,+0.98), Carboxylation (E)(Δmass,+43.99), Oxidation from M(Δmass,+15.99)和Hexose(Δmass,+162.05)等;以Swiss-Prot和TrEMBL数据库的人参蛋白质数据库为范围进行数据库检索,该数据库从www.uniprot.org网站下载。搜索鉴定的假阳性率(FDR)<1%;对搜索和测序得到的肽序列结合其可信度(-10lgP)、肽链断裂情况、子离子的分配情况及误差范围逐个进行人工分析确认。
将获得的UPLC-QTOF-MS原始数据导入Progenesis QI软件进行峰提取、峰对齐等数据处理,以获得包括所检测特征的tR-m/z对、m/z、tR、离子强度和电荷状态(z)的数据表。主要参数设置如下:数据强度过滤阈值为0.3;噪声消除水平为绝对强度1 000;保留时间范围为1.5 min至15 min。数据结果以CSV文件格式输出。
将含有经人参蛋白质数据库鉴定的人参多肽数据表导入SIMCA-P软件,进行主成分分析(PCA)和偏最小二乘判别分析(PLS-DA)等多变量统计分析,多变量分析之前使用Pareto缩放。采用在线数据处理软件MetaboAnalyst 4.0(http://www.metaboanalyst.ca)进行倍数变化(FC)和T检验分析,分别获得FC值和p值。使用SPSS 20.0软件计算受试者工作特征曲线(ROC)的曲线下面积(AUC)。为满足生物学重复性,所有多肽标志物均符合“50%原则”要求。
二维线性离子阱静电场轨道肼组合式高分辨质谱仪结合了线性离子阱质谱的多级扫描和静电场轨道阱质谱的超高分辨能力,可提供多肽的精确相对分子质量、氨基酸序列、翻译后修饰及位点等高质量质谱信息。Peaks Studio是基于前体蛋白质数据库及一级和二级质谱数据实现多肽自动识别的搜索引擎,功能包括数据精炼、denovo测序、多肽/蛋白质鉴定、翻译后修饰分析、序列同源性搜索等。Peaks软件基于独特的搜索引擎以极低的误报率增加多肽覆盖率,显著提高数据库检索过程中多肽识别的准确性和灵敏度[28]。本研究充分利用LTQ-Orbitrap-MS和Peaks Studio的优势,将高分辨质谱与数据库、生物信息学检索相结合,实现人参多肽高通量、高可信度的鉴别检测。
表1 鉴定的人参多肽列表
为表征人参多肽类成分,将人参主根、支根、须根和芦头(n=49)各自的混合样本进行UPLC-LTQ-Orbitrap-MS分析,获取数据。利用Peaks软件结合蛋白质检索数据库Uniprot人参蛋白质数据库(Swiss-Prot和TrEMBL),从人参提取物中共鉴定出62个高可信度的多肽序列(见表1)。图1为人参提取物的总离子流色谱图。鉴定的人参多肽的保留时间分布于2.26~6.98 min,相对分子质量范围为599.38至4 991.45 Da。上述多肽中,有19个序列含有翻译后修饰,其中12个序列含有乙酰化修饰,1个序列含有酰胺化修饰,2个序列含有甲基化修饰,4个序列含有氧化修饰,3个序列含有二硫键,并且很多序列含有不止一种翻译后修饰。
图1 人参提取物的总离子流色谱图
表1 (续)
表1 (续)
本研究所鉴定的人参多肽的前体蛋白检索于两类人参蛋白质数据库。第一类是经Swiss-Prot数据库检索、经过手工注释、校验过的人参蛋白。该类人参多肽大多来源于一系列核糖核酸片段,包括核糖核酸酶1、核糖核酸酶2和核糖核酸酶存储蛋白。在植物中,许多核糖核酸酶受发育和环境因素调控,并在多种生物进程中发挥重要作用,包括自交不亲和性、细胞程序性死亡、对磷饥饿响应、植物防御和发育。已报道的不同人参属植物中核糖核酸酶具有抗肿瘤活性和抗HIV-RT活性[29]。核糖核酸酶存储蛋白是人参的主要蛋白质(ginseng major protein, GMP),相对分子质量为28 kDa。GMP虽然与植物RNA酶高度同源,但却没有RNA酶活性[30,31]。GMP的最主要生理功能是作为供氮源蛋白质为人参根的生长提供能量。有研究报道GMP在红细胞溶血过程中表现出抗补体活性[32]。第二类是经TrEMBL数据库检索到的计算机自动注释、未经人工校验的人参蛋白。此类人参多肽主要源于人参脱水蛋白,包括脱水蛋白1、脱水蛋白2、脱水蛋白3、脱水蛋白4、脱水蛋白7和脱水蛋白8。脱水蛋白属于晚期胚胎发育丰富(LEA)蛋白II家族成员,是普遍存在于高等植物中的干旱诱导蛋白,在种子成熟的脱水耐受过程中发挥重要作用,在低温、干旱胁迫下也会大量累积以提高植物适应不良环境的能力[33]。对人参多肽的深入研究有助于增加人参系统生物学及药理活性的深刻理解。
四极杆-飞行时间质谱联用仪具有分析速度快、质量范围宽、分辨率高等特点,特别是与UPLC结合在复杂样品高通量的组学分析中具有独特优势。多变量分析是用于分析和解释大量组学实验数据必不可少的有力工具。本研究建立了基于UPLC-QTOF-MS结合多变量分析的高通量多肽组学方法,以揭示人参主根、支根、须根和芦头之间的多肽差异。
本研究首先采用无监督的PCA法对所有人参样本进行总体轮廓分布趋势分析,以观察不同分组之间的分离程度。PCA结果显示,所有QC样本聚类紧密,表明系统稳定,方法重复性良好且数据处理过程未引入任何偏差。图2显示人参主根与非主根部位显著分离;支根、须根和芦头具有一定的分离趋势,表明不同形态区域的人参根中人参多肽具有区域性差异,以主根最显著。
图2 人参样本4个不同部位的PCA结果
图3 人参样本4个不同部位的PLS-DA分析
有监督的PLS-DA使不同组别样品最大化分离,能够更好地实现不同类别样品的聚类分析。本研究利用PLS-DA建立了4个人参根的判别模型,并筛选标志人参多肽。如图3左侧图所示,PLS-DA模型可以将不同组别分开,表明人参不同部位中多肽组成和/或含量的差异。PLS-DA模型的拟合程度和预测能力通过参数R2Y和Q2Y评价。这两个参数值越接近1,说明模型的拟合和预测能力越好[34]。本实验的R2Y为0.838~0.941,Q2Y为0.773~0.926,表明模型具有良好的拟合和预测能力,所建PLS-DA模型可靠。该PLS-DA模型是否过拟合采用置换检验法评估。通常,R2Y截距小于0.4且Q2Y截距小于0.05表明模型是有效的。200次置换相应排序检验表明(见图3右侧图),该模型的R2Y和Q2Y截距都在有效范围内,模型没有过拟合。
本研究使用PLS-DA模型的变量权重值(VIP)筛选和确定人参潜在多肽标志物。通常认为VIP值大于1的变量对组间分类比较重要[34]。另外,使用单变量分析t-检验法评估这些差异多肽的统计显著性。因此,VIP值大于1,p值小于0.05及倍数变化大于2的已知人参多肽被筛选为人参根潜在多肽标志物。共有25个多肽标志物能够区分人参主根、支根、须根和芦头(见表2)。具体地,共有包括GP26、GP28、GP29、GP31、GP33、GP34、GP36、GP39、GP42、GP46和GP53的11个潜在多肽标志物在主根中高表达;共有包括GP15、GP48和GP52的3个潜在多肽标志物在支根中高表达;共有包括GP5、GP12和GP23的3个潜在多肽标志物在须根中高表达;共有包括GP18、GP20、GP32、GP41、GP55、GP57、GP59和GP61的8个潜在多肽标志物在芦头中高表达。
进一步分析潜在标志物的ROC以评价它们的预测能力。ROC的AUC表示标志物的判别能力,AUC越接近1,表明标志物判别能力越强。具体地,当0.7≤AUC<0.8, 0.8≤AUC<0.9及0.9≤AUC时,分别表示标志物的判别能力合格、良好和优秀[34]。如表2所示,本研究筛选得到的生物标志物AUC值为0.77~1.00,且绝大多数大于0.85,表明它们具有很强的判别能力。
表2 人参主根、支根、须根和芦头的多肽生物标志物
VIP: variable importance in the projection; FC: the ratio of source group to non-source group;pvalue:t-test adjusted by false discovery rate (FDR); AUC: area under the curve.
本研究发展了基于超高效液相色谱-高分辨质谱的多肽组学方法,应用其对人参主根、侧根、须根和芦头多肽组进行系统研究,发现人参4个部位的多肽组具有显著差异,并筛选出不同部位人参多肽标志物。传统中医认为人参的主根药效最优,本研究结果表明主根与其他部位多肽成分差别最大,为人参药效研究提供了除人参皂苷外的化学基础研究的新思路。