季美超,付 斌,张养军
(军事科学院军事医学研究院生命组学研究所,蛋白质组学国家重点实验室,北京蛋白质组研究中心,国家蛋白质科学中心-北京,北京 102206)
20世纪90年代,随着基因组学的迅速发展,人类基因组测序工作初步完成。2001年,人类基因组草图正式发表[1],标志着生命科学正式进入后基因组时代。人们逐渐意识到基于mRNA水平的研究并不能包含生命的全部信息,因此对于生命活动的直接执行者——蛋白质研究逐渐成为热点。不同于传统方法针对一种或者几种蛋白质的研究,澳大利亚学者Williams等[2]于1994年首次提出“蛋白质组学”这一概念,即“从整体水平对特定时间或环境下细胞或组织内基因组所表达的全部蛋白质结构和功能进行研究”。蛋白质组学研究的对象动态且多变,与基因组学相比更加复杂。而随着高通量蛋白质组分析技术及方法的发展,其已广泛应用于生物、医药及病理研究等领域,逐渐成为驱动精准医学发展的强劲动力。
蛋白质组研究主要包括3个方面:表达蛋白质组学、结构蛋白质组学和功能蛋白质组学[3]。其中,表达蛋白质组学是对细胞组织或个体的蛋白质表达谱分析以及其蛋白质组成含量和变化规律的检测;结构蛋白质组学侧重于亚细胞蛋白质组的分析,对于细胞组成及通路研究具有重要意义;功能蛋白质组学则是蛋白质组研究的最终目的,即阐明某功能相关蛋白质的活动规律以及蛋白质间相互作用的问题。蛋白质组学技术主要用于对蛋白质组进行定性鉴定以及定量分析,因其具有“整体性”和“动态性”的特点,需要灵敏、准确且高通量的技术方法作为支撑。质谱(MS)技术的出现很好地解决了这一难题,使得蛋白质组学发展更加迅速高效[4]。
自20世纪初,Thomson发明质谱并将其应用于同位素研究起,纵观质谱的发展历史,其历程近似于指数曲线。1987、1988年发明的基质辅助激光解吸电离(matrin assisted laser desorption ionization, MALDI)[5]和电喷雾电离(electronspray ionization, ESI)[6]使得质谱从有机化学的应用过渡到生物大分子的检测。20世纪90年代中期,各种基于质谱的蛋白质分析策略基本上取代了Edman降解分析方法,成为鉴定多肽和氨基酸序列的主流方法[7]。近年来,质谱技术发展迅速,已成为蛋白质组研究最突破且应用最广泛的技术手段之一。质谱仪的基本构造主要分为样品导入系统、离子源、质量分析器、检测器以及数据分析系统5个部分[8]。而近年来的串联质谱(MS/MS)以及在进样前串联液相色谱(liquid chromatography, LC)的广泛应用,使得蛋白质组样品的分离、鉴定和定量效率得到极大提升[9]。
本文将综述基于质谱的蛋白质组学的发展及应用,并讨论和展望未来的发展前景。
蛋白质组学方法可用于蛋白质及蛋白质组的定性分析,传统的蛋白质鉴定方法,如免疫印迹法、化学测序法等通常耗时耗力,且精度较低,不适用于高通量蛋白质组的研究。质谱技术的出现意味着高通量自动化蛋白质或蛋白质组鉴定时代的来临,基于质谱的多种蛋白质组鉴定方法陆续出现,主要包括二维凝胶电泳(2DE)-串联质谱分析以及多维液相色谱-串联质谱分析[10],用于蛋白质表达谱的构建,蛋白质-蛋白质相互作用分析以及蛋白质翻译后修饰等研究。
随着质谱技术的发展与普及,大规模获取生物体全部蛋白质信息的设想成为可能。由于在基因组层面的研究缺乏对于蛋白功能、修饰及加工信息方面的了解,因此需要建立规模化的蛋白质表达谱以达到此目的。另外,蛋白质表达谱的构建不仅对深入了解整体蛋白质组信息非常重要,而且也是生物体蛋白功能以及蛋白质之间相互作用研究的基础及前提[10]。
1.1.1组织或器官蛋白质表达谱分析技术
由于技术条件的限制,早期蛋白质表达谱研究仅限于简单生物,所使用的手段多是基于二维凝胶电泳分离结合质谱技术对蛋白质进行鉴定,如采用2DE结合MALDI-TOF/MS进行肽质量指纹图谱分析技术[10]。之后,随着质谱技术的发展,其准确度及鉴定通量不断提升,蛋白质表达谱的研究对象也由简单的模式生物逐渐转为复杂生物,如鼠及胚胎[10]等,随之衍生了一系列非二维凝胶电泳分离技术策略,例如:基于多维液相色谱分离的蛋白质鉴定技术(MudPIT)[11]、Top-Down分析策略[11]、亚蛋白质组(Sub-proteomics)分析策略[10]等。
组织器官蛋白质表达谱的构建对于疾病机理以及药物靶点的发掘意义重大。为此,陈曼等[12]利用高效液相色谱(HPLC)联合Q-Exactive质谱建立了帕金森病(PD)患者患病组及对照组的蛋白质表达谱,通过对患病组及对照组差异表达蛋白质的统计分析,发掘出了潜在的生物标志物。李瑞阳等[13]以其课题组设计的串联转录因子效应元件(transcription factor response elements, TFREs)为基础,开发了新型转录因子富集法(transcription factor response elements on tip, TOT),富集了肝实质细胞体外培养过程中的转录因子,并结合质谱分析其动态变化,构建了肝细胞培养和转录因子表达谱分析系统。Jiang等[14]利用蛋白质组和磷酸化蛋白质组图谱,对110对与乙型肝炎病毒感染相关的临床早期肝细胞癌(HCC)的肿瘤及非肿瘤组织进行特征分析,发掘了HCC的异质性,并利用这一点将HCC分为3种亚型,为肝细胞癌肿瘤生物学的发展以及临床个性化治疗奠定基础。
1.1.2相互作用蛋白质组分析技术 蛋白质之间的相互作用(protein-protein interaction, PPI)在生命体分子结构中扮演着重要角色,绝大多数的细胞功能和生理活动都是由非共价PPI实现的[15]。据估计,在智人中发生的PPI在12~100多万之间,但其中有记录的高质量定性研究只有5万个左右[15],因此对PPI的认识及探索仍任重道远。免疫沉淀技术(immunoprecipitation, IP)是研究蛋白互作的常用技术,包括Co-IP(蛋白-蛋白)、RIP(蛋白-RNA)、ChIP(蛋白-DNA),通常根据互作的分子类型和检测目的对其进行高通量检测[16]。蛋白质组学的快速发展为蛋白互作研究提供了高通量的平台,实现了从网络水平大规模深入理解互作机理,剖析其在疾病防治及药物研究中的作用。
高通量检测互作技术主要包括两类,第一类是以酵母-双杂交系统为代表的遗传方法[17],主要测量成对的相互作用;第二类是大规模生化方法[17],鉴定多个蛋白质之间复合物的相互作用,主要包括蛋白质芯片技术(protein chip technique)和串联亲和纯化-质谱分析技术(tandemaffinity purification-mass spectrometry, TAP-MS)[18]。
基于质谱的TAP-MS技术分析步骤如下:首先使用诱饵(抗体或标签)捕获蛋白,与之互作的蛋白会被同时捕获,然后将诱饵与其潜在的相互作用蛋白一起洗脱,随后采用液相色谱-串联质谱(LC-MS/MS)进行鉴定和定量[10]。刘艳霞等[19]采用Co-IP技术结合纳升级液相色谱-串联质谱(nano-LC-MS/MS)检测多柔比星处理组细胞与对照组细胞的核内乳癌细胞核内丝切蛋白(cofilin)相互作用蛋白的差异,探讨了多柔比星对细胞周期的影响。Malovannaya等[20]在IP和MS基础上,发展了一种高通量HT-IP/MS法,用于从人细胞系中分离和鉴定内源性蛋白复合体,同时还提出了一种将HT-IP/MS数据去卷积成离散蛋白质复合物的方法,解决了这类研究一部分数据限制的问题。此外,蛋白质互作网络的构建及多种数据库(如BioGRID、STRING和IntAct等)的建立也为蛋白质互作研究提供了更广泛的途径[21]。
转录后基因调控在很大程度上是由RNA转录本与RNA结合蛋白(RNA binding proteins, RBPs)的相互作用介导的,在生物过程中起着重要作用[16]。RBPs调控RNA的剪接、稳定性、核输出和翻译等过程,因此RBPs与mRNA互作研究对完善蛋白质相互作用网络至关重要[22]。由于RBPs产量较低,各个科研团队开发了许多方法用于细胞中RBPs的分离富集。最先提出的分离策略是由Hentze[23]和Landthaler[24]实验室独立开发的,称为“相互作用组捕获(interactome capture)”策略,其过程首先用紫外光(UV)将RBPs交联到RNA上,然后通过与寡聚脱氧核糖核酸小球(oligo-dT)杂交,从细胞中富集polyA RNA-蛋白复合物,酶解后进行质谱检测,此方法已广泛用于RBPs与mRNA互作研究中。而另一种名为RBR-ID的方法则是通过分析交联的胰蛋白酶肽来鉴定RBP结合区[25]。RBR-ID法不需要对RNA进行富集,因此可以提供RNA结合蛋白质组的无偏差瞬时图像信息。
除了这两种依赖核酸序列或亲和试剂特异性识别分离交联的RBPs-RNA复合物的方法,也可以直接利用结合蛋白-RNA结合物的理化特性从游离的RNA中富集RBPs。例如,XRNAX[26]和正交有机相分离(OOPS)[27]这两种方法使用的是标准的Trizol试剂。苯酚-甲苯萃取(PTex)法[28]则利用改性的苯酚-甲苯有机层,并在中性和酸性pH值下连续萃取。与Oligo-dT的互作捕获法相比,这3种方法在哺乳动物细胞中可以富集鉴定到更多的RBPs。
1.1.3单细胞蛋白质组分析技术 细胞是生物体最基本的结构单元,在生物体生命进程中发挥着重要作用。不同的因素,例如遗传学、表观遗传学、微环境或基因表达的不同都可以导致细胞异质性[29]。细胞异质性是细胞系统的基本属性之一,也是各研究领域重要的基础问题[30]。然而,常规的大规模组学通常是对大量细胞进行分析,得到的结果一般是细胞群的平均值[31]。因此,对单个细胞的蛋白组成和含量进行分析,对细胞的功能研究是非常必要的。2020年3月,郭国骥等[32]利用Microwell-seq高通量单细胞测序分析技术,首次从单细胞水平上系统性地绘制了跨越胚胎和成年2个时期、涵盖8大系统的人类细胞图谱,发掘了单细胞研究在免疫及疾病方面的重要应用。
2004年,Dovichi及Nolan[33]共同提出了单细胞蛋白质组学(single cell proteomics)的概念。与传统的蛋白质组学方法相比,单细胞蛋白质组学可以更加准确、系统地揭示细胞内蛋白质的翻译后修饰、分子相互作用和信号通路[34],有助于生物标记物的发现,这将推动生物学和医学的发展变革。然而,由于在单细胞中发现的物质种类繁多、浓度极低[35],因此面临非常巨大的挑战性。近年来,单细胞蛋白质组学技术主要包括单细胞Western blotting、流式细胞术、质谱法[36]、微流控芯片技术和化学细胞仪等[34-35]。黄超兰等[37]将微流控技术与传统猎枪蛋白质组学技术相结合,开发了一种纳升规模的油气液滴(nanoliter-scale oil-air-droplet, OAD)芯片,并将其应用于小鼠单个卵母细胞蛋白质组分析。结果表明,此芯片系统使进样效率、序列覆盖度、疏水蛋白富集效率以及酶解效率均得以大幅提升,从而提高了单细胞样品的分析灵敏度。
高灵敏度和高覆盖度的质谱技术作为一种有效的单细胞分析工具,有着广阔的应用前景。目前,已经发展了电喷雾电离质谱(ESI-MS)、二次离子质谱(SIMS)、激光质谱和电感耦合等离子体质谱(ICP-MS)[35]等多种单细胞水平上的质谱技术。由于单体细胞的蛋白质含量极低,对质谱技术提出了更高的要求。为此,秦少杰等[38]通过对不同质谱分析前的分离技术进行总结和比较,分析了多方法联用在单细胞蛋白质组学研究中的优势。目前的大多数单细胞质谱技术在操作时都需要破坏细胞,这限制了对细胞发育过程中或药物治疗期间的动态变化分析[39]。而这一障碍可以通过开发破坏性最小的采样方法以及提高仪器灵敏度来解决。目前研究表明,MS结合其他分析工具,如膜片钳、荧光显微镜和拉曼光谱仪等对单细胞蛋白质组进行分析,既可以减少破坏作用,又有利于捕获更多的细胞动态信息、探索细胞行为和发掘特定亚群[39]。
翻译后修饰(post-translational modification, PTMs)是指通过蛋白质水解或在一个或多个氨基酸残基上添加修饰基团来改变蛋白质性质和功能的共价修饰。蛋白质的翻译后修饰不仅仅是“装饰品”,它可以决定蛋白活性状态、定位、转运以及与其他蛋白质的相互作用[40]。早期不断优化Edman降解法用于翻译后修饰蛋白的鉴定,而后质谱技术的发展使得PTMs的定性及定量更加精确[40]。常见的PTMs包括磷酸化、糖基化、泛素化和磺酸化等,分析步骤基本相同。通常根据修饰类型的不同调整所使用的富集方法及质谱裂解方式,以期得到更准确的分析结果。
1.2.1磷酸化蛋白组分析技术 蛋白质磷酸化是一种常见的翻译后修饰,作为快速可逆的手段来调节蛋白质活性以及传导信号,它基本上参与协调了所有的细胞进程[41]。真核生物蛋白质中常发生磷酸化的氨基酸为丝氨酸、酪氨酸和苏氨酸[42-43]。据估计,至少2/3的细胞蛋白含有1个或多个磷酸化位点[41]。磷酸化调控是细胞健康和疾病的中心机制,并且已经成为蛋白质组学研究的主要内容之一。因此,需要高通量的技术对生理和病理条件下发生的大量磷酸化蛋白质进行定性和定量分析,而质谱技术的进步可满足这一要求。
磷酸化蛋白质组学的常用实验策略是将细胞裂解提取蛋白质,然后对提取的蛋白质进行酶解,再对其中的磷酸化肽段进行LC-MS/MS分析[44]。由于蛋白质的磷酸化是一种低化学计量的修饰,磷酸化蛋白的丰度通常较低,因此,非磷酸化肽(或蛋白)的“背景噪声”中富集磷酸肽(或蛋白)是质谱分析面临的挑战[45]。随着该领域的发展,出现了各种各样的富集策略[46],包括基于抗体的亲和捕获、磷酸化氨基酸的化学衍生化、基于金属离子的亲和捕获和离子交换层析,以及经典的用于磷酸化酪氨酸研究的免疫沉淀技术等。其中最常用的是基于金属离子的亲和富集技术,包括固定化金属亲和层析(IMAC)或金属氧化物亲和层析(MOAC,通常使用TiO2)[44-47]。这两种技术在许多实验室中得到了很好的应用,在常规的LC-MS/MS分析中可鉴定得到大量的磷酸化位点。最常见的磷酸化肽段分级方法是强阳离子交换(SCX)色谱。实验证明[41],高pH值的反相色谱对磷酸化肽段分级非常有效,能够实现深入的磷酸化蛋白质组覆盖,但对用于分离的色谱柱的性能要求较高。
许多科研工作侧重于优化磷酸化样本富集策略和分级技术,以降低富集复杂度和最大限度地提高采样深度。李素贞等[48]通过将基于Ti4+-IMAC材料的磷酸肽富集方法与早期发明的SH2超亲体(SH2 superbinder)亲和层析相结合,实现了对肝癌细胞系HCCLM6细胞中酪氨酸磷酸化(pTyr)肽段的大规模富集,并结合LC-MS/MS及MaxQuant软件对富集得到的肽段进行检测及数据分析。Dong等[49]采用同样的方法有效地从复杂的小鼠骨骼肌组织蛋白裂解液中回收低丰度的pTyr肽段,并结合同位素标记得到了高通量的鉴定结果。此外,Miao等[50]利用TiO2富集法,结合亲水作用色谱分级及LC-MS/MS鉴定,揭示登革病毒(DENV-2)感染后的宿主蛋白磷酸化修饰情况。Zhao等[51]对方法进行了改进,即将填充有TiO2和C18反相填料结合2个相连的离心装置对磷酸肽富集和分级,可用于分析大量尿磷蛋白样本,适用于尿磷蛋白生物标志物筛选和药物反应研究。Sun等[52]同样利用此方法实现了小鼠肝脏酪氨酸磷酸化肽段的快速、高通量富集分离。Qin等[53]则报道了一种利用表面吸附原子转移自由基聚合物(SI-ATRP)开发的新型毛细管柱,并将其成功应用于高效特异性富集HepG2细胞裂解产物的低浓度磷酸化肽段,其负载能力较常规毛细管柱高,且与多种功能化单体兼容,在毛细管反向色谱、离子交换和亲和层析方面具有广泛的应用前景。
蛋白质磷酸化作为最常见的翻译后修饰,研究前景广阔,且随着更多成熟、高效的富集策略不断出现,人类对磷酸化蛋白质组也将会有更深入的认识。
1.2.2糖基化蛋白组分析技术 蛋白质糖基化是翻译后修饰中最常见、最复杂的类型之一。据估计,参与淋巴细胞激活与调亡、抗原识别清除及信号传递等多种生命过程的人源蛋白质中,超过一半发生了糖基化修饰[54],并且在蛋白质的折叠、降解、定位及运输中均发挥重要的作用。而目前数据库中糖蛋白的信息量相对较少,因此针对生物体蛋白质的糖基化研究意义重大。
根据糖基侧链连接蛋白氨基酸残基的不同,可以分为几种不同类型的糖基化修饰。N-连接的糖基化(N-linked glycosylation)和O-连接的糖基化(O-linked glycosylation)是最常见的两种类型,其糖肽键分别与天冬酰胺和丝氨酸/苏氨酸残基相连[55]。除此之外,糖基磷脂酰肌醇锚(glycosyl-phos phatidyl inositol anchor)[56]和蛋白聚糖(proteogly can)等类型常出现于糖基化蛋白质组研究中。
质谱与其他分离技术相结合已成为分析蛋白质糖基化的有力工具[57]。然而,糖基化蛋白的低丰度和异质性使质谱分析面临挑战,因此,对低丰度糖肽进行富集和质谱分析是目前蛋白质糖基化研究的重点。常用的分离富集亲和技术主要包括亲水相互作用色谱法(hydrophilic interaction chromatography, HILIC)[55]、肼化学富集法[58]、凝集素亲和技术和硼酸亲和层析等[59],其中近年来最常用的是HILIC和凝集素亲和技术。HILIC富集原理是以水-水溶性有机溶剂混合物作为流动相,利用糖肽和非糖肽的亲水性差异分离富集,以去除非糖肽干扰,达到不破坏糖肽糖链结构的富集目的。秦伟捷等[60]利用HILIC富集结合质谱鉴定,发展了一种选择性去糖基化新策略,并获得了首个人尿液蛋白质O-GlcNAc糖基化修饰数据集;黄怡等[61]基于此技术,从完整糖肽水平对贝伐单抗(抑制肿瘤血管生成的抗体药物)糖型进行定性定量分析,优化并建立了糖肽的高灵敏度、全覆盖的定性定量分析技术流程。凝集素可用于捕获特定糖蛋白或糖肽,实现保持肽链完整性的富集。例如,谭增琦等[62]利用凝集素亲和富集技术结合液质联用,对小鼠乳腺上皮细胞及乳腺癌细胞中平分型GlcNAc糖基化修饰的蛋白质进行鉴定及功能研究;赵洋等[63]基于人源半乳糖凝集素3的糖识别结构域(CRD),构造了Gal3C和Tetra-Gal3C两种重组凝集素亲和柱,并将其成功用于人肝癌细胞系HepG2的糖蛋白富集。
各种糖蛋白骨架在质谱中的断裂规律不同,可根据需求的不同选择相应的质谱体系对糖蛋白进行分析。当仅研究糖蛋白中糖骨架信息时,需使糖、肽分离而防止肽骨架结构被破坏,因此可使用低能量的碰撞诱导解离方式。若需要将肽骨架断裂时,可采用高能量的碰撞诱导解离肽段,也可采用电子捕获解离(ECD)以及电子转移解离技术(ETD)[64]。例如,张思琦等[65]使用ESI-ETD-MS/MS,鉴定得到人源转录因子叉头盒蛋白A1(FOXA1)在体外ppGalNAc-T2酶的O-GalNAc修饰位点-S355;Stavenhagen等[66]采用CID和ETD技术结合C18多孔石墨化碳(PGC)-LC-ESI-QTOF-MS/MS,对人C1-抑制物(C1-Inh)进行了深入的位点特异性N-和O-糖基化分析,为进一步研究这些糖链修饰的功能奠定了基础。
1.2.3泛素化蛋白组分析技术 泛素化修饰是泛素分子在一系列特殊酶类的作用下,从细胞内选出靶蛋白分子并对其进行修饰的过程。泛素化在蛋白质定位、代谢、降解中发挥着重要作用,参与了包括细胞周期转录及免疫反应在内的几乎一切生命活动[67]。只有一个泛素分子连接靶蛋白称为单泛素化,靶蛋白上多个赖氨酸残基均连接泛素分子则为多泛素化[68]。Western blotting(WB)是定量蛋白质泛素化广泛使用的生化方法。徐平[68]课题组基于此方法引入了泛素结合结构域(ThUBD),构建了串联杂交法(TUF-WB),将合成的泛素链或泛素化的共轭物在固体膜上的信号可视化,准确定量膜上的多泛素化信号,具有极高的灵敏度和较宽的动态范围。
基于质谱泛素化位点的鉴定需首先对样品进行胰蛋白酶解,结合泛素化的抗体肽段富集方法,实现泛素化肽的定性定量。例如,Xiao等[69]设计了一种新的胰蛋白酶和Ac-LysargiNase串联消化的高效泛素化鉴定流程,随着泛素化富集技术的发展,使得低丰度泛素化肽段的高效鉴定成为可能。例如,Akimov等[70]将特异性泛素结合结构域(ubiquitin binding domains, UBDs)结合SILAC技术进行泛素化蛋白质组分析。基于UBD的高泛素亲和力,Gao等[71]构建了串联杂合 UBD(tandem hybrid UBD, ThUBD)用于高效、无偏性富集不同类型泛素链的泛素化蛋白及质谱分析;Hjerpe等[72]还开发出特异性分离富集泛素化蛋白的串联泛素结合实体(tandem ubiquitin binding entities, TUBE)技术,以及K48或K63或线性(M1)多泛素化蛋白选择性结合的链特异性TUBE技术。这些泛素化蛋白质特异性富集结合质谱分析对泛素化蛋白质组的研究具有重要意义。
1.2.4磺酸化蛋白组分析技术 蛋白质磺酸化是发生在活性半胱氨酸残基上的一种可逆修饰,是将半胱氨酸上的巯基(—SH)氧化为磺酸(—SO3H)的过程[73],在蛋白质的氧化还原调控中起着至关重要的作用。由于磺酸化具有不稳定性,通常很难被直接检测或分析,因此在过去的几十年中,发展了许多磺酸化标记方法。2008年,Reddie等[74]引入名为DAz-1的原位磺酸探针,这是一种带有叠氮基团的双甲酮标记探针,可以结合磷酸化试剂,通过Staudinger反应选择性地富集、鉴定磺酸化修饰的蛋白质。然而,由于以双甲酮为基础的探针不能穿透细胞膜,因此其不能用来标记活细胞中的磺酸化蛋白。2011年,Paulsen等[75]开发了另一种具有细胞透性的炔基标记双甲酮类似物DYn-2,与其他基于双甲酮的探针相比,其稳定性更好、标记效率更高。Yang等[76]优化了此工作流程,并将其命名为SulfenM,结合DYn-2探针以及Q-Exactive MS分析,定位了RKO结肠腺癌细胞中蛋白磺酸化位点,之后进一步通过亲和纯化和Western blotting相结合的方法对其进行了验证。为了发展二代探针技术,使磺酸化修饰的标记鉴定更加全面准确,Gupta等[77]开发了4种新的炔烃标记探针,其中,一种基于苯并噻嗪的探针(BTD)显示出最高水平的S-磺酰胺反应性,与DYn-2相比,标记效率提高了2个数量级以上。Fu等[78]利用此BTD探针,通过铜催化的叠氮-炔环加成反应和强阳离子交换(SCX)技术,结合LC-MS/MS分析,全面系统地鉴定及定量了RKO细胞蛋白的磺酸化位点,证实了其标记的高效性。
此外,在磺酸化蛋白质组研究中,氯磺酰乙酰氯(CSAC)、N-羟基琥珀酰亚胺酯类、邻磺基苯甲酸环酐(SACA)及磺苯基异硫氰酸(SPITC)等常用的磺酸化试剂对鉴定物引入磺基,从而起到辅助解离肽段以及质谱测序的作用[79]。然而,磺酸化试剂的毒性、副反应等问题会干扰鉴定准确度[80],成为此类研究亟待解决的难点。尽管近年来科研人员对于磺酸化的兴趣与日俱增,但磺酸化蛋白质组学的研究依然相对较少[81],仍需进一步的探索及挖掘。
随着蛋白质组学的发展,仅局限于对蛋白质类型及修饰的定性分析已无法满足科研需求。在此情况下,定量蛋白质组学技术应运而生,成为近年来生命科学的研究热点之一。蛋白质组学的定量技术是在已知蛋白类型的基础上,结合质谱技术给出的信号强度对其表达量及丰度进行定量。这不仅需要对实验进行周密设计,同时对实验的每个步骤有较高的要求。蛋白质组的定量技术主要包括非靶向的相对定量技术,以及靶向的绝对定量技术[82]两种类型。定量蛋白质组学技术的发展进步,对疾病标志物发现及临床应用具有重要意义。
蛋白质组相对定量技术又称为比较蛋白质组学技术,是指对不同生理病理状态下的细胞或组织中蛋白质的表达量进行相对的比较分析。根据是否对蛋白质进行同位素标记,相对定量技术可分为标记定量和非标记定量[83]两大类。
2.1.1蛋白质组标记定量技术 蛋白质组标记定量技术(stable isotopic labeling quantification)是指利用同位素标签标记蛋白或多肽,结合高准确度的质谱技术,通过对同位素标记后肽段的串联质谱结果确定肽段的序列,并且通过同位素峰的信号强度差异对肽段丰度进行定量分析的手段[82]。标记定量技术可用于大规模样品分析,可避免由于提取以及前处理技术不同而产生的误差。
根据标签类型的不同,将蛋白质组标记定量技术方法分为化学标记法及代谢标记法两种类型[84]。目前用于定量的化学标签策略种类较多,其中最常用的一种化学标签是对半胱氨酸的巯基进行标记[85]。根据标记对象的不同,可分为母离子标记以及子离子标记两类[84]。母离子标记是将标签所产生的质量差在一级谱图上进行观测,从而达到对蛋白定量的目的。例如,同位素亲和标签技术(isotope-coded affinity tags, ICAT)和同位素标记蛋白质标签技术(isotope-coded protein labels, ICPL)[85]。它们根据所设计的同位素标签具有相同的电离行为和效率的假设,在蛋白酶处理之前将标记好的不同样品的蛋白混合在一起,可以在多肽水平上减少每组样品间的差异。虽然早期经常采用ICAT和ICPL标记方法,但这两种标签分子质量较大,无法分析不含Cys的蛋白,因此现在很少使用[85]。为了得到更直观精确的定量结果,通过分析肽段化学标签的子离子,即利用质谱二级碎裂后产生的报告离子进行定量。典型的有相对和绝对定量的同位素标记技术(isobaric tag for relative and absolute quantitation, iTRAQ),以及串联质量标签技术(tandem mass tag, TMT)[84],它们是具有相同质量的等量标签。目前商品化的iTRAQ标记分为4标及8标,TMT常用4/6/10标[82]。近年来,iTRAQ及TMT技术广泛用于疾病诊断以及药物研究。例如,Xiong[86]、Du等[87]分别利用iTRAQ技术研究了脑外伤后认知障碍患者和急性心肌梗死(AMI)患者血清蛋白质组的变化,发掘新生物标志物,为疾病诊断提供了新方向;Ren[88]、Tang等[89]则分别利用iTRAQ技术分析了胆管癌和胰腺癌患者与对照组的血清蛋白质组,揭示了2种癌症的潜在治疗靶点;Zhou等[90]利用基于TMT的定量蛋白质组学技术,研究了骨质疏松症患者在脊柱融合术中骨髓微环境的蛋白质变化,揭示其发病机制;Hou等[91]利用TMT标记,探讨了二氢青蒿素抗肝癌的作用效果,为进一步了解抗肝癌的相关分子机制奠定了基础。此外,其他化学标记策略,如18O、14/15N、12/13C、苯胺和苯甲酸标记、碘乙酰苯胺标记等也逐渐应用于组学研究,使标记技术具有更多的选择性。
代谢标记与化学标记不同,需在蛋白质生物合成的第一阶段进行,因此,获得样品后可以立即混合,从而避免样品处理(蛋白质提取、分级、消化等)过程中产生的偏差。由于此特性,使用代谢标记法可以适当减少技术重复次数。典型的代谢标记技术是基于氨基酸标记的稳定同位素氨基酸细胞培养技术(stable isotope labeling by amino acids in cell culture, SILAC)[92],其基本原理是在细胞培养时加入轻、重同位素标记的必需氨基酸(通常为赖氨酸和精氨酸),在蛋白层次混匀样本,避免了后续操作所带来的定量误差,提高了定量的准确性。早期SILAC技术只适用于活体培养的细胞,而后基于此发展出Super-SILAC[93]和 NeuCode SILAC[94]等技术,并将其广泛应用于医学中组织、体液等样本的研究。
2.1.2蛋白质组非标记定量技术 标记定量法应用范围广泛,但也存在一定的缺陷。例如,标记试剂成本昂贵、样品制备过程较为复杂等。另外,复杂样品中存在电离竞争以及样品处理重复精度限制[95],MS信号多变且不可预测,易加大误差,影响定量准确度。因此,直接依赖离子MS信号强度进行相对定量技术,即蛋白质组非标定量技术(label-free quantification)[95]逐渐受到重视。这种技术不需要昂贵的标记试剂,且适用于任何类型蛋白质的相对定量,具有较高的定量准确度,目前已普遍应用于定量蛋白质组研究中。
非标记定量技术主要分为谱图计数法和信号强度法两大类。谱图计数(spectral counts, SpC)[96]的原理是利用肽段匹配的二级谱图数量进行定量。理论上来说,丰度越高的蛋白,质谱碎裂后得到的肽段数和二级谱图数越多。基于此,Griffin等[97]开发了归一化谱图计数法(normalized spectral index, SIn),优化了SpC的可重复性,提高了鉴定准确度。Piersma等[96]利用SIn评估并比较了3种非标定量蛋白质组学流程;Asara等[98]开发了总离子计数法(total ion count, TIC),对定量低丰度蛋白时的SpC进行优化。
信号强度法最早由Chelius等[99]提出并验证,是基于一级谱图母离子强度的定量,通过比较母离子的面积及信号强度对样品中的蛋白质进行定量分析。例如,Nakamura等[100]提出,在混合样品的一级质谱检测中,所鉴定到1个蛋白中所有肽段峰强度平均值与该蛋白量正相关。Silva等[101]则发现,蛋白浓度与质谱检测所得到的3个信号最高离子峰强度的平均值正相关。随后,Grossmann等[102]基于此提出了T3PQ法(Top3 protein quantification)用于定量计算。
通常根据实验需求的不同,选择不同的质谱数据采集模式,如数据依赖采集模式(data dependent analysis, DDA)和数据非依赖采集模式(data independent analysis, DIA)。DDA基于鸟枪法原理,按照离子强度从高到低采集母离子进行二级碎裂,其结果具有一定的随机性。DIA法在2000年初首次提出,它将扫描范围分为若干窗口,可以最大限度地获得样本碎片离子信息,提高定量精度。2012年,出现了基于DIA的新方法——SWATHMS[103],结合高分辨质谱仪和优化的采集方案,实现了大样本队列的快速高通量分析。近年来,也提出并验证了Direct DIA(direct data-independent acquisition)方法[104]用于蛋白质翻译后修饰蛋白质组分析,在降低成本提高效率的同时也保留了DIA可重复定量的优势。
绝对定量(aqua)是蛋白质组学研究最早使用的方法之一,可通过在样本中加入内标或基于非内标技术,结合高精度的MS测定蛋白质的绝对丰度。目前,已经发展了多种应用于多肽和蛋白质绝对定量的策略。例如,张惠萍等[105]提出一种基于LC-MS的细胞外泌体组学分析方法,引入同位素内标,对细胞外泌体样本进行高覆盖度的绝对定量分析。常乘等[84]从蛋白和肽段层面对质谱原始信号强度进行校正,从而提出了一种更准确的蛋白质无标绝对定量方法模型。绝对定量蛋白质组学对质谱检测的重复性、灵敏度以及检测效率都有很高的要求,常使用多重反应监测(multiple reaction monitoring, MRM)和平行反应监测(parallel reaction monitoring, PRM)2种靶向质谱定量技术。
2.2.1多重反应监测技术 多重反应监测早期也称为选择性反应监测(selected reaction monitoring, SRM)。它作为一种高效质谱扫描模式,在掌握拟定量肽段的保留时间和子离子质荷比等信息的前提下,一次分析可对数百个目标肽段进行定量,完全可以取代ELISA和Western blotting等基于抗体的定量技术,广泛用于组学定量检测领域[106]。MRM扫描方式常用于三重四极杆质谱仪,其检测过程是在第1个四极杆中选择特定前体母离子,在第2个四极杆中将其碎裂,然后在第3个四极杆中检测选定的肽段子离子。此过程保证了肽段定量的特异性,可显著提高检测灵敏度并有效地降低化学噪声,常用于生物标志物蛋白的高通量检测。例如,Gerber等[107]利用MRM技术对人分离酶蛋白(human separase protein)进行绝对定量;Shivangi等[108]利用液相色谱多反应监测(LC-MRM)方法,对肺腺癌表皮生长因子受体(EGFR)酪氨酸激酶抑制剂(TKI)敏感性的潜在生物标志物进行定量研究;Huang等[109]则在传统MRM方法的基础上,建立并验证了一种基于LC/MRM-MS结合免疫亲和沉淀的靶向蛋白质组学方法,用于富集和定量人体体液中低丰度高度同源的趋化蛋白亚型。
2.2.2平行反应监测技术 平行反应监测技术是在MRM的基础上衍生而来的质谱扫描方法。由于PRM可以选择性指定前体离子和碎片离子,与MRM相比具有更高的选择性及可信度,因此是一种更为方便的分析方法[110]。PRM扫描方法常用于Q-Exactive、Q-Exactive Plus或Q-Exactive HF等高分辨质谱仪上。例如,Michael等[111]提出了一种特异的PRM方法,结合ETD质谱裂解技术,定量表征了组蛋白修饰酶药物(如组蛋白去乙酰化酶抑制剂(HDAC))对组蛋白翻译后修饰的影响。而PRM技术也有一定的缺陷,即分析肽段数过多时,为了保证定量精度,需要及时调整质谱采集参数。据此,Gallien等[110]以PRM为基础,研发了一种内标触发平行反应监测技术(internal standard triggered-parallel reaction monitoring, IS-PRM),通过添加内标并且实时调整采集参数来定量内源肽段,保证了大量肽段数据分析时的结果准确度。随着PRM技术的不断成熟以及不同类型实验参数的收集建库,它将在未来获得更广泛的应用。
质谱技术的发展正在不断提升蛋白质组学研究的能力,促进蛋白质组学方法应用的深度和广度。特别是快速、深度覆盖的蛋白质组分析技术、单细胞蛋白质组学技术以及新型蛋白质翻译后修饰技术的发展,使得蛋白质组学技术已成为精准医学时代的主要驱动力。这对蛋白质组学技术提出了更高的要求,促使发展高通量、大队列蛋白质组一站式分析平台,包括标准化、多模式、自动化的样本制备方法,高通量、高质量和标准化的深度覆盖分析和质控方法,以及一站式数据处理方法,这些方法的应用必将对今后生命科学和医疗健康产生重大影响,也将进一步促进蛋白质组学方法取得新进展。