郑琬琳,万磊磊,李水明,3,洪晓榆,王 勇,3
(1.深圳大学生命科学学院,深圳市海洋生物资源与生态环境重点实验室,深圳市脑病和大数据研究所,广东 深圳 518055;2.深圳湾实验室,广东 深圳 518055;3.深圳-香港脑科学创新研究院,广东 深圳 518055)
分子质量小于10 ku的小蛋白质统称为多肽,由内源性肽酶水解前体蛋白质产生,人体的生理或病理变化会动态地反映在蛋白质和肽的产生和代谢上[1-3]。多肽组学(peptidomics)研究体液、细胞、组织等材料中的全部多肽[4],其中,由于体液取样方便,可以为疾病提供可能的生物标志物信息。早期的肽检测主要使用放射免疫分析或酶联免疫吸附试验等免疫分析法,但只能分析已知序列的多肽[5]。近年来,基于质谱的多肽组学技术得以发展,血液、唾液、尿液、汗液、泪液和胸腔积液等体液多肽组学标志物的研究明显增多[2,6-11],尤以前3种体液最为常见。多肽组学的分析一般包括样品预处理、内源性肽提取分离、质谱分析、肽鉴定与定量、数据分析等步骤[12],示于图1。本文将从多肽组学研究方法出发,对多肽的分离、表征、应用和多肽组分析结果的影响因素等方面进行综述。
图1 多肽组生物标志物研究的一般路线Fig.1 General route of peptidomics biomarker research
为降低高丰度蛋白质、糖、脂质或盐等基底物质的干扰[12],在质谱检测前需进行多肽的分离提取和富集,主要的方法包括有机溶剂沉淀法[13-14]、离心超滤法[14-15]、固相萃取(SPE)法[16-17]和纳米材料磁珠富集法[17-18]等。其中,有机溶剂沉淀法通过加入乙腈等有机溶剂,使溶液中大分子蛋白质沉淀,而肽溶解在有机溶剂中,会形成共沉淀导致肽损失,需要辅助解离试剂进行增溶,提高肽的回收率[19]。Romanova等[20]使用2,5-二羟基苯甲酸(DHB)有效地从组织中提取内源性肽,且储存在DHB提取介质中的肽提取物可稳定保存多年,该技术简单、重现性好、易于远程制备样品,无需冷冻即可长期保存样品。固相萃取是一种从生物样品中获取内源肽的有效方法,固体吸附剂材料的结构和表面性质在肽的提取中起着重要作用。凝胶过滤色谱(GFC),又称尺寸排阻色谱(SEC),是利用分子大小提取内源性肽的有效方法[12]。Kononikhin等[21]在使用LC-MS/MS法对先兆子痫的尿肽组分析时,采用基于SPE和SEC 2种不同方案,发现相较于SPE法,SEC法鉴定的肽总数更多,且SPE法提取的肽长度不超过30个氨基酸。孔祥怡等[17]使用Zip-Tip C18固相萃取和氧化石墨烯-磷酸镧纳米复合材料(LaGM)分离唾液多肽组,发现这2种方法对多肽的富集有一定的偏好性,所得的肽段分布特征和优势肽段构成存在明显差异,即使用单一分离法只能获得全部多肽组的部分信息。
Ziganshin等[18]提出一种从丰富的血液蛋白质中解吸低分子质量肽的方法。将稀释血清加热至98 ℃后保持15 min,将低分子质量肽从最丰富的血液蛋白质中分离,再使用带有功能化表面的磁珠进行血浆/血清分离,显著增加了MALDI-TOF MS检测到的低分子质量肽的数量。Ma等[22]合成并开发了一种新颖的多功能复合材料rGO-SnO2NRs,该材料包括在还原的氧化石墨烯(rGO)片上垂直排列的介晶SnO2纳米棒(NRs)多功能的亲和探针,结合了rGO的疏水性和SnO2的高亲和力NRs,可通过简单调节洗脱缓冲液来连续富集标准样品和血清样品中的内源肽和磷酸肽,这种二元复合材料表现出对肽富集的高灵敏度和选择性。Fang等[23]将固定化金属离子亲和色谱法(IMAC)与介孔材料相结合,提出了铜离子掺杂磁性介孔二氧化硅材料(简称为“磁性介孔材料”)Fe3O4@mSiO2-Cu2+对内源性多肽具有显著的敏感性和尺寸专一性。Cheng等[24]用REPO4(RE=La,Nd,Eu)纳米棒修饰的亲和MALDI板,从复杂的生物样品中选择性捕获和纯化痕量磷酸肽。在基质沉积后,可使用MALDI-TOF MS直接检测亲和板上的富集磷酸肽,整个过程可在几分钟内完成。近10年来,复旦大学、军事医学科学院、大连化物所和长春应化所等多家高校和科研院所在多肽的纳米材料富集方面做了大量的创新性工作,但采用的研究体系通常为牛血清白蛋白等简单体系,如果这些材料能用于体液多肽组等复杂体系,则可以更好地发挥新材料的特性,拓展体液多肽组的研究深度。
基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)和电喷雾质谱(ESI-MS)是多肽组分析中最常用的2种技术[6,25]。MALDI-TOF是早期多肽组研究的主要工具,因操作简便、分析速度快、通量高和结果直观而被广泛使用,但由于电离抑制效应,MALDI-TOF得到的质谱峰数目通常在100以内。ESI-MS常与液相色谱或毛细管电泳联用,获取信息能力随分析时间的增加而增强,所得多肽组序列信息更精准[25-27]。有研究将这2种方法结合,先使用MALDI-TOF MS等方式分析得到差异肽信息(如质荷比、分子质量)后,再使用MALDI-TOF/TOF或LC-MS/MS等方式对特定差异肽进行深入分析,从而获得更具体的肽段信息(如肽段序列、肽来源蛋白质等)[13,21,28-38],但对于非特异性酶切的内源性多肽,MALDI-TOF/TOF的二级质谱断裂效果欠佳。一些研究开发了新型的多肽分离技术,例如使用特殊芯片的免疫印记芯片法(BLOTCHIP-MS),可以将凝胶电泳中分离的肽和蛋白质电转印至免疫印记芯片后直接使用MALDI-MS进行质谱分析,省略了染色、提取、装载等中间过程,缩短了分析时间,可以同时分析样本中的游离肽和蛋白质结合肽[29,39-40]。近年来,这2种电离方式在生物标志物中的应用情况列于表1。可以看出,体液多肽组生物标志物在肿瘤、内分泌系统、神经系统、泌尿系统、泌尿生殖系统和呼吸系统等疾病中均具有潜在的应用价值。
表1 不同质谱方法在疾病的体液生物标志物的应用Table 1 Application of different mass spectrometry methods in body fluid biomarkers of diseases
续表1
研究生物标志物的目的是鉴定和区分特定疾病[65]。脑脊液是脑室和中枢神经系统血管周围的无色体液,因此脑脊液的组成会动态地反映中枢神经系统中的许多生理或病理过程[66]。已有大量研究证明,α-突触核蛋白、Aβ42、tau、磷酸化tau和神经丝蛋白等脑脊液蛋白或多肽可用于诊断阿尔茨海默病[67]、帕金森病[68]和额叶颞叶痴呆[69]等神经退行性疾病。Wijte等[13]利用MALDI-TOF对阿尔茨海默病患者死后脑脊液中的肽进行差异分析,鉴定出游离肽组分中的差异肽来源于VGF神经生长因子诱导前体和补体C4前体,蛋白结合肽组分中的差异肽来源于VGF神经生长因子诱导前体和α-2-HS-糖蛋白。为了检测脑血管疾病烟雾病的生物标志物,Maruwaka等[41]通过SELDI-TOF MS分析患者脑脊液,发现4 473 u等3个肽段强度显著升高。但是,获得脑脊液样品需要侵入性取样,并且可能引起某些患者的不适或副作用[70],很难对存在的潜在患者进行普遍筛查,需要血液、唾液、尿液等非侵入性和更易获得的生物标志物来源。
血液(血清或血浆)是人类所有细胞、组织和器官之间的主要纽带,组织微环境中产生的蛋白水解肽片段可以反映早期病理变化[65],而小尺寸的肽段容易分泌到细胞外间质,从而释放到血液循环中[71]。部分血液肽组学作为疾病潜在生物标志物的相关研究结果列于表2。相较于脑脊液、尿液等其他体液,血液标志物可诊断的疾病类别更加丰富,涵盖了癌症[14,28,30-31,43-44,48,51-52,54]、肠炎[44]、呼吸病[45,47]、心血管疾病[46]、神经退行性疾病[29]、糖尿病[50]等多种不同类型的疾病[40,49,53]。数据依赖采集是目前多肽组序列鉴定的最常用方法,数据独立采集策略采用的较少,但可能更具优势[14]。
表2 血液肽作为疾病生物标志物的研究与应用Table 2 Research and application of blood peptides as biomarkers of diseases
尿液是临床诊断最有用的体液之一[61],尿多肽组学可以极大地改善肾脏疾病的诊断与治疗[72]。部分尿液肽组学作为疾病潜在生物标志物的相关研究结果列于表3。Good等[55]采用CE-MS筛选出273种潜在的慢性肾病生物标记物,敏感性和特异性分别为85.5%和100%。Carrick等[33]通过MALDI-MS分析了95名败血症患者的尿液样本,采用CE-MS鉴定了39种尿肽作为伴随败血症的急性肾损伤生物标志物,敏感性和特异性分别为86%和76%,其中部分肽段鉴定为来自胶原链α-1(Ⅰ)(COL1A1)和α-1(Ⅱ)(COL1A2)、α-1-抗胰蛋白酶(SERPINA1)、β-2-微球蛋白(B2M)和纤维蛋白原α链(FGA)的片段。di Meo等[58]使用定量无标记LC-MS和靶向平行反应监测,鉴定了9种在肾癌中显示出明显升高表达的内源肽,证明了非侵入性内源肽作为早期肾癌的潜在诊断和预后标志物的实用性。
表3 尿液肽作为疾病生物标志物的研究Table 3 Research and application of urine peptides as biomarkers of diseases
除了针对肾相关疾病的研究外,尿肽标志物还应用于其他生殖或泌尿类疾病的诊断,如前列腺癌[35,73-74]、膀胱癌[75]、先兆子痫[21,59]等。M’Koma等[35]利用MALDI-TOF分析了407个尿液样品,在m/z1 373.1、1 433.5、2 236.3和2 484.6处发现了一系列能够区分前列腺癌和前列腺增生患者的肽段。Kononikhin等[21]通过HPLC-MS/MS检测出包括SERPINA1的C末端片段(MIEQNTKSPLFMGKVVNPTQK)和白蛋白肽(DAHKSEVAHRFKDLGEENFKALVL)在内的35个先兆子痫尿肽标志物。此外,Zhang等[60]利用CE-MS鉴定了96种心力衰竭的潜在生物标志物。Wang等[36]利用MALDI-TOF MS确定了5个重度抑郁症潜在生物标记物,灵敏度和特异性分别为91.7%和84.6%,并鉴定其中4个肽段为血清白蛋白、AMBP蛋白、HSPG和载脂蛋白A-I(APOA1)的片段。
Ao等[38]利用MALDI-TOF找到了3种可用于鉴定低龄婴幼儿龋的候选唾液肽生物标志物1 346.6、2 603.5、3 192.8 u。Chi等[62]在唾液中检测到5种口腔鳞状细胞癌生物标志物MMP1、PADI1、TNC、CSTA和MMP3。Neves等[63]通过LC-MS/MS证明,唾液中富含脯氨酸的碱性蛋白1的肽片段和蛋白LCN1、MUC7、PON1、C4BPA、ITIH2、AHSG可用于鉴别颈淋巴结转移患者。Wu等[64]采用MALDI-TOF MS分析6例加速成骨正畸患者的36份唾液标本,结果显示有182个峰有显著性差异。
续表2
续表3
综上,多肽组生物标志物是一个较宽泛的概念,肽段分子质量、肽段序列及其归属的蛋白质都可用于表征。因此,标志物的数量差异较大,并且肽段强度的上调和下调都与疾病状态相关。值得注意的是,尽管以肽段分子质量为多肽组标记物的指标被广泛使用,MALDL-TOF谱图中的1个质谱峰也可能代表多个肽段。例如,血清中Apolipoprotein A-Ⅱ的肽段YFVELGTQPATQ分子质量为1 352.668 u,而归属于Prothrombin的肽段FEKKSLEDKTE分子质量为1 352.684 u,Hemoglobin subunit alpha的降解肽段QLSELHCDKLHVD(Gln->pyro-Glu@N-term; Trioxidation(C)@7)和SLDKFLASVSTVLTS分子质量分别为1 566.704、1 566.861 u,而同一样本中Profilin-1的降解肽段NITPAEVGVLVGKDR分子质量为1 566.874 u,飞行时间质谱分辨率不足以区分这些肽段,在尿液和唾液中也有类似现象。因此,用分子质量(质荷比)表征多肽组得到的信息量不仅少,而且不够精准。
虽然研究多肽组生物标记物的报道较多,但是真正用于临床的却较少,原因之一可能是对多肽组分析结果不确定性的认识尚不够充分。早期研究表明[76],尿液收集方式与收集时间等外源性变量因素和尿液pH值、盐与蛋白质的浓度以及血液与细菌干扰等内源性变量因素,均会显著影响肽谱分析的结果。唾液成分也会受到收集方法和唾液流动刺激程度的影响,并且唾液含有来自宿主和口腔微生物的蛋白水解酶,这些酶会影响某些标志物的稳定性,并在收集唾液样本后持续降解,导致肽谱的巨大变化,从而限制了肽组学分析的可重复性[77]。吴杰等[78]采用MALDI-TOF/TOF技术研究尿液标本的收集储存方法、冻存条件、反复冻融次数等多个实验流程中的影响因素,发现不同性别组间尿液多肽谱未见明显差异,且5次以内有限冻融对出峰没有影响。本课题组[79]考察了将唾液样品分别置于-80 ℃、-20 ℃冻存6个月后对唾液多肽组的影响,发现-20 ℃冻存不仅会导致样品中低含量肽段的减少和消失,高含量肽段也会发生一系列的进一步降解。即使是对于完全相同的样本,纳升液相色谱-质谱分析法的重现性对实验结果也有影响,我们利用纳升液相色谱-高分辨质谱对健康人的尿液多肽组进行7 次平行分析,发现多肽组的单次分析结果具有一定的随机性和相对的稳定性。增加平行实验次数会扩大多肽组数据集,但测定3次以上后增加幅度减小。相比于肽段,利用降解蛋白质为多肽组的生物标志物更稳健[80]。目前,大多数多肽组学研究只用一种搜库软件解析串联质谱数据,我们使用Peaks studio 8.5(PS)和Protein Pilot Software4.0(PP)两种软件分析了10个随机唾液样本的多肽组数据,发现多肽组的分析结果与搜库方法相关,某些肽段只能被PS或PP一种软件鉴定,两种软件具有互补性[81]。因此,在样本的取样、保存、多肽提取富集、液相色谱-质谱分析和数据库搜索的各环节都可能产生分析结果的变化,质谱灵敏度的增加和肽段分析能力的提高可以更清晰地观察这些变化。
体液多肽组标志物具有广泛的临床需求,血液标志物应用广泛,尿液多肽组标志物多应用于肾病相关疾病,唾液多肽组则较多用于口腔疾病,但是,尿液和唾液中也含有与血液相同或相似的多肽和降解蛋白质,同样参与生理循环,因此在其他疾病中也具有更广阔的应用前景。值得注意的是,目前对健康人体液多肽组生理波动的研究很少,对它们的本质特征和分布规律缺少深层次的认识。为使多肽组学标记物真正应用于临床,需规范和优化多肽组分析方法,降低分析结果的不确定性。加强对各种不同体液多肽组本质特征和规律的探索,区分多肽组结果中的生理变化和病理变化,研究体液多肽组在健康人体内的基本组成和波动幅度。