岳柠柠,吴 真,张旭敏
(复旦大学 生命科学学院,上海 200433)
基于质谱的蛋白质组学鉴定思路大致分为“Bottom-up”[1-2]、“Top-down”[3-4]及“Middle-down”[5]3种,其中“Bottom-up”(又称“Shotgun”,即鸟枪法)最为普遍。该策略将蛋白样品预处理后使用特定蛋白酶进行酶切,对酶切后肽段进行质谱检测分析,通过将检测谱图与理论数据库的谱图匹配以进行蛋白质鉴定[6]。其中,样品酶切是影响鉴定结果的关键因素之一,优质的特异性蛋白酶能将蛋白样品依据特定位点尽可能完全酶切成合适长度的肽段,方便质谱检测,且与数据库匹配时可提高蛋白序列覆盖度[7-8]。LysargiNase属于锌金属蛋白酶的一种,最初发现于嗜乙酸甲烷八叠球菌(MethanosarcinaacetivoransC2A)[9],在对其进行点突变修饰(C269A)后发现该蛋白酶稳定性及酶切特异性显著提高[10-11]。在酶切样品时,LysargiNase能够特异性识别赖氨酸及精氨酸的氨基端(胰蛋白酶识别羧基端),因此与胰蛋白酶互为镜像酶[12]。
与胰蛋白酶不同的是,LysargiNase对于部分发生翻译后修饰的酶切位点识别度更高[13-15],基于该特点,将LysargiNase与胰蛋白酶进行组合酶切蛋白质的甲基化[16]或磷酸化修饰位点[17-18]时能够产生更多鉴定数目。此外,LysargiNase在C末端组学分析中相比于胰蛋白酶存在独特优势,其酶切能够特异性产生以碱性氨基酸起始的C末端肽段,通过增加电荷数来提高C末端肽段在质谱分析中的响应,这为蛋白质C末端鉴定提供了新的思路[19-20]。然而由于LysargiNase酶切效率不及胰蛋白酶,使用范围相对局限。本研究首先在原核表达系统中纯化出重组LysargiNase,在对其活性及酶切效率进行组学分析后,确认了该蛋白酶具有近似商品化产品的性能以及与胰蛋白酶的互补能力。同时为弥补LysargiNase的漏切缺陷,提出酶原水平的双甲基化修饰及活化水平的乙酰化修饰方法来提高该酶的酶切效率,从而优化了该酶的性能。基于以上结果,本研究为后续应用LysargiNase进行蛋白质组学分析提供了借鉴作用。
将LysargiNase(简写为LA)编码基因(NCBI Reference Sequence: NC_003552.1)前端结合His-tag标签一并整合至pET-28a表达载体,经设计后交由北京华大蛋白质研发中心有限公司合成,得到重组质粒pET28a-LA(卡那霉素抗性)。Ni-NTA亲和层析介质购自德国QIAGEN公司,三羟甲基氨基甲烷(Tris)、盐酸胍(Guanidine hydrochloride)购自阿拉丁试剂(上海)有限公司,咪唑(imidazole)、4-羟乙基哌嗪四磺酸(HEPES)、二硫苏糖醇(DTT)、碘乙酰胺(IAM)、丙烯酰胺(Acrylamide)、乙腈(ACN)、甲酸(FA)、三氟乙酸(TFA)、α-氰基-4-羟基-肉桂酸(CHCA)、氰基硼氢化钠(NaBH3CN)、甲醛(HCHO)、羟胺(NH2OH)购自美国Sigma公司,Microcon YM-10kD超滤管购自德国Merck公司,Poros Oligo R3柱料购自美国Applied Biosystems公司。
将重组表达质粒转化至大肠杆菌E.coliBL21(DE3)感受态细胞,挑取阳性单克隆进行扩增培养,待菌液OD600值为0.5~0.6时,加入0.25 mmol/L IPTG在16 ℃诱导12 h,该条件下表达出大量可溶性LA蛋白酶原。收集菌体进行冰浴超声处理,离心后将上清结合至Ni-NTA亲和层析介质,分别使用含20 mmol/L与250 mmol/L咪唑的Tris-HCl缓冲液(pH 7.5)进行清洗及洗脱,SDS-PAGE电泳检测洗脱组分纯度,随后透析至HEPES缓冲液(pH 7.5)中,Bradford法测定蛋白酶浓度后保存于-80 ℃。LA使用前需在10 mmol/L Ca2+条件下在20 ℃活化12 h。
对LA进行双甲基化修饰: 加入终浓度20 mmol/L NaBH3CN、20 mmol/L HCHO在25 ℃反应15 min,再加入终浓度100 mmol/L Tris-HCl(pH 7.5)终止反应。对LA进行乙酰化修饰: 加入终浓度10 mmol/L Ac-NHS在25 ℃反应15 min,再加入终浓度100 mmol/L Tris-HCl(pH 7.5)终止反应。
以大肠杆菌E.coliDH5α蛋白样品为材料,配制裂解缓冲液(8 mol/L盐酸胍+100 mmol/L Tris-HCl)进行蛋白质提取,Bradford法检测蛋白样品浓度。使用DTT及IAM对牛血清白蛋白(BSA)及E.coliDH5α蛋白样品进行烷基化处理,将蛋白质二硫键打开并还原。
以人肾上皮细胞系HEKHEK 293T蛋白样品为材料,使用8 mol/L盐酸胍+100 mmol/L TEAB为裂解缓冲液进行蛋白质提取,Bradford法检测蛋白样品浓度。使用DTT及丙烯酰胺对蛋白样品进行烷基化处理,将蛋白质二硫键打开并还原。对部分样品使用Ac-NHS对蛋白样品进行氨基乙酰化修饰,使用Tris-HCl及NH2OH进行终止与副反应去除。
对E.coliDH5α、HEK 293T蛋白样品均采用FASP(Filter Aided Sample Preparation)方法[21]进行样品预处理: 将经过还原烷基化处理的蛋白样品转移至超滤管中,离心去除裂解缓冲液后,分别使用置换缓冲液(50 mmol/L Tris-HCl/TEAB,15% ACN)及酶切缓冲液(50 mmol/L Tris-HCl/HEPES,pH 7.5)经过多次置换彻底去除盐酸胍,以1∶25(质量比)比例加入已活化的LA或1∶50(质量比)比例加入胰蛋白酶于37 ℃进行消化。离心收集消化后肽段,真空冻干仪内浓缩体积后使用FA进行酸化,使用Poros Oligo R3柱料对肽段进行脱盐处理,冻干后保存于-20 ℃。
使用Bruker Ultraflex TOF/TOF质谱仪(Bruker, Bremen, Germany)进行MALDI-TOF MS分析。将酶切后样品使用FA酸化处理后与基质(将5 mg/mL CHCA溶于70% ACN和1% TFA而得)以适当比例混匀滴加至进样靶上,使用TFA进行靶上脱盐处理,随后进行质谱检测。获取图谱均在正反射模式下进行,使用Bruker FlexAnalysis软件(2.4版本)进行质谱数据分析处理。
使用纳升EASY-nLC 1000液相系统串联LTQ-Orbitrap Elite质谱(Thermo Fisher Scientific)对脱盐后样品进行LC-ESI-MS/MS分析。色谱柱尺寸为长25 cm×内径75 μm,使用Reprosil-Pur 120 C18-AQ填料。液相系统中流动相A为0.1% FA(溶剂为H2O),流动相B为0.1% FA(溶剂为ACN),采用80 min的非线性梯度进行洗脱,流速为200 nL/min。质谱分析采用数据依赖采集(Data Dependent Acquisition, DDA)方法,使用HCD碎裂模式产生碎片离子。
质谱原始数据(.raw文件)使用Proteome Discoverer(1.4版本,Thermo Fisher Scientific)软件进行分析,使用Mascot(2.3版本,Matrix Science,London,UK)服务器进行搜索,从Uniprot网站下载大肠杆菌E.coli蛋白(包含4 304条蛋白质序列)及人类蛋白数据库(包含20 186条序列)。搜索时设置参数选择TrypsinN(即LA)酶切(对进行乙酰化保护的样品选择ArgN酶切),根据样品预处理方式选择固定修饰(半胱氨酸上的碘代乙酰胺化或丙酰胺化修饰,在进行蛋白水平乙酰化时增加赖氨酸上的乙酰化修饰)及可变修饰(甲硫氨酸的氧化及蛋白质N末端乙酰化修饰)类型。为使搜索结果置信度提高,使用Proteome Discoverer的Target Decoy PSM以及设置Mascot的期望值进行验证,当FDR≤0.01且MASCOT期望值≤0.05时视为结果可信。
LA序列全长342 aa,以酶原形式表达,分子量(Mr)约38 kDa,在Ca2+存在条件下可发生自切(Arg61~Ala322),得到具有酶切活性的成熟蛋白,分子量约29 kDa。在LA编码基因前添加His-tag标签(20 aa),基因合成后经NdeⅠ和XhoⅠ双酶切克隆入pET-28a表达载体,得到重组质粒pET-28a- LA(图1)。
图1 重组LysargiNase氨基酸序列分析Fig.1 Analysis of recombinant LysargiNase amino acid sequences
将重组质粒转化入E.coliBL21(DE3)感受态细胞,对该酶进行诱导表达,并使用Ni-NTA亲和层析介质进行纯化,第一次洗脱组分中能够得到纯度很高的目的蛋白,对该组分进行透析,即得带有His-tag标签的LA酶原。
在20 ℃条件下加入10 mmol/L Ca2+进行活化12 h后,SDS-PAGE检测到明显的分子量变化(图2(a)),条带大小由约40 kDa降低为29 kDa,与预期结果一致。取考马斯亮蓝染色的目的条带,使用胰蛋白酶酶切胶粒蛋白样品并进行MALDI-TOF MS检测,将肽段图谱与数据库图谱进行比对(图2(b)、表1),确定纯化所得主要成分为LA蛋白酶。
图2 (a) LA活化前后分子量变化;(b) 胰蛋白酶酶切LA的肽段图谱Fig.2 (a) Molecular weight changes between pro-LA and activated LA; (b) Peptide spectrum of LA digested by trypsin
表1 胰蛋白酶酶切LA后与数据库匹配的肽段(蛋白序列覆盖度46%)Tab.1 Peptides of LA digested by Trypsin and matched with database(protein sequence coverage 46%)
为检测LA是否具有酶切活性及能否特异性识别酶切位点,将该蛋白酶梯度稀释后酶切BSA,对酶切后的肽段用SDS-PAGE电泳检测酶切程度,用MALDI-TOF MS分析其酶切位点。按照常规使用时LA正常工作浓度为1∶25(质量比),酶切BSA结果显示该酶工作浓度稀释100倍仍能酶切完全,稀释200倍则开始出现残余蛋白样品(图3(a)),表明纯化所得蛋白酶具有足够酶切活性。此外MALDI-TOF MS鉴定结果能够正确匹配库中的BSA蛋白序列,且匹配结果能够覆盖到绝大部分强度较高的肽段(图3(b)、表2,见第288页),其序列覆盖度与使用胰蛋白酶酶切BSA(1∶50)得到的肽段不存在明显差距(表3,见第288页),表明酶切位点能够精确定位在赖氨酸及精氨酸的氨基端,酶切特异性与胰蛋白酶相近,符合预期结果。基于以上结果,表明重组LA的活性及酶切特异性符合预期,能够用于常规蛋白质组学研究。
图3 (a) LA在不同浓度下的酶切效率;(b) LA酶切BSA(浓度比1∶25)的肽段图谱Fig.3 (a) Digestion efficiency of LA in different concertrations; (b) Peptide spectrum of BSA digested by LA (1∶25)
表2 LA酶切BSA后与数据库匹配的肽段(蛋白序列覆盖度51%)Tab.2 Peptides of BSA digested by LA and matched with database(protein sequence coverage 51%)
表3 胰蛋白酶酶切BSA后与理论数据库匹配的肽段(蛋白序列覆盖度47%)Tab.3 Peptides of BSA digested by Trypsin and matched with database(protein sequence coverage 47%)
(续表)
胰蛋白酶(Trypsin)是蛋白质组学中的首选蛋白酶,LA依据酶切位点的特异性被认为是胰蛋白酶镜像酶,理论上在酶切效果上与胰蛋白酶存在充分的互补性。对HEK 293T细胞样品分别使用胰蛋白酶及LA酶切(n=3),鉴定结果显示在肽段及蛋白质鉴定数目上LA大致为胰蛋白酶的70%(图4(a)),印证了胰蛋白酶出色的酶切效率,同时LA在蛋白质鉴定数目上的差距尚能接受。此外,对3次平行实验中鉴定到的所有蛋白质进行统计,发现二者共同鉴定到的蛋白质数量为3 265个,占LA鉴定到的所有蛋白质的91%(图4(b)),表明LA在蛋白质鉴定种类上与胰蛋白酶极为相近。
图4 胰蛋白酶与LA鉴定结果的差异Fig.4 Difference of identification result between Trypsin and LA digestion(a) 鉴定到的蛋白和多肽的总数量;(b) 共同鉴定到的蛋白和多肽的数量。
在质谱鉴定中,使用单一酶切鉴定时氨基酸序列覆盖度通常有限,即对于特定蛋白质而言,实际经过质谱鉴定出的肽段序列无法完全覆盖数据库中的理论蛋白质全部序列,通常使用多种酶切以提高序列覆盖度。在对比LA与胰蛋白酶酶切鉴定蛋白质的序列覆盖度时显示,单酶切最高均只能达到80%左右覆盖度,且覆盖度在20%以下的蛋白质数目超过总鉴定数目的一半。但结合两种酶切结果分析时,最高序列覆盖度能够达到90%,且整体覆盖度均有提升,覆盖度超过30%的蛋白质鉴定结果明显优于单酶切(图5),表明LA与胰蛋白酶酶切鉴定结果的组合分析在提高序列覆盖度方面效果明显,在蛋白质鉴定及定量等研究方向上具有极大应用价值。以上结果说明LA与胰蛋白酶的鉴定结果互补性较强,且与胰蛋白酶组合使用能够优化蛋白质组学鉴定结果。
图5 LA与胰蛋白酶酶切的序列 覆盖度分布Fig.5 Distribution of sequence coverage digested by LA and Trypsin
为确定纯化所得LA的酶切效率是否达到相应商品化产品效果,选取两种国内公司(北京华大、北京华利世)的商品化产品(cLA-1、cLA-2)与纯化的LA(purified LA, pLA)的酶切效果进行对比。两种商品化产品同样为重组表达的LA,cLA-1所用质粒与pLA相同,但二者诱导表达条件存在较大差异,cLA-2则为不同种重组质粒,且其产品为已活化状态,选取以上两种商品化产品作为参考能够对蛋白的诱导表达及重组质粒的构建结果做出有效评价。在酶切HEK 293T细胞蛋白样品时,相同条件下经由两种商品化LA酶切鉴定的肽段数目及漏切率相近,表明二者酶切效率相当,而重组LA在肽段鉴定数目处于同一水平的基础上,漏切率略低于两种商品化产品,表明重组LA的酶切特异性较好(图6(a、b))。此处由于重组LA漏切率稍低,因此相对而言存在稍多错切位点,但错切比例相近(图6(c)),因此结果仍符合预期。综合考虑下,认为纯化所得重组LA具有接近商品化产品同等的酶切能力,足够用于后续常规蛋白质组学的研究。
图6 (a) pLA与商品化产品(cLA-1、cLA-2)的酶切效率;(b) LA漏切位点(K/R)比例; (c) LA错切比例;(d) LA酶切乙酰化HEK 293T的漏切率Fig.6 (a) Digestion efficiency of purified LA and commercial LA; (b) Miss cleavage (K/R) rates of LA; (c) Wrong cleavage rates of LA; (d) Miss cleavage rates of LA digesting Acetylated HEK 293T
考虑到LA在赖氨酸位点上的明显漏切(图6(b)),通过对蛋白样品进行赖氨酸乙酰化处理来阻碍LA在该位点的识别,理论上能够降低整体漏切率。在同样使用LA酶切乙酰化修饰的HEK 293T细胞蛋白样品时,鉴定结果显示3种蛋白酶均能在维持相近肽段鉴定数目的情况下显著降低漏切率,即识别位点准确率提高至95%以上,且重组LA在该条件下的酶切效率同样最好,此时所有漏切位点均为精氨酸(图6(d))。基于该思路,应用LA酶切预处理样品时对样品使用乙酰化修饰能够减少漏切,从而极大程度地提高酶切效率。
在酶切蛋白样品的同时,蛋白酶由于能够识别自身酶切位点从而发生降解及影响酶切效率,通常利用位点修饰来抑制这一自降解现象[22]。有研究表明将LA活化后对赖氨酸位点进行乙酰化修饰能够有效降低自降解并提高酶切效率[23]。
在此基础上,为检测常见修饰对LA性质的影响,研究中考虑对LA的修饰反应进行综合分析,包括酶原水平的双甲基化(Dim-LA)、乙酰化(Ac-LA)及活化水平的双甲基化(CaDim-LA)、乙酰化(CaAc-LA)修饰(图7)。
图7 LA双甲基化及乙酰化修饰步骤Fig.7 Procedure of LA dimethylation and acetylation图中红色圆圈及绿色三角分别代表乙酰化修饰及双甲基化修饰后氨基分子结构变化;橙色R代表活化时切割位点(R61、R323),活化后精氨酸居于首位,α氨基会发生双甲基化/乙酰化修饰;“+Dim”为双甲基化修饰,“+Ac”为乙酰化修饰。
对修饰后蛋白酶稳定性进行分析,SDS-PAGE结果显示酶原水平的乙酰化修饰LA的活化(act-Ca)产生明显抑制,同时双甲基化修饰同样有一定抑制效果但不明显,由此首先考虑排除酶原水平的乙酰化修饰。对各处理条件下LA的降解程度(37 ℃ 14 h)检测时发现,未处理及修饰后蛋白质降解程度均相当明显,说明修饰反应后的LA仍然具有活性,因此双甲基化及乙酰化修饰对抑制降解无明显作用(图8(a))。
此外分别使用4种修饰的LA酶切E.coli蛋白样品,对酶切效率进行比较时发现,除已知的活化水平的乙酰化修饰(CaAc-LA)能够提升酶切效率外,酶原水平的双甲基化修饰(Dim-LA)也有相同效果,在鉴定肽段数目及位点识别准确度上均优于未处理的LA。而活化水平的双甲基化修饰(CaDim-LA)提升效果并不明显,酶原水平的乙酰化修饰(Ac-LA)只是略有提升,这与电泳显示的活化水平受到抑制相吻合(图8(b))。综上,LA酶原水平双甲基化修饰与活化水平乙酰化修饰均能够改善酶切效果,该结果为蛋白酶的性能优化提供了有效思路。
图8 (a) LA修饰后活化及降解程度;(b) LA修饰对酶切效率的影响Fig.8 (a) Activation and degradation degree after LA modification; (b) Effects of LA modification to digestion efficiency
蛋白质组学中根据酶切位点处于特定氨基酸的羧基端或氨基端,特异性蛋白酶大致分为C端蛋白酶(如胰蛋白酶、LysC、ArgC等)[7-8,24-25]及N端蛋白酶(如LysargiNase、LysN等)[12,26]两种。LysargiNase属于N端蛋白酶的一种,最早发现于嗜乙酸甲烷八叠球菌(MethanosarcinaacetivoransC2A)中,被命名为ulilysin,其分子量仅为38 kDa,且在Ca2+存在下可活化为29 kDa具有酶切活性的成熟蛋白酶[9]。在将第269位半胱氨酸突变为丙氨酸后,该蛋白酶稳定性及酶切特异性大为提高[10],后续研究根据识别酶切位点特性将其改名为LysargiNase并沿用至今[12]。在蛋白质组学研究中,LA独特的酶切位点表明其具备着巨大应用潜力,与互为镜像酶的胰蛋白酶在特定情况下能够实现良好互补。在鉴定翻译后修饰位点时,若赖氨酸或精氨酸上存在甲基化、对称或不对称的二甲基化修饰,胰蛋白酶识别此类位点效果极差,LA却仍能进行一定程度的切割[13-15],这为研究蛋白翻译后修饰提供了有效信息。此外,在鉴定蛋白质C末端时,胰蛋白酶酶切产生的C末端肽段由于缺少碱性氨基酸导致其在质谱中响应较差,鉴定尤为困难;而LA酶切能够产生以碱性氨基酸(赖氨酸及精氨酸)开头的肽段,由此为C末端肽段多提供一个单位正电荷,这为质谱仪器检测提供极大便利[19-20],因此LA在蛋白质C末端研究中存在重要价值。
然而相比于广泛应用的胰蛋白酶,商品化LA获取途径少,且蛋白酶性能一般,因此首先考虑诱导表达及纯化出重组LA以进行组学应用。在条件筛选后,本研究顺利在原核表达系统中纯化出带His-tag标签的重组LA酶原,由于酶原稳定性较好,而活化后会自行除去His-tag标签,因此直接以酶原形式保存,使用前再进行活化处理。在对纯化产物及酶切特异性进行检测后,结果初步确认了重组LA的可用性。对重组LA的性能分析主要通过与商品化胰蛋白酶及LA的对比来衡量。在目前应用的所有特异性蛋白酶中胰蛋白酶对同种样品的鉴定效果最好,因此重组LA在鉴定肽段及蛋白质数目上与胰蛋白酶存在差距符合预期,而重组LA与胰蛋白酶鉴定的蛋白质重复度极高,表明两种蛋白酶在应用中存在相互替代的可能。分析胰蛋白酶及重组LA的鉴定结果可以发现,双酶切鉴定结果相比于单酶切能够提高氨基酸序列覆盖度,因此LA能够辅助胰蛋白酶进行蛋白质鉴定。此外,对比商品化产品与重组LA的酶切效果,显示3种蛋白酶在鉴定数目及酶切效率上差异不明显,印证了重组LA具有较好的酶切性能。而对漏切位点进行分析时发现LA存在较大比例的赖氨酸位点漏切,对蛋白样品进行乙酰化修饰能够显著降低漏切现象,据此能够应用至末端肽段的鉴定,相比胰蛋白酶鉴定效果显著[20]。
除对蛋白样品进行预处理外,对蛋白酶本身进行修饰改造同样能够优化性能[22,27],有研究表明LA活化后进行赖氨酸乙酰化修饰能够提高其稳定性及酶切效率[23,28]。同样为提升蛋白酶性能,研究中考虑采用条件较温和的双甲基化及乙酰化修饰,对酶原及活化水平均做修饰分析,除去预期的活化水平乙酰化修饰,酶原水平的双甲基化修饰同样能够提升酶切效率,只是均未能检测到蛋白酶自身稳定性的提高,原因可能在于蛋白酶自我识别序列上的精氨酸。基于以上结果,本研究提供了简便获取高纯度重组LA的纯化途径,并对其应用价值进行了综合分析,后续在应用LA进行蛋白质组学分析时会做深入研究。