罗 珺,刘友林,肖侑仙,赵诗文,王 伟
(1.大连海事大学,辽宁 大连 116026;2.大连圣亚海洋生物研究所,辽宁 大连 116023;3.大连海洋大学,辽宁 大连 116023)
海狮(Otarriinae)属哺乳纲鳍足目海狮科[1],全世界均有分布,多数生活在寒带海洋中。海狮以鱼、乌贼、贝类等为食,繁殖时期到海岛上产仔。大部分海狮的身体上都长有浓密的短毛,下面还有一层薄层的绒毛;但是各种海狮的毛色深浅并不一致,主要为黄褐色和褐色;海狮具有明显的尾巴,但都较短;有的海狮种类颈部有长毛,类似狮子的鬃毛,得名海狮[2]。
非标记定量蛋白质组学数据前处理与其他组学及其他学科一样,将数据处理成方便后续统计分析、数据挖掘的格式,数据前处理过程是连接搜库软件定性定量分析和生物学意义挖掘(如蛋白质间相互作用、通路富集等)分析的中间环节,包括数据评估(稳定性分析、缺失模式分析、变异分析、相关性分析、聚类分析)、数据清洗(低质量样本清洗、异常样本清洗)、数据增强(数据转换、数据校正、缺失值填补)等。非标记定量蛋白组学数据经过上述数据前处理过程后,后续经差异表达分析等得出的结论具有足够的可信度。非标记定量技术对液相色谱串联质谱的重复性和稳定性要求较高,不用借助成本较高的同位素标签,试验耗费少,前处理操作过程不繁琐,这样使样品最接近原始状态,且不受样品条件、样品数的限制,可用于大规模样品数量检测[3]。
本研究根据大样本非标记定量蛋白组学数据的特征,为这类数据选取了适用的数据前处理方法,包括数据质量评估方法、质谱定量蛋白组学领域经典数据前处理方法及其他组学领域成熟的数据前处理方法、前处理效果评估方法等。最终经过方法选取、编写及整合,制作R工具包preprocessor。此工具包可助力研究者掌握试验数据概况,从而选取适用的数据校正及缺失值填补等数据前处理方法,并最终控制大样本非标记定量蛋白组学数据质量,使后续分析更加可行可信。本研究应用非标记定量蛋白组学方法鉴定毛皮海狮种间的蛋白差异,对差异蛋白进行GO富集分析、KEGG通路富集分析及差异蛋白的生物信息学分析,为病情诊断、预防及治疗探索潜在的靶点,现报道如下。
非澳毛皮海狮(Non-Arctocephaluspusillus)、南美毛皮海狮(Arctocephalusaustralis)、智利毛皮海狮(Arctocephalusphilippi),均由大连圣亚海洋世界提供,并且所有毛皮海狮个体健康状况均良好。
SDS裂解液、BCA试剂盒、质谱级水、乙腈、预制胶、PMSF(Amresco);DTT、EDTA·2Na、甲醇、蔗糖、醋酸铵、甘油、溴酚蓝、TFA、IAA、十二水合磷酸氢二钠、一水合磷酸二氢钠、NaCl、Tris-HCl(pH值6.8,8.8)、APS、TEMED、Tris;甘氨酸、SDS、磷酸;丙酮、胰酶、TEAB、无水乙醇、异丙醇、甲酸(CNW);Tris-平衡酚。
磷酸盐缓冲液(PBS):十二水合磷酸氢二钠(Na2HPO4·12H2O)3.835 g,一水合磷酸二氢钠(NaH2PO4·H2O)0.715 g,NaCl 1.051 g,加ddH2O定容至250 mL,待充分溶解之后调pH值至7.2。2×loading buffe储存液(10 mL):5 mmol/L Tris-HCl 1.45 mL,甘油2 mL,10%SDS 3 mL,DTT 1 g,0.1%溴酚蓝400 μL,加ddH2O定容至15 mL。二硫苏糖醇溶液:称取192.5 mg DTT,溶于50 mL去离子水中,混匀后分装为200 μL/管,并于-20 ℃保存。碘乙酰胺溶液:快速称取90 mg碘乙酰胺粉末,转移到用锡纸包裹的15 mL离心管中,用3 mL去离子水混匀至溶解,定容到5 mL,避光保存。酚法抽提液:蔗糖2.2 g,NaCl 0.038 g,EDTA·2Na 0.163 g,DTT 0.02 g,0.5 mol/L Tris-HCl 2.5 mL,0.5 mol/L Tris-HCl 2.5 mL,然后加ddH2O定容至10 mL,充分溶解混匀。
以上试剂与用品均由大连圣亚海洋生物研究所采买和配制。
选取健康状况良好的非澳毛皮海狮、南美毛皮海狮和智利毛皮海狮个体,分别剪取其胡须约2 g,取样后置于-80 ℃冰箱冷冻保存。将冷冻的样品取出,加入液氮,充分研磨。毛皮海狮胡须样品信息见表1。
表1 毛皮海狮胡须样品信息
取适量毛皮海狮胡须样品粉末,置于2 mL离心管中,加入500 μL酚抽提取液、蛋白酶抑制剂(PMSF)调制终浓度为1 mmol/L。加入相同体积的酚-Tris-HCl饱和溶液,4 ℃混合30 min,并多次摇晃混匀。4 ℃离心10 min,并收集酚上层液。加入5倍体积的预冷0.1 mol/L醋酸铵-甲醇溶液,-20 ℃条件下进行沉淀。4 ℃离心10 min,收集沉淀。收集后的沉淀物加入5倍体积的甲醇进行清洗,混合。4 ℃离心10 min,收集沉淀。所获取的上清液即为总蛋白溶液,用于蛋白浓度测定并分装、储存于-80 ℃冰箱,备用[4]。每种样品均重复3次。
一般情况下,蛋白提取选用普通的蛋白裂解液、冰上裂解等。但是对于极易受环境影响的蛋白,选择超强效蛋白裂解液,并且在低氧培养箱(37 ℃)中快速裂解效果更好。毛皮海狮胡须样品蛋白浓度测定采用BCA蛋白浓度测定方法。BCA与硫酸铜等其他试剂组成的试剂混合在一起,即呈苹果绿,为BCA试剂[5-6]。将待测毛皮海狮胡须样品蛋白溶液加入96孔板,每个样品设置3个复孔。首先于各孔内加入150 μL显色液,37 ℃条件下反应30 min。然后利用酶标仪测定溶液吸光度值。再根据标准蛋白溶液的已知浓度和吸光度值绘制标准曲线,将待测样品的吸光度值代入标准曲线,计算得到毛皮海狮胡须样品蛋白浓度。
胰蛋白酶是蛋白质谱分析中应用最广泛的蛋白酶,主要从猪或牛胰腺中获得,易于纯化,一般用其进行样品的酶解[7]。当溶液中存在尿素或胍盐时水解反应无法进行,因为胰蛋白酶自身作为一种蛋白质会变性,失去酶活性。因此,尿素或胍盐必须通过离子交换或渗析去除或将浓度降低至1 mol/L以下。毛皮海狮胡须样品蛋白酶解后肽段采用96孔板脱盐。
采用聚丙烯酰胺凝胶电泳法对毛皮海狮胡须样品总蛋白进行电泳,步骤为灌胶与上样、电泳、染色、脱色。脱色后参照参考文献[8]的方法用成像仪成像。
HPLC是在经典的液相色谱法基础上发展起来的,其以液体作为流动相,并采用颗粒极细的高效固定相的柱色谱分离技术。毛皮海狮胡须样品总蛋白以300 nL/min的流速于分析柱上样,进行梯度洗脱操作过程。其后质谱条件设定为全扫描,质核比范围为350~650 m/z,对其中10个最高峰进行MS/MS扫描[9]。
毛皮海狮胡须样品总蛋白LC-MS/MS原始文件导入Maxquant库进行搜索,并进行非标定量分析[10]。根据峰形错配情况,毛皮海狮胡须样品总蛋白搜库条件以假阳性率来控制。物种数据库提供了目标序列信息,可以通过过滤掉反库和常见污染蛋白库来剔除不符合分析标准的空值。具体搜库参数设置见表2。
表2 质谱检索参数
利用数据库检索得到原始数据,保留任意一组毛皮海狮胡须样品总蛋白有表达值占比≥50%的蛋白。缺失值≤50%的蛋白用同组样本均值填充,得到可信蛋白。对可信蛋白进行样品相关性分析。
根据可信的表达定量数据计算毛皮海狮胡须样品总蛋白之间的欧氏距离(euclidean distance),然后对样品距离矩阵进行层次聚类,从而绘制出样品欧氏距离的层次聚类树状图[11-12]。
在利用非标记定量技术所得可信蛋白基础上,选取两个标准计算毛皮海狮胡须样品总蛋白间的差异。使用Foldchange手段对毛皮海狮胡须样品总蛋白中的某一蛋白在样品间的表达水平变化倍数进行评估,利用t检验计算P值,以直观展现毛皮海狮胡须样品总蛋白间差异的显著程度[13]。其中差异筛选条件为FC(Foldchange)为1.5倍且P值小于0.05,同时FC为0和FC为inf都属于“有无”差异状态;通过对比3种毛皮海狮胡须样品差异表达蛋白的统计情况,来展示毛皮海狮差异表达蛋白整体分布情况。
通过非标记定量技术得到毛皮海狮胡须样品总蛋白差异表达蛋白,对毛皮海狮胡须样品总蛋白差异蛋白进行富集分析,对其功能进行描述[14]。利用差异蛋白表达分析与GO富集分析结果绘制和弦图。
毛皮海狮胡须蛋白标准品吸光度及浓度见表3。
表3 毛皮海狮胡须蛋白标准品吸光度及浓度
以OD562为横坐标、毛皮海狮胡须标准蛋白浓度为纵坐标制作标准曲线图,求出回归方程,即标准曲线,结果见图1。
图1 毛皮海狮胡须样品总蛋白蛋白定量标准曲线
毛皮海狮待测样品吸光度及浓度见表4。
毛皮海狮胡须样品SDS-PAGE测定结果见图2,样品蛋白条带分布均匀,重复性好。
注:Marker为蛋白质Marker,起特异性标记作用。
毛皮海狮胡须样品总蛋白经LC-MS/MS检测、搜库后,蛋白定性定量统计结果见表5。
表5 基本鉴定结果统计
可信蛋白样品的相关性分析结果见图3。
注:图中,上三角形(对角线的右上方),数字表示两个样品的相关性值,*表示显著程度(*为P<0.05,**为P<0.01,***为P<0.001);下三角形(对角线的左下方),给出了两个样品表达值的散点图,曲线为拟合趋势,斜率越大两样品间相关性越强。
通过图3可以看出,南美毛皮海狮胡须蛋白与智利毛皮海狮胡须蛋白样品间斜率相近,两者种间相关性趋于拟合,说明相关性强;同时发现非澳毛皮海狮与其他两种毛皮海狮相关性相对较弱。通过样品相关性图中各样品对角线视图发现,南美毛皮海狮和智利毛皮海狮胡须样品总蛋白Z1自身表达量分布均匀,而非澳毛皮海狮分布相对不均匀。
智利毛皮海狮样品Z1与南美毛皮海狮样品N1具有相似的表达特征,而非澳毛皮海狮样品F1欧氏距离与两者相对较远,表达特征不相近,见图4。
注:每个分支末端表示一个样品,聚在同一个分支内的样品被认为是表达特征相似或接近的样品,没有聚到同一个分支的样品可以认为是特征不相似或不接近的样品,具体可以根据纵坐标的欧氏距离来衡量。
3种毛皮海狮胡须样品差异表达蛋白见表6和图5。
图5 样品差异蛋白统计图
表6 样品差异蛋白统计
根据毛皮海狮胡须样品总蛋白差异蛋白统计图可以看出:Z1与F1存在175种差异蛋白,其中41种蛋白质表达上调,134种蛋白质表达下调。Z1与N1共有70种差异蛋白,其中52种蛋白质表达上调,18种蛋白质表达下调。F1与N1共有162种差异蛋白,其中144种蛋白质表达上调,18种蛋白质表达下调。智利毛皮海狮胡须样品总蛋白Z1与南美毛皮海狮胡须样品总蛋白N1样品蛋白差异不明显,非澳毛皮海狮胡须样品总蛋白F1与其他两种毛皮海狮胡须样品总蛋白差异明显。
毛皮海狮胡须样品总蛋白F1、N1、Z1间GO富集分析和弦图,所选的GO term和相应差异蛋白列表之间的关系见图6~8。
注:左面为蛋白、基因名,右面为所选GO term,红色表示上调,蓝色表示下调。
根据毛皮海狮胡须样品总蛋白间GO富集分析和弦图可以看出,智利毛皮海狮胡须样品总蛋白Z1与南美毛皮海狮样品N1样品GO富集分析和弦图差异不明显,非澳毛皮海狮胡须样品总蛋白蛋白F1与其他两种毛皮海狮胡须样品总蛋白GO富集分析和弦图差异明显。
目前,已经有一系列配套的非标记定量分析软件,其中包括GE公司开发的DeCyder MSTM软件[15]及蛋白质组学定性定量算法Max Quant[10]。运用这些软件对液相色谱串联质谱数据非标记定量分析,是将质谱数据由谱峰形式转化为直观、类似双向凝胶的图谱,再比较不同样本上相应肽段的强度,从而对肽段对应的蛋白进行相对定量[16]。因为其有很好的定量准确性和可信性,目前已经逐渐成为蛋白组学领域内的标准解决方案。
通过皮毛海狮胡须样品蛋白相关性分析、聚类树状图分析、差异蛋白统计图分析、GO富集结果分析发现:智利毛皮海狮与南美毛皮海狮胡须蛋白相关性相对较强,间接表明二者有相对近缘关系;智利毛皮海狮样品总蛋白Z1与南美毛皮海狮样品总蛋白N1具有相似的表达特征,而非澳毛皮海狮样品总蛋白F1欧氏距离与两者相对较远,表达特征不相近。智利毛皮海狮样品可信蛋白表达定量与南美毛皮海狮胡须样品接近。通过计算毛皮海狮胡须样品间差异蛋白,评估毛皮海狮蛋白间的表达水平变化倍数,经检验计算毛皮海狮胡须蛋白样品间差异的显著程度,发现非澳毛皮海狮与南美毛皮海狮间差异表达蛋白较为显著。结合可信蛋白样品相关性分析结果,说明两者亲缘关系较远。综上,通过蛋白组学非标记定量技术可以初步判断,智利毛皮海狮与南美毛皮海狮亲缘关系较近,可能为毛皮海狮不同的亚种。非澳毛皮海狮与其他两者毛皮海狮亲缘关系较远。结合外部形态特征差异,非澳毛皮海狮与其他两种毛皮海狮间有相对明显的遗传差异,为海狮科海狗属的种,南美毛皮海狮与智利毛皮海狮差异相对不显著,可能为不同亚种。
综上所述,针对目前毛皮海狮种群资源稀缺,本研究通过前期饲养试验,摸索出一套毛皮海狮的健康饲养模式,同时基于非标记定量技术(label-free)对毛皮海狮进行蛋白组学研究,分析了其种间差异和近缘关系。所获结果可为毛皮海狮的健康饲养提供数据参考,同时为毛皮海狮的遗传学研究提供理论依据。另外,在毛皮海狮的整体饲养过程中,发现智利毛皮海狮与南美毛皮海狮外部形态、体色局部略有差异,行为习性也有差别,可能是在不同自然区域分布的不同亚种。因此利用蛋白分析组学、形态学和行为学等来鉴定毛皮海狮种间差异和遗传多样性的方法仍需要更为深入的研究。