树鼩全基因组分泌蛋白的预测分析

2014-08-14 05:59:16罕园园马开利

中国比较医学杂志 2014年4期

罕园园，马开利

(中国医学科学院北京协和医学院医学生物学研究所药物安全性评价研究中心，云南昆明 650118)

中缅树鼩(Tupaiachinensis)属于灵长目与食虫目之间独立的目—攀鼩目，由于与人类具有高度的同源性，广泛应用于人类病毒性疾病动物模型、细菌感染疾病、内分泌、神经系统疾病和肿瘤方面的研究[1-3]，其基因组序列也在近期完成测序，并获得了高覆盖率(79X)的基因组序列，以及转录组鸟枪法组装序列数据库(Transcriptome Shotgun Assembly Sequence Database, TSA)[4]，这些数据使得采用生物信息学方法分析树鼩分泌蛋白质组的研究成为可能。

分泌蛋白组指所有的分泌蛋白及蛋白质运输的途径，分泌蛋白在多细胞生物体中决定、控制和协调许多生物学过程，在生物体个体发育、生理功能的发挥及各种病理过程的演进中起着重要作用，分泌蛋白起到的核心作用使它们成为疾病诊断、治疗、药物干预中很好的标志物和靶标[5]，研究和鉴定树鼩分泌蛋白组的结构和功能，有助于阐明树鼩免疫、内分泌调控、神经传导、细胞增殖、激素调节等生理活动的机制、阐释其生命现象和推动实验动物模型的开发。

利用基因组序列和可信度较高的生物信息学软件对生物分泌蛋白进行研究显示出强大的优越性，已对多种细菌[6,7]、酵母菌/真菌[8]、微孢子虫[9,10]、草鱼[11]等实验对象进行了分泌蛋白组的预测分析，建立了可信度较高的分泌蛋白预测系统[12-14]，得到了许多有益的结果，但迄今树鼩分泌蛋白的分离鉴定主要集中于免疫因子类(如干扰素[15]、IL-2[16]等)，尚未见到其它分泌蛋白的研究报道，本研究基于基因组测序数据，通过生物信息学方法对树鼩的分泌蛋白在全基因组范围进行预测，并对分泌蛋白的功能和序列特征进行分析，以期为树鼩免疫、内分泌调控、神经传导、细胞增殖、激素调节等生理活动机制的实验研究提供参考，使实验数据更具目的性和有效性。

1 材料和方法

1.1 材料及分析软件

用于分析的树鼩分泌蛋白的3895个来源为Tupaiachinensis的完整氨基酸序列来源于uniprot蛋白数据库(http://www.uniprot.org/)。真核生物分泌蛋白预测流程EuSecPred 2.0(http://silkpathdb.swu.edu.cn/silkpathdb/eusecpred)。蛋白质Gene Ontology(GO)注释及绘图程序分别为InterProScan (http://www.ebi.ac.uk/Tools/pfa/iprscan/) 和 WEGO(http://wego.genomics.org.cn/cgi-bin/wego/index.pl)。氨基酸序列组成分析程序WebLogo(http://weblogo.threeplusone.com/create.cgi)，蛋白质序列基序分析软件MEME(http://meme.nbcr.net/meme/cgi-bin/meme.cgi)。

1.2 分泌蛋白的预测

以上述树鼩的全部转录组蛋白质序列为基础数据，运行EuSecPred 2.0在线流程筛选分泌型蛋白质，该流程通过运行TMHMM程序过滤跨膜蛋白，利用Kohgpi程序剔除具有GPI锚定位点的蛋白质，通过MitoProt去除线粒体蛋白，运行Nucpred、NLStradamus和PredictNLS程序去除定位于细胞核的蛋白质，然后利用SignalP 4.0对过滤后的蛋白质序列进行信号肽预测，最后利用TargetP、PSORT和WoLF PSORT对具有信号肽的蛋白质进行亚细胞定位预测，筛选定位于细胞膜外的蛋白质。以上所有程序的运行及结果的处理通过EuSecPred 2.0在线流程完成[8]。筛选得到的分泌蛋白合集包括含有信号肽的经典型分泌(classical secreted protein，CSP)以及无信号肽的非经典型分泌蛋白(non-classical secreted protein，NCSP)两种[17]。

1.3 分泌蛋白的功能注释

针对以上预测结果，利用InterProScan以Nr和Swiss-Prot数据库中的蛋白质序列为参考序列，利用BLASTP程序进行比对，将最高得分同源序列的功能作为各分泌蛋白的参考功能，并利用WEGO将InterProScan获得的注释结果绘图[9]。

1.4 分泌蛋白的序列特征分析

根据信号肽的预测信息，利用Perl脚本截取所有分泌蛋白的信号肽序列，并统计信号肽序列的长度，然后通过WebLogo程序对所有分泌蛋白序列、信号肽序列及信号肽剪切位点前后3个氨基酸的组成进行统计分析，并利用MEME程序预测序列中的基序[8]。

2 结果

2.1 树鼩分泌蛋白信号肽的预测

对预测获得的3 895个树鼩蛋白质序列进行EuSecPred 流程预测，发现其中3 178个蛋白质具有跨膜结构域，313个蛋白质具有线粒体定位信号，570个蛋白质具有细胞核定位信号，405个蛋白质具有信号肽序列，最终筛选获得了237个具有信号肽的分泌蛋白和42个无信号肽的分泌蛋白，占已知树鼩蛋白序列的7.2%。蛋白长度为100 bp～3896 bp，平均长度466 bp，分布最多的区域集中在100 bp～500 bp，500 bp～4 000 bp稍有分布，现已知序列的树鼩分泌蛋白呈现偏态分布(图1)。

图1 树鼩信号肽分泌蛋白的ORF长度

图2 树鼩的分泌蛋白GO注释

2.2 树鼩分泌蛋白的功能分类

对预测获得的237个CSP和42个NCSP进行功能注释，279个分泌蛋白均在公共蛋白质数据库中检索到明确功能信息的同源蛋白，在分子功能方面数目最多的是水解酶类，占42.4%，具有蛋白结合功能的蛋白占32.4%，具有离子结合功能的蛋白占16.4%，在生物过程方面涉及初级代谢的蛋白最多，占46.6%(图2)。

2.3 树鼩分泌蛋白的序列特征

引导分泌蛋白的信号肽长度介于15～37个氨基酸之间，长度主要集中在18 aa～20 aa，平均为25 aa，中值为19 aa(图3)。如图4所示，根据SignalP 3.0的结果，从树鼩分泌型信号肽的N 结构域、H 结构域和C 结构域的变化来看，带正电荷的N 结构域的长度变化为2～ 21 aa，平均为6 aa。H 结构域的长度变化为6～ 14 aa，平均为10 aa。分泌蛋白组成主要为疏水性氨基酸，占全部氨基酸组成的41.5%，含量最高的是亮氨酸(L)，占全部氨基酸组成的10.2%，亲水性氨基酸占全部氨基酸组成的34.6%，分泌蛋白氨基酸组成中色氨酸(W)的含量最低 (图4纯色填充区)；分泌蛋白信号肽氨基酸组成主要为疏水性氨基酸，占全部氨基酸组成的65.7%，其中含量最高的也为亮氨酸(L)，占全部氨基酸组成的26.8%，亲水性氨基酸占25.4%，碱性、酸性氨基酸的比率低于分泌蛋白中的相应比率，各占6.8%和2.1%(图4渐变填充区)。

对树鼩分泌蛋白进行基序分析发现，在信号肽区域未发现有基序的存在，而在非信号肽区域发现有5种基序存在，分别为基序1：GxHxCGG[FSV]L[IV][RAS][EP]D[WF]VLTAAHC、基序2：[KG]PPGV[YF]T[RK][VI][SC]x[YF][VL][DS]WIQx[TV][MI][RK]、基序3：[DT][SA][CF][QK]GDSGGPLVCNGV[LA]QG[IL]V、基序4：GY[HL][FL]CGG[SAT]L[ILV]S[EDP][CR]WV[LV][TS]AAHCF、基序5：N[IV][FI]FSP[LV]S[IV][SA][TA]ALAMLSLG[AT]xNDTLTQ[IL]L[EQ][GV]LGF[ND]LT[ES]T[SP]E(图5)。

图3 树鼩分泌蛋白信号肽长度分布

图4 树鼩分泌蛋白及信号肽序列的氨基酸组成

图5 树鼩分泌蛋白基序

对树鼩分泌蛋白的信号肽剪切位点前后3个氨基酸进行统计分析发现，与整个信号肽的氨基酸组成稍有不同，剪切位点出现多种亲水性氨基酸及酸性、碱性氨基酸，其中甘氨酸(G)和丝氨酸(S)含量最为丰富；从各个位点来看，其基本序列组成为Lxx[AV]x[AG]，即剪切位点上游﹣3位较保守，主要为亮氨酸(L)；上游﹣2、-1和+2位呈现随机分布状态，-2位主要为甘氨酸(G)、丙氨酸(A)和脯氨酸(P)，-1位主要为亮氨酸(L)、甘氨酸(G)和丝氨酸(S)，2位主要为亮氨酸(L)、丝氨酸(S)和谷氨酰胺(Q)；1位主要为丙氨酸(A)和缬氨酸(V)，3位主要为丙氨酸(A)和甘氨酸(G)(图6)。

3 讨论

树鼩作为实验动物的开发还处于起步阶段，其分泌蛋白组的研究还在持续发展当中，除了少量细胞免疫因子类蛋白的分离外，其他分泌蛋白尚无报道。而近年来基于实验数据所建立的生物信息学算法的发展以及树鼩转录组数据的获得则为从基因组水平方面鉴定分泌蛋白提供了可能。本研究基于树鼩基因组数据，在全基因组范围内对分泌蛋白进行预测，获得了279个分泌蛋白，为树鼩分泌蛋白的后续实验研究提供了靶标和参考。另一方面，本研究采用的所有预测方法是一套非常严格的流程，保证了预测结果的可靠性，且EuSecPred 2.0加入了SecretomeP程序，使得非经典途径分泌的蛋白质也可以被预测。

剪切位点前后氨基酸

本研究预测获得的279个树鼩分泌蛋白中，均能够在公共蛋白质数据库中检索到明确功能信息的同源蛋白，从而获得蛋白的GO注释，在分子功能方面数目最多的是分泌性的水解酶类，占42.4%，具有蛋白结合功能的占32.4%，具有离子结合功能的占16.4%，在生物过程方面涉及初级代谢过程的蛋白最多，占46.6%，这也验证了本研究所采用预测方法的可靠性，更重要的是为解析树鼩与人类的同源性和细胞信息传递机制方面提供了更多的靶标和切入点。树鼩基因组中还有大量的通过预测(Predicted)得到的蛋白序列，由于其蛋白序列未被确定，因此在本研究中未进行预测分析，而这些预测得到的蛋白序列也有可能存在分泌蛋白，这类蛋白的预测分析还有待大量的工作对蛋白数据库进行进一步的完善。而从全基因组范围来看，树鼩的分泌蛋白也主要由疏水性氨基酸组成，是高度保守的，因此信号肽是高度进化的，在决定亚细胞定位上是非常精密的，这可能是分泌蛋白的特有特征。信号肽中亮氨酸的含量最高，表明亮氨酸可能是信号肽的一种关键氨基酸。树鼩分泌蛋白的信号肽区不存在基序，而位于序列内部的另外5个基序则可以对分泌蛋白的核定位功能研究提供重要参考。

生物信息学与生物学实验相结合的方法已经越来越广泛的应用于生物学的研究当中，通过多个软件结合对整个基因组的蛋白进行高通量和快速的分析，再用实验的方法加以验证，可以减少大量的实验工作和缩短科研耗时，本研究借助于现有的树鼩蛋白序列信息，对树鼩基因组蛋白进行了挖掘，并主要对经典的含信号肽的分泌蛋白进行了系统分析，对树鼩特异的生物信息通路、分泌蛋白表达谱研究有基础指导作用，树鼩分泌蛋白数据库的构建和完善，可为后续工作提供各种类的分泌蛋白进行针对性的研究，将大大加快分泌蛋白组的进程；同时结合液相色谱/质谱联用产生的大量数据，以及生物学技术Western blot、免疫组化、Pull down、免疫共沉淀、酵母双杂交及蛋白质芯片技术等的联合，最终能达到由基因到功能的转换和互通[18]。

参考文献：

[1] 王晓娟, 杨春, 苏建家. 树鼩在医学实验研究中的新进展 [J]. 中国比较医学杂志, 2010, 20(2):67-70.

[2] 徐林, 张云, 梁斌, 等. 实验动物树鼩和人类疾病的树鼩模型研究概述 [J]. 动物学研究, 2013, 34 (2):59-69.

[3] 黄晓燕, 徐娟, 孙晓梅, 等. 树鼩在人类疾病动物模型中应用研究进展 [J]. 实验动物科学, 2013, 30(2):59-64.

[4] Fan Y, Huang AY, Cao CC, et al. Genome of the Chinese tree shrew [J]. Nat Commun, 2013, 4:1426.

[5] Guerriero CJ, Brodsky JL. The delicate balance between secreted protein folding and endoplasmic reticulum-associated degradation in human physiology [J]. Physiol Rev, 2012, 92(2):537-576.

[6] Tjalsma H, Bolhuis A, Jonqbloed JD, et al. Signal peptide-dependent protein transport in Bacillus subtilis: a genome-based survey of the secretome [J]. Microbiol Mol Biol Rev, 2000, 64(3):515-547.

[7] Vizcaíno C, Restrepo-Montoya D, Rodríguez D, et al. Computational prediction and experimental assessment of secreted/surface proteins from Mycobacterium tuberculosis H37Rv [J]. Plos Comput Biol, 2010, 6(6):e1000824.

[8] Druzhinian IS, Shelest E, Kubicek CP, et al. Novel traits of Trichoderma predicted through the analysis of its secretome [J]. FEMS Microbiol Lett, 2012, 337(1):1-9.

[9] 李田, 刘显林, 韩冰, 等. 家蚕微孢子虫全基因组分泌蛋白的预测分析 [J]. 蚕业科学,2013, 39 (2):295-301.

[10] 李田, 齐晓冉, 陶美林, 等. 4种微孢子虫的分泌蛋白的比较基因组学分析 [J]. 蚕业科学, 2013, 39 (3):527-536.

[11] 孙翰昌, 杨帆, 徐敬明, 等. 草鱼含信号肽分泌蛋白的预测分析 [J]. 水产科学, 2011, 30 (3):164-167.

[12] Klee EW, Ellis LB. Evaluating eukaryotic secreted protein prediction [J]. BMC Bioimformatics, 2005, 14(6):256-263.

[13] Min XJ. Evaluation of computational methods for secreted protein prediction in different eukaryotes[J]. J Proteomics Bioinform, 2012, 3(5):143-147.

[14] Cui J, Liu Q, Puett D, et al. Computational prediction of human proteins that can be secreted into the bloodstream [J]. Bioinformatics, 2008, 25(20):2370-2375.

[15] 李明利, 田巍威, 高跃东, 等. 树鼩干扰素家族的基本构成及分子特征分析 [J]. 动物学研究, 2012, 33 (1):67-74.

[16] 黄晓燕, 李明利, 徐娟, 等. 树鼩IL-2全长编码序列的克隆及分子特征分析 [J]. 动物学研究, 2013, 34 (2):121-126.

[17] Malhotra V. Unconventional protein secretion [J]. EMBO J, 2013, 32(12):1660-1664.

[18] 张楠楠, 刘欣, 孙晶, 等. 真核细胞非经典蛋白分泌途径 [J]. 遗传, 2009, 31(1):29-35.